Programa do Curso
- Introdução
- Hadoop história, conceitos
- Ecossistema
- Distribuições
- Arquitetura de alto nível
- Hadoop mitos
- Hadoop desafios (hardware / software)
- Laboratórios: discussão sobre seus projetos e problemas Big Data
- Planejamento e instalação
- Seleção de software, Hadoop distribuições
- Dimensionamento do cluster, planejando o crescimento
- Seleção de hardware e rede
- Topologia de rack
- Instalação
- Multilocatário
- Estrutura de diretórios, logs
- Benchmarking
- Laboratórios: instalar o cluster e executar benchmarks de desempenho
- Operações do HDFS
- Conceitos (escala horizontal, replicação, localidade dos dados, consciência de rack)
- Nós e demônios (NameNode, Secondary NameNode, Standby NameNode HA, DataNode)
- Monitoramento da saúde
- Administração baseada em linha de comando e navegador
- Adicionar armazenamento, substituir discos defeituosos
- Laboratórios: familiarizando-se com as linhas de comando do HDFS
- Ingestão de dados
- Flume para ingestão de logs e outros dados no HDFS
- Sqoop para importar de SQL bancos de dados ao HDFS, bem como exportar de volta para o SQL
- Hadoop data warehousing com Hive
- Cópia de dados entre clusters (distcp)
- Usando S3 como complemento ao HDFS
- Melhores práticas e arquiteturas para ingestão de dados
- Laboratórios: configurando e usando o Flume, o mesmo para Sqoop
- Operações e administração do MapReduce
- Computação paralela antes do mapreduce: comparar HPC vs Hadoop administração
- Cargas de cluster do MapReduce
- Nós e demônios (JobTracker, TaskTracker)
- Caminhada pela interface do usuário do MapReduce
- Configuração do MapReduce
- Configuração da tarefa
- Otimização do MapReduce
- Tornando o MR seguro: o que dizer aos programadores
- Laboratórios: executar exemplos de MapReduce
- YARN: nova arquitetura e novas capacidades
- Objetivos de design e arquitetura implementada do YARN
- Novos atores: ResourceManager, NodeManager, Application Master
- Instalar o YARN
- Agenda de trabalho sob YARN
- Laboratórios: investigar a agenda de trabalhos
- Tópicos avançados
- Monitoramento de hardware
- Monitoramento do cluster
- Adicionar e remover servidores, atualizar Hadoop
- Backup, recuperação e planejamento da continuidade dos negócios
- Fluxos de trabalho de trabalhos do Oozie
- Hadoop alta disponibilidade (HA)
- Hadoop Federação
- Proteger seu cluster com o Kerberos
- Laboratórios: configurar monitoramento
- Trilhas opcionais
- Cloudera Manager para administração, monitoramento e tarefas rotineiras do cluster; instalação, uso. Nesta trilha, todos os exercícios e laboratórios são realizados no ambiente de distribuição CDH5 (Cloudera Distribution)
- Ambari para administração, monitoramento e tarefas rotineiras do cluster; instalação, uso. Nesta trilha, todos os exercícios e laboratórios são realizados no gerenciador de clusters Ambari e na plataforma de dados Hortonworks (HDP 2.0)
Requisitos
- familiarizado com a administração básica do sistema Linux
- habilidades básicas de scripting
Conhecimento sobre Hadoop e Computação Distribuída não é obrigatório, mas será introduzido e explicado durante o curso.
Meio ambiente do laboratório
Instalação Zero : Não é necessário instalar o software hadoop nas máquinas dos alunos! Um cluster de hadoop funcional será fornecido para os alunos.
Os alunos precisarão de:
- um cliente SSH (Linux e Mac já possuem clientes ssh, para Windows é recomendado o Putty)
- um navegador para acessar o cluster. Recomendamos o navegador Firefox com a extensão FoxyProxy instalada
Declaração de Clientes (5)
Os exemplos ao vivo
Ahmet Bolat - Accenture Industrial SS
Curso - Python, Spark, and Hadoop for Big Data
Máquina Traduzida
Durante os exercícios, James explicou a mim cada etapa em mais detalhe sempre que eu ficava preso. Eu era completamente novo no NIFI. Ele explicou o propósito real do NIFI, inclusive conceitos básicos como o de código aberto. Ele abrangeu todos os conceitos do Nifi, partindo do nível iniciante até o nível de desenvolvedor.
Firdous Hashim Ali - MOD A BLOCK
Curso - Apache NiFi for Administrators
Máquina Traduzida
Preparação e organização do treinador e qualidade dos materiais fornecidos no github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Curso - Impala for Business Intelligence
Máquina Traduzida
Que eu tivesse no primeiro lugar.
Peter Scales - CACI Ltd
Curso - Apache NiFi for Developers
Máquina Traduzida
coisas práticas de fazer, além da teoria que foi bem explicada pelo Ajay
Dominik Mazur - Capgemini Polska Sp. z o.o.
Curso - Hadoop Administration on MapR
Máquina Traduzida