Programa do Curso
- Introdução
- Hadoop história, conceitos
- Ecossistema
- Distribuições
- Arquitetura de alto nível
- Hadoop mitos
- Hadoop desafios (hardware / software)
- Laboratórios: discuta os seus Big Data projectos e problemas
- Planeamento e instalação
- Seleção de software, Hadoop distribuições
- Dimensionar o cluster, planear o crescimento
- Seleção de hardware e rede
- Topologia de rack
- Instalação
- Multi-tenancy
- Estrutura de diretórios, registos
- Benchmarking
- Laboratórios: instalação do cluster, execução de benchmarks de desempenho
- Operações do HDFS
- Conceitos (escalonamento horizontal, replicação, localidade de dados, reconhecimento de rack)
- Nós e daemons (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
- Monitorização do estado de saúde
- Administração baseada em linha de comando e navegador
- Adição de armazenamento, substituição de unidades defeituosas
- Laboratórios: familiarizar-se com as linhas de comando do HDFS
- Ingestão de dados
- Flume para logs e outros dados de ingestão no HDFS
- Sqoop para importar de bases de dados SQL para o HDFS, bem como exportar de volta para SQL
- Armazenamento de dados Hadoop com Hive
- Cópia de dados entre clusters (distcp)
- Utilização do S3 como complemento do HDFS
- Melhores práticas e arquitecturas de ingestão de dados
- Laboratórios: configuração e utilização do Flume, o mesmo para o Sqoop
- Operações e administração do MapReduce
- Computação paralela antes do mapreduce: comparação entre HPC e administração Hadoop
- Cargas de clusters MapReduce
- Nós e Daemons (JobTracker, TaskTracker)
- Apresentação da IU do MapReduce
- Configuração do Mapreduce
- Configuração de tarefas
- Otimização do MapReduce
- MR à prova de falhas: o que dizer aos seus programadores
- Laboratórios: executando exemplos de MapReduce
- YARN: nova arquitetura e novas capacidades
- Objectivos de conceção e arquitetura de implementação do YARN
- Novos actores: ResourceManager, NodeManager, Application Master
- Instalação do YARN
- Agendamento de tarefas no YARN
- Laboratórios: investigar o agendamento de trabalhos
- Tópicos avançados
- Monitorização de hardware
- Monitorização de clusters
- Adição e remoção de servidores, atualização Hadoop
- Backup, recuperação e planeamento da continuidade do negócio
- Fluxos de trabalho do Oozie
- Hadoop Alta disponibilidade (HA)
- [Federação
- Proteger o cluster com Kerberos
- Laboratórios: configurar a monitorização
- Trilhas opcionais
- Cloudera Manager para administração de clusters, monitorização e tarefas de rotina; instalação, utilização. Nesta faixa, todos os exercícios e laboratórios são realizados no ambiente de distribuição do Cloudera (CDH5)
- Ambari para administração de cluster, monitoramento e tarefas de rotina; instalação, uso. Neste curso, todos os exercícios e laboratórios são realizados no gerenciador de cluster Ambari e na Hortonworks Data Platform (HDP 2.0)
Requisitos
- conhecimentos básicos Linux de administração de sistemas
- competências básicas de scripting
Não são necessários conhecimentos de Hadoop e Computação Distribuída, mas serão introduzidos e explicados durante o curso.
Ambiente de laboratório
Instalação zero: Não há necessidade de instalar o software hadoop nas máquinas dos alunos! Um cluster hadoop funcional será fornecido aos alunos.
Os alunos precisarão do seguinte
- um cliente SSH (Linux e Mac já têm clientes ssh, para Windows recomenda-se Putty)
- um browser para aceder ao cluster. Recomendamos o browser Firefox com a extensão FoxyProxy instalada
Declaração de Clientes (5)
Os exemplos ao vivo
Ahmet Bolat - Accenture Industrial SS
Curso - Python, Spark, and Hadoop for Big Data
Máquina Traduzida
Durante os exercícios, James explicou a mim cada etapa em mais detalhe sempre que eu ficava preso. Eu era completamente novo no NIFI. Ele explicou o propósito real do NIFI, inclusive conceitos básicos como o de código aberto. Ele abrangeu todos os conceitos do Nifi, partindo do nível iniciante até o nível de desenvolvedor.
Firdous Hashim Ali - MOD A BLOCK
Curso - Apache NiFi for Administrators
Máquina Traduzida
Preparação e organização do treinador e qualidade dos materiais fornecidos no github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Curso - Impala for Business Intelligence
Máquina Traduzida
Que eu tivesse no primeiro lugar.
Peter Scales - CACI Ltd
Curso - Apache NiFi for Developers
Máquina Traduzida
coisas práticas de fazer, além da teoria que foi bem explicada pelo Ajay
Dominik Mazur - Capgemini Polska Sp. z o.o.
Curso - Hadoop Administration on MapR
Máquina Traduzida