Programa do Curso
- Introdução
- Hadoop história, conceitos
- Ecossistema
- Distribuições
- Arquitetura de alto nível
- Hadoop mitos
- Hadoop desafios (hardware/software)
- Laboratórios: discuta seus Big Data projetos e problemas
- Planejamento e instalação
- Selecionando software, Hadoop distribuições
- Dimensionando o cluster, planejando o crescimento
- Selecionando hardware e rede
- Topologia de rack
- Instalação
- Múltiplos inquilinos
- Estrutura de diretório, registros
- avaliação comparativa
- Laboratórios: instalação de cluster, execução de benchmarks de desempenho
- Operações HDFS
- Conceitos (escalonamento horizontal, replicação, localidade de dados, reconhecimento de rack)
- Nós e daemons (NameNode, NameNode secundário, HA Standby NameNode, DataNode)
- Monitoramento de saúde
- Administração baseada em linha de comando e navegador
- Adicionando armazenamento, substituindo unidades defeituosas
- Laboratórios: familiarizando-se com as linhas de comando do HDFS
- Ingestão de dados
- Flume para ingestão de logs e outros dados no HDFS
- Sqoop para importar de SQL bancos de dados para HDFS, bem como exportar de volta para SQL
- Hadoop armazenamento de dados com Hive
- Copiando dados entre clusters (distcp)
- Usando S3 como complemento ao HDFS
- Melhores práticas e arquiteturas de ingestão de dados
- Labs: configurando e usando o Flume, o mesmo para o Sqoop
- Operações e administração do MapReduce
- Computação paralela antes do mapreduce: compare HPC com administração Hadoop
- Cargas de cluster MapReduce
- Nós e Daemons (JobTracker, TaskTracker)
- Passo a passo da interface do MapReduce
- Configuração do Mapreduce
- Configuração do trabalho
- Otimizando MapReduce
- MR à prova de idiotas: o que dizer aos seus programadores
- Laboratórios: executando exemplos de MapReduce
- YARN: nova arquitetura e novos recursos
- Objetivos de design do YARN e arquitetura de implementação
- Novos atores: ResourceManager, NodeManager, Application Master
- Instalando o YARN
- Agendamento de trabalho no YARN
- Laboratórios: investigue o agendamento de jobs
- Tópicos avançados
- Monitoramento de hardware
- Monitoramento de cluster
- Adicionando e removendo servidores, atualizando Hadoop
- Planejamento de backup, recuperação e continuidade de negócios
- Fluxos de trabalho de trabalho Oozie
- Hadoop alta disponibilidade (HA)
- Hadoop Federação
- Protegendo seu cluster com Kerberos
- Laboratórios: configurar o monitoramento
- Faixas opcionais
- Cloudera Manager para administração de cluster, monitoramento e tarefas de rotina; instalação, uso. Nesta faixa, todos os exercícios e laboratórios são realizados no ambiente de distribuição Cloudera (CDH5)
- Ambari para administração de cluster, monitoramento e tarefas de rotina; instalação, uso. Nesta faixa, todos os exercícios e laboratórios são realizados no gerenciador de cluster Ambari e na Hortonworks Data Platform (HDP 2.0)
Requisitos
- conforto com a administração básica Linux de sistemas
- competências básicas de scripting
Não é necessário ter conhecimentos de Hadoop e de Computação Distribuída, mas estes serão introduzidos e explicados no curso.
Ambiente de laboratório
Instalação zero: Não é necessário instalar o software hadoop nas máquinas dos alunos! Um cluster hadoop funcional será fornecido aos alunos.
Os alunos precisarão do seguinte
- um cliente SSH (Linux e Mac já possuem clientes ssh, para Windows Putty é recomendado)
- um navegador para acessar o cluster. Recomendamos o navegador Firefox com a extensão FoxyProxy instalada
Declaração de Clientes (3)
I thought he did a great job of tailoring the experience to the audience. This class is mostly designed to cover data analysis with HIVE, but me and my co-worker are doing HIVE administration with no real data analytics responsibilities.
ian reif - Franchise Tax Board
Curso - Data Analysis with Hive/HiveQL
Many hands-on sessions.
Jacek Pieczątka
Curso - Administrator Training for Apache Hadoop
practical things of doing, also theory was served good by Ajay