Programa do Curso

  • Introdução
    • Hadoop história, conceitos
    • Ecossistema
    • Distribuições
    • Arquitetura de alto nível
    • Hadoop mitos
    • Hadoop desafios (hardware/software)
    • Laboratórios: discuta seus Big Data projetos e problemas
  • Planejamento e instalação
    • Selecionando software, Hadoop distribuições
    • Dimensionando o cluster, planejando o crescimento
    • Selecionando hardware e rede
    • Topologia de rack
    • Instalação
    • Múltiplos inquilinos
    • Estrutura de diretório, registros
    • avaliação comparativa
    • Laboratórios: instalação de cluster, execução de benchmarks de desempenho
  • Operações HDFS
    • Conceitos (escalonamento horizontal, replicação, localidade de dados, reconhecimento de rack)
    • Nós e daemons (NameNode, NameNode secundário, HA Standby NameNode, DataNode)
    • Monitoramento de saúde
    • Administração baseada em linha de comando e navegador
    • Adicionando armazenamento, substituindo unidades defeituosas
    • Laboratórios: familiarizando-se com as linhas de comando do HDFS
  • Ingestão de dados
    • Flume para ingestão de logs e outros dados no HDFS
    • Sqoop para importar de SQL bancos de dados para HDFS, bem como exportar de volta para SQL
    • Hadoop armazenamento de dados com Hive
    • Copiando dados entre clusters (distcp)
    • Usando S3 como complemento ao HDFS
    • Melhores práticas e arquiteturas de ingestão de dados
    • Labs: configurando e usando o Flume, o mesmo para o Sqoop
  • Operações e administração do MapReduce
    • Computação paralela antes do mapreduce: compare HPC com administração Hadoop
    • Cargas de cluster MapReduce
    • Nós e Daemons (JobTracker, TaskTracker)
    • Passo a passo da interface do MapReduce
    • Configuração do Mapreduce
    • Configuração do trabalho
    • Otimizando MapReduce
    • MR à prova de idiotas: o que dizer aos seus programadores
    • Laboratórios: executando exemplos de MapReduce
  • YARN: nova arquitetura e novos recursos
    • Objetivos de design do YARN e arquitetura de implementação
    • Novos atores: ResourceManager, NodeManager, Application Master
    • Instalando o YARN
    • Agendamento de trabalho no YARN
    • Laboratórios: investigue o agendamento de jobs
  • Tópicos avançados
    • Monitoramento de hardware
    • Monitoramento de cluster
    • Adicionando e removendo servidores, atualizando Hadoop
    • Planejamento de backup, recuperação e continuidade de negócios
    • Fluxos de trabalho de trabalho Oozie
    • Hadoop alta disponibilidade (HA)
    • Hadoop Federação
    • Protegendo seu cluster com Kerberos
    • Laboratórios: configurar o monitoramento
  • Faixas opcionais
    • Cloudera Manager para administração de cluster, monitoramento e tarefas de rotina; instalação, uso. Nesta faixa, todos os exercícios e laboratórios são realizados no ambiente de distribuição Cloudera (CDH5)
    • Ambari para administração de cluster, monitoramento e tarefas de rotina; instalação, uso. Nesta faixa, todos os exercícios e laboratórios são realizados no gerenciador de cluster Ambari e na Hortonworks Data Platform (HDP 2.0)

Requisitos

  • conforto com a administração básica Linux de sistemas
  • competências básicas de scripting

Não é necessário ter conhecimentos de Hadoop e de Computação Distribuída, mas estes serão introduzidos e explicados no curso.

Ambiente de laboratório

Instalação zero: Não é necessário instalar o software hadoop nas máquinas dos alunos! Um cluster hadoop funcional será fornecido aos alunos.

Os alunos precisarão do seguinte

  • um cliente SSH (Linux e Mac já possuem clientes ssh, para Windows Putty é recomendado)
  • um navegador para acessar o cluster. Recomendamos o navegador Firefox com a extensão FoxyProxy instalada
 21 horas

Número de participantes



Preço por participante

Declaração de Clientes (3)

Cursos Relacionados

Categorias Relacionadas