Programa do Curso

  • Introdução
    • Hadoop história, conceitos
    • Ecossistema
    • Distribuições
    • Arquitetura de alto nível
    • Hadoop mitos
    • Hadoop desafios (hardware / software)
    • Laboratórios: discussão sobre seus projetos e problemas Big Data
  • Planejamento e instalação
    • Seleção de software, Hadoop distribuições
    • Dimensionamento do cluster, planejando o crescimento
    • Seleção de hardware e rede
    • Topologia de rack
    • Instalação
    • Multilocatário
    • Estrutura de diretórios, logs
    • Benchmarking
    • Laboratórios: instalar o cluster e executar benchmarks de desempenho
  • Operações do HDFS
    • Conceitos (escala horizontal, replicação, localidade dos dados, consciência de rack)
    • Nós e demônios (NameNode, Secondary NameNode, Standby NameNode HA, DataNode)
    • Monitoramento da saúde
    • Administração baseada em linha de comando e navegador
    • Adicionar armazenamento, substituir discos defeituosos
    • Laboratórios: familiarizando-se com as linhas de comando do HDFS
  • Ingestão de dados
    • Flume para ingestão de logs e outros dados no HDFS
    • Sqoop para importar de SQL bancos de dados ao HDFS, bem como exportar de volta para o SQL
    • Hadoop data warehousing com Hive
    • Cópia de dados entre clusters (distcp)
    • Usando S3 como complemento ao HDFS
    • Melhores práticas e arquiteturas para ingestão de dados
    • Laboratórios: configurando e usando o Flume, o mesmo para Sqoop
  • Operações e administração do MapReduce
    • Computação paralela antes do mapreduce: comparar HPC vs Hadoop administração
    • Cargas de cluster do MapReduce
    • Nós e demônios (JobTracker, TaskTracker)
    • Caminhada pela interface do usuário do MapReduce
    • Configuração do MapReduce
    • Configuração da tarefa
    • Otimização do MapReduce
    • Tornando o MR seguro: o que dizer aos programadores
    • Laboratórios: executar exemplos de MapReduce
  • YARN: nova arquitetura e novas capacidades
    • Objetivos de design e arquitetura implementada do YARN
    • Novos atores: ResourceManager, NodeManager, Application Master
    • Instalar o YARN
    • Agenda de trabalho sob YARN
    • Laboratórios: investigar a agenda de trabalhos
  • Tópicos avançados
    • Monitoramento de hardware
    • Monitoramento do cluster
    • Adicionar e remover servidores, atualizar Hadoop
    • Backup, recuperação e planejamento da continuidade dos negócios
    • Fluxos de trabalho de trabalhos do Oozie
    • Hadoop alta disponibilidade (HA)
    • Hadoop Federação
    • Proteger seu cluster com o Kerberos
    • Laboratórios: configurar monitoramento
  • Trilhas opcionais
    • Cloudera Manager para administração, monitoramento e tarefas rotineiras do cluster; instalação, uso. Nesta trilha, todos os exercícios e laboratórios são realizados no ambiente de distribuição CDH5 (Cloudera Distribution)
    • Ambari para administração, monitoramento e tarefas rotineiras do cluster; instalação, uso. Nesta trilha, todos os exercícios e laboratórios são realizados no gerenciador de clusters Ambari e na plataforma de dados Hortonworks (HDP 2.0)

Requisitos

  • familiarizado com a administração básica do sistema Linux
  • habilidades básicas de scripting

Conhecimento sobre Hadoop e Computação Distribuída não é obrigatório, mas será introduzido e explicado durante o curso.

Meio ambiente do laboratório

Instalação Zero : Não é necessário instalar o software hadoop nas máquinas dos alunos! Um cluster de hadoop funcional será fornecido para os alunos.

Os alunos precisarão de:

  • um cliente SSH (Linux e Mac já possuem clientes ssh, para Windows é recomendado o Putty)
  • um navegador para acessar o cluster. Recomendamos o navegador Firefox com a extensão FoxyProxy instalada
 21 Horas

Número de participantes


Preço por Participante

Declaração de Clientes (5)

Próximas Formações Provisórias

Categorias Relacionadas