Programa do Curso

Seção 1: Introdução ao Hadoop

  • História do Hadoop, conceitos
  • ecossistema
  • distribuições
  • arquitetura de alto nível
  • mitos sobre o Hadoop
  • desafios do Hadoop
  • hardware / software
  • laboratório : primeira visão do Hadoop

Seção 2: HDFS

  • design e arquitetura
  • conceitos (escalabilidade horizontal, replicação, localidade de dados, consciência de rack)
  • daemons : Namenode, Secondary namenode, Data node
  • comunicações / batidas de coração
  • integridade dos dados
  • caminho de leitura / gravação
  • Namenode High Availability (HA), Federação
  • laboratórios : interagindo com o HDFS

Seção 3: Map Reduce

  • conceitos e arquitetura
  • daemons (MRV1) : jobtracker / tasktracker
  • fases : driver, mapper, shuffle/sort, reducer
  • Map Reduce Versão 1 e Versão 2 (YARN)
  • internas do Map Reduce
  • introdução ao programa Java Map Reduce
  • laboratórios : executando um programa de exemplo MapReduce

Seção 4: Pig

  • Pig vs Java Map Reduce
  • fluxo do trabalho do Pig
  • linguagem Pig Latin
  • ETL com Pig
  • Transformações & Junções
  • funções definidas pelo usuário (UDF)
  • laboratórios : escrevendo scripts Pig para analisar dados

Seção 5: Hive

  • arquitetura e design
  • tipos de dados
  • syntaxe SQL no Hive
  • Criando tabelas do Hive e consultando
  • partições
  • junções
  • processamento de texto
  • laboratórios : vários laboratórios para processar dados com o Hive

Seção 6: HBase

  • conceitos e arquitetura
  • HBase vs RDBMS vs Cassandra
  • API Java do HBase
  • Dados de série temporal no HBase
  • design de esquema
  • laboratórios : interagindo com o HBase usando shell; programação na API Java do HBase; exercício de design de esquema

Requisitos

  • confortável com a linguagem de programação Java (a maioria dos exercícios de programação é em Java)
  • confortável no ambiente Linux (capaz de navegar na linha de comando do Linux, editar arquivos usando vi / nano)

Ambiente Laboratorial

Instalação Zero : Não há necessidade de instalar o software Hadoop nas máquinas dos alunos! Um cluster Hadoop funcional será fornecido para os estudantes.

Os alunos precisarão do seguinte

  • um cliente SSH (Linux e Mac já possuem clientes ssh, para Windows é recomendado o Putty)
  • um navegador para acessar o cluster, Firefox recomendado
 28 Horas

Número de participantes


Preço por Participante

Declaração de Clientes (5)

Próximas Formações Provisórias

Categorias Relacionadas