Programa do Curso

Seção 1: Introdução ao Hadoop

  • História e conceitos do Hadoop
  • ecossistema
  • distribuições
  • arquitetura de alto nível
  • mitos sobre o Hadoop
  • desafios do Hadoop
  • hardware / software
  • laboratório: primeira visão do Hadoop

Seção 2: HDFS

  • Design e arquitetura
  • conceitos (escalabilidade horizontal, replicação, localidade de dados, consciência de rack)
  • Daemons : NomeNode, Secondary NameNode, Data Node
  • comunicações / batimentos cardíacos
  • integridade dos dados
  • caminho de leitura/escrita
  • NomeNode Alta Disponibilidade (HA), Federação
  • laboratórios: Interagindo com o HDFS

Seção 3 : Map Reduce

  • conceitos e arquitetura
  • daemons (MRV1) : JobTracker / TaskTracker
  • fases: driver, mapper, shuffle/sort, reducer
  • MapReduce Versão 1 e Versão 2 (YARN)
  • Internos do MapReduce
  • Introdução ao programa de Java Map Reduce
  • laboratórios: Executando um programa de exemplo de MapReduce

Seção 4 : Pig

  • pig vs java map reduce
  • fluxo de trabalho do pig
  • linguagem Pig Latin
  • ETL com o Pig
  • transformações e junções
  • funções definidas pelo usuário (UDF)
  • laboratórios: escrevendo scripts Pig para análise de dados

Seção 5: Hive

  • arquitetura e design
  • tipos de dados
  • suporte a SQL no Hive
  • Criando tabelas em Hive e consultando
  • junções
  • processamento de texto
  • laboratórios: vários laboratórios sobre processamento de dados com o Hive

Seção 6: HBase

  • conceitos e arquitetura
  • HBase vs RDBMS vs Cassandra
  • HBase Java API
  • Dados de séries temporais no HBase
  • projeto do esquema
  • laboratórios: Interagindo com o HBase usando shell; programação na API HBase Java; exercícios de projeto de esquema

Requisitos

  • familiaridade com a linguagem de programação Java (a maioria dos exercícios de programação são em Java)
  • confortável no ambiente Linux (ser capaz de navegar na linha de comando do Linux, editar arquivos usando vi / nano)

Ambiente de laboratório

Sem Instalação : Não é necessário instalar software Hadoop nos computadores dos alunos! Um cluster funcional do Hadoop será fornecido para os alunos.

Os alunos precisarão das seguintes ferramentas

  • um cliente SSH (Linux e Mac já possuem clientes SSH, para Windows é recomendado o Putty)
  • um navegador para acessar o cluster, Firefox é recomendado
 28 Horas

Número de participantes


Preço por Participante

Declaração de Clientes (5)

Próximas Formações Provisórias

Categorias Relacionadas