Programa do Curso

Seção 1: Introdução a Hadoop

  • história do hadoop, conceitos
  • ecossistema
  • distribuições
  • arquitetura de alto nível
  • mitos do hadoop
  • desafios do hadoop
  • hardware/software
  • laboratório: primeiro olhe para Hadoop

Seção 2: HDFS

  • Design e arquitetura
  • conceitos (escalonamento horizontal, replicação, localidade de dados, reconhecimento de rack)
  • Daemons: Namenode, Namenode secundário, Nó de dados
  • comunicações / batimentos cardíacos
  • integridade de dados
  • caminho de leitura/gravação
  • Alta disponibilidade de Namenode (HA), Federação
  • laboratórios: Interagindo com HDFS

Seção 3: Redução do mapa

  • conceitos e arquitetura
  • daemons (MRV1): jobtracker / tasktracker
  • fases: driver, mapeador, shuffle/sort, redutor
  • Map Reduzir Versão 1 e Versão 2 (YARN)
  • Internos do mapa reduzido
  • Introdução ao Java programa Map Reduce
  • labs: Executando um programa MapReduce de amostra

Seção 4: Porco

  • redução de mapa porco vs java
  • fluxo de trabalho do porco
  • porco língua latina
  • ETL com porco
  • Transformações e junções
  • Funções definidas pelo usuário (UDF)
  • laboratórios: escrevendo scripts Pig para analisar dados

Seção 5: Hive

  • arquitetura e design
  • tipos de dados
  • SQL suporte em Hive
  • Criando Hive tabelas e consultando
  • partições
  • junta-se
  • processamento de texto
  • labs: vários laboratórios sobre processamento de dados com Hive

Seção 6: HBase

  • conceitos e arquitetura
  • hbase vs RDBMS vs cassandra
  • API HBase Java
  • Dados de série temporal no HBase
  • projeto de esquema
  • labs: Interagindo com HBase usando shell; programação em API HBase Java; Exercício de design de esquema

Requisitos

  • confortável com a linguagem de programação Java (a maioria dos exercícios de programação são em java)
  • confortável no ambiente Linux (ser capaz de navegar na linha de comando Linux, editar arquivos usando vi / nano)

Ambiente de laboratório

Instalação Zero : Não é necessário instalar software hadoop nas máquinas dos alunos’! Um cluster hadoop funcional será fornecido aos alunos.

Os alunos precisarão do seguinte

  • um cliente SSH (Linux e Mac já possuem clientes ssh, para Windows Putty é recomendado)
  • um browser para aceder ao cluster. Recomendamos o navegador Firefox
  28 horas
 

Número de participantes


Inicia

Termina


Dates are subject to availability and take place between 09:30 and 16:30.
Open Training Courses require 5+ participants.

Declaração de Clientes (3)

Cursos Relacionados

Categorias Relacionadas