Programa do Curso

Seção 1: Data Management em HDFS

  • Vários formatos de dados (JSON / Avro / Parquet)
  • Esquemas de compressão
  • Mascaramento de dados
  • Laboratórios: Análise de diferentes formatos de dados; habilitando compactação

Seção 2: Porco Avançado

  • Funções definidas pelo usuário
  • Introdução às bibliotecas Pig (ElephantBird / Data-Fu)
  • Carregando dados estruturados complexos usando Pig
  • Ajuste de porco
  • Laboratórios: scripts avançados de pig, análise de tipos de dados complexos

Seção 3: Avançado Hive

  • Funções definidas pelo usuário
  • Tabelas compactadas
  • Hive Ajuste de desempenho
  • Laboratórios: criação de tabelas compactadas, avaliação de formatos e configuração de tabelas

Seção 4: HBase avançado

  • Modelagem de Esquema Avançada
  • Compressão
  • Ingestão de dados em massa
  • Comparação entre mesa larga e mesa alta
  • HBase e porco
  • HBase e Hive
  • Ajuste de desempenho HBase
  • Laboratórios: ajuste do HBase; acessando dados HBase do Pig & Hive; Usando Phoenix para modelagem de dados

Requisitos

  • confortável com a linguagem de programação Java (a maioria dos exercícios de programação são em java)
  • confortável no ambiente Linux (ser capaz de navegar na linha de comando Linux, editar arquivos usando vi / nano)
  • um trabalho  conhecimento de Hadoop.

Ambiente de laboratório

Instalação zero: Não é necessário instalar software hadoop nas máquinas dos alunos’! Um cluster hadoop funcional será fornecido aos alunos.

Os alunos precisarão do seguinte

  • um cliente SSH (Linux e Mac já possuem clientes ssh, para Windows Putty é recomendado)
  • um browser para aceder ao cluster. Recomendamos o navegador Firefox
  21 horas
 

Número de participantes


Inicia

Termina


Dates are subject to availability and take place between 09:30 and 16:30.
Open Training Courses require 5+ participants.

Declaração de Clientes (3)

Cursos Relacionados

Categorias Relacionadas