Programa do Curso
Seção 1: Introdução ao Hadoop
- História e conceitos do Hadoop
- ecossistema
- distribuições
- arquitetura de alto nível
- mitos sobre o Hadoop
- desafios do Hadoop
- hardware / software
- laboratório: primeira visão do Hadoop
Seção 2: HDFS
- Design e arquitetura
- conceitos (escalabilidade horizontal, replicação, localidade de dados, consciência de rack)
- Daemons : NomeNode, Secondary NameNode, Data Node
- comunicações / batimentos cardíacos
- integridade dos dados
- caminho de leitura/escrita
- NomeNode Alta Disponibilidade (HA), Federação
- laboratórios: Interagindo com o HDFS
Seção 3 : Map Reduce
- conceitos e arquitetura
- daemons (MRV1) : JobTracker / TaskTracker
- fases: driver, mapper, shuffle/sort, reducer
- MapReduce Versão 1 e Versão 2 (YARN)
- Internos do MapReduce
- Introdução ao programa de Java Map Reduce
- laboratórios: Executando um programa de exemplo de MapReduce
Seção 4 : Pig
- pig vs java map reduce
- fluxo de trabalho do pig
- linguagem Pig Latin
- ETL com o Pig
- transformações e junções
- funções definidas pelo usuário (UDF)
- laboratórios: escrevendo scripts Pig para análise de dados
Seção 5: Hive
- arquitetura e design
- tipos de dados
- suporte a SQL no Hive
- Criando tabelas em Hive e consultando
- junções
- processamento de texto
- laboratórios: vários laboratórios sobre processamento de dados com o Hive
Seção 6: HBase
- conceitos e arquitetura
- HBase vs RDBMS vs Cassandra
- HBase Java API
- Dados de séries temporais no HBase
- projeto do esquema
- laboratórios: Interagindo com o HBase usando shell; programação na API HBase Java; exercícios de projeto de esquema
Requisitos
- familiaridade com a linguagem de programação Java (a maioria dos exercícios de programação são em Java)
- confortável no ambiente Linux (ser capaz de navegar na linha de comando do Linux, editar arquivos usando vi / nano)
Ambiente de laboratório
Sem Instalação : Não é necessário instalar software Hadoop nos computadores dos alunos! Um cluster funcional do Hadoop será fornecido para os alunos.
Os alunos precisarão das seguintes ferramentas
- um cliente SSH (Linux e Mac já possuem clientes SSH, para Windows é recomendado o Putty)
- um navegador para acessar o cluster, Firefox é recomendado
Declaração de Clientes (5)
Os exemplos ao vivo
Ahmet Bolat - Accenture Industrial SS
Curso - Python, Spark, and Hadoop for Big Data
Máquina Traduzida
Durante os exercícios, James explicou a mim cada etapa em mais detalhe sempre que eu ficava preso. Eu era completamente novo no NIFI. Ele explicou o propósito real do NIFI, inclusive conceitos básicos como o de código aberto. Ele abrangeu todos os conceitos do Nifi, partindo do nível iniciante até o nível de desenvolvedor.
Firdous Hashim Ali - MOD A BLOCK
Curso - Apache NiFi for Administrators
Máquina Traduzida
Preparação e organização do treinador e qualidade dos materiais fornecidos no github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Curso - Impala for Business Intelligence
Máquina Traduzida
Que eu tivesse no primeiro lugar.
Peter Scales - CACI Ltd
Curso - Apache NiFi for Developers
Máquina Traduzida
coisas práticas de fazer, além da teoria que foi bem explicada pelo Ajay
Dominik Mazur - Capgemini Polska Sp. z o.o.
Curso - Hadoop Administration on MapR
Máquina Traduzida