Programa do Curso
Secção 1: Introdução ao Hadoop
- História e conceitos do Hadoop
- Eco sistema
- Distribuições
- Arquitetura de alto nível
- Mitos sobre o Hadoop
- Desafios do Hadoop
- Hardware / Software
- lab : primeira visão do Hadoop
Secção 2: HDFS
- Design e arquitetura
- conceitos (escala horizontal, replicação, localidade de dados, consciência de rack)
- Daemons : Namenode, Secondary namenode, Data node
- Comunicações / batimentos cardíacos
- Integridade dos dados
- Caminho de leitura/escrita
- Namenode Alta Disponibilidade (HA), Federação
- labs : Interagindo com HDFS
Secção 3 : Map Reduce
- conceitos e arquitetura
- daemons (MRV1) : jobtracker / tasktracker
- fases : driver, mapper, shuffle/sort, reducer
- Map Reduce Versão 1 e Versão 2 (YARN)
- Aspectos internos do Map Reduce
- Introdução ao programa Java Map Reduce
- laboratórios: execução de um programa MapReduce de exemplo
Secção 4 : Pig
- pig vs java map reduce
- fluxo de trabalho pig
- linguagem latina do pig
- ETL com Pig
- Transformações e junções
- Funções definidas pelo utilizador (UDF)
- laboratórios: escrever scripts Pig para analisar dados
Secção 5: Hive
- arquitetura e design
- tipos de dados
- Suporte SQL em Hive
- Criando Hive tabelas e consultando
- partições
- junções
- processamento de texto
- laboratórios : vários laboratórios sobre processamento de dados com Hive
Secção 6: HBase
- conceitos e arquitetura
- HBase vs RDBMS vs Cassandra
- HBase Java API
- Séries temporais em HBase
- design de esquema
- labs : Interagindo com HBase usando shell; programação na HBase Java API ; Exercício de design de esquema
Requisitos
- à vontade com Java linguagem de programação (a maior parte dos exercícios de programação são em java)
- confortável no ambiente Linux (ser capaz de navegar na linha de comandos Linux, editar ficheiros usando vi / nano)
Ambiente de laboratório
Instalação Zero : Não é necessário instalar o software Hadoop nos computadores dos alunos! Um cluster funcional Hadoop será fornecido para os alunos.
Os alunos precisarão do seguinte
- um cliente SSH (Linux e Mac já possuem clientes ssh, para Windows é recomendado o Putty)
- um navegador para acessar o cluster, recomenda-se Firefox
Declaração de Clientes (5)
Os exemplos ao vivo
Ahmet Bolat - Accenture Industrial SS
Curso - Python, Spark, and Hadoop for Big Data
Máquina Traduzida
Durante os exercícios, James explicou a mim cada etapa em mais detalhe sempre que eu ficava preso. Eu era completamente novo no NIFI. Ele explicou o propósito real do NIFI, inclusive conceitos básicos como o de código aberto. Ele abrangeu todos os conceitos do Nifi, partindo do nível iniciante até o nível de desenvolvedor.
Firdous Hashim Ali - MOD A BLOCK
Curso - Apache NiFi for Administrators
Máquina Traduzida
Preparação e organização do treinador e qualidade dos materiais fornecidos no github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Curso - Impala for Business Intelligence
Máquina Traduzida
Que eu tivesse no primeiro lugar.
Peter Scales - CACI Ltd
Curso - Apache NiFi for Developers
Máquina Traduzida
coisas práticas de fazer, além da teoria que foi bem explicada pelo Ajay
Dominik Mazur - Capgemini Polska Sp. z o.o.
Curso - Hadoop Administration on MapR
Máquina Traduzida