Programa do Curso
Seção 1: Introdução a Hadoop
- história do hadoop, conceitos
- ecossistema
- distribuições
- arquitetura de alto nível
- mitos do hadoop
- desafios do hadoop
- hardware/software
- laboratório: primeiro olhe para Hadoop
Seção 2: HDFS
- Design e arquitetura
- conceitos (escalonamento horizontal, replicação, localidade de dados, reconhecimento de rack)
- Daemons: Namenode, Namenode secundário, Nó de dados
- comunicações / batimentos cardíacos
- integridade de dados
- caminho de leitura/gravação
- Alta disponibilidade de Namenode (HA), Federação
- laboratórios: Interagindo com HDFS
Seção 3: Redução do mapa
- conceitos e arquitetura
- daemons (MRV1): jobtracker / tasktracker
- fases: driver, mapeador, shuffle/sort, redutor
- Map Reduzir Versão 1 e Versão 2 (YARN)
- Internos do mapa reduzido
- Introdução ao Java programa Map Reduce
- labs: Executando um programa MapReduce de amostra
Seção 4: Porco
- redução de mapa porco vs java
- fluxo de trabalho do porco
- porco língua latina
- ETL com porco
- Transformações e junções
- Funções definidas pelo usuário (UDF)
- laboratórios: escrevendo scripts Pig para analisar dados
Seção 5: Hive
- arquitetura e design
- tipos de dados
- SQL suporte em Hive
- Criando Hive tabelas e consultando
- partições
- junta-se
- processamento de texto
- labs: vários laboratórios sobre processamento de dados com Hive
Seção 6: HBase
- conceitos e arquitetura
- hbase vs RDBMS vs cassandra
- API HBase Java
- Dados de série temporal no HBase
- projeto de esquema
- labs: Interagindo com HBase usando shell; programação em API HBase Java; Exercício de design de esquema
Requisitos
- confortável com a linguagem de programação Java (a maioria dos exercícios de programação são em java)
- confortável no ambiente Linux (ser capaz de navegar na linha de comando Linux, editar arquivos usando vi / nano)
Ambiente de laboratório
Instalação Zero : Não é necessário instalar software hadoop nas máquinas dos alunos’! Um cluster hadoop funcional será fornecido aos alunos.
Os alunos precisarão do seguinte
- um cliente SSH (Linux e Mac já possuem clientes ssh, para Windows Putty é recomendado)
- um browser para aceder ao cluster. Recomendamos o navegador Firefox
Declaração de Clientes (6)
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Curso - Impala for Business Intelligence
I thought he did a great job of tailoring the experience to the audience. This class is mostly designed to cover data analysis with HIVE, but me and my co-worker are doing HIVE administration with no real data analytics responsibilities.
ian reif - Franchise Tax Board
Curso - Data Analysis with Hive/HiveQL
Many hands-on sessions.
Jacek Pieczątka
Curso - Administrator Training for Apache Hadoop
The VM I liked very much The Teacher was very knowledgeable regarding the topic as well as other topics, he was very nice and friendly I liked the facility in Dubai.
Safar Alqahtani - Elm Information Security
Curso - Big Data Analytics in Health
The fact that all the data and software was ready to use on an already prepared VM, provided by the trainer in external disks.
vyzVoice
Curso - Hadoop for Developers and Administrators
practical things of doing, also theory was served good by Ajay