Programa do Curso
1.1Hadoop Conceitos
1.1.1HDFS
- O design da interface de linha de comando HDFS Hadoop Sistema de arquivos
1.1.2 Clusters
- Anatomia de um cluster Nó Mater / Nó Escravo Nome Nó / Nó de Dados
1.2 Manipulação de Dados
1.2.1MapReduce detalhado
- Fase do mapa Reduzir fase Embaralhar
1.2.2Analytics com redução de mapa
- Agrupar por com MapReduce Distribuições de frequência e classificação com MapReduce Plotar resultados (GNU Plot) Histogramas com MapReduce Gráficos de dispersão com MapReduce Análise de conjuntos de dados complexos Contagem com MapReduce e Combiners Construir relatórios
1.2.3Limpeza de dados
- Limpeza de documentos Pesquisa difusa de strings Vinculação de registros/desduplicação de dados Transformar e classificar datas de eventos Validar confiabilidade da fonte Eliminar valores discrepantes
1.2.4 Extraindo e Transformando Dados
- Transformando logs Usando Apache Pig para filtrar Usando Apache Pig para classificar Usando Apache Pig para sessionar
1.2.5 Junções Avançadas
- Unindo dados no Mapper usando MapReduce Unindo dados usando Apache Pig replicated join Unindo dados classificados usando Apache Pig merge join Unindo dados distorcidos usando Apache Pig skewed join Usando uma junção do lado do mapa no Apache Hive Usando junções externas completas otimizadas no Apache [1 ] Unindo dados usando um armazenamento de chave-valor externo
1.3Técnicas de Diagnóstico e Otimização de Desempenho
- Mapa Investigando picos nos dados de entrada Identificando problemas de distorção de dados no mapa Rendimento da tarefa do mapa Arquivos pequenos Arquivos não divisíveis
Requisitos
Os participantes não são obrigados a ter qualquer competência específica, uma vez que a formação se centra nas competências dos utilizadores finais, tanto para a administração como para a manipulação de dados no Apache Hadoop
Declaração de Clientes (6)
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Curso - Impala for Business Intelligence
I thought he did a great job of tailoring the experience to the audience. This class is mostly designed to cover data analysis with HIVE, but me and my co-worker are doing HIVE administration with no real data analytics responsibilities.
ian reif - Franchise Tax Board
Curso - Data Analysis with Hive/HiveQL
Many hands-on sessions.
Jacek Pieczątka
Curso - Administrator Training for Apache Hadoop
The VM I liked very much The Teacher was very knowledgeable regarding the topic as well as other topics, he was very nice and friendly I liked the facility in Dubai.
Safar Alqahtani - Elm Information Security
Curso - Big Data Analytics in Health
The fact that all the data and software was ready to use on an already prepared VM, provided by the trainer in external disks.
vyzVoice
Curso - Hadoop for Developers and Administrators
practical things of doing, also theory was served good by Ajay