Programa do Curso

1.1Hadoop Conceitos

1.1.1HDFS

    O design da interface de linha de comando HDFS Hadoop Sistema de arquivos

1.1.2 Clusters

    Anatomia de um cluster Nó Mater / Nó Escravo Nome Nó / Nó de Dados

1.2 Manipulação de Dados

1.2.1MapReduce detalhado

    Fase do mapa Reduzir fase Embaralhar

1.2.2Analytics com redução de mapa

    Agrupar por com MapReduce Distribuições de frequência e classificação com MapReduce Plotar resultados (GNU Plot) Histogramas com MapReduce Gráficos de dispersão com MapReduce Análise de conjuntos de dados complexos Contagem com MapReduce e Combiners Construir relatórios

 

1.2.3Limpeza de dados

    Limpeza de documentos Pesquisa difusa de strings Vinculação de registros/desduplicação de dados Transformar e classificar datas de eventos Validar confiabilidade da fonte Eliminar valores discrepantes

1.2.4 Extraindo e Transformando Dados

    Transformando logs Usando Apache Pig para filtrar Usando Apache Pig para classificar Usando Apache Pig para sessionar

1.2.5 Junções Avançadas

    Unindo dados no Mapper usando MapReduce Unindo dados usando Apache Pig replicated join Unindo dados classificados usando Apache Pig merge join Unindo dados distorcidos usando Apache Pig skewed join Usando uma junção do lado do mapa no Apache Hive Usando junções externas completas otimizadas no Apache [1 ] Unindo dados usando um armazenamento de chave-valor externo

1.3Técnicas de Diagnóstico e Otimização de Desempenho

    Mapa Investigando picos nos dados de entrada Identificando problemas de distorção de dados no mapa Rendimento da tarefa do mapa Arquivos pequenos Arquivos não divisíveis
Reduzir Poucos ou muitos redutores
  • Reduzir problemas de distorção de dados
  • Reduza o rendimento das tarefas
  • Embaralhar e classificar lentamente
  • Tarefas concorrentes e limitação do agendador
  • Despejos de pilha e código não otimizado
  • Falhas de hardware
  • Contenção de CPU
  • Tarefas Extração e visualização de tempos de execução de tarefas
  • Criando o perfil do seu mapa e reduzindo tarefas
  • Evite o redutor
  • Filtrar e projetar
  • Usando o combinador
  • Classificação rápida com comparadores
  • Coletando dados distorcidos
  • Reduzir a mitigação de distorção
  • Requisitos

    Os participantes não são obrigados a ter qualquer competência específica, uma vez que a formação se centra nas competências dos utilizadores finais, tanto para a administração como para a manipulação de dados no Apache Hadoop

      21 horas
     

    Número de participantes


    Inicia

    Termina


    Dates are subject to availability and take place between 09:30 and 16:30.
    Open Training Courses require 5+ participants.

    Declaração de Clientes (3)

    Cursos Relacionados

    Categorias Relacionadas