Programa do Curso
- Introdução
- Hadoop história, conceitos
- Ecossistema
- Distribuições
- Arquitetura de alto nível
- Hadoop mitos
- Hadoop desafios (hardware / software)
- Laboratórios: discussão sobre seus projetos e problemas Big Data
- Planejamento e instalação
- Seleção de software, Hadoop distribuições
- Dimensionamento do cluster, planejando o crescimento
- Seleção de hardware e rede
- Topologia de rack
- Instalação
- Multilocatário
- Estrutura de diretórios, logs
- Benchmarking
- Laboratórios: instalar o cluster e executar benchmarks de desempenho
- Operações do HDFS
- Conceitos (escala horizontal, replicação, localidade dos dados, consciência de rack)
- Nós e demônios (NameNode, Secondary NameNode, Standby NameNode HA, DataNode)
- Monitoramento da saúde
- Administração baseada em linha de comando e navegador
- Adicionar armazenamento, substituir discos defeituosos
- Laboratórios: familiarizando-se com as linhas de comando do HDFS
- Ingestão de dados
- Flume para ingestão de logs e outros dados no HDFS
- Sqoop para importar de SQL bancos de dados ao HDFS, bem como exportar de volta para o SQL
- Hadoop data warehousing com Hive
- Cópia de dados entre clusters (distcp)
- Usando S3 como complemento ao HDFS
- Melhores práticas e arquiteturas para ingestão de dados
- Laboratórios: configurando e usando o Flume, o mesmo para Sqoop
- Operações e administração do MapReduce
- Computação paralela antes do mapreduce: comparar HPC vs Hadoop administração
- Cargas de cluster do MapReduce
- Nós e demônios (JobTracker, TaskTracker)
- Caminhada pela interface do usuário do MapReduce
- Configuração do MapReduce
- Configuração da tarefa
- Otimização do MapReduce
- Tornando o MR seguro: o que dizer aos programadores
- Laboratórios: executar exemplos de MapReduce
- YARN: nova arquitetura e novas capacidades
- Objetivos de design e arquitetura implementada do YARN
- Novos atores: ResourceManager, NodeManager, Application Master
- Instalar o YARN
- Agenda de trabalho sob YARN
- Laboratórios: investigar a agenda de trabalhos
- Tópicos avançados
- Monitoramento de hardware
- Monitoramento do cluster
- Adicionar e remover servidores, atualizar Hadoop
- Backup, recuperação e planejamento da continuidade dos negócios
- Fluxos de trabalho de trabalhos do Oozie
- Hadoop alta disponibilidade (HA)
- Hadoop Federação
- Proteger seu cluster com o Kerberos
- Laboratórios: configurar monitoramento
- Trilhas opcionais
- Cloudera Manager para administração, monitoramento e tarefas rotineiras do cluster; instalação, uso. Nesta trilha, todos os exercícios e laboratórios são realizados no ambiente de distribuição CDH5 (Cloudera Distribution)
- Ambari para administração, monitoramento e tarefas rotineiras do cluster; instalação, uso. Nesta trilha, todos os exercícios e laboratórios são realizados no gerenciador de clusters Ambari e na plataforma de dados Hortonworks (HDP 2.0)
Requisitos
- familiarizado com a administração básica do sistema Linux
- habilidades básicas de scripting
Conhecimento sobre Hadoop e Computação Distribuída não é obrigatório, mas será introduzido e explicado durante o curso.
Meio ambiente do laboratório
Instalação Zero : Não é necessário instalar o software hadoop nas máquinas dos alunos! Um cluster de hadoop funcional será fornecido para os alunos.
Os alunos precisarão de:
- um cliente SSH (Linux e Mac já possuem clientes ssh, para Windows é recomendado o Putty)
- um navegador para acessar o cluster. Recomendamos o navegador Firefox com a extensão FoxyProxy instalada
Declaração de Clientes (5)
Os exemplos ao vivo
Ahmet Bolat - Accenture Industrial SS
Curso - Python, Spark, and Hadoop for Big Data
Máquina Traduzida
Durante os exercícios, James me explicou todos os passos onde eu ficava preso com mais detalhes. Eu era completamente novo no NiFi. Ele explicou a finalidade real do NiFi, incluindo conceitos básicos como software open source. Ele abordou todos os conceitos do NiFi, desde o Nível Iniciante até o Nível Desenvolvedor.
Firdous Hashim Ali - MOD A BLOCK
Curso - Apache NiFi for Administrators
Máquina Traduzida
Que eu tivesse isso desde o início.
Peter Scales - CACI Ltd
Curso - Apache NiFi for Developers
Máquina Traduzida
aspectos práticos de fazer, além disso a teoria foi bem apresentada por Ajay
Dominik Mazur - Capgemini Polska Sp. z o.o.
Curso - Hadoop Administration on MapR
Máquina Traduzida
Gostei muito da VM O Professor era muito conhecido sobre o tópico, bem como outros tópicos, ele foi muito simpático e amigável Gostei das instalações em Dubai.
Safar Alqahtani - Elm Information Security
Curso - Big Data Analytics in Health
Máquina Traduzida