Programa do Curso
-
Introdução ao Scala
- Uma rápida introdução ao Scala
- Laboratórios: Conhecendo o Scala
-
Noções Básicas do Spark
- Contexto e história
- Spark e Hadoop
- Conceitos e arquitetura do Spark
- Ecosistema do Spark (core, spark sql, mlib, streaming)
- Laboratórios: Instalando e executando o Spark
-
Primeiros Passos com o Spark
- Executando o Spark no modo local
- UI web do Spark
- Shell do Spark
- Analisando conjunto de dados – parte 1
- Inspecionando RDDs
- Laboratórios: Explorando o shell do Spark
-
RDDs (Resilient Distributed Datasets)
- Conceitos de RDDs
- Partições
- Operações e transformações em RDDs
- Tipos de RDDs
- RDDs de pares chave-valor
- MapReduce com RDDs
- Caching e persistência
- Laboratórios: Criando e inspecionando RDDs; Caching de RDDs
-
Programação com a API do Spark
- Introdução à API do Spark e da RDD
- Submetendo o primeiro programa ao Spark
- Depuração e registro de logs
- Propriedades de configuração
- Laboratórios: Programação com a API do Spark, Submetendo trabalhos
-
Spark SQL
- Suporte a SQL no Spark
- Dataframes
- Definindo tabelas e importando conjuntos de dados
- Consultando dataframes usando SQL
- Formatos de armazenamento: JSON / Parquet
- Laboratórios: Criando e consultando dataframes; Avaliando formatos de dados
-
MLlib (Machine Learning Library)
- Introdução ao MLlib
- Algoritmos do MLlib
- Laboratórios: Escrevendo aplicações com o MLib
-
GraphX (Biblioteca de Grafos)
- Visão geral da biblioteca GraphX
- APIs do GraphX
- Laboratórios: Processando dados de grafos usando o Spark
-
Spark Streaming (Processamento em Tempo Real)
- Visão geral de streaming
- Avaliando plataformas de streaming
- Operações de streaming
- Operações em janelas deslizantes
- Laboratórios: Escrevendo aplicações de streaming com o Spark
-
Spark e Hadoop
- Introdução ao Hadoop (HDFS / YARN)
- Arquitetura do Hadoop + Spark
- Executando o Spark no Hadoop YARN
- Processando arquivos do HDFS usando o Spark
-
Desempenho e Otimização do Spark
- Variáveis de broadcast
- Acumuladores
- Gestão de memória e caching
-
Operações do Spark
- Implantando o Spark em produção
- Modelos de implantação de exemplo
- Configurações
- Monitoramento
- Solução de problemas
Requisitos
PRÉ-REQUISITOS
familiaridade com Java, Scala ou Python (nossos laboratórios em Scala e Python)
entendimento básico do ambiente de desenvolvimento Linux (navegação na linha de comando / edição de arquivos usando VI ou nano)
Declaração de Clientes (6)
Fazer exercícios similares de maneiras diferentes realmente ajuda a entender o que cada componente (Hadoop/Spark, standalone/cluster) pode fazer individualmente e em conjunto. Isso me deu ideias sobre como eu deveria testar minha aplicação na minha máquina local quando estou desenvolvendo versus quando ela é implantada em um cluster.
Thomas Carcaud - IT Frankfurt GmbH
Curso - Spark for Developers
Máquina Traduzida
Ajay foi muito amigável, ajudativo e também conhecedor sobre o tópico que estava discutindo.
Biniam Guulay - ICE International Copyright Enterprise Germany GmbH
Curso - Spark for Developers
Máquina Traduzida
Ernesto did a great job explaining the high level concepts of using Spark and its various modules.
Michael Nemerouf
Curso - Spark for Developers
Máquina Traduzida
The trainer made the class interesting and entertaining which helps quite a bit with all day training.
Ryan Speelman
Curso - Spark for Developers
Máquina Traduzida
We know a lot more about the whole environment.
John Kidd
Curso - Spark for Developers
Máquina Traduzida
Richard is very calm and methodical, with an analytic insight - exactly the qualities needed to present this sort of course.
Kieran Mac Kenna
Curso - Spark for Developers
Máquina Traduzida