Programa do Curso

  1. Introdução ao Scala

    • Uma rápida introdução ao Scala
    • Laboratórios: Conhecendo o Scala
  2. Noções Básicas do Spark

    • Contexto e história
    • Spark e Hadoop
    • Conceitos e arquitetura do Spark
    • Ecosistema do Spark (core, spark sql, mlib, streaming)
    • Laboratórios: Instalando e executando o Spark
  3. Primeiros Passos com o Spark

    • Executando o Spark no modo local
    • UI web do Spark
    • Shell do Spark
    • Analisando conjunto de dados – parte 1
    • Inspecionando RDDs
    • Laboratórios: Explorando o shell do Spark
  4. RDDs (Resilient Distributed Datasets)

    • Conceitos de RDDs
    • Partições
    • Operações e transformações em RDDs
    • Tipos de RDDs
    • RDDs de pares chave-valor
    • MapReduce com RDDs
    • Caching e persistência
    • Laboratórios: Criando e inspecionando RDDs; Caching de RDDs
  5. Programação com a API do Spark

    • Introdução à API do Spark e da RDD
    • Submetendo o primeiro programa ao Spark
    • Depuração e registro de logs
    • Propriedades de configuração
    • Laboratórios: Programação com a API do Spark, Submetendo trabalhos
  6. Spark SQL

    • Suporte a SQL no Spark
    • Dataframes
    • Definindo tabelas e importando conjuntos de dados
    • Consultando dataframes usando SQL
    • Formatos de armazenamento: JSON / Parquet
    • Laboratórios: Criando e consultando dataframes; Avaliando formatos de dados
  7. MLlib (Machine Learning Library)

    • Introdução ao MLlib
    • Algoritmos do MLlib
    • Laboratórios: Escrevendo aplicações com o MLib
  8. GraphX (Biblioteca de Grafos)

    • Visão geral da biblioteca GraphX
    • APIs do GraphX
    • Laboratórios: Processando dados de grafos usando o Spark
  9. Spark Streaming (Processamento em Tempo Real)

    • Visão geral de streaming
    • Avaliando plataformas de streaming
    • Operações de streaming
    • Operações em janelas deslizantes
    • Laboratórios: Escrevendo aplicações de streaming com o Spark
  10. Spark e Hadoop

    • Introdução ao Hadoop (HDFS / YARN)
    • Arquitetura do Hadoop + Spark
    • Executando o Spark no Hadoop YARN
    • Processando arquivos do HDFS usando o Spark
  11. Desempenho e Otimização do Spark

    • Variáveis de broadcast
    • Acumuladores
    • Gestão de memória e caching
  12. Operações do Spark

    • Implantando o Spark em produção
    • Modelos de implantação de exemplo
    • Configurações
    • Monitoramento
    • Solução de problemas

Requisitos

PRÉ-REQUISITOS

familiaridade com Java, Scala ou Python (nossos laboratórios em Scala e Python)
entendimento básico do ambiente de desenvolvimento Linux (navegação na linha de comando / edição de arquivos usando VI ou nano)

 21 Horas

Número de participantes


Preço por Participante

Declaração de Clientes (6)

Próximas Formações Provisórias

Categorias Relacionadas