Programa do Curso

Introdução

  • Apache Beam vs MapReduce, Spark Streaming, Kafka Streaming, Storm e Flink

Instalando e configurando Apache Beam

Visão geral de Apache Beam recursos e arquitetura

  • Modelo de Beam, SDKs, Beam Pipeline Runners
  • Back-ends de processamento distribuído

Compreendendo o modelo Apache Beam Programming

  • Como um pipeline é executado

Executando um pipeline de amostra

  • Preparando um pipeline WordContagem
  • Executando o Pipeline localmente

Projetando um pipeline

  • Planejando a estrutura, escolhendo as transformações e determinando os métodos de entrada e saída

Criando o pipeline

  • Escrevendo o programa driver e definindo o pipeline
  • Usando Apache Beam classes
  • Conjuntos de dados, transformações, E/S, codificação de dados, etc.

Executando o pipeline

  • Executar o pipeline localmente, em máquinas remotas e em uma nuvem pública
  • Escolhendo um corredor
  • Configurações específicas do corredor

Teste e depuração Apache Beam

  • Usando dicas de tipo para emular digitação estática
  • Gerenciando Python dependências de pipeline

Processando conjuntos de dados limitados e ilimitados

  • Janelas e gatilhos

Tornando seus pipelines reutilizáveis e sustentáveis

Crie novas fontes de dados e coletores

  • Apache Beam API de origem e coletor

Integrando Apache Beam com outros Big Data Sistemas

  • Apache Hadoop, Apache Spark, Apache Kafka

Solução de problemas

Resumo e conclusão

Requisitos

  • Experiência com Python Programação.
  • Experiência com a linha de comando do Linux.

Público

  • Desenvolvedores
  14 horas
 

Número de participantes


Inicia

Termina


Dates are subject to availability and take place between 09:30 and 16:30.
Open Training Courses require 5+ participants.

Declaração de Clientes (1)

Cursos Relacionados

Categorias Relacionadas