Cursos de A Practical Introduction to Stream Processing
Stream Processing refere-se ao processamento em tempo real de "dados em movimento", ou seja, executando cálculos nos dados à medida que eles são recebidos. Esses dados são lidos como fluxos contínuos de fontes de dados, como eventos de sensores, atividade do usuário do site, operações financeiras, furtos de cartão de crédito, fluxos de cliques, etc. Stream Processing estruturas de Stream Processing são capazes de ler grandes volumes de dados recebidos e fornecer informações valiosas quase instantaneamente.
Neste treinamento ao vivo, ministrado por instrutor (no local ou remoto), os participantes aprenderão como configurar e integrar diferentes estruturas de Stream Processing com sistemas de armazenamento de big data existentes e aplicativos de software e microsserviços relacionados.
Ao final deste treinamento, os participantes serão capazes de:
- Instale e configure diferentes estruturas de Stream Processing , como Spark Streaming e Kafka Streaming.
- Entenda e selecione a estrutura mais apropriada para o trabalho.
- Processo de dados de forma contínua, simultânea e de forma a registro.
- Integre soluções de Stream Processing a bancos de dados, data warehouses, lagos de dados, etc.
- Integre a biblioteca de processamento de fluxo mais apropriada aos aplicativos e microsserviços corporativos.
Público
- Desenvolvedores
- Arquitetos de software
Formato do Curso
- Parte palestra, parte discussão, exercícios e prática prática pesada
Notas
- Para solicitar um treinamento personalizado para este curso, entre em contato conosco para agendar.
Programa do Curso
Introdução
- Processamento de fluxo versus processamento em lote
- Processamento de fluxo com foco em análise
Visão geral das estruturas e Programming Languages
- Spark Streaming (Scala)
- Transmissão de Kafka (Java)
- Flink
- Tempestade
- Comparação de recursos e pontos fortes de cada estrutura
Visão geral das fontes de dados
- Dados ao vivo como uma série de eventos ao longo do tempo
- Fontes de dados históricos
Opções de implantação
- Na nuvem (AWS, etc.)
- No local (nuvem privada, etc.)
Começando
- Configurando o Ambiente de Desenvolvimento
- Instalando e configurando
- Avaliando suas Data Analysis necessidades
Operando uma estrutura de streaming
- Integrando a estrutura de streaming com Big Data ferramentas
- Evento Stream Processing (ESP) vs Processamento de Eventos Complexos (CEP)
- Transformando os dados de entrada
- Inspecionando os dados de saída
- Integrando a Stream Processing Estrutura com Aplicativos Existentes e Microservices
Solução de problemas
Resumo e conclusão
Requisitos
- Programming experiência em qualquer língua
- Uma compreensão dos conceitos de Big Data (Hadoop, etc.)
Os cursos de treinamento abertos exigem mais de 5 participantes.
Cursos de A Practical Introduction to Stream Processing - Booking
Cursos de A Practical Introduction to Stream Processing - Enquiry
A Practical Introduction to Stream Processing - Solicitação de Consultoria
Solicitação de Consultoria
Declaração de Clientes (1)
Suficiente prática, o instrutor é qualificado
Chris Tan
Curso - A Practical Introduction to Stream Processing
Máquina Traduzida
Próximas Formações Provisórias
Cursos Relacionados
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 HorasEste curso destina-se a programadores e cientistas de dados que pretendam compreender e implementar a IA nas suas aplicações. É dada especial atenção à análise de dados, à IA distribuída e ao processamento de linguagem natural.
Apache Kafka Connect
7 HorasEsta formação em direto, ministrada por um formador, em Brasil (online ou no local) destina-se a programadores que pretendam integrar Apache Kafka em bases de dados e aplicações existentes para processamento, análise, etc.
No final desta formação, os participantes serão capazes de
- Usar o Kafka Connect para ingestão de grandes volumes de dados de um banco de dados em tópicos do Kafka.
- Ingerir dados de log gerados por servidores de aplicativos em tópicos do Kafka.
- Make quaisquer dados coletados disponíveis para processamento de fluxo.
- Exportar dados dos tópicos do Kafka para sistemas secundários para armazenamento e análise.
Unified Batch and Stream Processing with Apache Beam
14 HorasApache Beam é um modelo de programação unificado e de código aberto para definir e executar pipelines de processamento de dados paralelos. O seu poder reside na sua capacidade de executar pipelines em lote e em fluxo contínuo, sendo a execução efectuada por um dos back-ends de processamento distribuído suportados pelo Beam: Apache Apex, Apache Flink, Apache Spark e Google Cloud Dataflow. A solução Apache Beam é útil para tarefas de ETL (Extrair, Transformar e Carregar), como mover dados entre diferentes mídias de armazenamento e fontes de dados, transformar dados em um formato mais desejável e carregar dados em um novo sistema.
Neste treinamento ao vivo conduzido por instrutor (no local ou remoto), os participantes aprenderão como implementar os SDKs Apache Beam em um aplicativo Java ou Python que define um pipeline de processamento de dados para decompor um grande conjunto de dados em pedaços menores para processamento paralelo e independente.
Ao final deste treinamento, os participantes serão capazes de:
- Instalar e configurar Apache Beam.
- Utilizar um único modelo de programação para efetuar o processamento em lote e em fluxo a partir da sua aplicação Java ou Python.
- Executar pipelines em vários ambientes.
Formato do curso
- Parte palestra, parte discussão, exercícios e muita prática
Nota
- Este curso estará disponível Scala no futuro. Por favor, contacte-nos para organizar.
Building Kafka Solutions with Confluent
14 Horaseste instrutor liderada, treinamento ao vivo (no local ou remoto) destina-se a engenheiros que desejam usar confluent (uma distribuição de Kafka) para construir e gerenciar uma plataforma de processamento de dados em tempo real para suas aplicações.
no final deste treinamento, os participantes poderão:
- Instalar e configurar o Confluent Platform.
- Utilizar as ferramentas e serviços de gerenciamento do Confluent para executar o Kafka de forma mais fácil.
- Armazenar e processar dados de fluxo de entrada.
- Otimizar e gerenciar clusters do Kafka.
- Proteger fluxos de dados.
formato do curso
- Aula interativa e discussão.
- Muitos exercícios e prática.
- Implementação hands-on em um ambiente de laboratório ao vivo.
Opções de personalização do curso
- Este curso é baseado na versão open source do Confluent: Confluent Open Source.
- Para solicitar um treinamento personalizado para este curso, por favor entre em contato conosco para agendar.
Apache Flink Fundamentals
28 HorasEste treinamento ao vivo conduzido por instrutor em Brasil (no local ou remoto) apresenta os princípios e abordagens por trás do fluxo distribuído e do processamento de dados em lote, e orienta os participantes na criação de um aplicativo de streaming de dados em tempo real em Apache Flink.
No final deste treinamento, os participantes serão capazes de:
- Configurar um ambiente para o desenvolvimento de aplicativos de análise de dados.
- Entender como funciona a biblioteca de processamento de gráficos do Apache Flink (Gelly).
- Empacotar, executar e monitorar aplicativos de streaming de dados baseados em Flink, tolerantes a falhas.
- Gerenciar diversas cargas de trabalho.
- Realizar análises avançadas.
- Configurar um cluster Flink de vários nós.
- Medir e otimizar o desempenho.
- Integrar o Flink com diferentes sistemas Big Data.
- Comparar os recursos do Flink com os de outros frameworks de processamento de big data.
Introduction to Graph Computing
28 HorasNeste treinamento ao vivo conduzido por instrutor em Brasil, os participantes aprenderão sobre as ofertas de tecnologia e abordagens de implementação para o processamento de dados gráficos. O objetivo é identificar objetos do mundo real, suas caraterísticas e relacionamentos, depois modelar esses relacionamentos e processá-los como dados usando uma abordagem Graph Computing (também conhecida como Graph Analytics). Começamos com uma visão geral e nos concentramos em ferramentas específicas à medida que avançamos em uma série de estudos de caso, exercícios práticos e implantações ao vivo.
No final deste treinamento, os participantes serão capazes de:
- Entender como os dados do gráfico são persistidos e percorridos.
- Selecionar a melhor estrutura para uma determinada tarefa (de bancos de dados de gráficos a estruturas de processamento em lote).
- Implementar Hadoop, Spark, GraphX e Pregel para realizar a computação de gráficos em muitas máquinas em paralelo.
- Ver problemas reais de grandes volumes de dados em termos de grafos, processos e travessias.
Apache Kafka for Python Programmers
7 HorasEste treinamento ao vivo conduzido por instrutor em Brasil (no local ou remoto) é destinado a engenheiros de dados, cientistas de dados e programadores que desejam usar os recursos Apache Kafka no fluxo de dados com Python.
No final deste treinamento, os participantes poderão usar Apache Kafka para monitorar e gerenciar condições em fluxos de dados contínuos usando a programação Python.
Stream Processing with Kafka Streams
7 HorasO Kafka Streams é uma biblioteca do lado do cliente para criar aplicativos e microsserviços cujos dados são transmitidos para e de um sistema de mensagens Kafka. Tradicionalmente, o Apache Kafka conta com o Apache Spark ou o Apache Storm para processar dados entre produtores e consumidores de mensagens. Ao chamar a API Kafka Streams de dentro de um aplicativo, os dados podem ser processados diretamente no Kafka, ignorando a necessidade de enviar os dados para um cluster separado para processamento.
Neste treinamento ao vivo conduzido por instrutor, os participantes aprenderão a integrar o Kafka Streams em um conjunto de aplicativos Java de amostra que transmitem dados para e do Apache Kafka para processamento de fluxo.
No final deste treinamento, os participantes serão capazes de:
- Compreender as características e vantagens do Kafka Streams em relação a outros frameworks de processamento de fluxos
- Processar dados de fluxo diretamente dentro de um cluster Kafka
- Escriver um aplicativo ou microsserviço Java ou Scala que se integra com Kafka e Kafka Streams
- Escriver código conciso que transforma tópicos de entrada do Kafka em tópicos de saída do Kafka
- Criar, empacotar e implantar o aplicativo
Público
- Desenvolvedores
Formato do curso
- Parte palestra, parte discussão, exercícios e prática intensiva
Notas
- Para solicitar um treinamento personalizado para este curso, entre em contato conosco para agendar
Confluent KSQL
7 HorasEste treinamento ao vivo conduzido por instrutor em Brasil (no local ou remoto) é destinado a desenvolvedores que desejam implementar o processamento de fluxo Apache Kafka sem escrever código.
No final deste treinamento, os participantes serão capazes de:
- Instalar e configurar o Confluent KSQL.
- Configurar um pipeline de processamento de fluxo usando apenas comandos SQL (sem codificação Java ou Python).
- Realizar filtragem de dados, transformações, agregações, junções, janelamento e sessionização inteiramente em SQL.
- Conceber e implementar consultas interactivas e contínuas para ETL de fluxo contínuo e análise em tempo real.
Apache NiFi for Administrators
21 HorasNeste treinamento ao vivo conduzido por instrutor em Brasil (no local ou remoto), os participantes aprenderão como implantar e gerenciar Apache NiFi em um ambiente de laboratório ao vivo.
No final deste treinamento, os participantes serão capazes de:
- Instalar e configurar o Apachi NiFi.
- Fonte, transformar e gerenciar dados de fontes de dados díspares e distribuídas, incluindo bancos de dados e grandes lagos de dados.
- Automatizar fluxos de dados.
- Habilitar a análise de streaming.
- Aplicar várias abordagens para a ingestão de dados.
- Transformar Big Data em informações comerciais.
Apache NiFi for Developers
7 HorasNeste treinamento ao vivo conduzido por instrutor em Brasil, os participantes aprenderão os fundamentos da programação baseada em fluxo à medida que desenvolvem uma série de extensões de demonstração, componentes e processadores usando Apache NiFi.
No final deste treinamento, os participantes serão capazes de:
- Compreender a arquitetura do NiFi e os conceitos de fluxo de dados.
- Desenvolver extensões usando NiFi e APIs de terceiros.
- Desenvolver seu próprio processador Apache Nifi.
- Ingerir e processar dados em tempo real de formatos de arquivos e fontes de dados diferentes e incomuns.
Python e Spark para Big Data (PySpark)
21 HorasNeste treinamento ao vivo conduzido por instrutor em Brasil, os participantes aprenderão como usar Python e Spark juntos para analisar big data enquanto trabalham em exercícios práticos.
Ao final deste treinamento, os participantes serão capazes de:
- Aprenda a usar o Spark com Python para analisar Big Data.
- Trabalhe em exercícios que imitam casos do mundo real.
- Use diferentes ferramentas e técnicas para análise de big data usando PySpark.
Spark Streaming with Python and Kafka
7 HorasEste treinamento ao vivo conduzido por instrutor em Brasil (no local ou remoto) é destinado a engenheiros de dados, cientistas de dados e programadores que desejam usar os recursos Spark Streaming no processamento e análise de dados em tempo real.
No final deste treinamento, os participantes poderão usar Spark Streaming para processar fluxos de dados ao vivo para uso em bancos de dados, sistemas de arquivos e painéis ao vivo.
Apache Spark MLlib
35 HorasO MLlib é a biblioteca de aprendizado de máquina (ML) do Spark. Seu objetivo é tornar prático o aprendizado de máquina escalável e fácil. Ele consiste em algoritmos e utilitários de aprendizado comuns, incluindo classificação, regressão, agrupamento, filtragem colaborativa, redução de dimensionalidade, além de primitivas de otimização de nível inferior e APIs de pipeline de nível superior.
Divide-se em dois pacotes:
O spark.mllib contém a API original construída sobre os RDDs.
O spark.ml fornece uma API de alto nível, construída sobre os DataFrames, para a construção de pipelines de ML.
Público
Este curso é direcionado a engenheiros e desenvolvedores que desejam utilizar uma biblioteca de máquinas integrada para o Apache Spark