Curso de Streaming de Dados e Processamento de Dados em Tempo Real
Visão Geral do Curso
Este curso oferece uma introdução prática e estruturada à construção de sistemas de streaming de dados em tempo real. Aborda conceitos fundamentais, padrões de arquitetura e ferramentas do setor utilizadas para processar dados contínuos em larga escala. Os participantes aprenderão como projetar, implementar e otimizar pipelines de streaming utilizando frameworks modernos. O curso avança de ideias fundamentais para aplicações práticas, permitindo que os participantes construam com confiança soluções de tempo real prontas para produção.
Formato do Treinamento
• Sessões ministradas por instrutor com explicações guiadas
• Explicação detalhada dos conceitos com exemplos do mundo real
• Demonstrações práticas e exercícios de codificação
• Laboratórios progressivos alinhados aos tópicos diários
• Discussões interativas e sessão de perguntas e respostas
Objetivos do Curso
• Compreender os conceitos de streaming de dados em tempo real e a arquitetura de sistemas
• Diferenciar entre os modelos de processamento de dados em lote e em streaming
• Projetar pipelines de streaming escaláveis e tolerantes a falhas
• Trabalhar com ferramentas e frameworks de streaming distribuído
• Aplicar processamento em tempo de evento, janelas (windowing) e operações com estado
• Construir e otimizar soluções de dados em tempo real para casos de uso empresarial
Programa do Curso
Ementa do Curso - Dia 1
• Introdução aos conceitos de streaming de dados
• Fundamentos do processamento em lote versus em tempo real
• Noções básicas de arquitetura orientada a eventos
• Principais casos de uso na indústria
• Visão geral do ecossistema de streaming
Dia 2
• Padrões de design de arquitetura de streaming
• Fundamentos de sistemas de mensagens distribuídos
• Produtores e consumidores
• Tópicos, partições e fluxo de dados
• Estratégias de ingestão de dados
Dia 3
• Conceitos e frameworks de processamento de fluxo
• Tempo de evento versus tempo de processamento
• Técnicas de janelamento (windowing) e casos de uso
• Processamento de fluxo com estado
• Tolerância a falhas e noções básicas de checkpointing
Dia 4
• Transformação de dados em pipelines de streaming
• ETL e ELT em sistemas de tempo real
• Gestão e evolução de esquemas
• Junções de fluxo e enriquecimento de dados
• Introdução aos serviços de streaming baseados em nuvem
Dia 5
• Monitoramento e observabilidade em sistemas de streaming
• Segurança e controles de acesso básicos
• Ajuste de desempenho e otimização
• Revisão do design do pipeline de ponta a ponta
• Casos de uso reais, como detecção de fraude e processamento de IoT
Os cursos de treinamento abertos exigem mais de 5 participantes.
Curso de Streaming de Dados e Processamento de Dados em Tempo Real - Reserva
Curso de Streaming de Dados e Processamento de Dados em Tempo Real - Consulta
Streaming de Dados e Processamento de Dados em Tempo Real - SOLICITAÇÃO DE CONSULTORIA
Testemunhos de Clientes (1)
Exercícios práticos. A turma deveria ter durado 5 dias, mas os 3 dias ajudaram a esclarecer muitas das minhas dúvidas sobre o trabalho com NiFi.
James - BHG Financial
Curso - Apache NiFi for Administrators
Máquina Traduzida
Próximas Formações Provisórias
Cursos Relacionados
Treinamento de Administrador para Apache Hadoop
35 HorasPúblico-alvo:
O curso é destinado a especialistas em TI que procuram uma solução para armazenar e processar conjuntos grandes de dados em um ambiente de sistema distribuído.
Pré-requisitos:
Conhecimento profundo na administração de clusters Hadoop.
Análise de Grandes Dados com Google Colab e Apache Spark
14 HorasEste treinamento ao vivo, conduzido por instrutor em Brasil (online ou presencial), é direcionado a cientistas de dados e engenheiros intermediários que desejam usar Google Colab e Apache Spark para processamento e análise de big data.
Ao final deste treinamento, os participantes serão capazes de:
- Configurar um ambiente de big data usando Google Colab e Spark.
- Processar e analisar grandes conjuntos de dados eficientemente com Apache Spark.
- Visualizar big data em um ambiente colaborativo.
- Integrar Apache Spark com ferramentas baseadas na nuvem.
Análise de Big Data na Saúde
21 HorasA análise de big data envolve o processo de examinar grandes volumes de conjuntos de dados variados para descobrir correlações, padrões ocultos e outras insights úteis.
A indústria da saúde possui enormes quantidades de dados médicos e clínicos complexos e heterogêneos. Aplicar a análise de big data aos dados de saúde apresenta um grande potencial para derivar insights que melhorem a prestação de cuidados à saúde. No entanto, a magnitude desses conjuntos de dados representa grandes desafios em análises e aplicações práticas ao ambiente clínico.
Nesta formação conduzida por instrutor (remota), os participantes aprenderão como realizar análise de big data na saúde enquanto passam por uma série de exercícios práticos em laboratório.
Ao final desta formação, os participantes serão capazes de:
- Instalar e configurar ferramentas de análise de big data, como Hadoop MapReduce e Spark
- Compreender as características dos dados médicos
- Aplicar técnicas de big data para lidar com dados médicos
- Estudar sistemas e algoritmos de big data no contexto de aplicações em saúde
Público-alvo
- Desenvolvedores
- Cientistas de Dados
Formato do Curso
- Parte aula, parte discussão, exercícios e muita prática hands-on.
Nota
- Para solicitar uma formação personalizada para este curso, entre em contato conosco para agendar.
Hadoop para administradores
21 HorasApache Hadoop é o framework mais popular para processamento Big Data em clusters de servidores. Neste curso de três (opcionalmente, quatro) dias, os participantes aprenderão sobre os benefícios comerciais e casos de uso para Hadoop e seu ecossistema, como planejar a implantação e o crescimento do cluster, como instalar, manter, monitorar, solucionar problemas e otimizar Hadoop. Eles também praticarão o carregamento em massa de dados no cluster, se familiarizarão com várias distribuições Hadoop e praticarão a instalação e gerenciamento das ferramentas do ecossistema Hadoop. O curso termina com uma discussão sobre a segurança do cluster com Kerberos.
"... Os materiais foram muito bem preparados e abrangentes. A Labs foram muito úteis e bem organizadas"
— Andrew Nguyen, Engenheiro de Integração DW Principal, Microsoft Online Advertising
Público-Alvo
Administradores do Hadoop
Formato
Aulas e laboratórios práticos, aproximadamente 60% aulas, 40% labs.
Hadoop para Desenvolvedores (4 dias)
28 HorasApache Hadoop é o framework mais popular para processar Big Data em clusters de servidores. Este curso introduzirá os desenvolvedores a vários componentes do ecossistema Hadoop (HDFS, MapReduce, Pig, Hive e HBase).
Hadoop Avançado para Desenvolvedores
21 HorasO Apache Hadoop é um dos frameworks mais populares para processamento de Big Data em clusters de servidores. Este curso mergulha na gestão de dados no HDFS, Pig avançado, Hive e HBase. Essas técnicas de programação avançadas serão benéficas para desenvolvedores experientes com Hadoop.
Público: desenvolvedores
Duração: três dias
Formato: palestras (50%) e laboratórios práticos (50%).
Administração Hadoop no MapR
28 HorasPúblico-alvo:
Este curso tem como objetivo desmistificar a tecnologia de big data/Hadoop e mostrar que ela não é difícil de entender.
Hadoop e Spark para Administradores
35 HorasEste treinamento liderado por instrutor (online ou presencial) é direcionado a administradores de sistemas que desejam aprender como configurar, implantar e gerenciar clusters Hadoop dentro de sua organização.
Ao final deste treinamento, os participantes serão capazes de:
- Instalar e configurar o Apache Hadoop.
- Compreender as quatro principais componentes do ecossistema Hadoop: HDFS, MapReduce, YARN e Hadoop Common.
- Usar o Hadoop Distributed File System (HDFS) para escalar um cluster para centenas ou milhares de nós.
- Configurar o HDFS para operar como mecanismo de armazenamento para implantações de Spark on-premise.
- Configurar o Spark para acessar soluções de armazenamento alternativas, como Amazon S3 e sistemas de banco de dados NoSQL, como Redis, Elasticsearch, Couchbase, Aerospike, etc.
- Realizar tarefas administrativas, como provisionamento, gerenciamento, monitoramento e segurança de um cluster Apache Hadoop.
HBase para Desenvolvedores
21 HorasEste curso introduz HBase, e é dirigido a todos aqueles desenvolvedores que utilizarão o HBase para desenvolver aplicações, e administradores que vao manejar clusters HBase.
Vamos a guiar um desenvolvedor através da arquitetura HBase e modelagem de dados e desenvolvimento de aplicações em HBase. Também vamos discutir utilizando MapReduce com HBase, e alguns tópicos administrativos.
Apache NiFi para Administradores
21 HorasO Apache NiFi é uma plataforma de integração e processamento de eventos baseada em fluxo. Ele permite a roteirização, transformação e mediação automatizadas e em tempo real de dados entre sistemas heterogêneos, com uma interface web e controle granular.
Este treinamento liderado por instrutor (presencial ou remoto) é direcionado a administradores e engenheiros intermediários que desejam implantar, gerenciar, proteger e otimizar fluxos de dados do NiFi em ambientes de produção.
No final deste treinamento, os participantes serão capazes de:
- Instalar, configurar e manter clusters Apache NiFi.
- Projetar e gerenciar fluxos de dados de várias fontes e destinos.
- Implementar lógica de automação, roteirização e transformação de fluxo.
- Otimizar o desempenho, monitorar operações e solucionar problemas.
Formato do Curso
- Aula interativa com discussão de arquitetura no mundo real.
- Laboratórios práticos: construção, implantação e gerenciamento de fluxos.
- Exercícios baseados em cenários em um ambiente de laboratório ao vivo.
Opções de Customização do Curso
- Para solicitar um treinamento personalizado para este curso, entre em contato conosco para organizar.
Apache NiFi para Desenvolvedores
7 HorasNeste treinamento ao vivo conduzido por instrutor em Brasil, os participantes aprenderão os fundamentos da programação baseada em fluxo à medida que desenvolvem uma série de extensões de demonstração, componentes e processadores usando Apache NiFi.
No final deste treinamento, os participantes serão capazes de:
- Compreender a arquitetura do NiFi e os conceitos de fluxo de dados.
- Desenvolver extensões usando NiFi e APIs de terceiros.
- Desenvolver seu próprio processador Apache Nifi.
- Ingerir e processar dados em tempo real de formatos de arquivos e fontes de dados diferentes e incomuns.
PySpark e Machine Learning
21 HorasEste treinamento oferece uma introdução prática à criação de fluxos de trabalho escaláveis de processamento de dados e Machine Learning utilizando PySpark. Os participantes aprenderão como o Apache Spark opera dentro dos ecossistemas modernos de Big Data e como processar grandes conjuntos de dados de forma eficiente, aplicando os princípios da computação distribuída.
Python e Spark para Big Data (PySpark)
21 HorasNeste treinamento ao vivo conduzido por instrutor em Brasil, os participantes aprenderão como usar Python e Spark juntos para analisar big data enquanto trabalham em exercícios práticos.
Ao final deste treinamento, os participantes serão capazes de:
- Aprenda a usar o Spark com Python para analisar Big Data.
- Trabalhe em exercícios que imitam casos do mundo real.
- Use diferentes ferramentas e técnicas para análise de big data usando PySpark.
Python, Spark e Hadoop para Big Data
21 HorasEste treinamento ao vivo conduzido por instrutor em Brasil (no local ou remoto) é destinado a desenvolvedores que desejam usar e integrar o Spark, Hadoop e Python para processar, analisar e transformar conjuntos de dados grandes e complexos.
No final deste treinamento, os participantes serão capazes de:
- Configurar o ambiente necessário para iniciar o processamento de big data com Spark, Hadoop e Python.
- Compreender os recursos, componentes principais e arquitetura do Spark e Hadoop.
- Aprender como integrar Spark, Hadoop e Python para o processamento de big data.
- Explorar as ferramentas do ecossistema Spark (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka e Flume).
- Construir sistemas de recomendação de filtragem colaborativa semelhantes a Netflix, YouTube, Amazon, Spotify e Google.
- Utilizar o Apache Mahout para escalar algoritmos de aprendizagem automática.
Stratio: Módulos Rocket e Intelligence com PySpark
14 HorasA Stratio é uma plataforma centrada em dados que integra big data, IA e governança em uma única solução. Seus módulos Rocket e Intelligence permitem a exploração rápida de dados, transformação e análises avançadas em ambientes empresariais.
Esta formação presencial (online ou no local), orientada por instrutor, é direcionada a profissionais de dados intermediários que desejam usar os módulos Rocket e Intelligence na Stratio efetivamente com PySpark, focando em estruturas de repetição, funções definidas pelo usuário e lógica de dados avançada.
Ao final deste treinamento, os participantes serão capazes de:
- Navegar e trabalhar dentro da plataforma Stratio usando os módulos Rocket e Intelligence.
- Aplicar PySpark no contexto de ingestão de dados, transformação e análise.
- Usar loops e lógica condicional para controlar fluxos de trabalho de dados e tarefas de engenharia de recursos.
- Criar e gerenciar funções definidas pelo usuário (UDFs) para operações reutilizáveis em PySpark.
Formato do Curso
- Aula interativa e discussão.
- Muitos exercícios e prática.
- Implementação hands-on em um ambiente de laboratório ao vivo.
Opções de Personalização do Curso
- Para solicitar uma formação personalizada para este curso, entre em contato conosco para agendar.