Curso de Streaming de Dados e Processamento de Dados em Tempo Real
Visão Geral do Curso
Este curso oferece uma introdução prática e estruturada à construção de sistemas de streaming de dados em tempo real. Aborda conceitos fundamentais, padrões de arquitetura e ferramentas do setor utilizadas para processar dados contínuos em larga escala. Os participantes aprenderão como projetar, implementar e otimizar pipelines de streaming utilizando frameworks modernos. O curso avança de ideias fundamentais para aplicações práticas, permitindo que os participantes construam com confiança soluções de tempo real prontas para produção.
Formato do Treinamento
• Sessões ministradas por instrutor com explicações guiadas
• Explicação detalhada dos conceitos com exemplos do mundo real
• Demonstrações práticas e exercícios de codificação
• Laboratórios progressivos alinhados aos tópicos diários
• Discussões interativas e sessão de perguntas e respostas
Objetivos do Curso
• Compreender os conceitos de streaming de dados em tempo real e a arquitetura de sistemas
• Diferenciar entre os modelos de processamento de dados em lote e em streaming
• Projetar pipelines de streaming escaláveis e tolerantes a falhas
• Trabalhar com ferramentas e frameworks de streaming distribuído
• Aplicar processamento em tempo de evento, janelas (windowing) e operações com estado
• Construir e otimizar soluções de dados em tempo real para casos de uso empresarial
Programa do Curso
Ementa do Curso - Dia 1
• Introdução aos conceitos de streaming de dados
• Fundamentos do processamento em lote versus em tempo real
• Noções básicas de arquitetura orientada a eventos
• Principais casos de uso na indústria
• Visão geral do ecossistema de streaming
Dia 2
• Padrões de design de arquitetura de streaming
• Fundamentos de sistemas de mensagens distribuídos
• Produtores e consumidores
• Tópicos, partições e fluxo de dados
• Estratégias de ingestão de dados
Dia 3
• Conceitos e frameworks de processamento de fluxo
• Tempo de evento versus tempo de processamento
• Técnicas de janelamento (windowing) e casos de uso
• Processamento de fluxo com estado
• Tolerância a falhas e noções básicas de checkpointing
Dia 4
• Transformação de dados em pipelines de streaming
• ETL e ELT em sistemas de tempo real
• Gestão e evolução de esquemas
• Junções de fluxo e enriquecimento de dados
• Introdução aos serviços de streaming baseados em nuvem
Dia 5
• Monitoramento e observabilidade em sistemas de streaming
• Segurança e controles de acesso básicos
• Ajuste de desempenho e otimização
• Revisão do design do pipeline de ponta a ponta
• Casos de uso reais, como detecção de fraude e processamento de IoT
Os cursos de treinamento abertos exigem mais de 5 participantes.
Curso de Streaming de Dados e Processamento de Dados em Tempo Real - Reserva
Curso de Streaming de Dados e Processamento de Dados em Tempo Real - Consulta
Streaming de Dados e Processamento de Dados em Tempo Real - SOLICITAÇÃO DE CONSULTORIA
Testemunhos de Clientes (1)
Exercícios práticos. A turma deveria ter durado 5 dias, mas os 3 dias ajudaram a esclarecer muitas das minhas dúvidas sobre o trabalho com NiFi.
James - BHG Financial
Curso - Apache NiFi for Administrators
Máquina Traduzida
Próximas Formações Provisórias
Cursos Relacionados
Avançado em Apache Iceberg
21 HorasEste treinamento presencial, conduzido por um instrutor em Brasil (online ou no local), é direcionado a profissionais de dados de nível avançado que desejam otimizar fluxos de trabalho de processamento de dados, garantir a integridade dos dados e implementar soluções robustas de data lakehouse capazes de lidar com as complexidades das aplicações de big data modernas.
Ao final deste treinamento, os participantes serão capazes de:
- Obter uma compreensão aprofundada da arquitetura do Iceberg, incluindo gerenciamento de metadados e layout de arquivos.
- Configurar o Iceberg para desempenho ótimo em diferentes ambientes e integrá-lo com múltiplos motores de processamento de dados.
- Gerenciar tabelas do Iceberg em larga escala, realizar alterações complexas no esquema e lidar com a evolução das partições.
- Dominar técnicas para otimizar o desempenho de consultas e a eficiência da leitura de dados em grandes conjuntos de dados.
- Implementar mecanismos para garantir a consistência dos dados, gerenciar garantias transacionais e lidar com falhas em ambientes distribuídos.
Fundamentos do Apache Iceberg
14 HorasEste treinamento presencial, ministrado por um instrutor em Brasil (online ou no local), é voltado para profissionais de dados de nível iniciante que desejam adquirir os conhecimentos e habilidades necessários para utilizar efetivamente o Apache Iceberg na gestão de conjuntos de dados de grande escala, garantindo a integridade dos dados e otimizando fluxos de trabalho de processamento de dados.
Ao final deste treinamento, os participantes serão capazes de:
- Obter uma compreensão aprofundada da arquitetura, recursos e benefícios do Apache Iceberg.
- Aprender sobre formatos de tabelas, particionamento, evolução de esquemas e capacidades de viagem no tempo.
- Instalar e configurar o Apache Iceberg em diferentes ambientes.
- Criar, gerenciar e manipular tabelas do Iceberg.
- Compreender o processo de migração de dados de outros formatos de tabela para o Iceberg.
Análise de Grandes Dados com Google Colab e Apache Spark
14 HorasEste treinamento ao vivo, conduzido por instrutor em Brasil (online ou presencial), é direcionado a cientistas de dados e engenheiros intermediários que desejam usar Google Colab e Apache Spark para processamento e análise de big data.
Ao final deste treinamento, os participantes serão capazes de:
- Configurar um ambiente de big data usando Google Colab e Spark.
- Processar e analisar grandes conjuntos de dados eficientemente com Apache Spark.
- Visualizar big data em um ambiente colaborativo.
- Integrar Apache Spark com ferramentas baseadas na nuvem.
Inteligência de Negócios Big Data para Agências do Governo
35 HorasAvanços em tecnologias e o aumento cada vez maior da quantidade de informações estão transformando a forma como os negócios são conduzidos em muitas indústrias, incluindo o governo. As taxas de geração e arquivamento digital de dados governamentais estão em ascensão devido ao rápido crescimento de dispositivos móveis e aplicativos, sensores inteligentes e dispositivos, soluções de computação em nuvem e portais voltados para os cidadãos. À medida que as informações digitais se expandem e ficam mais complexas, a gestão, processamento, armazenamento, segurança e disposição desses dados também se tornam mais complexos. Novas ferramentas de captura, pesquisa, descoberta e análise estão ajudando organizações a obter insights de seus dados não estruturados. O mercado governamental está em um ponto de inflexão, reconhecendo que a informação é um ativo estratégico, e o governo precisa proteger, aproveitar e analisar tanto informações estruturadas quanto não estruturadas para melhor servir e cumprir suas missões. Conforme os líderes governamentais buscam evoluir organizações baseadas em dados para realizar com sucesso sua missão, estão estabelecendo as bases para correlacionar dependências entre eventos, pessoas, processos e informações.
Soluções de alto valor para o governo serão criadas a partir de uma mistura das tecnologias mais disruptivas:
- Dispositivos móveis e aplicativos
- Serviços em nuvem
- Tecnologias de negócios sociais e redes sociais
- Big Data e análise
O Big Data é uma das soluções inteligentes da indústria e permite que o governo tome melhores decisões baseadas em padrões revelados pela análise de grandes volumes de dados — relacionados ou não, estruturados ou não estruturados.
Mas alcançar esses feitos vai muito além de simplesmente acumular quantidades massivas de dados. “Dar sentido a esses volumes de Big Data requer ferramentas e tecnologias de ponta capazes de analisar e extrair conhecimento útil de fluxos vastos e diversos de informações”, escreveram Tom Kalil e Fen Zhao do Escritório de Ciência e Tecnologia da Casa Branca em um post no blog OSTP.
A Casa Branca deu um passo importante para ajudar as agências a encontrar essas tecnologias quando estabeleceu a Iniciativa Nacional de Pesquisa e Desenvolvimento Big Data em 2012. A iniciativa incluiu mais de $200 milhões para aproveitar ao máximo a explosão do Big Data e as ferramentas necessárias para analisá-lo.
Os desafios que o Big Data apresenta são quase tão formidáveis quanto sua promessa é encorajadora. Armazenar dados de forma eficiente é um desses desafios. Como sempre, os orçamentos são apertados, então as agências devem minimizar o custo por megabyte de armazenamento e manter os dados acessíveis para que os usuários possam obtê-los quando quiserem e da forma como precisam. Fazer backup de quantidades massivas de dados aumenta ainda mais esse desafio.
Analisar os dados efetivamente é outro grande desafio. Muitas agências empregam ferramentas comerciais que lhes permitem vasculhar montanhas de dados, identificando tendências que podem ajudá-las a operar com mais eficiência. (Um estudo recente da MeriTalk revelou que executivos de TI federais acreditam que o Big Data poderia ajudar as agências a economizar mais de $500 bilhões enquanto também cumprem suas missões.).
Ferramentas personalizadas de Big Data também estão permitindo que as agências abordem a necessidade de analisar seus dados. Por exemplo, o Laboratório Nacional Oak Ridge, por meio do Grupo de Análise de Dados Computacionais, disponibilizou seu sistema de análise de dados Piranha para outras agências. O sistema ajudou pesquisadores médicos a encontrar um link que pode alertar os médicos sobre aneurismas da aorta antes que ocorram. Também é usado para tarefas mais mundanas, como filtrar currículos para conectar candidatos a vagas com gerentes de contratação.
Uma Introdução Prática ao Data Analysis e ao Big Data - 3 Dias
21 HorasOs participantes que concluírem este treinamento ao vivo conduzido por instrutor em Brasil obterão uma compreensão prática e real do Big Data e de suas tecnologias, metodologias e ferramentas relacionadas.
Os participantes terão a oportunidade de colocar esse conhecimento em prática por meio de exercícios práticos. A interação em grupo e o feedback do formador constituem uma componente importante da aula.
O curso começa com uma introdução aos conceitos elementares de Big Data, depois avança para as linguagens de programação e metodologias usadas para executar Data Analysis. Finalmente, discutimos as ferramentas e a infraestrutura que permitem o armazenamento Big Data, o Processamento Distribuído e a Scalabilidade.
Big Data e Análise Avançada
42 HorasBig Data e Advanced Analytics é a aplicação de técnicas e ferramentas sofisticadas para analisar conjuntos de dados grandes e complexos com insights operacionais e decisões estratégicas.
Este treinamento dirigido pelo instrutor (online ou presencial) destina-se a profissionais avançados de dados que desejam aproveitar métodos analíticos de ponta e tecnologias big data para análise preditiva, prescritiva e em tempo real.
Ao final deste treinamento, os participantes serão capazes de:
- Projetar e implementar pipelines de processamento de dados em grande escala para dados estruturados e não estruturados.
- Aplique técnicas avançadas de aprendizado de máquina e deep learning a conjuntos de dados massivos.
- Leverage frameworks de computação distribuída para análise em tempo real e fluxo de dados.
- Integrar análises big data em sistemas de inteligência empresarial e tomada de decisões.
Formato do Curso
- Aula interativa e discussão.
- Muitos exercícios e prática.
- Implementação hands-on em um ambiente de laboratório ao vivo.
Opções de Customização do Treinamento
- Para solicitar um treinamento personalizado para este curso, entre em contato conosco para agendar.
Apache NiFi para Administradores
21 HorasO Apache NiFi é uma plataforma de integração e processamento de eventos baseada em fluxo. Ele permite a roteirização, transformação e mediação automatizadas e em tempo real de dados entre sistemas heterogêneos, com uma interface web e controle granular.
Este treinamento liderado por instrutor (presencial ou remoto) é direcionado a administradores e engenheiros intermediários que desejam implantar, gerenciar, proteger e otimizar fluxos de dados do NiFi em ambientes de produção.
No final deste treinamento, os participantes serão capazes de:
- Instalar, configurar e manter clusters Apache NiFi.
- Projetar e gerenciar fluxos de dados de várias fontes e destinos.
- Implementar lógica de automação, roteirização e transformação de fluxo.
- Otimizar o desempenho, monitorar operações e solucionar problemas.
Formato do Curso
- Aula interativa com discussão de arquitetura no mundo real.
- Laboratórios práticos: construção, implantação e gerenciamento de fluxos.
- Exercícios baseados em cenários em um ambiente de laboratório ao vivo.
Opções de Customização do Curso
- Para solicitar um treinamento personalizado para este curso, entre em contato conosco para organizar.
PySpark e Machine Learning
21 HorasEste treinamento oferece uma introdução prática à criação de fluxos de trabalho escaláveis de processamento de dados e Machine Learning utilizando PySpark. Os participantes aprenderão como o Apache Spark opera dentro dos ecossistemas modernos de Big Data e como processar grandes conjuntos de dados de forma eficiente, aplicando os princípios da computação distribuída.
Fundamentos do Apache Spark
21 HorasEste treinamento conduzido por instrutor (online ou presencial) em Brasil é voltado para engenheiros que desejam configurar e implantar o sistema Apache Spark para processar grandes volumes de dados.
Ao final deste treinamento, os participantes serão capazes de:
- Instalar e configurar o Apache Spark.
- Ler rapidamente e analisar grandes conjuntos de dados.
- Entender a diferença entre Apache Spark e Hadoop MapReduce e quando usar cada um.
- Integrar o Apache Spark com outras ferramentas de aprendizado de máquina.
Administração do Apache Spark
35 HorasEste treinamento ao vivo conduzido por instrutor em Brasil (no local ou remoto) é destinado a administradores de sistema de nível iniciante a intermediário que desejam implantar, manter e otimizar clusters Spark.
Ao final deste treinamento, os participantes serão capazes de:
- Instalar e configurar Apache Spark em vários ambientes.
- Gerenciar recursos de cluster e monitorar aplicativos Spark.
- Otimizar o desempenho dos clusters do Spark.
- Implementar medidas de segurança e garantir alta disponibilidade.
- Depurar e solucionar problemas comuns do Spark.
Apache Spark na Nuvem
21 HorasA curva de aprendizagem do Apache Spark aumenta lentamente no início, exigindo muito esforço para obter o primeiro retorno. Este curso visa ultrapassar a primeira parte difícil. Após concluir este curso, os participantes compreenderão os fundamentos do Apache Spark, distinguirão claramente RDD de DataFrame, aprenderão as APIs Python e Scala, entenderão executores e tarefas, etc. Seguindo as melhores práticas, este curso se concentra fortemente na implantação em nuvem, Databricks e AWS. Os alunos também compreenderão as diferenças entre AWS EMR e AWS Glue, um dos últimos serviços de Spark da AWS.
PÚBLICO:
Data Engineer, DevOps, Data Scientist
Python e Spark para Big Data (PySpark)
21 HorasNeste treinamento ao vivo conduzido por instrutor em Brasil, os participantes aprenderão como usar Python e Spark juntos para analisar big data enquanto trabalham em exercícios práticos.
Ao final deste treinamento, os participantes serão capazes de:
- Aprenda a usar o Spark com Python para analisar Big Data.
- Trabalhe em exercícios que imitam casos do mundo real.
- Use diferentes ferramentas e técnicas para análise de big data usando PySpark.
Python, Spark e Hadoop para Big Data
21 HorasEste treinamento ao vivo conduzido por instrutor em Brasil (no local ou remoto) é destinado a desenvolvedores que desejam usar e integrar o Spark, Hadoop e Python para processar, analisar e transformar conjuntos de dados grandes e complexos.
No final deste treinamento, os participantes serão capazes de:
- Configurar o ambiente necessário para iniciar o processamento de big data com Spark, Hadoop e Python.
- Compreender os recursos, componentes principais e arquitetura do Spark e Hadoop.
- Aprender como integrar Spark, Hadoop e Python para o processamento de big data.
- Explorar as ferramentas do ecossistema Spark (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka e Flume).
- Construir sistemas de recomendação de filtragem colaborativa semelhantes a Netflix, YouTube, Amazon, Spotify e Google.
- Utilizar o Apache Mahout para escalar algoritmos de aprendizagem automática.
Stratio: Módulos Rocket e Intelligence com PySpark
14 HorasA Stratio é uma plataforma centrada em dados que integra big data, IA e governança em uma única solução. Seus módulos Rocket e Intelligence permitem a exploração rápida de dados, transformação e análises avançadas em ambientes empresariais.
Esta formação presencial (online ou no local), orientada por instrutor, é direcionada a profissionais de dados intermediários que desejam usar os módulos Rocket e Intelligence na Stratio efetivamente com PySpark, focando em estruturas de repetição, funções definidas pelo usuário e lógica de dados avançada.
Ao final deste treinamento, os participantes serão capazes de:
- Navegar e trabalhar dentro da plataforma Stratio usando os módulos Rocket e Intelligence.
- Aplicar PySpark no contexto de ingestão de dados, transformação e análise.
- Usar loops e lógica condicional para controlar fluxos de trabalho de dados e tarefas de engenharia de recursos.
- Criar e gerenciar funções definidas pelo usuário (UDFs) para operações reutilizáveis em PySpark.
Formato do Curso
- Aula interativa e discussão.
- Muitos exercícios e prática.
- Implementação hands-on em um ambiente de laboratório ao vivo.
Opções de Personalização do Curso
- Para solicitar uma formação personalizada para este curso, entre em contato conosco para agendar.