Entrar em Contato

Programa do Curso

PySpark e Machine Learning 

Módulo 1: Fundamentos de Big Data e Spark

  • Visão geral do ecossistema de Big Data e o papel do Spark nas plataformas de dados modernas
  • Compreensão da arquitetura do Spark: driver, executores, gerenciador de cluster, avaliação preguiçosa (lazy evaluation), DAG e planejamento de execução
  • Diferenças entre as APIs RDD e DataFrame e quando utilizar cada abordagem
  • Criação e configuração do SparkSession e compreensão dos fundamentos da configuração de aplicações

Módulo 2: DataFrames do PySpark

  • Leitura e gravação de dados a partir de fontes e formatos empresariais (CSV, JSON, Parquet, Delta)
  • Trabalho com DataFrames do PySpark: transformações, ações, expressões de coluna, filtragem, joins e agregações
  • Implementação de operações avançadas, como funções de janela, tratamento de carimbos de data e hora (timestamps) e manipulação de dados aninhados
  • Aplicação de verificações de qualidade de dados e escrita de código PySpark reutilizável e de fácil manutenção

Módulo 3: Processamento Eficiente de Grandes Conjuntos de Dados

  • Compreensão dos fundamentos de desempenho: estratégias de particionamento, comportamento de shuffle, cache e persistência
  • Uso de técnicas de otimização, incluindo joins de broadcast e análise do plano de execução
  • Processamento eficiente de grandes conjuntos de dados e melhores práticas para fluxos de trabalho de dados escaláveis
  • Compreensão da evolução de esquema e dos formatos de armazenamento modernos utilizados em ambientes empresariais

Módulo 4: Engenharia de Características (Feature Engineering) em Escala

  • Realização de engenharia de características com o Spark MLlib: tratamento de valores ausentes, codificação de variáveis categóricas e escalonamento de características
  • Projeto de etapas de pré-processamento reutilizáveis e preparação de conjuntos de dados para pipelines de Machine Learning
  • Introdução à seleção de características e ao tratamento de conjuntos de dados desbalanceados

Módulo 5: Machine Learning com Spark MLlib

  • Compreensão da arquitetura do MLlib e do padrão Estimator/Transformer
  • Treinamento de modelos de regressão e classificação em escala (Regressão Linear, Regressão Logística, Árvores de Decisão, Floresta Aleatória)
  • Comparação de modelos e interpretação de resultados em fluxos de trabalho distribuídos de Machine Learning

Módulo 6: Pipelines de ML de Ponta a Ponta

  • Construção de pipelines de Machine Learning de ponta a ponta, combinando pré-processamento, engenharia de características e modelagem
  • Aplicação de estratégias de divisão dos conjuntos de dados em treinamento, validação e teste
  • Realização de validação cruzada e ajuste de hiperparâmetros utilizando busca em grade (grid search) e busca aleatória (random search)
  • Estruturação de experimentos de Machine Learning reprodutíveis

Módulo 7: Avaliação de Modelos e Tomada de Decisão Prática em ML

  • Aplicação de métricas de avaliação adequadas para problemas de regressão e classificação
  • Identificação de sobreajuste (overfitting) e subajuste (underfitting) e tomada de decisões práticas na seleção de modelos
  • Interpretação da importância das características e compreensão do comportamento do modelo

Módulo 8: Práticas de Produção e Empresariais

  • Persistência e carregamento de modelos no Spark
  • Implementação de fluxos de trabalho de inferência em lote (batch) em grandes conjuntos de dados
  • Compreensão do ciclo de vida do Machine Learning em ambientes empresariais
  • Introdução aos conceitos de versionamento, rastreamento de experimentos e estratégias básicas de teste

 

Resultado Prático

  • Capacidade de trabalhar autonomamente com PySpark
  • Capacidade de processar grandes conjuntos de dados de forma eficiente
  • Capacidade de realizar engenharia de características em escala
  • Capacidade de construir pipelines de Machine Learning escaláveis

Requisitos

Os participantes devem possuir os seguintes conhecimentos prévios:

Conhecimento básico de programação em Python, incluindo trabalho com funções, estruturas de dados e bibliotecas
Compreensão fundamental de conceitos de análise de dados, como conjuntos de dados, transformações e agregações
Conhecimento básico de SQL e conceitos de dados relacionais
Entendimento introdutório de conceitos de Machine Learning, como conjuntos de dados de treinamento, características (features) e métricas de avaliação
Familiaridade com ambientes de linha de comando e práticas básicas de desenvolvimento de software é recomendada

Experiência com Pandas, NumPy ou bibliotecas semelhantes de processamento de dados é útil, mas não obrigatória.

 21 Horas

Número de participantes


Preço por participante

Testemunhos de Clientes (1)

Próximas Formações Provisórias

Categorias Relacionadas