Programa do Curso
PySpark e Machine Learning
Módulo 1: Fundamentos de Big Data e Spark
- Visão geral do ecossistema de Big Data e o papel do Spark nas plataformas de dados modernas
- Compreensão da arquitetura do Spark: driver, executores, gerenciador de cluster, avaliação preguiçosa (lazy evaluation), DAG e planejamento de execução
- Diferenças entre as APIs RDD e DataFrame e quando utilizar cada abordagem
- Criação e configuração do SparkSession e compreensão dos fundamentos da configuração de aplicações
Módulo 2: DataFrames do PySpark
- Leitura e gravação de dados a partir de fontes e formatos empresariais (CSV, JSON, Parquet, Delta)
- Trabalho com DataFrames do PySpark: transformações, ações, expressões de coluna, filtragem, joins e agregações
- Implementação de operações avançadas, como funções de janela, tratamento de carimbos de data e hora (timestamps) e manipulação de dados aninhados
- Aplicação de verificações de qualidade de dados e escrita de código PySpark reutilizável e de fácil manutenção
Módulo 3: Processamento Eficiente de Grandes Conjuntos de Dados
- Compreensão dos fundamentos de desempenho: estratégias de particionamento, comportamento de shuffle, cache e persistência
- Uso de técnicas de otimização, incluindo joins de broadcast e análise do plano de execução
- Processamento eficiente de grandes conjuntos de dados e melhores práticas para fluxos de trabalho de dados escaláveis
- Compreensão da evolução de esquema e dos formatos de armazenamento modernos utilizados em ambientes empresariais
Módulo 4: Engenharia de Características (Feature Engineering) em Escala
- Realização de engenharia de características com o Spark MLlib: tratamento de valores ausentes, codificação de variáveis categóricas e escalonamento de características
- Projeto de etapas de pré-processamento reutilizáveis e preparação de conjuntos de dados para pipelines de Machine Learning
- Introdução à seleção de características e ao tratamento de conjuntos de dados desbalanceados
Módulo 5: Machine Learning com Spark MLlib
- Compreensão da arquitetura do MLlib e do padrão Estimator/Transformer
- Treinamento de modelos de regressão e classificação em escala (Regressão Linear, Regressão Logística, Árvores de Decisão, Floresta Aleatória)
- Comparação de modelos e interpretação de resultados em fluxos de trabalho distribuídos de Machine Learning
Módulo 6: Pipelines de ML de Ponta a Ponta
- Construção de pipelines de Machine Learning de ponta a ponta, combinando pré-processamento, engenharia de características e modelagem
- Aplicação de estratégias de divisão dos conjuntos de dados em treinamento, validação e teste
- Realização de validação cruzada e ajuste de hiperparâmetros utilizando busca em grade (grid search) e busca aleatória (random search)
- Estruturação de experimentos de Machine Learning reprodutíveis
Módulo 7: Avaliação de Modelos e Tomada de Decisão Prática em ML
- Aplicação de métricas de avaliação adequadas para problemas de regressão e classificação
- Identificação de sobreajuste (overfitting) e subajuste (underfitting) e tomada de decisões práticas na seleção de modelos
- Interpretação da importância das características e compreensão do comportamento do modelo
Módulo 8: Práticas de Produção e Empresariais
- Persistência e carregamento de modelos no Spark
- Implementação de fluxos de trabalho de inferência em lote (batch) em grandes conjuntos de dados
- Compreensão do ciclo de vida do Machine Learning em ambientes empresariais
- Introdução aos conceitos de versionamento, rastreamento de experimentos e estratégias básicas de teste
Resultado Prático
- Capacidade de trabalhar autonomamente com PySpark
- Capacidade de processar grandes conjuntos de dados de forma eficiente
- Capacidade de realizar engenharia de características em escala
- Capacidade de construir pipelines de Machine Learning escaláveis
Requisitos
Os participantes devem possuir os seguintes conhecimentos prévios:
Conhecimento básico de programação em Python, incluindo trabalho com funções, estruturas de dados e bibliotecas
Compreensão fundamental de conceitos de análise de dados, como conjuntos de dados, transformações e agregações
Conhecimento básico de SQL e conceitos de dados relacionais
Entendimento introdutório de conceitos de Machine Learning, como conjuntos de dados de treinamento, características (features) e métricas de avaliação
Familiaridade com ambientes de linha de comando e práticas básicas de desenvolvimento de software é recomendada
Experiência com Pandas, NumPy ou bibliotecas semelhantes de processamento de dados é útil, mas não obrigatória.
Testemunhos de Clientes (1)
Gostei do fato de ser prático. Adorei aplicar o conhecimento teórico com exemplos práticos.
Aurelia-Adriana - Allianz Services Romania
Curso - Python and Spark for Big Data (PySpark)
Máquina Traduzida