Programa do Curso
Introdução, Objetivos e Estratégia de Migração
- Metas do curso, alinhamento do perfil dos participantes e critérios de sucesso
- Abordagens gerais de migração e considerações de risco
- Configuração de workspaces, repositórios e conjuntos de dados de laboratório
Dia 1 — Fundamentos da Migração e Arquitetura
- Conceitos Lakehouse, visão geral do Delta Lake e arquitetura do Databricks
- Diferenças entre SMP vs MPP e suas implicações para a migração
- Design Medallion (Bronze→Silver→Gold) e visão geral do Unity Catalog
Laboratório do Dia 1 — Traduzindo um Procedimento Armazenado
- Migração prática de um procedimento armazenado de exemplo para um notebook
- Mapeamento de tabelas temporárias e cursores para transformações DataFrame
- Validação e comparação com a saída original
Dia 2 — Delta Lake Avançado & Carregamento Incremental
- Transações ACID, logs de commit, versionamento e viagem no tempo
- Auto Loader, padrões MERGE INTO, upserts e evolução de esquema
- OPTIMIZE, VACUUM, Z-ORDER, particionamento e ajuste de armazenamento
Laboratório do Dia 2 — Ingestão Incremental & Otimização
- Implementação de ingestão Auto Loader e fluxos de trabalho MERGE
- Aplicação de OPTIMIZE, Z-ORDER e VACUUM; validação dos resultados
- Medição das melhorias no desempenho de leitura/escrita
Dia 3 — SQL no Databricks, Desempenho & Depuração
- Recursos analíticos do SQL: funções de janela, funções de ordem superior, manipulação de JSON/array
- Leitura da Spark UI, DAGs, embaralhamentos, estágios, tarefas e diagnóstico de gargalos
- Padrões de ajuste de consultas: junções de transmissão, dicas, cache e redução de vazamento
Laboratório do Dia 3 — Refatoração SQL & Ajuste de Desempenho
- Refatorar um processo SQL pesado para Spark SQL otimizado
- Usar rastreamentos da Spark UI para identificar e corrigir problemas de distorção e embaralhamento
- Benchmark antes/depois e documentação das etapas de ajuste
Dia 4 — PySpark Tático: Substituindo Lógica Procedural
- Modelo de execução do Spark: driver, executores, avaliação preguiçosa e estratégias de particionamento
- Transformação de loops e cursores em operações DataFrame vetoriais
- Modularização, UDFs/UDFs pandas, widgets e bibliotecas reutilizáveis
Laboratório do Dia 4 — Refatoração de Scripts Procedurais
- Refatorar um script ETL procedural em notebooks PySpark modulares
- Introduzir parametrização, testes estilo unidade e funções reutilizáveis
- Revisão de código e aplicação de checklist de boas práticas
Dia 5 — Orquestração, Pipeline End-to-End & Melhores Práticas
- Workflows do Databricks: design de trabalho, dependências de tarefas, gatilhos e tratamento de erros
- Projetando pipelines Medallion incrementais com regras de qualidade e validação de esquema
- Integração com Git (GitHub/Azure DevOps), CI, e estratégias de testes para lógica PySpark
Laboratório do Dia 5 — Construir um Pipeline Completo End-to-End
- Montar pipeline Bronze→Silver→Gold orquestrado com Workflows
- Implementar logging, auditoria, tentativas e validações automáticas
- Executar pipeline completo, validar saídas e preparar notas de implantação
Operacionalização, Governança e Prontidão para Produção
- Melhores práticas de governança Unity Catalog, linha do tempo e controles de acesso
- Custo, dimensionamento de clusters, escalonamento automático e padrões de concorrência de trabalho
- Checklists de implantação, estratégias de rollback e criação de guia de operações
Revisão Final, Transferência de Conhecimento e Próximos Passos
- Apresentações dos participantes do trabalho de migração e lições aprendidas
- Análise de lacunas, atividades recomendadas para acompanhamento e entrega de materiais didáticos
- Referências, caminhos adicionais de aprendizado e opções de suporte
Requisitos
- Compreensão dos conceitos de engenharia de dados
- Experiência com SQL e procedimentos armazenados (Synapse / SQL Server)
- Familiaridade com conceitos de orquestração ETL (ADF ou similar)
Público-Alvo
- Gerentes de tecnologia com experiência em engenharia de dados
- Engenheiros de dados transitando lógica procedural OLAP para padrões Lakehouse
- Engenheiros de plataforma responsáveis pela adoção do Databricks