Programa do Curso

Introdução, Objetivos e Estratégia de Migração

  • Metas do curso, alinhamento do perfil dos participantes e critérios de sucesso
  • Abordagens gerais de migração e considerações de risco
  • Configuração de workspaces, repositórios e conjuntos de dados de laboratório

Dia 1 — Fundamentos da Migração e Arquitetura

  • Conceitos Lakehouse, visão geral do Delta Lake e arquitetura do Databricks
  • Diferenças entre SMP vs MPP e suas implicações para a migração
  • Design Medallion (Bronze→Silver→Gold) e visão geral do Unity Catalog

Laboratório do Dia 1 — Traduzindo um Procedimento Armazenado

  • Migração prática de um procedimento armazenado de exemplo para um notebook
  • Mapeamento de tabelas temporárias e cursores para transformações DataFrame
  • Validação e comparação com a saída original

Dia 2 — Delta Lake Avançado & Carregamento Incremental

  • Transações ACID, logs de commit, versionamento e viagem no tempo
  • Auto Loader, padrões MERGE INTO, upserts e evolução de esquema
  • OPTIMIZE, VACUUM, Z-ORDER, particionamento e ajuste de armazenamento

Laboratório do Dia 2 — Ingestão Incremental & Otimização

  • Implementação de ingestão Auto Loader e fluxos de trabalho MERGE
  • Aplicação de OPTIMIZE, Z-ORDER e VACUUM; validação dos resultados
  • Medição das melhorias no desempenho de leitura/escrita

Dia 3 — SQL no Databricks, Desempenho & Depuração

  • Recursos analíticos do SQL: funções de janela, funções de ordem superior, manipulação de JSON/array
  • Leitura da Spark UI, DAGs, embaralhamentos, estágios, tarefas e diagnóstico de gargalos
  • Padrões de ajuste de consultas: junções de transmissão, dicas, cache e redução de vazamento

Laboratório do Dia 3 — Refatoração SQL & Ajuste de Desempenho

  • Refatorar um processo SQL pesado para Spark SQL otimizado
  • Usar rastreamentos da Spark UI para identificar e corrigir problemas de distorção e embaralhamento
  • Benchmark antes/depois e documentação das etapas de ajuste

Dia 4 — PySpark Tático: Substituindo Lógica Procedural

  • Modelo de execução do Spark: driver, executores, avaliação preguiçosa e estratégias de particionamento
  • Transformação de loops e cursores em operações DataFrame vetoriais
  • Modularização, UDFs/UDFs pandas, widgets e bibliotecas reutilizáveis

Laboratório do Dia 4 — Refatoração de Scripts Procedurais

  • Refatorar um script ETL procedural em notebooks PySpark modulares
  • Introduzir parametrização, testes estilo unidade e funções reutilizáveis
  • Revisão de código e aplicação de checklist de boas práticas

Dia 5 — Orquestração, Pipeline End-to-End & Melhores Práticas

  • Workflows do Databricks: design de trabalho, dependências de tarefas, gatilhos e tratamento de erros
  • Projetando pipelines Medallion incrementais com regras de qualidade e validação de esquema
  • Integração com Git (GitHub/Azure DevOps), CI, e estratégias de testes para lógica PySpark

Laboratório do Dia 5 — Construir um Pipeline Completo End-to-End

  • Montar pipeline Bronze→Silver→Gold orquestrado com Workflows
  • Implementar logging, auditoria, tentativas e validações automáticas
  • Executar pipeline completo, validar saídas e preparar notas de implantação

Operacionalização, Governança e Prontidão para Produção

  • Melhores práticas de governança Unity Catalog, linha do tempo e controles de acesso
  • Custo, dimensionamento de clusters, escalonamento automático e padrões de concorrência de trabalho
  • Checklists de implantação, estratégias de rollback e criação de guia de operações

Revisão Final, Transferência de Conhecimento e Próximos Passos

  • Apresentações dos participantes do trabalho de migração e lições aprendidas
  • Análise de lacunas, atividades recomendadas para acompanhamento e entrega de materiais didáticos
  • Referências, caminhos adicionais de aprendizado e opções de suporte

Requisitos

  • Compreensão dos conceitos de engenharia de dados
  • Experiência com SQL e procedimentos armazenados (Synapse / SQL Server)
  • Familiaridade com conceitos de orquestração ETL (ADF ou similar)

Público-Alvo

  • Gerentes de tecnologia com experiência em engenharia de dados
  • Engenheiros de dados transitando lógica procedural OLAP para padrões Lakehouse
  • Engenheiros de plataforma responsáveis pela adoção do Databricks
 35 Horas

Número de participantes


Preço por Participante

Próximas Formações Provisórias

Categorias Relacionadas