Programa do Curso

1. Introdução ao Aprendizado por Reforço Profundo

  • O que é Aprendizado por Reforço?
  • Diferenças entre Aprendizado Supervisionado, Não Supervisionado e por Reforço
  • Aplicações do DRL em 2025 (robótica, saúde, finanças, logística)
  • Compreendendo o loop de interação agente-ambiente

2. Fundamentos do Aprendizado por Reforço

  • Processos Decisórios Markovianos (MDP)
  • Estado, Ação, Recompensa, Política e Funções de Valor
  • Dilema entre Exploração e Explotação
  • Métodos Monte Carlo e Aprendizado por Diferença Temporal (TD)

3. Implementando Algoritmos Básicos de RL

  • Métodos Tabulares: Programação Dinâmica, Avaliação de Políticas e Iteração
  • Q-Learning e SARSA
  • Estratégias de Exploração Epsilon-Greedy e Decaimento
  • Implementando Ambientes de RL com OpenAI Gymnasium

4. Transição para Aprendizado por Reforço Profundo

  • Limitações dos métodos tabulares
  • Usando redes neurais para aproximação de funções
  • Arquitetura e fluxo de trabalho da Rede Q-Profunda (DQN)
  • Replay de Experiência e Redes Alvo

5. Algoritmos Avançados de DRL

  • DQN Dupla, DQN Duelante e Replay de Experiência Prioritizado
  • Métodos de Gradiente de Política: Algoritmo REINFORCE
  • Arquiteturas Ator-Crítico (A2C, A3C)
  • Otimização de Política Proximal (PPO)
  • Critic Ator Suave (SAC)

6. Trabalhando com Espaços de Ação Contínuos

  • Desafios no controle contínuo
  • Usando DDPG (Gradiente de Política Determinístico Profundo)
  • DDPG com Atraso Duplo (TD3)

7. Ferramentas e Frameworks Práticos

  • Usando Stable-Baselines3 e Ray RLlib
  • Registro e monitoramento com TensorBoard
  • Ajuste de hiperparâmetros para modelos DRL

8. Engenharia de Recompensas e Design de Ambientes

  • Modelagem de recompensas e equilíbrio de penalidades
  • Conceitos de transferência simulação-realidade
  • Criação de ambientes personalizados no Gymnasium

9. Ambientes Parcialmente Observáveis e Generalização

  • Lidando com informações de estado incompletas (POMDPs)
  • Aproximações baseadas em memória usando LSTMs e RNNs
  • Melhorando a robustez e generalização do agente

10. Teoria dos Jogos e Aprendizado por Reforço Multiagentes

  • Introdução a ambientes multiagentes
  • Cooperação vs. Competição
  • Aplicações em treinamento adversarial e otimização de estratégia

11. Estudos de Caso e Aplicações Reais

  • Simulações de condução autônoma
  • Estratégias de precificação dinâmica e negociação financeira
  • Robótica e automação industrial

12. Solução de Problemas e Otimização

  • Detectando treinamento instável
  • Gestão da escassez de recompensas e overfitting
  • Escalando modelos DRL em GPUs e sistemas distribuídos

13. Resumo e Próximos Passos

  • Revisão da arquitetura DRL e algoritmos principais
  • Tendências do setor e direções de pesquisa (por exemplo, RLHF, modelos híbridos)
  • Recursos adicionais e materiais para leitura

Requisitos

  • Dominância em programação Python
  • Compreensão de Cálculo e Álgebra Linear

Público-Alvo

  • Desenvolvedores interessados em IA e sistemas inteligentes
  • Cientistas de Dados explorando frameworks de aprendizado por reforço
  • Engenheiros de Machine Learning trabalhando com sistemas autônomos
 21 Horas

Número de participantes


Preço por Participante

Declaração de Clientes (5)

Próximas Formações Provisórias

Categorias Relacionadas