Programa do Curso
1. Introdução ao Aprendizado por Reforço Profundo
- O que é Aprendizado por Reforço?
- Diferenças entre Aprendizado Supervisionado, Não Supervisionado e por Reforço
- Aplicações do DRL em 2025 (robótica, saúde, finanças, logística)
- Compreendendo o loop de interação agente-ambiente
2. Fundamentos do Aprendizado por Reforço
- Processos Decisórios Markovianos (MDP)
- Estado, Ação, Recompensa, Política e Funções de Valor
- Dilema entre Exploração e Explotação
- Métodos Monte Carlo e Aprendizado por Diferença Temporal (TD)
3. Implementando Algoritmos Básicos de RL
- Métodos Tabulares: Programação Dinâmica, Avaliação de Políticas e Iteração
- Q-Learning e SARSA
- Estratégias de Exploração Epsilon-Greedy e Decaimento
- Implementando Ambientes de RL com OpenAI Gymnasium
4. Transição para Aprendizado por Reforço Profundo
- Limitações dos métodos tabulares
- Usando redes neurais para aproximação de funções
- Arquitetura e fluxo de trabalho da Rede Q-Profunda (DQN)
- Replay de Experiência e Redes Alvo
5. Algoritmos Avançados de DRL
- DQN Dupla, DQN Duelante e Replay de Experiência Prioritizado
- Métodos de Gradiente de Política: Algoritmo REINFORCE
- Arquiteturas Ator-Crítico (A2C, A3C)
- Otimização de Política Proximal (PPO)
- Critic Ator Suave (SAC)
6. Trabalhando com Espaços de Ação Contínuos
- Desafios no controle contínuo
- Usando DDPG (Gradiente de Política Determinístico Profundo)
- DDPG com Atraso Duplo (TD3)
7. Ferramentas e Frameworks Práticos
- Usando Stable-Baselines3 e Ray RLlib
- Registro e monitoramento com TensorBoard
- Ajuste de hiperparâmetros para modelos DRL
8. Engenharia de Recompensas e Design de Ambientes
- Modelagem de recompensas e equilíbrio de penalidades
- Conceitos de transferência simulação-realidade
- Criação de ambientes personalizados no Gymnasium
9. Ambientes Parcialmente Observáveis e Generalização
- Lidando com informações de estado incompletas (POMDPs)
- Aproximações baseadas em memória usando LSTMs e RNNs
- Melhorando a robustez e generalização do agente
10. Teoria dos Jogos e Aprendizado por Reforço Multiagentes
- Introdução a ambientes multiagentes
- Cooperação vs. Competição
- Aplicações em treinamento adversarial e otimização de estratégia
11. Estudos de Caso e Aplicações Reais
- Simulações de condução autônoma
- Estratégias de precificação dinâmica e negociação financeira
- Robótica e automação industrial
12. Solução de Problemas e Otimização
- Detectando treinamento instável
- Gestão da escassez de recompensas e overfitting
- Escalando modelos DRL em GPUs e sistemas distribuídos
13. Resumo e Próximos Passos
- Revisão da arquitetura DRL e algoritmos principais
- Tendências do setor e direções de pesquisa (por exemplo, RLHF, modelos híbridos)
- Recursos adicionais e materiais para leitura
Requisitos
- Dominância em programação Python
- Compreensão de Cálculo e Álgebra Linear
Público-Alvo
- Desenvolvedores interessados em IA e sistemas inteligentes
- Cientistas de Dados explorando frameworks de aprendizado por reforço
- Engenheiros de Machine Learning trabalhando com sistemas autônomos
Declaração de Clientes (5)
O Hunter é fabuloso, muito cativante, extremamente conhecedor e pessoal. Muito bem feito.
Rick Johnson - Laramie County Community College
Curso - Artificial Intelligence (AI) Overview
Máquina Traduzida
Very flexible.
Frank Ueltzhoffer
Curso - Artificial Neural Networks, Machine Learning and Deep Thinking
Máquina Traduzida
I liked the new insights in deep machine learning.
Josip Arneric
Curso - Neural Network in R
Máquina Traduzida
Ann created a great environment to ask questions and learn. We had a lot of fun and also learned a lot at the same time.
Gudrun Bickelq
Curso - Introduction to the use of neural networks
Máquina Traduzida
It was very interactive and more relaxed and informal than expected. We covered lots of topics in the time and the trainer was always receptive to talking more in detail or more generally about the topics and how they were related. I feel the training has given me the tools to continue learning as opposed to it being a one off session where learning stops once you've finished which is very important given the scale and complexity of the topic.
Jonathan Blease
Curso - Artificial Neural Networks, Machine Learning, Deep Thinking
Máquina Traduzida