Programa do Curso
Introdução
- Aprender através do reforço positivo
Elementos de Reinforcement Learning
Termos importantes (Acções, Estados, Recompensas, Política, Valor, Q-Value, etc.)
Síntese dos métodos de soluções tabulares
Criação de um agente de software
Compreender as abordagens baseadas no valor, nas políticas e nos modelos
Trabalhar com o processo de decisão de Markov (MDP)
Como as políticas definem a forma de atuação de um agente
Utilização de métodos de Monte Carlo
Aprendizagem por diferença temporal
n-step Bootstrapping
Métodos de solução aproximada
Previsão na política com aproximação
Controlo na política com aproximação
Métodos extra-políticos com aproximação
Compreender os traços de elegibilidade
Utilização de métodos de gradiente de política
Resumo e conclusão
Requisitos
- Experiência com aprendizagem automática
- Programming experiência
Público
- Cientistas de dados