Curso de Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF)
Reinforcement Learning do Feedback Humano (RLHF) é um método de ponta utilizado para refinamento de modelos como ChatGPT e outros sistemas AI de alta categoria.
Esta formação presencial ou online, ministrada por instrutor, destina-se a engenheiros de aprendizado de máquina avançados e pesquisadores de IA que desejam aplicar RLHF para refinamento de grandes modelos AI com desempenho superior, segurança e alinhamento.
No final desta formação, os participantes serão capazes de:
- Compreender as bases teóricas do RLHF e por que é essencial no desenvolvimento moderno de IA.
- Implementar modelos de recompensa baseados em feedback humano para guiar processos de aprendizado por reforço.
- Afinar grandes modelos de linguagem usando técnicas de RLHF para alinhar as saídas com as preferências humanas.
- Aplicar melhores práticas para escalar fluxos de trabalho de RLHF para sistemas AI de produção.
Formato do Curso
- Aula interativa e discussão.
- Muitos exercícios e prática.
- Implementação prática em um ambiente de laboratório ao vivo.
Opções de Personalização do Curso
- Para solicitar uma formação personalizada para este curso, entre em contato conosco para agendar.
Programa do Curso
Introdução ao Reinforcement Learning com Feedback Humano (RLHF)
- O que é RLHF e por que isso importa
- Comparação com métodos de fine-tuning supervisionado
- Apllicações do RLHF em sistemas modernos de IA
Modelagem de Recompensas com Feedback Humano
- Colete e estruture o feedback humano
- Criação e treinamento de modelos de recompensa
- Avaliação da eficácia dos modelos de recompensa
Treinamento com Otimização de Política Próxima (PPO)
- Visão geral dos algoritmos PPO para RLHF
- Implementação do PPO com modelos de recompensa
- Ajuste fino iterativo e seguro dos modelos
Aplicações Práticas de Modelos de Linguagem
- Preparando conjuntos de dados para fluxos de trabalho RLHF
- Fine-tuning prático de um pequeno LLM usando RLHF
- Desafios e estratégias de mitigação
Escalação do RLHF para Sistemas de Produção
- Considerações sobre infraestrutura e computação
- Garantia de qualidade e loops de feedback contínuos
- Melhores práticas para implantação e manutenção
Considerações Éticas e Mitigação de Viéses
- Abordando riscos éticos no feedback humano
- Estratégias de detecção e correção de viéses
- Certificando-se da alinhamento e saídas seguras
Estudos de Caso e Exemplos do Mundo Real
- Estudo de caso: Fine-tuning ChatGPT com RLHF
- Outras implantações bem-sucedidas de RLHF
- Aulas aprendidas e insights da indústria
Resumo e Próximos Passos
Requisitos
- Compreensão dos fundamentos de aprendizado supervisionado e reforçado
- Experiência com ajuste fino de modelos e arquiteturas de redes neurais
- Familiaridade com Python programação e frameworks de aprendizado profundo (por exemplo, TensorFlow, PyTorch)
Público-alvo
- Engenheiros Machine Learning
- Pesquisadores em IA
Os cursos de treinamento abertos exigem mais de 5 participantes.
Curso de Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF) - Booking
Curso de Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF) - Enquiry
Fine-Tuning with Reinforcement Learning from Human Feedback (RLHF) - Solicitação de Consultoria
Solicitação de Consultoria
Próximas Formações Provisórias
Cursos Relacionados
Advanced Techniques in Transfer Learning
14 HorasEste treinamento ao vivo conduzido por instrutor em Brasil (no local ou remoto) é destinado a profissionais de aprendizado de máquina de nível avançado que desejam dominar técnicas de aprendizado de transferência de ponta e aplicá-las a problemas complexos do mundo real.
Ao final deste treinamento, os participantes serão capazes de:
- Compreender conceitos e metodologias avançadas na aprendizagem por transferência.
- Implementar técnicas de adaptação específicas do domínio para modelos pré-treinados.
- Aplicar a aprendizagem contínua para gerenciar tarefas e conjuntos de dados em evolução.
- Dominar o ajuste fino de várias tarefas para melhorar o desempenho do modelo em todas as tarefas.
Deploying Fine-Tuned Models in Production
21 HorasEste treinamento ao vivo conduzido por instrutor em Brasil (no local ou remoto) é destinado a profissionais de nível avançado que desejam implantar modelos ajustados de forma confiável e eficiente.
Ao final deste treinamento, os participantes serão capazes de:
- Compreender os desafios da implantação de modelos ajustados em produção.
- Containerizar e implantar modelos usando ferramentas como Docker e Kubernetes.
- Implementar monitoramento e registro para modelos implantados.
- Otimizar modelos para latência e escalabilidade em cenários do mundo real.
Domain-Specific Fine-Tuning for Finance
21 HorasEste treinamento ao vivo conduzido por instrutor em Brasil (no local ou remoto) é destinado a profissionais de nível intermediário que desejam obter habilidades práticas na personalização de modelos de IA para tarefas financeiras críticas.
Ao final deste treinamento, os participantes serão capazes de:
- Entenda os fundamentos do ajuste fino para aplicativos financeiros.
- Aproveite os modelos pré-treinados para tarefas específicas de domínio em finanças.
- Aplicar técnicas para deteção de fraude, avaliação de risco e geração de aconselhamento financeiro.
- Garantir a conformidade com regulamentos financeiros como GDPR e SOX.
- Implementar a segurança dos dados e práticas éticas de IA em aplicações financeiras.
Fine-Tuning Models and Large Language Models (LLMs)
14 HorasEste treinamento ao vivo conduzido por instrutor em Brasil (no local ou remoto) é destinado a profissionais de nível intermediário a avançado que desejam personalizar modelos pré-treinados para tarefas e conjuntos de dados específicos.
Ao final deste treinamento, os participantes serão capazes de:
- Compreender os princípios do ajuste fino e suas aplicações.
- Preparar conjuntos de dados para o ajuste fino de modelos pré-treinados.
- Ajuste fino de grandes modelos de linguagem (LLMs) para tarefas de PNL.
- Otimizar o desempenho do modelo e abordar desafios comuns.
Efficient Fine-Tuning with Low-Rank Adaptation (LoRA)
14 HorasEste treinamento ao vivo conduzido por instrutor em Brasil (no local ou remoto) é destinado a desenvolvedores de nível intermediário e profissionais de IA que desejam implementar estratégias de ajuste fino para grandes modelos sem a necessidade de recursos computacionais extensos.
No final deste treinamento, os participantes serão capazes de:
- Compreender os princípios da adaptação de baixo ranqueamento (LoRA).
- Implementar LoRA para um ajuste fino eficiente de modelos grandes.
- Otimizar o ajuste fino para ambientes com recursos limitados.
- Avaliar e implementar modelos ajustados por LoRA para aplicações práticas.
Fine-Tuning Multimodal Models
28 HorasEste treinamento ao vivo conduzido por instrutor em Brasil (no local ou remoto) é destinado a profissionais de nível avançado que desejam dominar o ajuste fino do modelo multimodal para soluções inovadoras de IA.
No final deste treinamento, os participantes serão capazes de:
- Compreender a arquitetura de modelos multimodais como CLIP e Flamingo.
- Prepare e pré-processe conjuntos de dados multimodais de forma eficaz.
- Ajuste fino de modelos multimodais para tarefas específicas.
- Otimizar modelos para aplicações e desempenho no mundo real.
Fine-Tuning for Natural Language Processing (NLP)
21 HorasEste treinamento ao vivo conduzido por instrutor em Brasil (no local ou remoto) é destinado a profissionais de nível intermediário que desejam aprimorar seus projetos de PNL por meio do ajuste fino eficaz de modelos de linguagem pré-treinados.
No final deste treinamento, os participantes serão capazes de:
- Compreender os fundamentos do ajuste fino para tarefas de PNL.
- Ajustar modelos pré-treinados, como GPT, BERT e T5, para aplicações específicas de PNL.
- Otimizar os hiperparâmetros para melhorar o desempenho do modelo.
- Avaliar e implementar modelos ajustados em cenários do mundo real.
Fine-Tuning DeepSeek LLM for Custom AI Models
21 HorasEste treinamento ao vivo conduzido por instrutor em Brasil (no local ou remoto) é destinado a pesquisadores de IA de nível avançado, engenheiros de aprendizado de máquina e desenvolvedores que desejam ajustar os modelos LLM DeepSeek para criar aplicativos de IA especializados adaptados a setores, domínios ou necessidades de negócios específicos.
No final deste treinamento, os participantes serão capazes de:
- Compreender a arquitetura e os recursos dos modelos DeepSeek, incluindo DeepSeek -R1 e DeepSeek -V3.
- Preparar conjuntos de dados e pré-processar dados para o ajuste fino.
- Afinar o DeepSeek LLM para aplicações específicas do domínio.
- Otimizar e implementar modelos ajustados de forma eficiente.
Fine-Tuning Large Language Models Using QLoRA
14 HorasEsta formação ao vivo, ministrada por um instrutor em Brasil (online ou presencial), é direcionada a engenheiros de aprendizado de máquina de nível intermediário a avançado, desenvolvedores de IA e cientistas de dados que desejam aprender como usar o QLoRA para ajustar eficientemente grandes modelos para tarefas específicas e personalizações.
No final desta formação, os participantes serão capazes de:
- Compreender a teoria por trás do QLoRA e das técnicas de quantização para LLMs (Large Language Models).
- Implementar o QLoRA no ajuste fino de grandes modelos linguísticos para aplicações específicas de domínio.
- Otimizar o desempenho do ajuste fino em recursos computacionais limitados usando quantização.
- Deploy e avaliar modelos ajustados finamente em aplicações do mundo real de forma eficiente.
Fine-Tuning Open-Source LLMs (LLaMA, Mistral, Qwen, etc.)
14 HorasEste treinamento ao vivo e ministrado por um instrutor em Brasil (online ou presencial) é direcionado a profissionais de nível intermediário em ML e desenvolvedores de IA que desejam ajustar e implantar modelos open-weight como LLaMA, Mistral e Qwen para aplicações específicas de negócios ou internas.
No final deste treinamento, os participantes serão capazes de:
- Compreender o ecossistema e as diferenças entre modelos de IA open-source.
- Preparar conjuntos de dados e configurações de ajuste fino para modelos como LLaMA, Mistral e Qwen.
- Executar pipelines de ajuste fino usando Hugging Face Transformers e PEFT.
- Avaliar, salvar e implantar modelos ajustados em ambientes seguros.
Optimizing Large Models for Cost-Effective Fine-Tuning
21 HorasEste treinamento ao vivo conduzido por instrutor em Brasil (no local ou remoto) é destinado a profissionais de nível avançado que desejam dominar técnicas para otimizar grandes modelos para um ajuste fino e econômico em cenários do mundo real.
No final deste treinamento, os participantes serão capazes de:
- Compreender os desafios do ajuste fino de grandes modelos.
- Aplicar técnicas de treinamento distribuído a grandes modelos.
- Aproveite a quantização do modelo e a poda para obter eficiência.
- Otimizar a utilização de hardware para tarefas de ajuste fino.
- Implantar modelos de ajuste fino de forma eficaz em ambientes de produção.
Prompt Engineering and Few-Shot Fine-Tuning
14 HorasEste treinamento ao vivo conduzido por instrutor em Brasil (no local ou remoto) é destinado a profissionais de nível intermediário que desejam aproveitar o poder da engenharia rápida e do aprendizado de poucos disparos para otimizar o desempenho do LLM para aplicativos do mundo real.
No final deste treinamento, os participantes serão capazes de:
- Compreender os princípios da engenharia de prompt e da aprendizagem de poucos disparos.
- Projetar prompts eficazes para várias tarefas de PNL.
- Aproveitar as técnicas de poucos disparos para adaptar LLMs com dados mínimos.
- Otimizar o desempenho do LLM para aplicações práticas.
Parameter-Efficient Fine-Tuning (PEFT) Techniques for LLMs
14 HorasEste treinamento ao vivo, ministrado por um instrutor em Brasil (online ou presencial), é direcionado a cientistas de dados e engenheiros de IA de nível intermediário que desejam ajustar modelos de linguagem grandes de forma mais econômica e eficiente usando métodos como LoRA, Adapter Tuning e Prefix Tuning.
No final deste treinamento, os participantes serão capazes de:
- Compreender a teoria por trás das abordagens de ajuste fino com eficiência paramétrica.
- Implementar LoRA, Adapter Tuning e Prefix Tuning usando Hugging Face PEFT.
- Comparar as vantagens e desvantagens em termos de desempenho e custo dos métodos PEFT versus o ajuste fino completo.
- Implantar e escalar modelos de linguagem ajustados com requisitos reduzidos de computação e armazenamento.
Introduction to Transfer Learning
14 HorasEste treinamento ao vivo conduzido por instrutor em Brasil (no local ou remoto) é destinado a profissionais de aprendizado de máquina de nível iniciante a intermediário que desejam entender e aplicar técnicas de aprendizado de transferência para melhorar a eficiência e o desempenho em projetos de IA.
No final deste treinamento, os participantes serão capazes de:
- Compreender os principais conceitos e benefícios do aprendizado de transferência.
- Explore modelos pré-treinados populares e seus aplicativos.
- Realize o ajuste fino de modelos pré-treinados para tarefas personalizadas.
- Aplicar o aprendizado de transferência para resolver problemas do mundo real em PNL e visão computacional.
Troubleshooting Fine-Tuning Challenges
14 HorasEste treinamento ao vivo conduzido por instrutor em Brasil (no local ou remoto) é destinado a profissionais de nível avançado que desejam refinar suas habilidades no diagnóstico e solução de desafios de ajuste fino para modelos de aprendizado de máquina.
No final deste treinamento, os participantes serão capazes de:
- Diagnosticar problemas como overfitting, underfitting e desequilíbrio de dados.
- Implementar estratégias para melhorar a convergência do modelo.
- Otimizar pipelines de ajuste fino para melhor desempenho.
- Depurar processos de treinamento usando ferramentas e técnicas práticas.