Entrar em Contato

Programa do Curso

Fundamentos da Produção do Tencent Hunyuan

  • Visão geral dos cenários de serviço de modelos do Tencent Hunyuan
  • Características de produção de modelos grandes e MoE
  • Gargalos comuns de latência, vazão e custo
  • Definição de objetivos de nível de serviço para cargas de trabalho de inferência

Arquitetura de Implantação e Fluxo de Atendimento

  • Componentes centrais de uma pilha de inferência em produção
  • Escolha entre modelos de implantação em container, local e em nuvem
  • Conceitos básicos de carregamento de modelos, roteamento de solicitações e alocação de GPU
  • Projetando para confiabilidade e simplicidade operacional

Otimização de Latência na Prática

  • Uso de motores de inferência otimizados, como o TensorRT, quando aplicável
  • Conceitos de KV-cache e ajuste prático do cache
  • Redução de sobrecarga de inicialização, aquecimento e resposta
  • Medição do tempo até o primeiro token e da velocidade de geração de tokens

Vazão, Agrupamento de Solicitações e Eficiência de GPU

  • Estratégias de agrupamento contínuo e agrupamento de solicitações
  • Gerenciamento de concorrência e comportamento de filas
  • Melhoria da utilização de GPU sem prejudicar a experiência do usuário
  • Lidando com solicitações de contexto longo e cargas de trabalho mistas

Quantização e Controle de Custos

  • Por que a quantização é importante para o atendimento em produção
  • Compensações práticas das opções de precisão FP16, INT8 e outras comuns
  • Equilibrando qualidade do modelo, latência e custo de infraestrutura
  • Construindo uma lista de verificação simples para otimização de custos

Operações, Monitoramento e Revisão de Prontidão

  • Gatilhos de autoescalonamento para serviços de inferência
  • Monitoramento de latência, vazão, uso de cache e saúde da GPU
  • Noções básicas de registro de logs, alertas e resposta a incidentes
  • Revisando uma implantação de referência e criando um plano de melhoria

Requisitos

  • Compreensão básica de implantação de grandes modelos de linguagem e fluxos de trabalho de inferência
  • Experiência com containers, infraestrutura em nuvem ou local e serviços baseados em API
  • Conhecimento prático de Python ou tarefas de engenharia de sistemas

Público-alvo

  • Engenheiros de ML que implantam LLMs em produção
  • Engenheiros de plataforma responsáveis por serviços de inferência baseados em GPU
  • Arquitetos de soluções que projetam plataformas de atendimento de IA escaláveis
 14 Horas

Número de participantes


Preço por participante

Próximas Formações Provisórias

Categorias Relacionadas