Entrar em Contato

Programa do Curso

Soberania da IA e Implantação Local de LLM

  • Riscos dos LLMs em nuvem: retenção de dados, treinamento nas entradas, jurisdição estrangeira.
  • Arquitetura do Ollama: servidor de modelos, registo e API compatível com a OpenAI.
  • Comparação com vLLM, llama.cpp e Text Generation Inference.
  • Licenciamento de modelos: termos do Llama, Mistral, Qwen e Gemma.

Instalação e Configuração de Hardware

  • Instalando o Ollama no Linux com suporte a CUDA e ROCm.
  • Fallback apenas de CPU e otimização AVX/AVX2.
  • Implantação no Docker e mapeamento de volumes persistentes.
  • Configuração de multi-GPU e estratégias de alocação de VRAM.

Gestão de Modelos

  • Obtendo modelos do registo do Ollama: ollama pull llama3.
  • Importação de modelos GGUF do HuggingFace e TheBloke.
  • Níveis de quantização: compensações entre Q4_K_M, Q5_K_M e Q8_0.
  • Troca de modelos e limites de carregamento simultâneo de modelos.

Modelfiles Personalizados

  • Escrevendo a sintaxe do Modelfile: FROM, PARAMETER, SYSTEM, TEMPLATE.
  • Ajuste de temperatura, top_p e repeat_penalty.
  • Engenharia de prompts de sistema para comportamento específico de função.
  • Criação e publicação de modelos personalizados no registo local.

Integração de API

  • Endpoint /v1/chat/completions compatível com a OpenAI.
  • Respostas em streaming e modo JSON.
  • Integração com LangChain, LlamaIndex e aplicações personalizadas.
  • Autenticação e limitação de taxa com proxy reverso.

Otimização de Desempenho

  • Dimensionamento da janela de contexto e gestão de cache KV.
  • Inferência em lote e tratamento de solicitações paralelas.
  • Alocação de threads da CPU e consciência NUMA.
  • Monitoramento da utilização da GPU e pressão da memória.

Segurança e Conformidade

  • Isolamento de rede para endpoints de fornecimento de modelos.
  • Filtro de entrada e pipelines de moderação de saída.
  • Registo de auditoria de prompts e conclusões.
  • Proveniência do modelo e verificação de hash.

Requisitos

  • Administração intermédia de Linux e contentores.
  • Compreensão dos modelos de aprendizado de máquina e transformadores ao alto nível.
  • Familiaridade com APIs REST e JSON.

Público-Alvo

  • Engenheiros de IA e programadores que substituem APIs de LLM em nuvem.
  • Organizações com sensibilidade de dados que impedem o uso de modelos em nuvem.
  • Equipas de governo e defesa que requerem modelos de linguagem isolados fisicamente.
 14 Horas

Número de participantes


Preço por participante

Próximas Formações Provisórias

Categorias Relacionadas