Entrar em Contato

Programa do Curso

Infraestrutura como Código do EXO

  • Visão geral dos padrões de implantação do EXO: nó único, multi-nó e clusters RDMA
  • Automatizando a instalação de dependências (Xcode, uv, Node.js, Rust) com gestão de configurações
  • Utilizando Nix flakes para builds reproduzíveis do EXO e ambientes de desenvolvedor
  • Escrevendo playbooks Ansible ou scripts shell para provisionamento não supervisionado do cluster

Builds Reproduzíveis e Integração com CI

  • Fixando dependências e construindo o painel em pipelines de CI
  • Executando testes de fumaça do EXO em executores do GitHub Actions ou GitLab CI
  • Criando imagens base e fluxos de reversão baseados em snapshots para VMs macOS e Linux
  • Versionando cards de modelos personalizados junto com o código da aplicação

Descoberta de Cluster e Automação de Rede

  • Configurando mDNS e DNS estático para descoberta confiável de nós libp2p
  • Automatizando a criação de perfis de rede e gestão do ponte Thunderbolt no macOS
  • Usando namespaces personalizados (EXO_LIBP2P_NAMESPACE) para separar clusters de dev, staging e produção
  • Regras de firewall e segmentação de rede para ambientes multi-inquilino

Gestão de Armazenamento e Ciclo de Vida dos Modelos

  • Projetando estratégias para EXO_MODELS_DIRS e EXO_MODELS_READ_ONLY_DIRS
  • Montando compartilhamentos NFS ou SAN como repositórios de modelos somente leitura para provisionamento rápido
  • Coleta de lixo de caches obsoletos e políticas de retenção de pesos versionados
  • Automatizando pré-download de modelos e verificações de saúde antes de atualizações contínuas

Monitoramento e Alertas

  • Enviando logs do EXO para registro de logs centralizado (ELK, Loki ou Splunk)
  • Construindo painéis do Grafana a partir da saída EXO_TRACING_ENABLED
  • Configurando alertas para mudanças na membresia do cluster, eventos OOM e picos de latência de inferência
  • Correlacionando telemetria de hardware macmon com regressões de desempenho dos modelos

Atualização, Reversão e Recuperação de Desastres

  • Realizando testes de canário com atualizações de binários do EXO em um nó antes da implantação em toda a frota
  • Reversão ao nível do modelo: alternando entre versões quantizadas sem re-download
  • Backup e restauração do estado do cluster, namespaces personalizados e pesos em cache
  • Documentando runbooks de recuperação para cenários de reconstrução total do cluster

Endurecimento de Segurança e Conformidade

  • Aplicando TLS na camada de proxy reverso (nginx, traefik) para o painel e API
  • Implementando limitação de taxa de API e listas brancas de IPs para endpoints do EXO
  • Isolando clusters com VLANs e políticas de rede de confiança zero
  • Auditoria de acesso e manutenção de inventário de modelos implantados e versões

Requisitos

  • Experiência com práticas de DevOps (CI/CD, IaC, orquestração de containers)
  • Conhecimento em administração de sistemas macOS ou Linux e gestão de pacotes
  • Compreensão de conceitos de rede, DNS e armazenamento

Público-Alvo

  • Engenheiros de DevOps
  • Arquitetos de infraestrutura
  • SREs responsáveis por cargas de trabalho de IA on-premise
 21 Horas

Número de participantes


Preço por participante

Testemunhos de Clientes (2)

Próximas Formações Provisórias

Categorias Relacionadas