Obrigado por enviar sua consulta! Um dos membros da nossa equipe entrará em contato com você em breve.
Obrigado por enviar sua reserva! Um dos membros da nossa equipe entrará em contato com você em breve.
Programa do Curso
Infraestrutura como Código do EXO
- Visão geral dos padrões de implantação do EXO: nó único, multi-nó e clusters RDMA
- Automatizando a instalação de dependências (Xcode, uv, Node.js, Rust) com gestão de configurações
- Utilizando Nix flakes para builds reproduzíveis do EXO e ambientes de desenvolvedor
- Escrevendo playbooks Ansible ou scripts shell para provisionamento não supervisionado do cluster
Builds Reproduzíveis e Integração com CI
- Fixando dependências e construindo o painel em pipelines de CI
- Executando testes de fumaça do EXO em executores do GitHub Actions ou GitLab CI
- Criando imagens base e fluxos de reversão baseados em snapshots para VMs macOS e Linux
- Versionando cards de modelos personalizados junto com o código da aplicação
Descoberta de Cluster e Automação de Rede
- Configurando mDNS e DNS estático para descoberta confiável de nós libp2p
- Automatizando a criação de perfis de rede e gestão do ponte Thunderbolt no macOS
- Usando namespaces personalizados (EXO_LIBP2P_NAMESPACE) para separar clusters de dev, staging e produção
- Regras de firewall e segmentação de rede para ambientes multi-inquilino
Gestão de Armazenamento e Ciclo de Vida dos Modelos
- Projetando estratégias para EXO_MODELS_DIRS e EXO_MODELS_READ_ONLY_DIRS
- Montando compartilhamentos NFS ou SAN como repositórios de modelos somente leitura para provisionamento rápido
- Coleta de lixo de caches obsoletos e políticas de retenção de pesos versionados
- Automatizando pré-download de modelos e verificações de saúde antes de atualizações contínuas
Monitoramento e Alertas
- Enviando logs do EXO para registro de logs centralizado (ELK, Loki ou Splunk)
- Construindo painéis do Grafana a partir da saída EXO_TRACING_ENABLED
- Configurando alertas para mudanças na membresia do cluster, eventos OOM e picos de latência de inferência
- Correlacionando telemetria de hardware macmon com regressões de desempenho dos modelos
Atualização, Reversão e Recuperação de Desastres
- Realizando testes de canário com atualizações de binários do EXO em um nó antes da implantação em toda a frota
- Reversão ao nível do modelo: alternando entre versões quantizadas sem re-download
- Backup e restauração do estado do cluster, namespaces personalizados e pesos em cache
- Documentando runbooks de recuperação para cenários de reconstrução total do cluster
Endurecimento de Segurança e Conformidade
- Aplicando TLS na camada de proxy reverso (nginx, traefik) para o painel e API
- Implementando limitação de taxa de API e listas brancas de IPs para endpoints do EXO
- Isolando clusters com VLANs e políticas de rede de confiança zero
- Auditoria de acesso e manutenção de inventário de modelos implantados e versões
Requisitos
- Experiência com práticas de DevOps (CI/CD, IaC, orquestração de containers)
- Conhecimento em administração de sistemas macOS ou Linux e gestão de pacotes
- Compreensão de conceitos de rede, DNS e armazenamento
Público-Alvo
- Engenheiros de DevOps
- Arquitetos de infraestrutura
- SREs responsáveis por cargas de trabalho de IA on-premise
21 Horas
Testemunhos de Clientes (2)
Craig esteve extremamente envolvido no treinamento, sempre garantindo que estivéssemos atentos, adaptando os exemplos às nossas atividades do dia a dia e sempre fornecendo uma resposta quando solicitado, mesmo que as informações não tivessem sido incluídas na apresentação.
Ecaterina Ioana Nicoale - BOOKING HOLDINGS ROMANIA SRL
Curso - DevOps Foundation®
Máquina Traduzida
Alto nível de comprometimento e conhecimento do instrutor
Jacek - Softsystem
Curso - DevOps Engineering Foundation (DOEF)®
Máquina Traduzida