Entrar em Contato

Programa do Curso

Introdução ao AIOps Preditivo

  • Visão geral da análise preditiva em operações de TI
  • Fontes de dados para previsão (logs, métricas, eventos)
  • Conceitos-chave em previsão de séries temporais e padrões de anomalias

Projetando Modelos de Predição de Incidentes

  • Rótulo de incidentes históricos e comportamento do sistema
  • Escolha e treinamento de modelos (por exemplo, LSTM, Random Forest, AutoML)
  • Avaliação do desempenho do modelo e tratamento de falsos positivos

Coleta de Dados e Engenharia de Recursos

  • Ingestão e alinhamento de dados de logs e métricas para entrada no modelo
  • Extração de recursos a partir de dados estruturados e não estruturados
  • Tratamento de ruído e dados ausentes em pipelines operacionais

Automatizando a Análise de Causa Raiz (ACR)

  • Correlação baseada em grafos de serviços e infraestrutura
  • Uso de ML para inferir prováveis causas raiz a partir de cadeias de eventos
  • Visualização da ACR com painéis que têm consciência da topologia

Remediação e Automação de Fluxos de Trabalho

  • Integração com plataformas de automação (por exemplo, Ansible, Rundeck)
  • Acionamento de reversões, reinícios ou redirecionamento de tráfego
  • Auditoria e documentação das intervenções automatizadas

Dimensionando Pipelines Inteligentes de AIOps

  • MLOps para observabilidade: retreinamento e versionamento de modelos
  • Execução de previsões em tempo real em nós distribuídos
  • Melhores práticas para implantação de AIOps em ambientes de produção

Estudos de Caso e Aplicações Práticas

  • Análise de dados reais de incidentes usando modelos de AIOps preditivo
  • Implantação de pipelines de ACR com dados sintéticos e de produção
  • Revisão de casos de uso da indústria: interrupções em nuvem, instabilidade em microsserviços, degradação de rede

Resumo e Próximos Passos

Requisitos

  • Experiência com sistemas de monitoramento como Prometheus ou ELK
  • Conhecimento prático de Python e noções básicas de aprendizado de máquina
  • Familiaridade com fluxos de trabalho de gerenciamento de incidentes

Público-Alvo

  • Engenheiros de Confiabilidade de Site Sênior (SREs)
  • Arquitetos de automação de TI
  • Líderes de plataformas DevOps e observabilidade
 14 Horas

Número de participantes


Preço por participante

Próximas Formações Provisórias

Categorias Relacionadas