Programa do Curso

Introdução ao Predictive AIOps

  • Visão geral de análise preditiva em operações de TI
  • Fontes de dados para previsão (logs, métricas, eventos)
  • Conceitos-chave na previsão de séries temporais e padrões de anomalias

Projeto de Modelos de Previsão de Incidentes

  • Rotulagem de incidentes históricos e comportamento do sistema
  • Escolha e treinamento de modelos (por exemplo, LSTM, Random Forest, AutoML)
  • Avaliação do desempenho dos modelos e tratamento de falsos positivos

Coleta de Dados e Engenharia de Características

  • Ingestão e alinhamento de dados de logs e métricas para entrada do modelo
  • Extração de características de dados estruturados e não estruturados
  • Lidando com ruído e dados faltantes em pipelines operacionais

Automatizando Análise da Causa Raiz (RCA)

  • Correlação baseada em gráficos de serviços e infraestrutura
  • Usando ML para inferir possíveis causas raiz a partir de cadeias de eventos
  • Visualização da RCA com dashboards conscientes de topologia

Remediação e Workflow Automation

  • Integração com plataformas de automação (por exemplo, Ansible, Rundeck)
  • Ativação de rollbacks, reinícios ou redirecionamento de tráfego
  • Auditoria e documentação de intervenções automatizadas

Escalando Pipelines Intensivas em AIOps

  • MLOps para observabilidade: re-entraimento e versionamento do modelo
  • Execução de previsões em tempo real em nós distribuídos
  • Melhores práticas para implantação de AIOps em ambientes de produção

Estudos de Caso e Aplicações Práticas

  • Análise de dados de incidentes reais usando modelos preditivos de AIOps
  • Implantação de pipelines RCA com dados sintéticos e de produção
  • Revisão de casos de uso da indústria: interrupções em nuvem, instabilidade de microserviços, degradação de rede

Resumo e Próximos Passos

Requisitos

  • Experiência com sistemas de monitoramento como Prometheus ou ELK
  • Conhecimento prático de Python e aprendizado de máquina básico
  • Familiaridade com fluxos de trabalho de gerenciamento de incidentes

Público-alvo

  • Engenheiros avançados de confiabilidade do site (SREs)
  • Arquitetos de automação de TI
  • Líderes de plataformas de observabilidade e DevOps
 14 Horas

Número de participantes


Preço por Participante

Próximas Formações Provisórias

Categorias Relacionadas