Obrigado por enviar sua consulta! Um dos membros da nossa equipe entrará em contato com você em breve.
Obrigado por enviar sua reserva! Um dos membros da nossa equipe entrará em contato com você em breve.
Programa do Curso
Introdução ao AIOps Preditivo
- Visão geral da análise preditiva em operações de TI
- Fontes de dados para previsão (logs, métricas, eventos)
- Conceitos-chave em previsão de séries temporais e padrões de anomalias
Projetando Modelos de Predição de Incidentes
- Rótulo de incidentes históricos e comportamento do sistema
- Escolha e treinamento de modelos (por exemplo, LSTM, Random Forest, AutoML)
- Avaliação do desempenho do modelo e tratamento de falsos positivos
Coleta de Dados e Engenharia de Recursos
- Ingestão e alinhamento de dados de logs e métricas para entrada no modelo
- Extração de recursos a partir de dados estruturados e não estruturados
- Tratamento de ruído e dados ausentes em pipelines operacionais
Automatizando a Análise de Causa Raiz (ACR)
- Correlação baseada em grafos de serviços e infraestrutura
- Uso de ML para inferir prováveis causas raiz a partir de cadeias de eventos
- Visualização da ACR com painéis que têm consciência da topologia
Remediação e Automação de Fluxos de Trabalho
- Integração com plataformas de automação (por exemplo, Ansible, Rundeck)
- Acionamento de reversões, reinícios ou redirecionamento de tráfego
- Auditoria e documentação das intervenções automatizadas
Dimensionando Pipelines Inteligentes de AIOps
- MLOps para observabilidade: retreinamento e versionamento de modelos
- Execução de previsões em tempo real em nós distribuídos
- Melhores práticas para implantação de AIOps em ambientes de produção
Estudos de Caso e Aplicações Práticas
- Análise de dados reais de incidentes usando modelos de AIOps preditivo
- Implantação de pipelines de ACR com dados sintéticos e de produção
- Revisão de casos de uso da indústria: interrupções em nuvem, instabilidade em microsserviços, degradação de rede
Resumo e Próximos Passos
Requisitos
- Experiência com sistemas de monitoramento como Prometheus ou ELK
- Conhecimento prático de Python e noções básicas de aprendizado de máquina
- Familiaridade com fluxos de trabalho de gerenciamento de incidentes
Público-Alvo
- Engenheiros de Confiabilidade de Site Sênior (SREs)
- Arquitetos de automação de TI
- Líderes de plataformas DevOps e observabilidade
14 Horas