Obrigado por enviar sua consulta! Um dos membros da nossa equipe entrará em contato com você em breve.
Obrigado por enviar sua reserva! Um dos membros da nossa equipe entrará em contato com você em breve.
Programa do Curso
Introdução ao Predictive AIOps
- Visão geral de análise preditiva em operações de TI
- Fontes de dados para previsão (logs, métricas, eventos)
- Conceitos-chave na previsão de séries temporais e padrões de anomalias
Projeto de Modelos de Previsão de Incidentes
- Rotulagem de incidentes históricos e comportamento do sistema
- Escolha e treinamento de modelos (por exemplo, LSTM, Random Forest, AutoML)
- Avaliação do desempenho dos modelos e tratamento de falsos positivos
Coleta de Dados e Engenharia de Características
- Ingestão e alinhamento de dados de logs e métricas para entrada do modelo
- Extração de características de dados estruturados e não estruturados
- Lidando com ruído e dados faltantes em pipelines operacionais
Automatizando Análise da Causa Raiz (RCA)
- Correlação baseada em gráficos de serviços e infraestrutura
- Usando ML para inferir possíveis causas raiz a partir de cadeias de eventos
- Visualização da RCA com dashboards conscientes de topologia
Remediação e Workflow Automation
- Integração com plataformas de automação (por exemplo, Ansible, Rundeck)
- Ativação de rollbacks, reinícios ou redirecionamento de tráfego
- Auditoria e documentação de intervenções automatizadas
Escalando Pipelines Intensivas em AIOps
- MLOps para observabilidade: re-entraimento e versionamento do modelo
- Execução de previsões em tempo real em nós distribuídos
- Melhores práticas para implantação de AIOps em ambientes de produção
Estudos de Caso e Aplicações Práticas
- Análise de dados de incidentes reais usando modelos preditivos de AIOps
- Implantação de pipelines RCA com dados sintéticos e de produção
- Revisão de casos de uso da indústria: interrupções em nuvem, instabilidade de microserviços, degradação de rede
Resumo e Próximos Passos
Requisitos
- Experiência com sistemas de monitoramento como Prometheus ou ELK
- Conhecimento prático de Python e aprendizado de máquina básico
- Familiaridade com fluxos de trabalho de gerenciamento de incidentes
Público-alvo
- Engenheiros avançados de confiabilidade do site (SREs)
- Arquitetos de automação de TI
- Líderes de plataformas de observabilidade e DevOps
14 Horas