Entrar em Contato

Programa do Curso

Projetando uma Arquitetura Aberta de AIOps

  • Visão geral dos componentes principais em pipelines de AIOps open source
  • Fluxo de dados desde a ingestão até os alertas
  • Comparação de ferramentas e estratégia de integração

Coleta e Agregação de Dados

  • Ingestão de dados em série temporal com Prometheus
  • Captura de logs com Logstash e Beats
  • Normalização de dados para correlação entre diferentes fontes

Construindo Dashboards de Observabilidade

  • Visualização de métricas com Grafana
  • Criação de dashboards no Kibana para análise de logs
  • Utilização de consultas Elasticsearch para extrair insights operacionais

Detecção de Anomalias e Previsão de Incidentes

  • Exportação de dados de observabilidade para pipelines em Python
  • Treinamento de modelos de ML para detecção de valores fora da norma e previsão (forecasting)
  • Implantação dos modelos para inferência em tempo real no pipeline de observabilidade

Alertas e Automação com Ferramentas Open Source

  • Criação de regras de alerta do Prometheus e roteamento no Alertmanager
  • Acionamento de scripts ou fluxos de trabalho de API para resposta automática
  • Uso de ferramentas de orquestração open source (por exemplo, Ansible, Rundeck)

Considerações sobre Integração e Escalabilidade

  • Lidando com ingestão de alto volume e retenção a longo prazo
  • Segurança e controle de acesso em pilhas open source
  • Escalonamento independente de cada camada: ingestão, processamento e alertas

Aplicações Práticas e Extensões

  • Estudos de caso: ajuste de desempenho, prevenção de tempo de inatividade e otimização de custos
  • Expansão dos pipelines com ferramentas de rastreamento (tracing) ou grafos de serviço
  • Melhores práticas para executar e manter o AIOps em produção

Resumo e Próximos Passos

Requisitos

  • Experiência com ferramentas de observabilidade, como Prometheus ou ELK
  • Conhecimento prático de Python e fundamentos de aprendizado de máquina
  • Compreensão das operações de TI e fluxos de trabalho de alertas

Público-Alvo

  • Engenheiros de confiabilidade de site (SREs) avançados
  • Engenheiros de dados que atuam em operações
  • Líderes de plataforma DevOps e arquitetos de infraestrutura
 14 Horas

Número de participantes


Preço por participante

Próximas Formações Provisórias

Categorias Relacionadas