Opslane - ferramenta que unifica mensagens de on-call para reduzir o estresse

(github.com/opslane)

2 pontos por GN⁺ 2024-07-29 | 1 comentários | Compartilhar no WhatsApp

Usa LLM para classificar alertas entre acionáveis e ruído
- Analisa o histórico de alertas e conversas no Slack para determinar se um alerta é acionável
- Fornece informações contextuais para tratamento (insights e recursos adicionais), reduzindo a fadiga de alertas
Funciona integrado ao Slack, analisa padrões de alertas e fornece relatórios semanais sobre os alertas do canal

Arquitetura modular

Coleta de alertas: o Datadog envia alertas para o servidor FastAPI via webhook
Servidor FastAPI: núcleo do sistema, processa os alertas recebidos, interage com o Slack e gerencia o fluxo de dados
Integração com Slack: fornece a interface de usuário para gerenciamento e interação com alertas
Banco de dados: usa Postgres e pgvector para armazenar dados de alertas e embeddings

Integrações

Com um modelo de dados flexível, é possível oferecer suporte a várias integrações. Atualmente, o Opslane oferece suporte ao Datadog

Resumo do GN⁺

O Opslane é uma ferramenta que reduz a fadiga de alertas e classifica alertas acionáveis, tornando a experiência de on-call menos estressante
Com integração ao Slack, ajuda no gerenciamento de alertas e no debugging, além de analisar a qualidade dos alertas por meio de relatórios semanais
É oferecido como open source, aceita contribuições da comunidade e oferece suporte à integração com Datadog
Ferramentas com funcionalidades semelhantes incluem PagerDuty e VictorOps.

1 comentários

GN⁺ 2024-07-29

Comentários no Hacker News

Primeiro comentário: discute produtos que reduzem a fadiga de alertas ao classificar alertas como acionáveis ou ruído e fornecer informações de contexto para tratá-los
- Isso mostra melhor o problema de empresas que não conseguem criar observabilidade útil
- O produto é bem-vindo, mas espera-se que não destaque como principal argumento de venda o fato de viabilizar práticas culturais ruins
- O setor de telecomunicações resolveu esse problema há 15 anos com a automação de Fault Management
- Quando os alertas foram para o Slack, os dados viraram texto não estruturado, exigindo soluções complexas de filtragem
Segundo comentário: expressa preocupação com o uso de LLMs não confiáveis para tarefas importantes
- Espera que resolvam o problema original sem adicionar LLM
Terceiro comentário: menciona que o fundador da All Quiet está desenvolvendo uma ferramenta que não usa LLM
- Os usuários não querem que alertas importantes dependam de LLMs opacos
- A IA pode ajudar com os sintomas, mas não resolve a causa raiz, que são problemas de observabilidade e de processo
Quarto comentário: expressa preocupação com a filtragem da importância das notificações por meio de LLM
Quinto comentário: acoplar a ferramenta de forma estreita ao Slack limita as plataformas que podem ser usadas
- Existem outras plataformas de mensagens instantâneas
- O problema mais amplo do uso de IM está sendo discutido em outra thread de comentários
Sexto comentário: menciona ser um grande fã dessa direção
- Expressa curiosidade sobre o bootstrapping inicial e o baseline contínuo
- Informa que a equipe da Louie.AI está contratando para SE e cargos importantes
Sétimo comentário: explica por que conhece os problemas do sistema de alertas no trabalho atual, mas não consegue resolvê-los
- Não é possível desligar os alertas, nem identificar ou corrigir a causa raiz
- Operar bem o on-call é uma questão cultural
- Ferramentas técnicas não conseguem resolver problemas culturais
- Para resolver problemas culturais, só resta procurar outro emprego ou aceitar a situação
Oitavo comentário: parabeniza pela criação do produto e aponta que falta uma palavra no primeiro parágrafo
Nono comentário: está procurando uma UI semelhante para alertas de negócios
- Quer uma ferramenta que use fontes de dados como Snowflake/BigQuery
- Menciona que as ferramentas usadas acabaram virando canais de Slack cheios de spam