Vector - pipeline de dados de Observability open source de alto desempenho

xguru · 2024-03-19T10:16:01+09:00

Plataforma de pipeline de dados de Observability de ponta a ponta e alto desempenho (agente e agregador) que permite aos usuários controlar seus dados observáveis Coleta, transforma e roteia logs e métricas para enviar a qualquer fornecedor desejado hoje, bem como para outros fornecedores que possam ser desejados no futuro Reduz custos, oferece novo enriquecimento de dados (Enrichment), segurança de dados, é open source e alcança desempenho de até 10 vezes mais rápido que outras alternativas Princípios Confiabilidade - Construído em Rust, com a confiabilidade como principal objetivo de design Ponta a ponta - Implantado como Agent ou Aggregator. O Vector é uma plataforma completa Integração - Logs, métricas (beta), rastreamento (em breve). Uma ferramenta para todos os dados Casos de uso Redução do custo total de Observability Troca de fornecedor sem interromper o fluxo de trabalho Melhoria da qualidade dos dados e dos insights Consolidação de agentes e eliminação da fadiga de agentes Melhoria geral do desempenho e da confiabilidade da observabilidade Comunidade Startups e grandes empresas como Atlassian, T-Mobile, Comcast, Zendesk, Discord, Fastly, CVS, Trivago, Tuple, Douban, Visa, Mambu, Blockfi, Claranet e Instacart dependem do Vector O Vector é baixado mais de 100.000 vezes por dia O maior usuário do Vector processa mais de 30 TB de dados por dia O Vector tem mais de 100 contribuidores e continua crescendo

(github.com/vectordotdev)

13 pontos por xguru 2024-03-19 | 2 comentários | Compartilhar no WhatsApp

Plataforma de pipeline de dados de Observability de ponta a ponta e alto desempenho (agente e agregador) que permite aos usuários controlar seus dados observáveis
Coleta, transforma e roteia logs e métricas para enviar a qualquer fornecedor desejado hoje, bem como para outros fornecedores que possam ser desejados no futuro
Reduz custos, oferece novo enriquecimento de dados (Enrichment), segurança de dados, é open source e alcança desempenho de até 10 vezes mais rápido que outras alternativas

Princípios

Confiabilidade - Construído em Rust, com a confiabilidade como principal objetivo de design
Ponta a ponta - Implantado como Agent ou Aggregator. O Vector é uma plataforma completa
Integração - Logs, métricas (beta), rastreamento (em breve). Uma ferramenta para todos os dados

Casos de uso

Redução do custo total de Observability
Troca de fornecedor sem interromper o fluxo de trabalho
Melhoria da qualidade dos dados e dos insights
Consolidação de agentes e eliminação da fadiga de agentes
Melhoria geral do desempenho e da confiabilidade da observabilidade

Comunidade

Startups e grandes empresas como Atlassian, T-Mobile, Comcast, Zendesk, Discord, Fastly, CVS, Trivago, Tuple, Douban, Visa, Mambu, Blockfi, Claranet e Instacart dependem do Vector
O Vector é baixado mais de 100.000 vezes por dia
O maior usuário do Vector processa mais de 30 TB de dados por dia
O Vector tem mais de 100 contribuidores e continua crescendo

2 comentários

softer 2025-02-14

Guardião de pipeline de logs

xguru 2024-03-19

Opiniões no Hacker News

Avaliação positiva do software Vector
- O Vector é um excelente software para operar pipelines de logs de vários GB/s.
- O agente do Vector coleta logs de pods e do journald como DaemonSets e os envia para um agregador central do Vector (Deployment) usando o protocolo protobuf do Vector.
- Suporta vários armazenamentos (s3, gcs/bigquery, loki, prom).
- A documentação é boa, embora às vezes seja difícil encontrar exemplos de padrões comuns; isso vem melhorando com o tempo e com o aumento da base de usuários.
- Uma dica é pesquisar no Google por "vector dev" para obter bons resultados.
- Recentemente, foi adicionada uma contribuição que lida melhor com contadores como alternativa ao Prometheus pushgateway.
Visão e expectativa para sistemas de armazenamento de logs
- Um sistema de processamento e armazenamento de logs está quase pronto, e a expectativa é que evolua, no médio e longo prazo, para um sistema de armazenamento de logs consultável.
- Os logs são processados por ferramentas como o Vector e armazenados em object storage em formatos de arquivo amplamente compreendidos.
- Os objetos de log são registrados em um repositório de metadados para que possam ser pesquisados.
- Ferramentas como Delta Lake e Iceberg podem funcionar tanto em grande quanto em pequena escala.
- Vários pipelines de processamento de logs podem fazer commit no mesmo armazenamento.
- Ferramentas de alto desempenho como Clickhouse, DuckDB e Spark podem ler isso.
- Como usa formatos padrão, é possível trocar de ferramenta ou usar várias ao mesmo tempo.
Confiabilidade e utilidade do Vector
- O Vector é muito mais confiável do que beats ou forwarders específicos de fornecedores (chronicle forwarder, fdr).
- O VRL é útil para fazer o "pré-parse" de logs de grande volume, como aws cloudtrail e imperva abp.
Experiência de uso e recomendação do Vector
- Há experiência de uso com o Vector, e sua configuração é simples, enquanto a linguagem VRL é suficientemente poderosa.
- O recurso check da CLI ajuda a identificar problemas de configuração.
- É recomendado com ênfase por não apresentar problemas de desempenho e por ser eficiente em termos de recursos.
Versatilidade do Vector
- O Vector vai além de simplesmente ser "de alto desempenho"; ele é como um canivete suíço para logs e métricas.
- É usado para diversas tarefas, como converter logs em métricas, converter métricas para outros formatos, enviar dados para outros armazenamentos e filtrá-los.
- É a primeira escolha para coletar, agregar, filtrar e pré-processar dados de observabilidade.
Interesse e expectativa em relação ao Vector
- A pessoa conheceu o Vector depois de configurar um novo pipeline com fluent-bit.
- O Vector tem muitos recursos interessantes, e há vontade de testá-lo antes, quando houver tempo.
- Parece que pode ser divertido experimentá-lo em um novo projeto.
Escopo de aplicação e possibilidades do Vector
- A maioria dos exemplos e discussões vistos sobre o Vector é voltada a bancos de dados ou aplicações complexas multi-tenant.
- Há curiosidade se alguém já usou o Vector em sistemas distribuídos, como veículos autônomos, para agregar logs operacionais, estado do sistema e entradas e saídas de cada aplicação.
Casos reais de uso e possibilidades adicionais do Vector
- O Vector está sendo usado para encaminhamento de logs, substituindo uma configuração do logstash que não conseguia realizar o trabalho necessário.
- A pessoa sente que mal começou a entender o potencial do Vector e quer usá-lo mais.
- Gostaria de saber sobre casos de uso do Vector além do envio de logs.
Problema de confiança em relação à Datadog
- Há desconfiança em relação ao fato de a Datadog administrar o Vector, que parece ser um concorrente do OTEL.
Recursos do Vector e plano de observação futura
- O Vector é interessante, mas não pode ser usado no momento por não ter funcionalidade de tracing.
- Há planos de observá-lo nos próximos meses, com expectativa de que surjam bons recursos utilizáveis.