3 pontos por GN⁺ 2023-08-09 | 1 comentários | Compartilhar no WhatsApp
  • Este artigo apresenta o WarpStream, uma plataforma de streaming de dados compatível com o protocolo Kafka construída diretamente sobre o S3.
  • O WarpStream é fornecido como um único binário Go sem estado, eliminando a necessidade de gerenciar discos locais, rebalanceamento de brokers e operação do ZooKeeper.
  • Ao transmitir os dados diretamente para o S3, a plataforma reduz significativamente os custos de infraestrutura e, na nuvem, é de 5 a 10 vezes mais barata que o Kafka.
  • O artigo critica a adequação do Kafka para cargas de trabalho modernas, destacando os altos custos de largura de banda entre AZs e a sobrecarga operacional.
  • A arquitetura do WarpStream é diferente da do Kafka. Em vez de brokers, há "agentes" sem estado que podem atuar como "líder" de qualquer tópico, fazer commit de offsets para qualquer grupo de consumidores ou funcionar como coordenador do cluster.
  • No WarpStream, todo o armazenamento é descarregado para um armazenamento de objetos como o S3, permitindo escalabilidade fácil e recuperação rápida de falhas.
  • O WarpStream separa dados e metadados, armazenando os metadados de todos os "clusters virtuais" em um banco de dados de metadados personalizado.
  • A plataforma reduz em 5 a 10 vezes o custo total da maioria das cargas de trabalho com Kafka, mas tem latência mais alta: P99 de cerca de 400 ms para requisições de produção e cerca de 1 segundo do produtor ao consumidor.
  • O WarpStream está atualmente na fase de prévia para desenvolvedores e ainda não está pronto para uso em produção.
  • Os criadores do WarpStream acreditam que a UX para desenvolvedores do Kafka é um problema, especialmente por causa da abstração de baixo nível das partições. Eles planejam resolver isso em futuras atualizações do WarpStream.
  • O artigo termina convidando os leitores a experimentar o WarpStream e enviar feedback.

1 comentários

 
GN⁺ 2023-08-09
Comentários do Hacker News
  • Artigo sobre a natureza dicotômica do Kafka, tecnologia de streaming de dados
  • Debate sobre se a maioria das empresas de tecnologia usa Kafka
  • Eficiência de custo de enviar cada mensagem diretamente para o S3 e os problemas de operar um cluster Kafka em cada AZ
  • Introdução feita por Ryan Worl, cofundador e CTO da WarpStream, um sistema de streaming compatível com o protocolo do Kafka construído diretamente sobre o S3
  • Destaque para a eficiência de custo da WarpStream, a ausência de necessidade de operar discos/nós com estado, a ausência de necessidade de rebalanceamento de dados ou de ZooKeeper, e a redução das cobranças de largura de banda entre AZs
  • Crítica ao custo de operar Kafka em VMs separadas em provedores de nuvem
  • Discussão sobre o uso de adaptadores de armazenamento em serviços gerenciados de Hadoop/Kafka na nuvem, devidamente projetados para aproveitar a redundância do provedor
  • Reclamações de alguns usuários sobre a afirmação do artigo de que o Kafka exige uma equipe especializada e um grande orçamento
  • Ênfase no fato de que é possível alterar o número de partições no Kafka
  • Debate sobre a afirmação do artigo de que operar Kafka exige uma grande equipe de engenharia
  • Dúvidas sobre como a WarpStream gerencia o serviço, se usa provedor de nuvem ou bare metal, e se usa foundationdb como armazenamento de metadados
  • Discussão sobre o potencial da API do Kafka e a possibilidade de abstrair a complexidade do gerenciamento de clusters
  • Redução de custos ao mover tráfego de ML em grande escala para o S3, com um usuário relatando cerca de 90% de economia
  • Sugestão de mudar o título do artigo para "Kafka morreu. Viva o rei, WarpStream." para refletir a adoção da nova tecnologia