9 pontos por GN⁺ 2023-12-07 | 3 comentários | Compartilhar no WhatsApp
  • A nova classe de armazenamento de baixa latência "S3 Express One Zone" da AWS está chamando a atenção da comunidade de infraestrutura de dados
    • A velocidade de acesso aos dados é 10 vezes maior, e o custo de requisições de API é 50% mais barato. Pode processar milhões de requisições por minuto
  • A classe de armazenamento S3 Express é 8 vezes mais cara por GiB do que o S3 Standard existente, então não é adequada como armazenamento "principal" de sistemas de dados em larga escala
  • Embora o custo das operações de API seja 50% mais barato, ele não é extremamente baixo, então ainda não se encaixa em cargas de trabalho que antes eram impraticáveis por causa do custo da API do S3
  • O S3 Express cobra por GiB em todas as operações de API (escrita + leitura) que excedam 512 KiB
    • Pensando de outra forma, toda operação de API recebe 512 KiB de largura de banda "gratuita", e você só paga quando ultrapassa isso
  • Porém, como é uma classe de armazenamento One Zone, os sistemas de dados precisam replicar manualmente os dados em duas AZs para se proteger contra a falha de uma única AZ
    • O custo de gravar os dados duas vezes em duas AZs é semelhante ao custo de replicar manualmente os dados na camada da aplicação

Nova oportunidade para a infraestrutura de dados moderna

  • A nova classe de armazenamento oferece uma nova oportunidade de ajustar, com a mesma arquitetura e o mesmo código, entre baixa latência e alto custo ou alta latência e baixo custo
  • Todos os sistemas de dados modernos agora não precisam mais ser projetados com base na disponibilidade de disco local ou armazenamento em bloco (EBS), podendo ser totalmente construídos sobre armazenamento de objetos
  • Os dados podem ser facilmente armazenados em um bucket S3 Express de baixa latência e depois movidos de forma assíncrona para um bucket S3 Standard, e a maioria dos sistemas de dados modernos já tem recursos de compressão, então a "hierarquização de armazenamento" é praticamente gratuita

Opinião do GN⁺

O ponto mais importante deste artigo é a perspectiva sobre que tipo de mudança a nova classe de armazenamento S3 Express One Zone da AWS pode trazer para a infraestrutura de dados. Essa classe de armazenamento oferece novas oportunidades para melhorar drasticamente custo e desempenho dos sistemas de dados, o que pode trazer inovação para a forma de gerenciar e armazenar dados. Em especial, a capacidade de construir todos os sistemas de dados com foco em armazenamento de objetos pode se tornar uma opção atraente para muitas empresas e desenvolvedores. Espera-se que essa mudança torne o futuro da infraestrutura de dados mais flexível e mais eficiente em termos de custo.

3 comentários

 
kuroneko 2023-12-07

Fico curioso para ver como isso será usado.

 
heycalmdown 2023-12-07

Eu tinha acabado de procurar pelo WarpStream de novo ontem, então estou anexando o link.
https://pt.news.hada.io/topic?id=10234

 
GN⁺ 2023-12-07
Opinião do Hacker News
  • A maioria dos sistemas de armazenamento/bancos de dados em produção baseados em S3 investe um esforço considerável na construção de uma camada de cache em SSD/memória para alcançar um desempenho produtivo.

    • O S3 Express se aproxima da velocidade de leitura aleatória de HDD, então é possível construir sistemas de produção sem cache em SSD.
    • Muitos sistemas ainda manterão o cache em SSD, mas agora um MVP pode ser construído sem cache em SSD, e a latência de consultas frias cai bastante.
    • Estou construindo atualmente um banco de dados vetorial sobre armazenamento de objetos, então essa tecnologia chegou em ótima hora.
  • O custo de armazenamento do AWS S3 Express é 8 vezes maior que o do S3 Standard, mas isso não é um problema para sistemas modernos de armazenamento de dados.

    • Os dados podem ser facilmente gravados em um bucket S3 Express de baixa latência e, de forma assíncrona, movidos de maneira compactada para um bucket S3 Standard.
    • A maioria dos sistemas de dados modernos já tem compressão, então a "hierarquização de armazenamento" é praticamente grátis.
    • Prevejo um futuro em que a maioria dos aplicativos intensivos em dados usará o S3 como camada principal de armazenamento.
  • Algumas semanas atrás, testamos o S3 Express no mecanismo de busca Quickwit.

    • Ficamos satisfeitos em termos de desempenho, mas decepcionados com o preço.
    • Em certos casos de uso, o preço pode fazer sentido, mas espero que a maioria dos usuários adicione cache em SSD local ao S3 existente.
  • Como contexto adicional, a warpstream está construindo um sistema de streaming compatível com Kafka que usa o S3 como armazenamento de objetos.

    • Isso permite aproveitar custos baratos de transferência entre zonas e a hierarquização automática de armazenamento para reduzir os custos de operação e manutenção do sistema.
    • A latência causada pela velocidade de leitura/escrita do S3 era um problema, mas com o S3 Express isso passa a permitir competir com o produto gerenciado da Confluent Kafka em aplicações sensíveis à latência.
  • Resolvi o problema localmente colocando os arquivos em cache no Redis antes de enviá-los ao S3.

    • Quando a base de código precisa usar um arquivo, ela verifica o Redis; se não estiver lá, faz o fetch e o armazena em cache novamente.
  • Não entendo por que o EFS é muito superior ao S3 e ainda assim não recebe atenção.

    • O sistema pode montá-lo como um drive, ele pode ser compartilhado entre sistemas e já tem latência muito baixa.
    • Não tenho certeza de quão útil o S3 Express realmente é quando o EFS já existe.
  • Fico curioso se a frase "X is all you Need" foi usada pela primeira vez no artigo "Attention is all you need".

    • Esse artigo apresentou o Transformer ao mundo.
  • Se isso for um S3 de baixa latência escrito em Rust, então finalmente foi lançado depois de anos de desenvolvimento.

  • Fico me perguntando se existem casos de uso em que a nova camada S3 Express trará ganho de desempenho e se o custo adicional de 8 vezes vale a pena.

  • Muitas implementações de S3 parecem apenas um download transparente para disco, mas na prática isso não significa "usar a rede como disco".