5 pontos por GN⁺ 2024-11-19 | 1 comentários | Compartilhar no WhatsApp
  • Introdução ao Regatta Storage

    • O Regatta Storage é um novo sistema de arquivos em nuvem que oferece capacidade ilimitada, desempenho semelhante ao local e sincronização automática com armazenamento compatível com S3
    • Torna grandes conjuntos de dados no S3 imediatamente acessíveis com ferramentas como Spark, Pytorch e pandas
    • Ao criar uma conta, é possível experimentar o serviço gratuitamente
  • Contexto de desenvolvimento

    • O fundador desenvolveu o Regatta com base na experiência de construir e operar armazenamento em nuvem na Amazon EFS e na Netflix
    • Ele gosta da simplicidade e da escalabilidade do EFS, mas na Netflix o uso do EFS era pequeno
    • Ao mover cargas de trabalho de disco local para NFS, surgiam problemas de desempenho
    • O Regatta foi criado para resolver problemas no mercado de armazenamento em nuvem que não eram atendidos por armazenamento em bloco ou de arquivos
  • Características do Regatta

    • Um sistema de arquivos em nuvem com cobrança por uso, que escala automaticamente junto com a aplicação
    • Sincroniza automaticamente com o S3 em formato de arquivo nativo, permitindo conexão com conjuntos de dados existentes e uso direto dos dados de arquivos no S3
    • Dados não utilizados são removidos do cache do Regatta, então paga-se apenas pelo armazenamento no S3
    • Está desenvolvendo um protocolo de arquivos customizado que oferece desempenho semelhante ao local para cargas com arquivos pequenos e escalabilidade tipo Lustre para trabalhos distribuídos de dados
  • Implementação técnica

    • Os clientes montam o sistema de arquivos Regatta via NFSv3, e a instância de cache se conecta ao bucket S3 do cliente
    • Oferece desempenho de leitura e escrita em cache abaixo de 1 ms, mantendo consistência forte
    • Executa operações complexas como renomeação de diretórios de forma rápida e confiável, propagando-as de forma assíncrona para o bucket S3
  • Casos de uso e expectativas

    • É usado para construir servidores Jupyter Notebook serverless para pesquisadores de IA
    • É usado como uma camada de cache distribuído sobre o S3 para acessar arquivos compartilhados com baixa latência
    • Houve redução de custos ao substituir volumes de boot do Ceph
    • Comentários de usuários e ideias sobre direções futuras são bem-vindos, e a equipe aguarda a opinião da comunidade

1 comentários

 
GN⁺ 2024-11-19
Comentários no Hacker News
  • A diferença entre o Rclone e o Regatta Storage é que, nas operações de modificação do sistema de arquivos, o Regatta usa uma camada de cache de alta velocidade para oferecer consistência forte. O Rclone não tem uma camada que garanta consistência entre clientes paralelos

    • O Regatta Storage usa uma camada de cache de alta velocidade nas operações de modificação do sistema de arquivos para oferecer consistência forte
    • O Rclone não tem uma camada que garanta consistência entre clientes paralelos
  • Parece um dos produtos mais legais que já saíram da YC, e há várias perguntas sobre como isso funciona

    • Há curiosidade sobre se ocorre degradação de desempenho ao lidar com dados na faixa de 50 GB usando um disco local de 10 GB
    • Há curiosidade sobre se é possível obter alta velocidade também em outras nuvens além da AWS
    • Há curiosidade sobre a forma de uso com montagens FUSE e NFS
    • Há curiosidade sobre se é possível executar Clickhouse ou Postgres em um volume Regatta
    • Há curiosidade sobre o que pensam a respeito de open source
    • Há curiosidade sobre se pode ser montado em vários servidores e quais são essas limitações
  • A pessoa está hospedando o DuckDB usando o GCP Filestore e pede informações sobre preço e desempenho do Regatta

    • Pede informações sobre preço e desempenho de uma instância de 10 TiB
  • Há interesse nele como disco de backup para SQLite/DuckDB/parquet, com leituras em cache no armazenamento NVMe local da instância

    • São necessárias funcionalidades de locking e memória compartilhada que não se consegue com NFS
    • Isso poderia ser implementado diretamente em espaço de usuário, mas nesse caso seria melhor usar S3
  • A pessoa acha que usar NFS como protocolo é uma boa ideia

    • Já teve experiência na IBM escrevendo um sistema de arquivos criptografado com conceito semelhante
    • É quase mágico que, ao montar o sistema de arquivos, todos os dados simplesmente “estejam lá”
  • Há preocupação com a possibilidade de a AWS copiar esse produto e oferecê-lo por um preço mais baixo

  • Houve a experiência de fazer com sucesso, em 2008, uma demonstração diante do CEO da Adobe em que uma foto tirada com um iPhone aparecia automaticamente como arquivo no Mac

    • Foi implementado um FUSE local que se comunicava com o armazenamento distribuído de objetos da Adobe
    • O trabalho de pesquisa e desenvolvimento em sistemas distribuídos começou junto com o lançamento do Dropbox
  • Há curiosidade sobre se é possível construir armazenamento SQL ACID em tempo real usando Lambda + SQLite + Regatta

  • Não está claro como conflitos de atualização de arquivos são tratados

    • Por exemplo, há curiosidade sobre como fica o arquivo final se dois usuários atualizarem o mesmo arquivo em computadores diferentes
  • Existem alternativas notáveis como s3fs, rclone e goofys