Lançamento no HN: Regatta Storage (YC F24) – tecnologia que transforma o S3 em um sistema de arquivos em nuvem semelhante ao POSIX local
(news.ycombinator.com)-
Introdução ao Regatta Storage
- O Regatta Storage é um novo sistema de arquivos em nuvem que oferece capacidade ilimitada, desempenho semelhante ao local e sincronização automática com armazenamento compatível com S3
- Torna grandes conjuntos de dados no S3 imediatamente acessíveis com ferramentas como Spark, Pytorch e pandas
- Ao criar uma conta, é possível experimentar o serviço gratuitamente
-
Contexto de desenvolvimento
- O fundador desenvolveu o Regatta com base na experiência de construir e operar armazenamento em nuvem na Amazon EFS e na Netflix
- Ele gosta da simplicidade e da escalabilidade do EFS, mas na Netflix o uso do EFS era pequeno
- Ao mover cargas de trabalho de disco local para NFS, surgiam problemas de desempenho
- O Regatta foi criado para resolver problemas no mercado de armazenamento em nuvem que não eram atendidos por armazenamento em bloco ou de arquivos
-
Características do Regatta
- Um sistema de arquivos em nuvem com cobrança por uso, que escala automaticamente junto com a aplicação
- Sincroniza automaticamente com o S3 em formato de arquivo nativo, permitindo conexão com conjuntos de dados existentes e uso direto dos dados de arquivos no S3
- Dados não utilizados são removidos do cache do Regatta, então paga-se apenas pelo armazenamento no S3
- Está desenvolvendo um protocolo de arquivos customizado que oferece desempenho semelhante ao local para cargas com arquivos pequenos e escalabilidade tipo Lustre para trabalhos distribuídos de dados
-
Implementação técnica
- Os clientes montam o sistema de arquivos Regatta via NFSv3, e a instância de cache se conecta ao bucket S3 do cliente
- Oferece desempenho de leitura e escrita em cache abaixo de 1 ms, mantendo consistência forte
- Executa operações complexas como renomeação de diretórios de forma rápida e confiável, propagando-as de forma assíncrona para o bucket S3
-
Casos de uso e expectativas
- É usado para construir servidores Jupyter Notebook serverless para pesquisadores de IA
- É usado como uma camada de cache distribuído sobre o S3 para acessar arquivos compartilhados com baixa latência
- Houve redução de custos ao substituir volumes de boot do Ceph
- Comentários de usuários e ideias sobre direções futuras são bem-vindos, e a equipe aguarda a opinião da comunidade
1 comentários
Comentários no Hacker News
A diferença entre o Rclone e o Regatta Storage é que, nas operações de modificação do sistema de arquivos, o Regatta usa uma camada de cache de alta velocidade para oferecer consistência forte. O Rclone não tem uma camada que garanta consistência entre clientes paralelos
Parece um dos produtos mais legais que já saíram da YC, e há várias perguntas sobre como isso funciona
A pessoa está hospedando o DuckDB usando o GCP Filestore e pede informações sobre preço e desempenho do Regatta
Há interesse nele como disco de backup para SQLite/DuckDB/parquet, com leituras em cache no armazenamento NVMe local da instância
A pessoa acha que usar NFS como protocolo é uma boa ideia
Há preocupação com a possibilidade de a AWS copiar esse produto e oferecê-lo por um preço mais baixo
Houve a experiência de fazer com sucesso, em 2008, uma demonstração diante do CEO da Adobe em que uma foto tirada com um iPhone aparecia automaticamente como arquivo no Mac
Há curiosidade sobre se é possível construir armazenamento SQL ACID em tempo real usando Lambda + SQLite + Regatta
Não está claro como conflitos de atualização de arquivos são tratados
Existem alternativas notáveis como s3fs, rclone e goofys