Por que os sistemas de arquivos estão chamando atenção

(madalitso.me)

36 pontos por GN⁺ 2026-03-09 | 1 comentários | Compartilhar no WhatsApp

Recentemente, no ecossistema de agentes de IA, os sistemas de arquivos voltaram a ganhar destaque e estão emergindo como um meio de gerenciamento de contexto persistente diferente dos bancos de dados
A janela de contexto dos LLMs é mais parecida com um quadro branco que se apaga do que com memória persistente, e o sistema de arquivos é o meio de armazenamento permanente mais simples para resolver isso
Claude Code, Cursor e outros implementam memória de longo prazo por meio de armazenamento de contexto baseado em arquivos, e arquivos como CLAUDE.md e aboutme.md cumprem o papel de guardar a identidade do agente e informações do ambiente
O gerenciamento de contexto baseado em sistema de arquivos está surgindo como tema central, e empresas como LlamaIndex, LangChain, Oracle e Archil vêm publicando textos e produtos relacionados em sequência
Em meio à proliferação de arquivos de contexto de agentes como CLAUDE.md, AGENTS.md e .cursorrules, o formato Agent Skills (SKILL.md) da Anthropic vem sendo adotado por Microsoft, OpenAI, GitHub e Cursor, garantindo interoperabilidade
Segundo pesquisa da ETH Zürich, arquivos de contexto podem, ao contrário, reduzir a taxa de sucesso das tarefas e aumentar o custo de inferência em mais de 20%, portanto devem descrever apenas os requisitos mínimos
Arquivos não ficam presos a um aplicativo específico e estão se firmando como uma interface aberta que permite alternância entre ferramentas, combinação de workflows e manutenção de continuidade na era dos agentes de IA

Everyone is talking about files : todo mundo está falando de arquivos

A LlamaIndex publicou "Files Are All You Need", e a LangChain abordou como agentes podem usar sistemas de arquivos para engenharia de contexto
A Oracle (sim, a própria Oracle!) publicou um texto sobre comparação entre sistemas de arquivos e bancos de dados para gerenciamento eficaz de memória de agentes de IA, enquanto Dan Abramov propôs um sistema de arquivos social baseado no AT Protocol
A Archil está construindo volumes em nuvem porque agentes querem um sistema de arquivos POSIX
Jerry Liu, da LlamaIndex, argumenta que, em vez de “um agente com centenas de ferramentas”, algo com apenas um sistema de arquivos e 5 a 10 ferramentas pode ser mais geral do que um agente com mais de 100 ferramentas MCP
Karpathy aponta que Claude Code funciona porque roda diretamente sobre o computador, o ambiente, os dados e o contexto do usuário, e avalia que a ênfase da OpenAI em implantar contêineres na nuvem foi um direcionamento equivocado
Hoje, agentes de programação representam a maior parte dos casos práticos de uso de IA, e a Anthropic está perto do lucro enquanto a ferramenta CLI Claude Code impulsiona uma parte significativa de sua receita

Janela de contexto não é memória

A memória humana inclui armazenamento de longo prazo, evocação seletiva e esquecimento de informações desnecessárias, mas a janela de contexto dos LLMs é mais parecida com um quadro branco que está sempre sendo apagado
Ao usar Claude Code, quando o alerta de "context left until auto-compact" se aproxima, o contexto acumulado pelo agente — como base de código, preferências e decisões — é comprimido ou perdido
O sistema de arquivos resolve isso da forma mais simples: escreve o registro em arquivos e o lê novamente quando necessário
- CLAUDE.md fornece contexto persistente sobre o projeto
- O Cursor salva históricos de chat anteriores como arquivos pesquisáveis
- O arquivo aboutme.md funciona como um descritor portátil de identidade com preferências, habilidades e estilo de trabalho, podendo circular entre aplicativos sem coordenação de API

Pesquisa da ETH Zürich: o paradoxo dos arquivos de contexto

Um artigo recente da ETH Zürich avaliou se arquivos de contexto em nível de repositório realmente ajudam agentes de programação a concluir tarefas
O resultado foi contraintuitivo: em vários agentes e modelos, os arquivos de contexto reduziram a taxa de sucesso das tarefas, enquanto o custo de inferência aumentou em mais de 20%
- Agentes que receberam arquivos de contexto exploraram mais amplamente, executaram mais testes e percorreram mais arquivos, mas demoraram mais para chegar ao código que realmente precisava ser alterado
- Os arquivos funcionaram como uma checklist que o agente segue com seriedade excessiva
A conclusão do artigo não é “não use arquivos de contexto”, e sim que requisitos desnecessários tornam a tarefa mais difícil, e arquivos de contexto devem descrever apenas os requisitos mínimos
O problema não é a camada persistente do sistema de arquivos em si, mas a prática de escrever CLAUDE.md como se fosse um documento de onboarding de 2.000 palavras

Formato de arquivo é a própria API — mas qual arquivo?

Atualmente coexistem CLAUDE.md, AGENTS.md, copilot-instructions.md e .cursorrules; há consenso de que agentes precisam de contexto persistente baseado em sistema de arquivos, mas não há consenso sobre o nome do arquivo nem sobre o formato do conteúdo
No texto de Dan Abramov sobre sistema de arquivos social, o ponto central do design é: o AT Protocol trata os dados do usuário como arquivos dentro de um repositório pessoal, e os aplicativos evitam conflitos com namespaces baseados em nomes de domínio, sem precisar concordar sobre o que é um “post”
- O banco de dados de cada aplicativo passa a ser dado derivado, ou seja, uma visão materializada em cache de todas as pastas de usuários
A Anthropic apresentou Agent Skills como padrão aberto: o formato SKILL.md foi adotado por Microsoft, OpenAI, Atlassian, GitHub e Cursor
- Uma skill escrita para Claude Code também funciona no Codex e no Copilot — o formato de arquivo é a própria API
NanoClaw é um framework leve de assistente pessoal de IA que adota um modelo de “skills em vez de funcionalidades”
- Se for necessário suporte ao Telegram, não entra um módulo de Telegram, mas sim a skill /add-telegram (um arquivo Markdown), que ensina o Claude Code a integrá-lo
- Como skills são arquivos, elas são portáteis, auditáveis e combináveis — sem necessidade de servidor MCP ou marketplace de plugins
Isso é interoperabilidade sem coordenação: se dois aplicativos conseguem ler Markdown, eles podem compartilhar contexto; se entendem o formato SKILL.md, podem compartilhar funcionalidades; sem contratos de parceria nem reuniões de órgãos de padronização, o próprio formato do arquivo faz a coordenação

O deslocamento do gargalo

A arquitetura de dados tradicional foi projetada sob a premissa de que armazenamento era o gargalo, mas, à medida que a capacidade de processamento superou o I/O de storage, o paradigma mudou para a separação entre storage e compute (S3 + clusters temporários de computação)
Algo semelhante acontece com agentes de IA: o gargalo não é desempenho do modelo nem compute, mas contexto
- Os modelos são inteligentes o suficiente, mas esquecem
- O sistema de arquivos é a forma mais eficaz de gerenciar contexto persistente exatamente no ponto em que o agente roda (a máquina do desenvolvedor, onde ambiente e dados já existem)

Sistema de arquivos já é um grafo

No Twitter, houve a observação de que “quem usa sistema de arquivos e diz que agentes não precisam de grafos está negando que já está usando um grafo”
- Um sistema de arquivos é uma estrutura em árvore composta por diretórios, subdiretórios e arquivos, ou seja, um grafo acíclico direcionado (DAG)
- Quando o agente usa ls, grep, lê arquivos e segue referências, ele já está percorrendo um grafo
Richmond, no texto da Oracle, faz a distinção mais precisa: sistemas de arquivos vencem como interface, bancos de dados vencem como camada subjacente
- Quando passam a ser necessários acesso concorrente, busca semântica em grande escala, deduplicação e ponderação por recência, você acaba construindo seus próprios índices — o que, na prática, é um banco de dados
A interface de arquivos é poderosa por ser universal e já compreendida pelos LLMs, e a camada baseada em banco de dados é poderosa por oferecer as garantias necessárias para a operação real
O futuro não é arquivo versus banco de dados, mas uma estrutura em que arquivos são a interface pela qual humanos e agentes interagem, e abaixo dela fica a camada subjacente adequada ao caso de uso

Isso redefine a computação pessoal

O sistema de arquivos pode redefinir o significado de computação pessoal na era da IA
- Dados, contexto, preferências, skills e memórias existem em um formato pertencente ao usuário, que qualquer agente pode ler e que não fica preso a um aplicativo específico
- aboutme.md funciona tanto no OpenClaw/NanoClaw de hoje quanto em uma nova ferramenta amanhã
- Arquivos de skills são portáteis, e o contexto do projeto permanece além da ferramenta
Isso se parece com o que a computação pessoal originalmente buscava, antes de tudo migrar para aplicativos SaaS fechados e bancos de dados proprietários
- Arquivos são o protocolo aberto original, e, à medida que agentes de IA se tornam a principal interface da computação, eles viram a camada de interoperabilidade que permite alternar ferramentas, combinar workflows e manter continuidade entre aplicações sem precisar da permissão de ninguém
Ainda assim, existe um lado idealista: a história dos formatos abertos está cheia de padrões que venceram no papel e fracassaram na prática
- Empresas têm forte incentivo para tornar seus arquivos de contexto sutilmente diferentes e manter custos de troca
- O fato de CLAUDE.md, AGENTS.md e .cursorrules coexistirem, em vez de convergirem para um único formato universal, já mostra que fragmentação é o padrão
- O artigo da ETH Zürich também lembra que, mesmo existindo um formato, escrever bons arquivos de contexto é difícil, e arquivos ruins podem ser piores do que não ter nenhum
A mensagem central de Dan Abramov:

Nossas memórias, pensamentos e designs devem sobreviver por mais tempo do que o software que os criou
- Isso não é uma afirmação técnica, mas uma questão de valores, e o sistema de arquivos é adequado para esse papel não por ser a melhor tecnologia, mas porque já é a única tecnologia que pertence ao usuário

1 comentários

GN⁺ 2026-03-09

Opiniões do Hacker News

Arquivos são uma forma fundamental de liberdade que permite ao usuário possuir diretamente seus dados
Isso possibilita soberania sobre confidencialidade, integridade e disponibilidade
Como eixo central da liberdade digital, isso deveria ser reconhecido no mesmo nível das licenças FOSS
- Graças à capacidade de raciocínio dos LLMs, agora já não é preciso se preocupar tanto com a estrutura dos arquivos
  A própria linguagem natural existe dentro do arquivo, e a legibilidade passa a ser a própria especificação
  Qualquer pessoa capaz de escrever de forma legível pode gravar em um arquivo, e executá-lo imediatamente como em um REPL
- Por isso incomodam as tentativas de grandes empresas de tecnologia como a Apple de eliminar o conceito de arquivo
  Elas fazem com que os dados fiquem presos aos apps, sem poder existir de forma independente, e dificultam importação/exportação
  Para resolver esse problema, estou criando uma ferramenta que extrai dados de backups em unidades granulares de arquivo e os move para uma biblioteca digital pessoal
  Dados imutáveis podem simplesmente ser arquivados, mas o maior desafio é tornar dados editáveis novamente “vivos”, para que possam ser modificados em apps
- Acho arquivos de configuração muito melhores do que repositórios centralizados como o Windows Registry
  É fácil fazer mudanças temporárias e compartilhar, e o significado das configurações fica claramente definido
  Não gosto do fato de o Windows tratar arquivos como cidadãos de terceira classe
Penso da mesma forma também do ponto de vista de SaaS
Quanto mais efêmero e específico de domínio for o código, mais os dados (arquivos) precisam ser padronizados e estavelmente tediosos
Um formato que só um app específico consegue ler é dívida técnica e, no fim, destrói o projeto
O motivo de ainda podermos abrir um arquivo JPEG de 1995 é que ele não depende de um software específico
- Meu sistema de gerenciamento de fotos, com mais de 10 anos, usa o sistema de arquivos e EXIF como fonte da verdade
  É uma abordagem correta já validada várias vezes
  Camadas de abstração como Google Photos ou Immich servem apenas para conveniência; o núcleo são os arquivos
  No trabalho também gerencio pesquisas e documentos com arquivos markdown e csv
  link do projeto elodie
- O problema da gestão de fotos hoje é que edições, tags e informações de álbum ficam todas armazenadas como metadados externos
  Ao mudar de plataforma, todo o histórico de edição se perde
  O recurso de desfazer é conveniente, mas eu gostaria que esse tipo de mudança fosse padronizado de forma portável
Quero mencionar o Plan 9 do Bell Labs
Plan 9 from Bell Labs
- Estou criando um orquestrador de agentes chamado agenc
  Perguntei ao Claude sobre pesquisas anteriores, e ele sugeriu o Plan 9; esse é exatamente o conceito de que precisamos agora
  A filosofia de minimizar permissões de agentes é a mesma do modelo de segurança corporativo
  O Plan 9 apenas surgiu cedo demais
- Como novo sistema de arquivos, vale a pena dar uma olhada no GeFS
Isso me faz perceber de novo que Plan 9 e UNIX estavam certos
A interface mais poderosa é a de arquivos de texto sobre um sistema de arquivos
Agora é hora de recriar o 9p2026
Mas alguns conceitos básicos do texto estão errados — o sistema de arquivos não é uma árvore, e sim um grafo com ciclos possíveis
- Fico curioso sobre qual é a funcionalidade central do Plan 9, se dá para acoplar com FUSE, ou se é preciso uma magia mais profunda
É algo com que eu também me identifico profundamente
No último ano, migrei meus dados pessoais de mais de 10 SaaS para uma única estrutura de diretórios
Um sistema de arquivos organizado é suficiente para um usuário individual e elimina a fragmentação de dados
Daqui para frente, acho que vão surgir novos bancos de dados que suportem escrita segura por múltiplos usuários sem tornar o sistema de arquivos opaco
Parece algo semelhante ao papel que o QMD exerce para busca
Neste momento, o uso de IA ainda está em um estágio imaturo
Sistemas de produção vão rodar sobre estruturas de dados consistentes e escaláveis, mas os agentes que constroem isso usarão tecnologias baseadas em sistema de arquivos
A UI deve evoluir para além do desktop, em direção a interfaces de voz e visão
Por exemplo, em chamadas de vídeo, lendo expressões faciais e entonação para obter mais contexto
- Em um vídeo de demo de IA que vi recentemente, o sistema extrai contexto de voz e gestos, converte em texto e depois envia ao LLM
  Não é multimodal completo, mas achei muito interessante
- Ainda assim, não acho que a entrada por texto vá desaparecer
  Escrever ajuda a organizar o pensamento e não é tão impulsivo quanto falar
  Por melhor que fique o reconhecimento de fala (STT), a inteligência humana ainda funciona centrada na escrita
Arquivos só são úteis quando podem ser encontrados
Ou seja, busca e indexação são essenciais, mas começam a falhar quando a escala aumenta
Por isso, a pergunta central é “qual é o tamanho da base de conhecimento que um agente consegue lidar?”
Analisei esse tema a partir de primeiros princípios no texto “a good agentic KB”
Em vários arquivos bem organizados, como em uma base de código, agentes de programação encontram bem a informação
Mas em dados bagunçados, estruturar isso em sistema de arquivos é muito mais difícil
É mais complexo do que fazer busca semântica em um banco vetorial
Bases de código mantêm naturalmente uma estrutura de grafo graças ao princípio DRY, mas dados que não são código não funcionam assim
Então concordo que o sistema de arquivos é uma boa estrutura de contexto no longo prazo, mas ele ainda não substitui completamente a busca
Acho o sistema de arquivos uma abstração péssima
Ter de pendurar arquivos em uma estrutura consciente de árvore de diretórios é ineficiente
Acho que um modelo relacional ou uma estrutura baseada em identificadores únicos seria melhor
- A vantagem do sistema de arquivos é a preservação da localidade das mudanças
  Mudanças em um ramo não afetam outro ramo
  Já em bancos de dados, UPDATE ou DELETE podem afetar o todo e se tornar perigosos
  Por isso, um modelo híbrido como os SOs modernos — árvore com índices de BD por cima — é o ideal
- O NTFS usa internamente um banco de dados MFT
  Ele indexa nomes de arquivos com b+tree, e os dados dos arquivos também ficam armazenados na MFT
  Diretórios são apenas linhas com o atributo ‘directory=true’
  Uma abordagem totalmente relacional como a do WinFS fracassou por problemas de desempenho, e o Skydrive acabou ocupando esse espaço
- Na maioria dos sistemas de arquivos, arquivos são identificados de forma única por inode e podem ser referenciados por vários links
  Parece que isso é frequentemente esquecido
- UUID é opaco para humanos, mas para agentes é um identificador perfeitamente distinguível
  No fim, acho que vamos para uma direção de armazenamento de blobs no estilo S3 com bons índices por cima, e diretórios sendo gerados sob demanda como se fossem tags
  Ficando apenas funções de agrupamento como “os materiais relacionados ao Q3 estão neste diretório”

Por que os sistemas de arquivos estão chamando atenção

Everyone is talking about files : todo mundo está falando de arquivos

Janela de contexto não é memória

Pesquisa da ETH Zürich: o paradoxo dos arquivos de contexto

Formato de arquivo é a própria API — mas qual arquivo?

O deslocamento do gargalo

Sistema de arquivos já é um grafo

Isso redefine a computação pessoal

Leituras relacionadas

1 comentários

Opiniões do Hacker News