Por que os sistemas de arquivos estão chamando atenção
(madalitso.me)- Recentemente, no ecossistema de agentes de IA, os sistemas de arquivos voltaram a ganhar destaque e estão emergindo como um meio de gerenciamento de contexto persistente diferente dos bancos de dados
- A janela de contexto dos LLMs é mais parecida com um quadro branco que se apaga do que com memória persistente, e o sistema de arquivos é o meio de armazenamento permanente mais simples para resolver isso
- Claude Code, Cursor e outros implementam memória de longo prazo por meio de armazenamento de contexto baseado em arquivos, e arquivos como
CLAUDE.mdeaboutme.mdcumprem o papel de guardar a identidade do agente e informações do ambiente - O gerenciamento de contexto baseado em sistema de arquivos está surgindo como tema central, e empresas como LlamaIndex, LangChain, Oracle e Archil vêm publicando textos e produtos relacionados em sequência
- Em meio à proliferação de arquivos de contexto de agentes como
CLAUDE.md,AGENTS.mde.cursorrules, o formato Agent Skills (SKILL.md) da Anthropic vem sendo adotado por Microsoft, OpenAI, GitHub e Cursor, garantindo interoperabilidade - Segundo pesquisa da ETH Zürich, arquivos de contexto podem, ao contrário, reduzir a taxa de sucesso das tarefas e aumentar o custo de inferência em mais de 20%, portanto devem descrever apenas os requisitos mínimos
- Arquivos não ficam presos a um aplicativo específico e estão se firmando como uma interface aberta que permite alternância entre ferramentas, combinação de workflows e manutenção de continuidade na era dos agentes de IA
Everyone is talking about files : todo mundo está falando de arquivos
- A LlamaIndex publicou "Files Are All You Need", e a LangChain abordou como agentes podem usar sistemas de arquivos para engenharia de contexto
- A Oracle (sim, a própria Oracle!) publicou um texto sobre comparação entre sistemas de arquivos e bancos de dados para gerenciamento eficaz de memória de agentes de IA, enquanto Dan Abramov propôs um sistema de arquivos social baseado no AT Protocol
- A Archil está construindo volumes em nuvem porque agentes querem um sistema de arquivos POSIX
- Jerry Liu, da LlamaIndex, argumenta que, em vez de “um agente com centenas de ferramentas”, algo com apenas um sistema de arquivos e 5 a 10 ferramentas pode ser mais geral do que um agente com mais de 100 ferramentas MCP
- Karpathy aponta que Claude Code funciona porque roda diretamente sobre o computador, o ambiente, os dados e o contexto do usuário, e avalia que a ênfase da OpenAI em implantar contêineres na nuvem foi um direcionamento equivocado
- Hoje, agentes de programação representam a maior parte dos casos práticos de uso de IA, e a Anthropic está perto do lucro enquanto a ferramenta CLI Claude Code impulsiona uma parte significativa de sua receita
Janela de contexto não é memória
- A memória humana inclui armazenamento de longo prazo, evocação seletiva e esquecimento de informações desnecessárias, mas a janela de contexto dos LLMs é mais parecida com um quadro branco que está sempre sendo apagado
- Ao usar Claude Code, quando o alerta de "context left until auto-compact" se aproxima, o contexto acumulado pelo agente — como base de código, preferências e decisões — é comprimido ou perdido
- O sistema de arquivos resolve isso da forma mais simples: escreve o registro em arquivos e o lê novamente quando necessário
CLAUDE.mdfornece contexto persistente sobre o projeto- O Cursor salva históricos de chat anteriores como arquivos pesquisáveis
- O arquivo
aboutme.mdfunciona como um descritor portátil de identidade com preferências, habilidades e estilo de trabalho, podendo circular entre aplicativos sem coordenação de API
Pesquisa da ETH Zürich: o paradoxo dos arquivos de contexto
- Um artigo recente da ETH Zürich avaliou se arquivos de contexto em nível de repositório realmente ajudam agentes de programação a concluir tarefas
- O resultado foi contraintuitivo: em vários agentes e modelos, os arquivos de contexto reduziram a taxa de sucesso das tarefas, enquanto o custo de inferência aumentou em mais de 20%
- Agentes que receberam arquivos de contexto exploraram mais amplamente, executaram mais testes e percorreram mais arquivos, mas demoraram mais para chegar ao código que realmente precisava ser alterado
- Os arquivos funcionaram como uma checklist que o agente segue com seriedade excessiva
- A conclusão do artigo não é “não use arquivos de contexto”, e sim que requisitos desnecessários tornam a tarefa mais difícil, e arquivos de contexto devem descrever apenas os requisitos mínimos
- O problema não é a camada persistente do sistema de arquivos em si, mas a prática de escrever
CLAUDE.mdcomo se fosse um documento de onboarding de 2.000 palavras
Formato de arquivo é a própria API — mas qual arquivo?
- Atualmente coexistem
CLAUDE.md,AGENTS.md,copilot-instructions.mde.cursorrules; há consenso de que agentes precisam de contexto persistente baseado em sistema de arquivos, mas não há consenso sobre o nome do arquivo nem sobre o formato do conteúdo - No texto de Dan Abramov sobre sistema de arquivos social, o ponto central do design é: o AT Protocol trata os dados do usuário como arquivos dentro de um repositório pessoal, e os aplicativos evitam conflitos com namespaces baseados em nomes de domínio, sem precisar concordar sobre o que é um “post”
- O banco de dados de cada aplicativo passa a ser dado derivado, ou seja, uma visão materializada em cache de todas as pastas de usuários
- A Anthropic apresentou Agent Skills como padrão aberto: o formato
SKILL.mdfoi adotado por Microsoft, OpenAI, Atlassian, GitHub e Cursor- Uma skill escrita para Claude Code também funciona no Codex e no Copilot — o formato de arquivo é a própria API
- NanoClaw é um framework leve de assistente pessoal de IA que adota um modelo de “skills em vez de funcionalidades”
- Se for necessário suporte ao Telegram, não entra um módulo de Telegram, mas sim a skill
/add-telegram(um arquivo Markdown), que ensina o Claude Code a integrá-lo - Como skills são arquivos, elas são portáteis, auditáveis e combináveis — sem necessidade de servidor MCP ou marketplace de plugins
- Se for necessário suporte ao Telegram, não entra um módulo de Telegram, mas sim a skill
- Isso é interoperabilidade sem coordenação: se dois aplicativos conseguem ler Markdown, eles podem compartilhar contexto; se entendem o formato
SKILL.md, podem compartilhar funcionalidades; sem contratos de parceria nem reuniões de órgãos de padronização, o próprio formato do arquivo faz a coordenação
O deslocamento do gargalo
- A arquitetura de dados tradicional foi projetada sob a premissa de que armazenamento era o gargalo, mas, à medida que a capacidade de processamento superou o I/O de storage, o paradigma mudou para a separação entre storage e compute (S3 + clusters temporários de computação)
- Algo semelhante acontece com agentes de IA: o gargalo não é desempenho do modelo nem compute, mas contexto
- Os modelos são inteligentes o suficiente, mas esquecem
- O sistema de arquivos é a forma mais eficaz de gerenciar contexto persistente exatamente no ponto em que o agente roda (a máquina do desenvolvedor, onde ambiente e dados já existem)
Sistema de arquivos já é um grafo
- No Twitter, houve a observação de que “quem usa sistema de arquivos e diz que agentes não precisam de grafos está negando que já está usando um grafo”
- Um sistema de arquivos é uma estrutura em árvore composta por diretórios, subdiretórios e arquivos, ou seja, um grafo acíclico direcionado (DAG)
- Quando o agente usa
ls,grep, lê arquivos e segue referências, ele já está percorrendo um grafo
- Richmond, no texto da Oracle, faz a distinção mais precisa: sistemas de arquivos vencem como interface, bancos de dados vencem como camada subjacente
- Quando passam a ser necessários acesso concorrente, busca semântica em grande escala, deduplicação e ponderação por recência, você acaba construindo seus próprios índices — o que, na prática, é um banco de dados
- A interface de arquivos é poderosa por ser universal e já compreendida pelos LLMs, e a camada baseada em banco de dados é poderosa por oferecer as garantias necessárias para a operação real
- O futuro não é arquivo versus banco de dados, mas uma estrutura em que arquivos são a interface pela qual humanos e agentes interagem, e abaixo dela fica a camada subjacente adequada ao caso de uso
Isso redefine a computação pessoal
- O sistema de arquivos pode redefinir o significado de computação pessoal na era da IA
- Dados, contexto, preferências, skills e memórias existem em um formato pertencente ao usuário, que qualquer agente pode ler e que não fica preso a um aplicativo específico
aboutme.mdfunciona tanto no OpenClaw/NanoClaw de hoje quanto em uma nova ferramenta amanhã- Arquivos de skills são portáteis, e o contexto do projeto permanece além da ferramenta
- Isso se parece com o que a computação pessoal originalmente buscava, antes de tudo migrar para aplicativos SaaS fechados e bancos de dados proprietários
- Arquivos são o protocolo aberto original, e, à medida que agentes de IA se tornam a principal interface da computação, eles viram a camada de interoperabilidade que permite alternar ferramentas, combinar workflows e manter continuidade entre aplicações sem precisar da permissão de ninguém
- Ainda assim, existe um lado idealista: a história dos formatos abertos está cheia de padrões que venceram no papel e fracassaram na prática
- Empresas têm forte incentivo para tornar seus arquivos de contexto sutilmente diferentes e manter custos de troca
- O fato de
CLAUDE.md,AGENTS.mde.cursorrulescoexistirem, em vez de convergirem para um único formato universal, já mostra que fragmentação é o padrão - O artigo da ETH Zürich também lembra que, mesmo existindo um formato, escrever bons arquivos de contexto é difícil, e arquivos ruins podem ser piores do que não ter nenhum
- A mensagem central de Dan Abramov:
Nossas memórias, pensamentos e designs devem sobreviver por mais tempo do que o software que os criou
- Isso não é uma afirmação técnica, mas uma questão de valores, e o sistema de arquivos é adequado para esse papel não por ser a melhor tecnologia, mas porque já é a única tecnologia que pertence ao usuário
1 comentários
Opiniões do Hacker News
Arquivos são uma forma fundamental de liberdade que permite ao usuário possuir diretamente seus dados
Isso possibilita soberania sobre confidencialidade, integridade e disponibilidade
Como eixo central da liberdade digital, isso deveria ser reconhecido no mesmo nível das licenças FOSS
A própria linguagem natural existe dentro do arquivo, e a legibilidade passa a ser a própria especificação
Qualquer pessoa capaz de escrever de forma legível pode gravar em um arquivo, e executá-lo imediatamente como em um REPL
Elas fazem com que os dados fiquem presos aos apps, sem poder existir de forma independente, e dificultam importação/exportação
Para resolver esse problema, estou criando uma ferramenta que extrai dados de backups em unidades granulares de arquivo e os move para uma biblioteca digital pessoal
Dados imutáveis podem simplesmente ser arquivados, mas o maior desafio é tornar dados editáveis novamente “vivos”, para que possam ser modificados em apps
É fácil fazer mudanças temporárias e compartilhar, e o significado das configurações fica claramente definido
Não gosto do fato de o Windows tratar arquivos como cidadãos de terceira classe
Penso da mesma forma também do ponto de vista de SaaS
Quanto mais efêmero e específico de domínio for o código, mais os dados (arquivos) precisam ser padronizados e estavelmente tediosos
Um formato que só um app específico consegue ler é dívida técnica e, no fim, destrói o projeto
O motivo de ainda podermos abrir um arquivo JPEG de 1995 é que ele não depende de um software específico
É uma abordagem correta já validada várias vezes
Camadas de abstração como Google Photos ou Immich servem apenas para conveniência; o núcleo são os arquivos
No trabalho também gerencio pesquisas e documentos com arquivos markdown e csv
link do projeto elodie
Ao mudar de plataforma, todo o histórico de edição se perde
O recurso de desfazer é conveniente, mas eu gostaria que esse tipo de mudança fosse padronizado de forma portável
Quero mencionar o Plan 9 do Bell Labs
Plan 9 from Bell Labs
Perguntei ao Claude sobre pesquisas anteriores, e ele sugeriu o Plan 9; esse é exatamente o conceito de que precisamos agora
A filosofia de minimizar permissões de agentes é a mesma do modelo de segurança corporativo
O Plan 9 apenas surgiu cedo demais
Isso me faz perceber de novo que Plan 9 e UNIX estavam certos
A interface mais poderosa é a de arquivos de texto sobre um sistema de arquivos
Agora é hora de recriar o 9p2026
Mas alguns conceitos básicos do texto estão errados — o sistema de arquivos não é uma árvore, e sim um grafo com ciclos possíveis
É algo com que eu também me identifico profundamente
No último ano, migrei meus dados pessoais de mais de 10 SaaS para uma única estrutura de diretórios
Um sistema de arquivos organizado é suficiente para um usuário individual e elimina a fragmentação de dados
Daqui para frente, acho que vão surgir novos bancos de dados que suportem escrita segura por múltiplos usuários sem tornar o sistema de arquivos opaco
Parece algo semelhante ao papel que o QMD exerce para busca
Neste momento, o uso de IA ainda está em um estágio imaturo
Sistemas de produção vão rodar sobre estruturas de dados consistentes e escaláveis, mas os agentes que constroem isso usarão tecnologias baseadas em sistema de arquivos
A UI deve evoluir para além do desktop, em direção a interfaces de voz e visão
Por exemplo, em chamadas de vídeo, lendo expressões faciais e entonação para obter mais contexto
Não é multimodal completo, mas achei muito interessante
Escrever ajuda a organizar o pensamento e não é tão impulsivo quanto falar
Por melhor que fique o reconhecimento de fala (STT), a inteligência humana ainda funciona centrada na escrita
Arquivos só são úteis quando podem ser encontrados
Ou seja, busca e indexação são essenciais, mas começam a falhar quando a escala aumenta
Por isso, a pergunta central é “qual é o tamanho da base de conhecimento que um agente consegue lidar?”
Analisei esse tema a partir de primeiros princípios no texto “a good agentic KB”
Em vários arquivos bem organizados, como em uma base de código, agentes de programação encontram bem a informação
Mas em dados bagunçados, estruturar isso em sistema de arquivos é muito mais difícil
É mais complexo do que fazer busca semântica em um banco vetorial
Bases de código mantêm naturalmente uma estrutura de grafo graças ao princípio DRY, mas dados que não são código não funcionam assim
Então concordo que o sistema de arquivos é uma boa estrutura de contexto no longo prazo, mas ele ainda não substitui completamente a busca
Acho o sistema de arquivos uma abstração péssima
Ter de pendurar arquivos em uma estrutura consciente de árvore de diretórios é ineficiente
Acho que um modelo relacional ou uma estrutura baseada em identificadores únicos seria melhor
Mudanças em um ramo não afetam outro ramo
Já em bancos de dados, UPDATE ou DELETE podem afetar o todo e se tornar perigosos
Por isso, um modelo híbrido como os SOs modernos — árvore com índices de BD por cima — é o ideal
Ele indexa nomes de arquivos com b+tree, e os dados dos arquivos também ficam armazenados na MFT
Diretórios são apenas linhas com o atributo ‘directory=true’
Uma abordagem totalmente relacional como a do WinFS fracassou por problemas de desempenho, e o Skydrive acabou ocupando esse espaço
Parece que isso é frequentemente esquecido
No fim, acho que vamos para uma direção de armazenamento de blobs no estilo S3 com bons índices por cima, e diretórios sendo gerados sob demanda como se fossem tags
Ficando apenas funções de agrupamento como “os materiais relacionados ao Q3 estão neste diretório”