36 pontos por GN⁺ 2026-03-09 | 1 comentários | Compartilhar no WhatsApp
  • Recentemente, no ecossistema de agentes de IA, os sistemas de arquivos voltaram a ganhar destaque e estão emergindo como um meio de gerenciamento de contexto persistente diferente dos bancos de dados
  • A janela de contexto dos LLMs é mais parecida com um quadro branco que se apaga do que com memória persistente, e o sistema de arquivos é o meio de armazenamento permanente mais simples para resolver isso
  • Claude Code, Cursor e outros implementam memória de longo prazo por meio de armazenamento de contexto baseado em arquivos, e arquivos como CLAUDE.md e aboutme.md cumprem o papel de guardar a identidade do agente e informações do ambiente
  • O gerenciamento de contexto baseado em sistema de arquivos está surgindo como tema central, e empresas como LlamaIndex, LangChain, Oracle e Archil vêm publicando textos e produtos relacionados em sequência
  • Em meio à proliferação de arquivos de contexto de agentes como CLAUDE.md, AGENTS.md e .cursorrules, o formato Agent Skills (SKILL.md) da Anthropic vem sendo adotado por Microsoft, OpenAI, GitHub e Cursor, garantindo interoperabilidade
  • Segundo pesquisa da ETH Zürich, arquivos de contexto podem, ao contrário, reduzir a taxa de sucesso das tarefas e aumentar o custo de inferência em mais de 20%, portanto devem descrever apenas os requisitos mínimos
  • Arquivos não ficam presos a um aplicativo específico e estão se firmando como uma interface aberta que permite alternância entre ferramentas, combinação de workflows e manutenção de continuidade na era dos agentes de IA

Everyone is talking about files : todo mundo está falando de arquivos

Janela de contexto não é memória

  • A memória humana inclui armazenamento de longo prazo, evocação seletiva e esquecimento de informações desnecessárias, mas a janela de contexto dos LLMs é mais parecida com um quadro branco que está sempre sendo apagado
  • Ao usar Claude Code, quando o alerta de "context left until auto-compact" se aproxima, o contexto acumulado pelo agente — como base de código, preferências e decisões — é comprimido ou perdido
  • O sistema de arquivos resolve isso da forma mais simples: escreve o registro em arquivos e o lê novamente quando necessário
    • CLAUDE.md fornece contexto persistente sobre o projeto
    • O Cursor salva históricos de chat anteriores como arquivos pesquisáveis
    • O arquivo aboutme.md funciona como um descritor portátil de identidade com preferências, habilidades e estilo de trabalho, podendo circular entre aplicativos sem coordenação de API

Pesquisa da ETH Zürich: o paradoxo dos arquivos de contexto

  • Um artigo recente da ETH Zürich avaliou se arquivos de contexto em nível de repositório realmente ajudam agentes de programação a concluir tarefas
  • O resultado foi contraintuitivo: em vários agentes e modelos, os arquivos de contexto reduziram a taxa de sucesso das tarefas, enquanto o custo de inferência aumentou em mais de 20%
    • Agentes que receberam arquivos de contexto exploraram mais amplamente, executaram mais testes e percorreram mais arquivos, mas demoraram mais para chegar ao código que realmente precisava ser alterado
    • Os arquivos funcionaram como uma checklist que o agente segue com seriedade excessiva
  • A conclusão do artigo não é “não use arquivos de contexto”, e sim que requisitos desnecessários tornam a tarefa mais difícil, e arquivos de contexto devem descrever apenas os requisitos mínimos
  • O problema não é a camada persistente do sistema de arquivos em si, mas a prática de escrever CLAUDE.md como se fosse um documento de onboarding de 2.000 palavras

Formato de arquivo é a própria API — mas qual arquivo?

  • Atualmente coexistem CLAUDE.md, AGENTS.md, copilot-instructions.md e .cursorrules; há consenso de que agentes precisam de contexto persistente baseado em sistema de arquivos, mas não há consenso sobre o nome do arquivo nem sobre o formato do conteúdo
  • No texto de Dan Abramov sobre sistema de arquivos social, o ponto central do design é: o AT Protocol trata os dados do usuário como arquivos dentro de um repositório pessoal, e os aplicativos evitam conflitos com namespaces baseados em nomes de domínio, sem precisar concordar sobre o que é um “post”
    • O banco de dados de cada aplicativo passa a ser dado derivado, ou seja, uma visão materializada em cache de todas as pastas de usuários
  • A Anthropic apresentou Agent Skills como padrão aberto: o formato SKILL.md foi adotado por Microsoft, OpenAI, Atlassian, GitHub e Cursor
    • Uma skill escrita para Claude Code também funciona no Codex e no Copilot — o formato de arquivo é a própria API
  • NanoClaw é um framework leve de assistente pessoal de IA que adota um modelo de “skills em vez de funcionalidades”
    • Se for necessário suporte ao Telegram, não entra um módulo de Telegram, mas sim a skill /add-telegram (um arquivo Markdown), que ensina o Claude Code a integrá-lo
    • Como skills são arquivos, elas são portáteis, auditáveis e combináveis — sem necessidade de servidor MCP ou marketplace de plugins
  • Isso é interoperabilidade sem coordenação: se dois aplicativos conseguem ler Markdown, eles podem compartilhar contexto; se entendem o formato SKILL.md, podem compartilhar funcionalidades; sem contratos de parceria nem reuniões de órgãos de padronização, o próprio formato do arquivo faz a coordenação

O deslocamento do gargalo

  • A arquitetura de dados tradicional foi projetada sob a premissa de que armazenamento era o gargalo, mas, à medida que a capacidade de processamento superou o I/O de storage, o paradigma mudou para a separação entre storage e compute (S3 + clusters temporários de computação)
  • Algo semelhante acontece com agentes de IA: o gargalo não é desempenho do modelo nem compute, mas contexto
    • Os modelos são inteligentes o suficiente, mas esquecem
    • O sistema de arquivos é a forma mais eficaz de gerenciar contexto persistente exatamente no ponto em que o agente roda (a máquina do desenvolvedor, onde ambiente e dados já existem)

Sistema de arquivos já é um grafo

  • No Twitter, houve a observação de que “quem usa sistema de arquivos e diz que agentes não precisam de grafos está negando que já está usando um grafo
    • Um sistema de arquivos é uma estrutura em árvore composta por diretórios, subdiretórios e arquivos, ou seja, um grafo acíclico direcionado (DAG)
    • Quando o agente usa ls, grep, lê arquivos e segue referências, ele já está percorrendo um grafo
  • Richmond, no texto da Oracle, faz a distinção mais precisa: sistemas de arquivos vencem como interface, bancos de dados vencem como camada subjacente
    • Quando passam a ser necessários acesso concorrente, busca semântica em grande escala, deduplicação e ponderação por recência, você acaba construindo seus próprios índices — o que, na prática, é um banco de dados
  • A interface de arquivos é poderosa por ser universal e já compreendida pelos LLMs, e a camada baseada em banco de dados é poderosa por oferecer as garantias necessárias para a operação real
  • O futuro não é arquivo versus banco de dados, mas uma estrutura em que arquivos são a interface pela qual humanos e agentes interagem, e abaixo dela fica a camada subjacente adequada ao caso de uso

Isso redefine a computação pessoal

  • O sistema de arquivos pode redefinir o significado de computação pessoal na era da IA
    • Dados, contexto, preferências, skills e memórias existem em um formato pertencente ao usuário, que qualquer agente pode ler e que não fica preso a um aplicativo específico
    • aboutme.md funciona tanto no OpenClaw/NanoClaw de hoje quanto em uma nova ferramenta amanhã
    • Arquivos de skills são portáteis, e o contexto do projeto permanece além da ferramenta
  • Isso se parece com o que a computação pessoal originalmente buscava, antes de tudo migrar para aplicativos SaaS fechados e bancos de dados proprietários
    • Arquivos são o protocolo aberto original, e, à medida que agentes de IA se tornam a principal interface da computação, eles viram a camada de interoperabilidade que permite alternar ferramentas, combinar workflows e manter continuidade entre aplicações sem precisar da permissão de ninguém
  • Ainda assim, existe um lado idealista: a história dos formatos abertos está cheia de padrões que venceram no papel e fracassaram na prática
    • Empresas têm forte incentivo para tornar seus arquivos de contexto sutilmente diferentes e manter custos de troca
    • O fato de CLAUDE.md, AGENTS.md e .cursorrules coexistirem, em vez de convergirem para um único formato universal, já mostra que fragmentação é o padrão
    • O artigo da ETH Zürich também lembra que, mesmo existindo um formato, escrever bons arquivos de contexto é difícil, e arquivos ruins podem ser piores do que não ter nenhum
  • A mensagem central de Dan Abramov:

    Nossas memórias, pensamentos e designs devem sobreviver por mais tempo do que o software que os criou

    • Isso não é uma afirmação técnica, mas uma questão de valores, e o sistema de arquivos é adequado para esse papel não por ser a melhor tecnologia, mas porque já é a única tecnologia que pertence ao usuário

1 comentários

 
GN⁺ 2026-03-09
Opiniões do Hacker News
  • Arquivos são uma forma fundamental de liberdade que permite ao usuário possuir diretamente seus dados
    Isso possibilita soberania sobre confidencialidade, integridade e disponibilidade
    Como eixo central da liberdade digital, isso deveria ser reconhecido no mesmo nível das licenças FOSS

    • Graças à capacidade de raciocínio dos LLMs, agora já não é preciso se preocupar tanto com a estrutura dos arquivos
      A própria linguagem natural existe dentro do arquivo, e a legibilidade passa a ser a própria especificação
      Qualquer pessoa capaz de escrever de forma legível pode gravar em um arquivo, e executá-lo imediatamente como em um REPL
    • Por isso incomodam as tentativas de grandes empresas de tecnologia como a Apple de eliminar o conceito de arquivo
      Elas fazem com que os dados fiquem presos aos apps, sem poder existir de forma independente, e dificultam importação/exportação
      Para resolver esse problema, estou criando uma ferramenta que extrai dados de backups em unidades granulares de arquivo e os move para uma biblioteca digital pessoal
      Dados imutáveis podem simplesmente ser arquivados, mas o maior desafio é tornar dados editáveis novamente “vivos”, para que possam ser modificados em apps
    • Acho arquivos de configuração muito melhores do que repositórios centralizados como o Windows Registry
      É fácil fazer mudanças temporárias e compartilhar, e o significado das configurações fica claramente definido
      Não gosto do fato de o Windows tratar arquivos como cidadãos de terceira classe
  • Penso da mesma forma também do ponto de vista de SaaS
    Quanto mais efêmero e específico de domínio for o código, mais os dados (arquivos) precisam ser padronizados e estavelmente tediosos
    Um formato que só um app específico consegue ler é dívida técnica e, no fim, destrói o projeto
    O motivo de ainda podermos abrir um arquivo JPEG de 1995 é que ele não depende de um software específico

    • Meu sistema de gerenciamento de fotos, com mais de 10 anos, usa o sistema de arquivos e EXIF como fonte da verdade
      É uma abordagem correta já validada várias vezes
      Camadas de abstração como Google Photos ou Immich servem apenas para conveniência; o núcleo são os arquivos
      No trabalho também gerencio pesquisas e documentos com arquivos markdown e csv
      link do projeto elodie
    • O problema da gestão de fotos hoje é que edições, tags e informações de álbum ficam todas armazenadas como metadados externos
      Ao mudar de plataforma, todo o histórico de edição se perde
      O recurso de desfazer é conveniente, mas eu gostaria que esse tipo de mudança fosse padronizado de forma portável
  • Quero mencionar o Plan 9 do Bell Labs
    Plan 9 from Bell Labs

    • Estou criando um orquestrador de agentes chamado agenc
      Perguntei ao Claude sobre pesquisas anteriores, e ele sugeriu o Plan 9; esse é exatamente o conceito de que precisamos agora
      A filosofia de minimizar permissões de agentes é a mesma do modelo de segurança corporativo
      O Plan 9 apenas surgiu cedo demais
    • Como novo sistema de arquivos, vale a pena dar uma olhada no GeFS
  • Isso me faz perceber de novo que Plan 9 e UNIX estavam certos
    A interface mais poderosa é a de arquivos de texto sobre um sistema de arquivos
    Agora é hora de recriar o 9p2026
    Mas alguns conceitos básicos do texto estão errados — o sistema de arquivos não é uma árvore, e sim um grafo com ciclos possíveis

    • Fico curioso sobre qual é a funcionalidade central do Plan 9, se dá para acoplar com FUSE, ou se é preciso uma magia mais profunda
  • É algo com que eu também me identifico profundamente
    No último ano, migrei meus dados pessoais de mais de 10 SaaS para uma única estrutura de diretórios
    Um sistema de arquivos organizado é suficiente para um usuário individual e elimina a fragmentação de dados
    Daqui para frente, acho que vão surgir novos bancos de dados que suportem escrita segura por múltiplos usuários sem tornar o sistema de arquivos opaco
    Parece algo semelhante ao papel que o QMD exerce para busca

  • Neste momento, o uso de IA ainda está em um estágio imaturo
    Sistemas de produção vão rodar sobre estruturas de dados consistentes e escaláveis, mas os agentes que constroem isso usarão tecnologias baseadas em sistema de arquivos
    A UI deve evoluir para além do desktop, em direção a interfaces de voz e visão
    Por exemplo, em chamadas de vídeo, lendo expressões faciais e entonação para obter mais contexto

    • Em um vídeo de demo de IA que vi recentemente, o sistema extrai contexto de voz e gestos, converte em texto e depois envia ao LLM
      Não é multimodal completo, mas achei muito interessante
    • Ainda assim, não acho que a entrada por texto vá desaparecer
      Escrever ajuda a organizar o pensamento e não é tão impulsivo quanto falar
      Por melhor que fique o reconhecimento de fala (STT), a inteligência humana ainda funciona centrada na escrita
  • Arquivos só são úteis quando podem ser encontrados
    Ou seja, busca e indexação são essenciais, mas começam a falhar quando a escala aumenta
    Por isso, a pergunta central é “qual é o tamanho da base de conhecimento que um agente consegue lidar?”
    Analisei esse tema a partir de primeiros princípios no texto “a good agentic KB”

  • Em vários arquivos bem organizados, como em uma base de código, agentes de programação encontram bem a informação
    Mas em dados bagunçados, estruturar isso em sistema de arquivos é muito mais difícil
    É mais complexo do que fazer busca semântica em um banco vetorial
    Bases de código mantêm naturalmente uma estrutura de grafo graças ao princípio DRY, mas dados que não são código não funcionam assim
    Então concordo que o sistema de arquivos é uma boa estrutura de contexto no longo prazo, mas ele ainda não substitui completamente a busca

  • Acho o sistema de arquivos uma abstração péssima
    Ter de pendurar arquivos em uma estrutura consciente de árvore de diretórios é ineficiente
    Acho que um modelo relacional ou uma estrutura baseada em identificadores únicos seria melhor

    • A vantagem do sistema de arquivos é a preservação da localidade das mudanças
      Mudanças em um ramo não afetam outro ramo
      Já em bancos de dados, UPDATE ou DELETE podem afetar o todo e se tornar perigosos
      Por isso, um modelo híbrido como os SOs modernos — árvore com índices de BD por cima — é o ideal
    • O NTFS usa internamente um banco de dados MFT
      Ele indexa nomes de arquivos com b+tree, e os dados dos arquivos também ficam armazenados na MFT
      Diretórios são apenas linhas com o atributo ‘directory=true’
      Uma abordagem totalmente relacional como a do WinFS fracassou por problemas de desempenho, e o Skydrive acabou ocupando esse espaço
    • Na maioria dos sistemas de arquivos, arquivos são identificados de forma única por inode e podem ser referenciados por vários links
      Parece que isso é frequentemente esquecido
    • UUID é opaco para humanos, mas para agentes é um identificador perfeitamente distinguível
      No fim, acho que vamos para uma direção de armazenamento de blobs no estilo S3 com bons índices por cima, e diretórios sendo gerados sob demanda como se fossem tags
      Ficando apenas funções de agrupamento como “os materiais relacionados ao Q3 estão neste diretório”