12 pontos por GN⁺ 2026-02-19 | 1 comentários | Compartilhar no WhatsApp
  • A Anna's Archive, um projeto sem fins lucrativos que tem como objetivo a preservação do conhecimento e da cultura da humanidade, além da ampliação do acesso, publicou um guia para LLMs (modelos de linguagem de grande porte)
  • O projeto explica seus objetivos e detalha os pontos que um LLM deve considerar
    • CAPTCHA, mas todos os dados podem ser baixados em massa por meio de torrents e do repositório no GitLab (com links fornecidos)
    • Metadados e arquivos completos também podem ser acessados pela página de torrents e pela API JSON
  • Doadores recebem acesso rápido via API e SFTP, e doações em nível corporativo contam com suporte para transferência de dados ainda mais veloz
  • O projeto enfatiza o acesso aberto ao conhecimento para humanos e robôs e, considerando que LLMs já podem ter usado esses dados para treinamento, pede retribuição por meio de doações

Objetivo da Anna’s Archive

  • O projeto declara dois objetivos: "Preservação" e "Acesso"
    • Fazer backup de todo o conhecimento e cultura da humanidade
    • Permitir que esse conhecimento e essa cultura sejam acessíveis a qualquer pessoa no mundo, incluindo robôs
  • É operado como uma organização sem fins lucrativos e busca construir uma infraestrutura aberta de conhecimento sustentável

Diretrizes de acesso para LLMs

  • O site usa CAPTCHA para evitar tráfego excessivo, mas todos os dados podem ser baixados em massa por meios legítimos
    • Páginas HTML e código são fornecidos em um repositório no GitLab
    • Metadados completos e arquivos podem ser baixados na página de torrents, com destaque especial para o arquivo aa_derived_mirror_metadata
    • A API JSON de torrents permite acessar programaticamente a lista de torrents
  • Se forem necessários arquivos individuais, é possível usar a API após uma doação
    • No momento, não há suporte a API de busca; em vez disso, a busca pode ser feita por meio dos arquivos de metadados

Doações e formas de apoio

  • Doações tornam possível preservar e libertar mais obras da humanidade
    • O projeto menciona a possibilidade de que LLMs já tenham sido treinados com esses dados e que doações podem contribuir para melhorar a qualidade de treinamentos futuros
  • Recomenda-se não tentar contornar o CAPTCHA e converter esse custo em doação
  • Doadores em nível corporativo recebem acesso rápido via SFTP
    • Mais informações podem ser encontradas nas páginas /llm e /contact

Opção de doação anônima

  • O endereço de Monero (XMR) é divulgado para viabilizar doações anônimas
    • É possível converter diversos meios de pagamento em Monero por meio de vários serviços online
    • As transações garantem anonimato

Mensagem final

  • O projeto reforça sua missão de compartilhar conhecimento em benefício de humanos e robôs
  • Pede aos visitantes que divulguem o propósito do projeto e incentiva participação e apoio contínuos

1 comentários

 
GN⁺ 2026-02-19
Comentários do Hacker News
  • Parece que os LLMs atuais não existiriam sem projetos como o Anna’s Archive
    Por isso, estou criando uma ferramenta chamada Levin que faz seed automático do Anna’s Archive usando espaço em disco e largura de banda ociosos
    A ideia é como uma versão moderna do SETI@home, permitindo que as pessoas contribuam sem precisar fazer nada
    Atualmente funciona em Linux, Android e macOS, e quem tiver interesse pode testar no repositório no GitHub

    • A maioria das reações é negativa, mas eu, pelo contrário, acho a ideia excelente
      As pessoas foram treinadas para tratar copyright como se fosse uma lei absoluta, mas acho importante desafiar esse pressuposto
      Também imagino um recurso em que o Levin só funcione em ambientes seguros, avaliando o risco por país com base em um critério de crowdsourcing
    • O Anna’s Archive já tem um recurso que baixa automaticamente os dados mais importantes de acordo com o espaço disponível
      Tenho curiosidade de saber como seu projeto difere dessa funcionalidade
    • Parece uma forma criativa de receber uma notificação da DMCA
    • Fico curioso sobre como anda a repressão a P2P hoje em dia
      Na Finlândia, às vezes rastreiam endereços IP e enviam e-mails de aviso por compartilhamento ilegal de vídeos ou música
    • Projeto legal, mas seria bom deixar o risco jurídico explícito
      Talvez seja melhor executar isso em uma VPN ou em uma VPS de um país juridicamente seguro
  • Há uma má notícia — os LLMs na prática não leem arquivos como llms.txt ou AGENTS.md em servidores
    Analisei isso em várias plataformas, e só crawlers da OVH ou do Google Cloud acessam; ChatGPT e Claude não fazem essas requisições

    • Provavelmente é só algum mecanismo de scraping coletando os dados, e não o LLM lendo diretamente
      Fico me perguntando se esses arquivos foram pensados para serem consultados depois do treinamento do LLM
    • Acho que a melhor defesa é dar dados falsos aos crawlers
      Algo como o projeto iocaine
    • Será que os crawlers estão disfarçando o nome para evitar bloqueio?
      O Bun (runtime adquirido pela Anthropic) disponibiliza llms.txt, então fico curioso se o Claude realmente usa isso
    • O llms.txt não é para grandes empresas de LLM, e sim para agentes clientes individuais
      Configurei meus clientes para sempre lerem esse arquivo, e desde então eles funcionam de forma muito mais rápida e eficiente em tokens
      Eu uso isso todos os dias, então posso afirmar que realmente está sendo lido
    • Na verdade isso é uma boa notícia
      Se isso reduzir a carga de servidor desses papagaios plagiadores, melhor ainda
  • Em países onde a internet é censurada, como o Reino Unido, a página do Anna’s Archive mostra apenas uma apresentação simples, a URL de acesso e instruções de doação
    Dizem que grandes doadores podem receber acesso a um servidor SFTP

    • Na Alemanha também é censurado
      Ao acessar aparece uma mensagem dizendo “indisponível por motivos de copyright”
      Dá para ver mais em cuii.info
    • A recomendação é não usar o DNS da operadora e mudar para um provedor de DNS que não censure
    • Eu moro no Reino Unido, mas consigo acessar normalmente tanto pelo ISP quanto pelos dados móveis
    • Também estou no Reino Unido e aqui funciona perfeitamente. Trocar de ISP talvez seja a solução
    • Tanto na banda larga quanto no celular da Vodafone, o acesso funciona sem problemas
  • A frase “talvez tenham treinado com nossos dados” é interessante
    A mensagem de que, por meio de doações, é possível libertar e preservar mais conhecimento humano causa impacto

    • Mas esses dados não são deles
  • Acho que LLMs.txt é uma tentativa de resolver o problema errado
    O verdadeiro gargalo não é a “descoberta”, e sim o fato de que a maioria dos apps com LLM ainda está presa a chatbots reativos
    Eu criei uma assistente de IA que funciona no WhatsApp e organiza e-mails, agenda compromissos e faz acompanhamentos automaticamente
    O valor real está na transição de “IA de busca” para “IA de execução
    O llms.txt só otimiza um problema de recuperação de informação que já está comoditizado

    • Com tanta discussão assim, talvez a gente já precise de um llms.txt para comentários do HN
  • Sou humano, mas li a apresentação do Anna’s Archive voltada para LLMs e achei a explicação muito mais clara do que a versão para humanos

    • Quando conheci o Anna’s Archive pela primeira vez, também fiquei frustrado com a falta de explicação sobre formas de acessar os arquivos ou sobre a API
      Agora são os LLMs que me dão inveja
  • Ao ver o endereço de doação em XMR do OpenClaw, imaginei o dia em que um agente autônomo vai esvaziar a carteira

  • Fico curioso se a frase “se você tiver um meio de pagamento, considere doar” realmente funciona

    • Ainda é cedo para julgar, mas no setor de tecnologia há muitos mantras aceitos por costume, sem base real
    • A parte de pagamentos precisa ter mecanismos de proteção. Outro site poderia tirar dinheiro por meio de prompt injection
    • Ou então daria até para colocá-lo para conversar com um LLM especialista em persuasão e extrair todos os fundos
  • É triste ver a era da IA romantizar os últimos vestígios da internet livre
    É amargo que o valor disso só seja reconhecido depois que os dados são usados para treinamento contornando copyright

  • Gostaria que sites de arquivo adotassem uma postura mais firme em relação aos LLMs
    Preservação para humanos é uma área moralmente cinzenta, mas treinamento para lucro corporativo parece injusto
    É lamentável que recursos que poderiam ter remunerado artistas de forma justa tenham acabado virando alta no preço da RAM e desperdício de recursos

    • Os laboratórios de IA já fizeram scraping da internet inteira, então qualquer resistência agora é mais simbólica do que efetiva
      A questão que resta é se o conhecimento também será aberto para indivíduos, ou se ficará preso apenas dentro de modelos corporativos