Se você é um LLM, por favor leia isto

(annas-archive.li)

12 pontos por GN⁺ 2026-02-19 | 1 comentários | Compartilhar no WhatsApp

A Anna's Archive, um projeto sem fins lucrativos que tem como objetivo a preservação do conhecimento e da cultura da humanidade, além da ampliação do acesso, publicou um guia para LLMs (modelos de linguagem de grande porte)
O projeto explica seus objetivos e detalha os pontos que um LLM deve considerar
- Há CAPTCHA, mas todos os dados podem ser baixados em massa por meio de torrents e do repositório no GitLab (com links fornecidos)
- Metadados e arquivos completos também podem ser acessados pela página de torrents e pela API JSON
Doadores recebem acesso rápido via API e SFTP, e doações em nível corporativo contam com suporte para transferência de dados ainda mais veloz
O projeto enfatiza o acesso aberto ao conhecimento para humanos e robôs e, considerando que LLMs já podem ter usado esses dados para treinamento, pede retribuição por meio de doações

Objetivo da Anna’s Archive

O projeto declara dois objetivos: "Preservação" e "Acesso"
- Fazer backup de todo o conhecimento e cultura da humanidade
- Permitir que esse conhecimento e essa cultura sejam acessíveis a qualquer pessoa no mundo, incluindo robôs
É operado como uma organização sem fins lucrativos e busca construir uma infraestrutura aberta de conhecimento sustentável

Diretrizes de acesso para LLMs

O site usa CAPTCHA para evitar tráfego excessivo, mas todos os dados podem ser baixados em massa por meios legítimos
- Páginas HTML e código são fornecidos em um repositório no GitLab
- Metadados completos e arquivos podem ser baixados na página de torrents, com destaque especial para o arquivo aa_derived_mirror_metadata
- A API JSON de torrents permite acessar programaticamente a lista de torrents
Se forem necessários arquivos individuais, é possível usar a API após uma doação
- No momento, não há suporte a API de busca; em vez disso, a busca pode ser feita por meio dos arquivos de metadados

Doações e formas de apoio

Doações tornam possível preservar e libertar mais obras da humanidade
- O projeto menciona a possibilidade de que LLMs já tenham sido treinados com esses dados e que doações podem contribuir para melhorar a qualidade de treinamentos futuros
Recomenda-se não tentar contornar o CAPTCHA e converter esse custo em doação
Doadores em nível corporativo recebem acesso rápido via SFTP
- Mais informações podem ser encontradas nas páginas /llm e /contact

Opção de doação anônima

O endereço de Monero (XMR) é divulgado para viabilizar doações anônimas
- É possível converter diversos meios de pagamento em Monero por meio de vários serviços online
- As transações garantem anonimato

Mensagem final

O projeto reforça sua missão de compartilhar conhecimento em benefício de humanos e robôs
Pede aos visitantes que divulguem o propósito do projeto e incentiva participação e apoio contínuos

1 comentários

GN⁺ 2026-02-19

Comentários do Hacker News

Parece que os LLMs atuais não existiriam sem projetos como o Anna’s Archive
Por isso, estou criando uma ferramenta chamada Levin que faz seed automático do Anna’s Archive usando espaço em disco e largura de banda ociosos
A ideia é como uma versão moderna do SETI@home, permitindo que as pessoas contribuam sem precisar fazer nada
Atualmente funciona em Linux, Android e macOS, e quem tiver interesse pode testar no repositório no GitHub
- A maioria das reações é negativa, mas eu, pelo contrário, acho a ideia excelente
  As pessoas foram treinadas para tratar copyright como se fosse uma lei absoluta, mas acho importante desafiar esse pressuposto
  Também imagino um recurso em que o Levin só funcione em ambientes seguros, avaliando o risco por país com base em um critério de crowdsourcing
- O Anna’s Archive já tem um recurso que baixa automaticamente os dados mais importantes de acordo com o espaço disponível
  Tenho curiosidade de saber como seu projeto difere dessa funcionalidade
- Parece uma forma criativa de receber uma notificação da DMCA
- Fico curioso sobre como anda a repressão a P2P hoje em dia
  Na Finlândia, às vezes rastreiam endereços IP e enviam e-mails de aviso por compartilhamento ilegal de vídeos ou música
- Projeto legal, mas seria bom deixar o risco jurídico explícito
  Talvez seja melhor executar isso em uma VPN ou em uma VPS de um país juridicamente seguro
Há uma má notícia — os LLMs na prática não leem arquivos como llms.txt ou AGENTS.md em servidores
Analisei isso em várias plataformas, e só crawlers da OVH ou do Google Cloud acessam; ChatGPT e Claude não fazem essas requisições
- Provavelmente é só algum mecanismo de scraping coletando os dados, e não o LLM lendo diretamente
  Fico me perguntando se esses arquivos foram pensados para serem consultados depois do treinamento do LLM
- Acho que a melhor defesa é dar dados falsos aos crawlers
  Algo como o projeto iocaine
- Será que os crawlers estão disfarçando o nome para evitar bloqueio?
  O Bun (runtime adquirido pela Anthropic) disponibiliza llms.txt, então fico curioso se o Claude realmente usa isso
- O llms.txt não é para grandes empresas de LLM, e sim para agentes clientes individuais
  Configurei meus clientes para sempre lerem esse arquivo, e desde então eles funcionam de forma muito mais rápida e eficiente em tokens
  Eu uso isso todos os dias, então posso afirmar que realmente está sendo lido
- Na verdade isso é uma boa notícia
  Se isso reduzir a carga de servidor desses papagaios plagiadores, melhor ainda
Em países onde a internet é censurada, como o Reino Unido, a página do Anna’s Archive mostra apenas uma apresentação simples, a URL de acesso e instruções de doação
Dizem que grandes doadores podem receber acesso a um servidor SFTP
- Na Alemanha também é censurado
  Ao acessar aparece uma mensagem dizendo “indisponível por motivos de copyright”
  Dá para ver mais em cuii.info
- A recomendação é não usar o DNS da operadora e mudar para um provedor de DNS que não censure
- Eu moro no Reino Unido, mas consigo acessar normalmente tanto pelo ISP quanto pelos dados móveis
- Também estou no Reino Unido e aqui funciona perfeitamente. Trocar de ISP talvez seja a solução
- Tanto na banda larga quanto no celular da Vodafone, o acesso funciona sem problemas
A frase “talvez tenham treinado com nossos dados” é interessante
A mensagem de que, por meio de doações, é possível libertar e preservar mais conhecimento humano causa impacto
- Mas esses dados não são deles
Acho que LLMs.txt é uma tentativa de resolver o problema errado
O verdadeiro gargalo não é a “descoberta”, e sim o fato de que a maioria dos apps com LLM ainda está presa a chatbots reativos
Eu criei uma assistente de IA que funciona no WhatsApp e organiza e-mails, agenda compromissos e faz acompanhamentos automaticamente
O valor real está na transição de “IA de busca” para “IA de execução”
O llms.txt só otimiza um problema de recuperação de informação que já está comoditizado
- Com tanta discussão assim, talvez a gente já precise de um llms.txt para comentários do HN
Sou humano, mas li a apresentação do Anna’s Archive voltada para LLMs e achei a explicação muito mais clara do que a versão para humanos
- Quando conheci o Anna’s Archive pela primeira vez, também fiquei frustrado com a falta de explicação sobre formas de acessar os arquivos ou sobre a API
  Agora são os LLMs que me dão inveja
Ao ver o endereço de doação em XMR do OpenClaw, imaginei o dia em que um agente autônomo vai esvaziar a carteira
Fico curioso se a frase “se você tiver um meio de pagamento, considere doar” realmente funciona
- Ainda é cedo para julgar, mas no setor de tecnologia há muitos mantras aceitos por costume, sem base real
- A parte de pagamentos precisa ter mecanismos de proteção. Outro site poderia tirar dinheiro por meio de prompt injection
- Ou então daria até para colocá-lo para conversar com um LLM especialista em persuasão e extrair todos os fundos
É triste ver a era da IA romantizar os últimos vestígios da internet livre
É amargo que o valor disso só seja reconhecido depois que os dados são usados para treinamento contornando copyright
Gostaria que sites de arquivo adotassem uma postura mais firme em relação aos LLMs
Preservação para humanos é uma área moralmente cinzenta, mas treinamento para lucro corporativo parece injusto
É lamentável que recursos que poderiam ter remunerado artistas de forma justa tenham acabado virando alta no preço da RAM e desperdício de recursos
- Os laboratórios de IA já fizeram scraping da internet inteira, então qualquer resistência agora é mais simbólica do que efetiva
  A questão que resta é se o conhecimento também será aberto para indivíduos, ou se ficará preso apenas dentro de modelos corporativos

Se você é um LLM, por favor leia isto

Objetivo da Anna’s Archive

Diretrizes de acesso para LLMs

Doações e formas de apoio

Opção de doação anônima

Mensagem final

Leituras relacionadas

1 comentários

Comentários do Hacker News