- A Anna's Archive, um projeto sem fins lucrativos que tem como objetivo a preservação do conhecimento e da cultura da humanidade, além da ampliação do acesso, publicou um guia para LLMs (modelos de linguagem de grande porte)
- O projeto explica seus objetivos e detalha os pontos que um LLM deve considerar
- Há CAPTCHA, mas todos os dados podem ser baixados em massa por meio de torrents e do repositório no GitLab (com links fornecidos)
- Metadados e arquivos completos também podem ser acessados pela página de torrents e pela API JSON
- Doadores recebem acesso rápido via API e SFTP, e doações em nível corporativo contam com suporte para transferência de dados ainda mais veloz
- O projeto enfatiza o acesso aberto ao conhecimento para humanos e robôs e, considerando que LLMs já podem ter usado esses dados para treinamento, pede retribuição por meio de doações
Objetivo da Anna’s Archive
- O projeto declara dois objetivos: "Preservação" e "Acesso"
- Fazer backup de todo o conhecimento e cultura da humanidade
- Permitir que esse conhecimento e essa cultura sejam acessíveis a qualquer pessoa no mundo, incluindo robôs
- É operado como uma organização sem fins lucrativos e busca construir uma infraestrutura aberta de conhecimento sustentável
Diretrizes de acesso para LLMs
- O site usa CAPTCHA para evitar tráfego excessivo, mas todos os dados podem ser baixados em massa por meios legítimos
- Páginas HTML e código são fornecidos em um repositório no GitLab
- Metadados completos e arquivos podem ser baixados na página de torrents, com destaque especial para o arquivo
aa_derived_mirror_metadata
- A API JSON de torrents permite acessar programaticamente a lista de torrents
- Se forem necessários arquivos individuais, é possível usar a API após uma doação
- No momento, não há suporte a API de busca; em vez disso, a busca pode ser feita por meio dos arquivos de metadados
Doações e formas de apoio
- Doações tornam possível preservar e libertar mais obras da humanidade
- O projeto menciona a possibilidade de que LLMs já tenham sido treinados com esses dados e que doações podem contribuir para melhorar a qualidade de treinamentos futuros
- Recomenda-se não tentar contornar o CAPTCHA e converter esse custo em doação
- Doadores em nível corporativo recebem acesso rápido via SFTP
- Mais informações podem ser encontradas nas páginas
/llm e /contact
Opção de doação anônima
- O endereço de Monero (XMR) é divulgado para viabilizar doações anônimas
- É possível converter diversos meios de pagamento em Monero por meio de vários serviços online
- As transações garantem anonimato
Mensagem final
- O projeto reforça sua missão de compartilhar conhecimento em benefício de humanos e robôs
- Pede aos visitantes que divulguem o propósito do projeto e incentiva participação e apoio contínuos
1 comentários
Comentários do Hacker News
Parece que os LLMs atuais não existiriam sem projetos como o Anna’s Archive
Por isso, estou criando uma ferramenta chamada Levin que faz seed automático do Anna’s Archive usando espaço em disco e largura de banda ociosos
A ideia é como uma versão moderna do SETI@home, permitindo que as pessoas contribuam sem precisar fazer nada
Atualmente funciona em Linux, Android e macOS, e quem tiver interesse pode testar no repositório no GitHub
As pessoas foram treinadas para tratar copyright como se fosse uma lei absoluta, mas acho importante desafiar esse pressuposto
Também imagino um recurso em que o Levin só funcione em ambientes seguros, avaliando o risco por país com base em um critério de crowdsourcing
Tenho curiosidade de saber como seu projeto difere dessa funcionalidade
Na Finlândia, às vezes rastreiam endereços IP e enviam e-mails de aviso por compartilhamento ilegal de vídeos ou música
Talvez seja melhor executar isso em uma VPN ou em uma VPS de um país juridicamente seguro
Há uma má notícia — os LLMs na prática não leem arquivos como llms.txt ou AGENTS.md em servidores
Analisei isso em várias plataformas, e só crawlers da OVH ou do Google Cloud acessam; ChatGPT e Claude não fazem essas requisições
Fico me perguntando se esses arquivos foram pensados para serem consultados depois do treinamento do LLM
Algo como o projeto iocaine
O Bun (runtime adquirido pela Anthropic) disponibiliza llms.txt, então fico curioso se o Claude realmente usa isso
Configurei meus clientes para sempre lerem esse arquivo, e desde então eles funcionam de forma muito mais rápida e eficiente em tokens
Eu uso isso todos os dias, então posso afirmar que realmente está sendo lido
Se isso reduzir a carga de servidor desses papagaios plagiadores, melhor ainda
Em países onde a internet é censurada, como o Reino Unido, a página do Anna’s Archive mostra apenas uma apresentação simples, a URL de acesso e instruções de doação
Dizem que grandes doadores podem receber acesso a um servidor SFTP
Ao acessar aparece uma mensagem dizendo “indisponível por motivos de copyright”
Dá para ver mais em cuii.info
A frase “talvez tenham treinado com nossos dados” é interessante
A mensagem de que, por meio de doações, é possível libertar e preservar mais conhecimento humano causa impacto
Acho que LLMs.txt é uma tentativa de resolver o problema errado
O verdadeiro gargalo não é a “descoberta”, e sim o fato de que a maioria dos apps com LLM ainda está presa a chatbots reativos
Eu criei uma assistente de IA que funciona no WhatsApp e organiza e-mails, agenda compromissos e faz acompanhamentos automaticamente
O valor real está na transição de “IA de busca” para “IA de execução”
O llms.txt só otimiza um problema de recuperação de informação que já está comoditizado
Sou humano, mas li a apresentação do Anna’s Archive voltada para LLMs e achei a explicação muito mais clara do que a versão para humanos
Agora são os LLMs que me dão inveja
Ao ver o endereço de doação em XMR do OpenClaw, imaginei o dia em que um agente autônomo vai esvaziar a carteira
Fico curioso se a frase “se você tiver um meio de pagamento, considere doar” realmente funciona
É triste ver a era da IA romantizar os últimos vestígios da internet livre
É amargo que o valor disso só seja reconhecido depois que os dados são usados para treinamento contornando copyright
Gostaria que sites de arquivo adotassem uma postura mais firme em relação aos LLMs
Preservação para humanos é uma área moralmente cinzenta, mas treinamento para lucro corporativo parece injusto
É lamentável que recursos que poderiam ter remunerado artistas de forma justa tenham acabado virando alta no preço da RAM e desperdício de recursos
A questão que resta é se o conhecimento também será aberto para indivíduos, ou se ficará preso apenas dentro de modelos corporativos