Anna's Archive: atualização mais recente da equipe

(annas-archive.org)

1 pontos por GN⁺ 2025-08-19 | 1 comentários | Compartilhar no WhatsApp

À medida que os ataques contra a missão recente aumentam, a equipe está reforçando a infraestrutura e a segurança operacional
Desde o início em 2022, estão preservando e compartilhando com segurança dezenas de milhões de livros, artigos, revistas, jornais e outros materiais
Por meio de scraping em larga escala, obtiveram uma enorme quantidade de metadados do WorldCat, Google Books e outros, usando isso para identificar materiais ainda não coletados
Por meio de parcerias com LibGen, Z-Library e outros, garantiram dezenas de milhões de materiais adicionais, embora também lamentem o desaparecimento de alguns parceiros
Mantêm uma relação cautelosa com sites novos como o WeLib e recomendam evitar seu uso por falta de contribuição suficiente à comunidade

Situação recente e resposta da equipe

Recentemente, aumentaram os ataques direcionados à missão da Anna's Archive
Em resposta, estão implementando medidas de reforço da infraestrutura e da segurança operacional
Preservar com segurança o patrimônio do conhecimento da humanidade continua sendo uma atividade que vale a pena perseguir

Libertação e preservação de materiais

Desde o início em 2022, conseguiram reunir dezenas de milhões de livros, artigos científicos, revistas, jornais e vários outros conteúdos
Esses materiais estão protegidos contra várias ameaças, como desastres naturais, guerra e cortes de orçamento
Graças ao esforço de todos que ajudaram a distribuir os materiais via torrent, a preocupação com a perda desses arquivos caiu bastante

Scraping em larga escala e obtenção de metadados

A Anna's Archive organizou scraping em larga escala de forma sistemática em IA Controlled Digital Lending, HathiTrust, DuXiu e outros
Conseguiram garantir arquivos de materiais que chegam a tens of millions
Construíram uma vasta coleção de metadados de livros a partir do WorldCat, Google Books e outros
Com esses metadados, identificam livros que ainda não estão incluídos na coleção e os utilizam em uma estratégia de priorização para obter materiais raros

Comunidade, colaboração e novos desenvolvimentos

Em colaboração com parceiros como forks do LibGen, STC/Nexus, Z-Library e outros, garantiram dezenas de milhões de arquivos adicionais
Os parceiros têm ajudado muito na missão, incluindo o espelhamento de arquivos
No entanto, o desaparecimento de um dos forks do LibGen é visto como algo lamentável

Novos projetos e pontos de atenção

Recentemente surgiu um novo projeto chamado WeLib
- Ele espelha a maior parte da coleção de arquivos e usa um fork da base de código da Anna’s Archive
- Incorporaram e aplicaram algumas melhorias de interface do usuário do WeLib
- No entanto, não houve compartilhamento de novas coleções nem de melhorias na base de código, o que demonstra falta de compromisso com a contribuição para o ecossistema
- Por isso, recomendam cautela em relação ao uso do WeLib
Além disso, internamente, centenas de terabytes de novas coleções já estão preparados nos servidores e aguardando processamento

Pedido de voluntariado e apoio

Qualquer pessoa pode participar do projeto por meio da página de voluntariado e doações
Tudo é operado com um orçamento pequeno, então mesmo uma pequena ajuda tem grande valor
Também incentivam esforços contínuos para proteger e libertar o patrimônio do conhecimento
Anna e toda a equipe (consulte a comunidade no Reddit)

1 comentários

GN⁺ 2025-08-19

Comentários do Hacker News

Eu compro os livros em que moro a partir do que escolho no Anna's Archive, quadrinhos no readComicsOnline e graphic novels europeias no #WONTTELL; sou cliente frequente dessas três lojas offline. Em vez de comprar o que está na moda por causa de publicidade, pesquiso muito e encontro só obras realmente boas. Às vezes os funcionários da loja têm trabalho para encomendar livros raros que descobri online. Fico me perguntando se sou exceção, mas serviços assim preservam minha liberdade de escolha.
- É uma questão complicada. Eu costumava participar de grupos de lançamento de filmes, e a maioria dos membros desses grupos tinha coleções de VHS/DVD bem maiores que a média das pessoas. É algo que exige esse nível de esforço e tempo. Já quem só baixava era um grupo mais misto: alguns moravam no exterior e não conseguiam ver lançamentos do próprio país, e outros até se orgulhavam de nunca comprar mídia nenhuma.
- Minha situação é parecida. Graças ao Anna's Archive, consigo encontrar material com mais facilidade do que na biblioteca da escola. Posso procurar de casa, obter a informação de que preciso e apagar depois. Dou uma olhada no conteúdo antes e, se for realmente bom, compro para ter na coleção. Não compro mais livros do que antes, mas meu nível de satisfação é muito maior. Por outro lado, graças a sites de upload, conheci filmes excelentes dos quais nunca tinha ouvido falar e hoje compro muito mais filmes do que antigamente.
- A cena de pirataria de quadrinhos franceses distribui os lançamentos com um atraso de mais ou menos 6 meses. Como é um meio pequeno, essa regra funciona bem. Isso me fez me interessar por quadrinhos, e quando gosto de uma obra compro com prazer assim que ela é lançada e removo o DRM para uso pessoal. A maior parte dos downloads tem mais um caráter de coleção/arquivamento, e quando realmente leio algo até o fim e gosto bastante, apoio o autor.
- Sou exatamente igual. Se uma série parece interessante, primeiro pego só o volume 1 e leio uns 1/3; se for realmente bom, depois compro e termino. Compro cerca de 3 a 4 livros por mês (de preferência epub sem DRM, quando possível), e por volta de 10 graphic novels europeias por mês (só em papel). Também sou um consumidor pesado.
- Eu acompanhava um jogo indie antigamente, e o desenvolvedor tentava oferecer uma experiência sem DRM. Havia também recursos online, como placares, e ele ficou chocado ao descobrir que muito mais contas se conectavam online do que o número real de vendas. O clima entre os desenvolvedores passou a ser pedir nas descrições dos recursos que as pessoas não usassem cópias e comprassem o original. No fim, apesar da popularidade, pouca gente pagou por causa da pirataria excessiva, e a equipe abandonou o projeto. Sempre que o assunto é pirataria, muita gente tenta justificar o próprio comportamento dizendo que consome mais do que a média, mas os dados estatísticos reais mostram que a maioria faz isso porque é de graça.
Os operadores de bibliotecas sombra prestam uma enorme contribuição à humanidade, então merecem um Nobel. O Satoshi certamente ficaria orgulhoso.
- O que deixaria o Satoshi orgulhoso é o fato de ser possível apoiar bibliotecas sombra sem medo de censura. E um único item já conta como lista.
- O Aaron Swartz provavelmente também ficaria orgulhoso.
- Para ele, dar algumas moedinhas não faria diferença nenhuma; seria troco.
Eles fornecem uma lista de torrents para que qualquer pessoa possa participar da preservação de longo prazo semeando: https://annas-archive.org/torrents
- Me surpreende que torrents baseados em i2p ainda não tenham se difundido mais e não sejam oferecidos como opção em sites assim. Imagino que muita gente não consiga contribuir por causa do risco jurídico, e o i2p poderia ajudar.
- É impressionante que o sci-hub tenha algo em torno de 90 TB e o libgen-non-fiction cerca de 77,5 TB. Esses dois são justamente os arquivos que contêm conhecimento científico essencial, como artigos e livros didáticos, e precisam ser protegidos. Eu mesmo guardo uns 16 TB num servidor em casa, mas expandir para algo na faixa de 200 TB não é nada trivial em termos de equipamento e custo (só 12 discos de 16 TB saem por 2.200 dólares). Considerando redundância de dados e hardware de servidor, por algo em torno de 5 mil dólares seria possível manter em cache praticamente todo o principal conhecimento científico acumulado pela humanidade. O interessante é que a capacidade desses repositórios quase não vem crescendo nos últimos tempos. O scihub também parou de ser atualizado depois de 2022, e imagino que muitos periódicos recentes de baixa qualidade também tenham menor importância.
Lendo uma série de livros na biblioteca, fiquei pasmo porque o volume 3 ou 4 não estava lá, provavelmente porque se perdeu ou foi danificado. Pensei até em comprar em sebo e doar, mas as edições novas estavam mais caras e com uma atmosfera diferente, então acabei desistindo. Por isso consegui pelo Anna’s Archive. A biblioteca também não tinha os últimos volumes da série (talvez alguém tenha pego emprestado e nunca devolvido, ou talvez nem tivessem desde o início). Eu só queria completar a leitura de toda a obra desse autor, e os livros de que realmente gosto eu já comprei duas vezes, em papel e em audiolivro. Antigamente meus amigos eram obcecados por colecionar livros, mas eu prefiro guardar só os que vou reler. Quando bate aquela vontade de completar coleção, resolvo isso com biblioteca ou ebook. Conforme envelheço, fico mais consciente dos livros e da minha finitude. Mesmo se eu me aposentar e ler 3 ou 4 livros por semana, ainda assim tenho livros acumulados em quantidade maior do que conseguirei ler em toda a vida. E continuam surgindo lançamentos e novas vozes. A última coisa que fiz foi reler Dune e mandar para o sebo; se eu reler de novo, provavelmente será em audiolivro.
Acho que a parte sobre “Anna’s Archive obteve dezenas de milhões de arquivos do IA Controlled Digital Lending” não ajuda muito no quadro geral.
- É uma menção extremamente ambígua e inevitavelmente pode virar assunto de tribunal.
- Parece muito egoísta o Anna's Archive se vangloriar irresponsavelmente de que “fez esse tipo de coisa”, sem pensar em nenhuma consequência.
- Não vejo por que isso seria um problema. O objetivo deles sempre foi coletar livros.
Acho que lugares como o Anna's Archive são uma das últimas coisas boas que restam na internet.
- Tenho curiosidade sobre como levantam recursos e como mantêm o site vivo. Imagino que empresas e Estados com muito dinheiro queiram derrubar esse site.
- Concordo que é uma das últimas coisas boas (a última, mas não a menos importante).
Meus elogios à equipe desse projeto. Fiquei impressionado porque a UI parece ter melhorado no último ano. O problema que resta é sobreviver e continuar acessível; tenho curiosidade sobre quanto esforço isso exige e como conseguem aguentar sob tantos ataques.
- Houve uma grande atualização de UI nos últimos 2 a 5 dias. A única coisa um pouco decepcionante é que, no celular, antes era possível ver os resultados de busca de forma muito mais eficiente, enquanto no design novo só aparecem uns 4 ou 5 por tela.
Para referência, este site também é bastante útil: https://open-slum.org/
- O site não abre para mim; queria que explicassem que tipo de conteúdo há lá e por que ele é útil.
- Esse site parece ser uma instância do Uptime Kuma. O Uptime Kuma é um projeto open source forte em monitoramento e dashboards: https://github.com/louislam/uptime-kuma
É meio curioso que os cidadãos apoiem lugares como o Anna's Archive, enquanto os governos sejam contra. Parece uma evidência de elitismo.
- Não é engraçado nem estranho. Está faltando a perspectiva das pessoas diretamente envolvidas: os autores. Fico me perguntando quão satisfeitos ficam os escritores que têm seus livros no Anna’s Archive. Pessoalmente, sou favorável a Anna’s Archive, sci-hub e semelhantes porque acho que, no geral, ajuda a sociedade a ler mais. Mas, dentro do sistema atual, há várias questões envolvendo remuneração, legislação etc.
- Fico me perguntando o que os autores acham disso.
Gostaria de saber se o Anna's Archive ou sites parecidos oferecem o conjunto completo em PDF do New York Times inteiro (versões anteriores a 1930) ou de outros jornais. Hoje, até materiais em domínio público acabam presos em sites fechados como o Newspapers.com ou em estados totalmente não pesquisáveis, como no antigo Google News/Newspapers. Espero que a disputa por dados para treinamento de IA acabe levando ao surgimento de novos arquivos mais abertos e com recursos de exploração baseados em IA, em vez dos sites antigos pagos ou abandonados. Dá para encontrar parte disso no Internet Archive e afins, mas o que realmente faz falta é busca com IA.
- No link https://archive.org/search?query=title%3ANew+York+Times&sort=-date&and%5B%5D=year%3A%5B1530+TO+1930%5D dá para encontrar alguns jornais antigos do NYT. Não dá para baixar o conjunto completo em PDF de uma vez, mas é possível localizar PDFs individuais via torrents do Anna’s Archive e juntá-los. Quanto à busca com IA, com tempo e disposição seria possível passar artigos antigos do NYT por OCR, transformá-los em texto e então alimentá-los em algo como um LLM para permitir exploração semântica. Idealmente, acho que esse tipo de projeto deveria receber apoio de fundos públicos de cultura como pesquisa acadêmica.

Anna's Archive: atualização mais recente da equipe

Situação recente e resposta da equipe

Libertação e preservação de materiais

Scraping em larga escala e obtenção de metadados

Comunidade, colaboração e novos desenvolvimentos

Novos projetos e pontos de atenção

Pedido de voluntariado e apoio

Leituras relacionadas

1 comentários

Comentários do Hacker News