Recompensa de US$ 200 mil por scans completos do Google Books ou coleção semelhante (2025)
(software.annas-archive.gl)- O Anna’s Archive ofereceu uma recompensa de US$ 200 mil para obter scans completos de livros do Google Books ou uma coleção de escala semelhante
- Atualmente, o acesso ao Google Books por busca se concentra em pequenos snippets ao redor dos resultados, então obter os scans completos é tratado como uma tarefa central do ponto de vista de arquivamento
- Caso alguém tenha encontrado um método escalável, a orientação é entrar em contato ainda na etapa de protótipo, sem esperar uma versão final
- Pessoas com acesso interno no Google também são elegíveis; mesmo que consigam obter apenas o texto OCR, sem as imagens, podem receber metade da recompensa
- O alvo não se limita ao Google Books e também se aplica a grandes coleções, incluindo livros raros, reunidas por empresas de IA e outras organizações
Alvo da recompensa e condições de participação
- O Anna’s Archive oferece uma recompensa de US$ 200.000 para obter scans completos de livros do Google Books ou de coleções semelhantes
- Antes de começar o trabalho, é preciso ler com atenção as instruções de bounties do Anna’s Archive
- O Google Books possui muitos livros digitalizados, mas, ao acessá-los por busca, o que aparece são apenas pequenos snippets ao redor dos resultados
- Caso encontre um método com potencial de escala, a orientação é entrar em contato cedo com um protótipo, sem esperar até ter uma versão completa
- O Anna’s Archive pode ajudar depois no trabalho de expansão
- Pessoas que trabalham no Google e têm acesso a esses dados também estão incluídas entre os elegíveis à recompensa
- O texto diz que US$ 200.000 talvez não seja uma quantia enorme, mas que, se a pessoa conseguir levar os dados para fora, será chamada de “arquivista lendária”
- A recompensa também se aplica a coleções de escala semelhante fora do Google Books
- Como exemplo, foram citadas coleções reunidas por empresas de IA
- Coleções que incluam uma quantidade significativa de livros raros são especialmente elegíveis
Escala e forma de entrega resumidas nos comentários
- Um comentário escreveu que o arquivo completo teria cerca de 7 PB, incluindo materiais protegidos por direitos autorais, mas depois corrigiu para cerca de 1,5 PB, número que inclui a réplica do site da IUPUI
- Materiais em domínio público e materiais disponibilizados pelos próprios autores foram mencionados como tendo cerca de 300 TB
- O Anna’s Archive respondeu que estaria disposto a adicionar uma recompensa separada caso ainda não haja scraping dos materiais em domínio público e dos materiais disponibilizados pelos autores
- Mesmo no caso de extrair apenas o texto OCR, e não as imagens completas, metade da recompensa pode ser paga para os fins desta recompensa
- Como forma de entrega ao obter um grande volume de dados, foi mencionado SFTP ou método semelhante
- O título da issue foi alterado em 7 de junho de 2025 para
Google Books (or similar) all book scans — $200,000 bounty
1 comentários
Comentários do Hacker News
Moro em um país onde é difícil conseguir livros em inglês, e compras online no exterior têm procedimentos administrativos e restrições demais
Se não fossem o Anna's Archive e a Z-Library, eu nem teria conseguido ler os livros que me tornaram quem sou hoje, e teria sido difícil manter minha paixão por aprender
Também sou grato aos autores de quem obtive conhecimento sem conseguir pagar o preço dos livros
O conhecimento não foi criado no vácuo; ele pertence a todos
Há algum tempo, no Reddit, um autor publicou estatísticas mostrando que as vendas reais do livro dele desabaram depois que ele apareceu em sites de compartilhamento ilegal
Por isso, tento comprar especialmente livros de programação sempre que possível, e uso PDFs como uma espécie de prévia. Na verdade, por causa disso acabei comprando muito mais do que antes
Claro que, se você mora em uma região onde comprar é simplesmente impossível, a conversa é outra, mas, ao elogiar esses sites, há uma tendência de enxergar só o lado positivo
É uma ferramenta essencial para enviar EPUBs para o Kobo
Em https://SourceLibrary.org há cerca de 16.000 traduções de livros raros, a maioria delas inédita
O acervo tem 50.000 livros, que serão traduzidos quando houver financiamento; a contagem de tokens é maior que a da Wikipedia em inglês, e o tamanho é de cerca de 0,75 PB
Não sei se isso se qualificaria para a recompensa, mas queria compartilhar, e estamos procurando patrocinadores pequenos e grandes para ajudar na tradução de textos renascentistas
Não é fácil entender de imediato o que foi todo arquivado, mas tenho amigos historiadores acadêmicos que talvez se interessem por áreas específicas, e alguns poderiam ajudar a validar idiomas obscuros
Fico curioso se é possível fazer buscas por região ou idioma
Também queria saber se vocês já entraram em contato com historiadores sobre o projeto. Alunos de doutorado talvez consigam encontrar temas de pesquisa aí
Ao acessar a linha do tempo https://sourcelibrary.org/timeline, apareceu um erro
Ontem o Anna's Archive foi realmente útil
Passei dias procurando o arquivo ZIP de um CD que vinha com um livro de programação do início dos anos 2000; todos os anúncios de usados diziam que não tinham o CD, não encontrei nada nas buscas, e LLMs também não conseguiram achar
O ChatGPT ficava dizendo que estava no archive, mas na verdade não estava; fui ao AA por via das dúvidas e lá estavam os ZIPs tanto da 1ª quanto da 2ª edição. Foi uma verdadeira salvação
Fico me perguntando quanto tempo vai levar até oferecerem recompensas também por raspagem da internet
Por causa do Cloudflare CAPTCHA, a internet ficou quase inutilizável para mim, e acho que daqui para a frente vai piorar
Talvez seja melhor simplesmente navegar por cópias em sites como archive.is ou baixar por torrent. A segunda opção é muito melhor também para privacidade, e de qualquer forma já uso bloqueador de anúncios
Pode até ser uma smart TV. Se você encontrar e remover a causa, a reputação do IP pode melhorar e talvez veja menos CAPTCHAs
Existe esse pequeno conflito de interesses
Fico curioso para saber quem está por trás do Anna's Archive. Parece haver muita gente anglófona na equipe e no fórum
De todo modo, acho que não há problema enquanto compra não significar posse
https://redlib.catsarch.com/r/Annas_Archive/comments/1f6h74r/im_curious_actually_who_is_anna/
https://reddit.com/r/Annas_Archive/comments/1f6h74r/im_curious_actually_who_is_anna/
E, se você compra em papel, a compra claramente vira posse, então essa frase parece um pouco inadequada no caso de livros
O mais surpreendente, porém, é haver tão poucas alternativas. Depois que Facebook e outros travaram guerra contra o LibGen e ele caiu, ainda havia surpreendentemente poucas alternativas, e o Anna's Archive era uma das poucas opções
Ainda não sei exatamente o que aconteceu com o LibGen, mas, depois daquele ataque, ele parece estar praticamente meio desaparecido
Na frase “leia [this] com atenção antes de realizar trabalhos de recompensa”, o [this] aponta para um endereço .li, que leva a um lugar perigoso
O endereço correto deveria ser https://annas-archive.gl/volunteering#bounties
Se alguém no Google está preocupado em ser demitido agora, talvez este seja o plano B
Mesmo entre os pouquíssimos que têm acesso, se começarem a baixar mesmo uma fração minúscula do conteúdo, há uma grande chance de sistemas automatizados detectarem
Outras tarefas de recompensa interessantes que eles oferecem: https://software.annas-archive.gl/AnnaArchivist/annas-archive/-/work_items?label_name%5B%5D=2-Bounty
Compra do conjunto de dados MARC completo da Library of Congress — recompensa de US$ 3.000
Páginas da Wikipedia em inglês sobre instituições relacionadas — até US$ 100 por nova página
Internet Archive Digital Lending — US$ 5.000 por 1 milhão de PDFs
Versão em texto da biblioteca inteira — US$ 20.000 etc.
https://software.annas-archive.gl/AnnaArchivist/annas-archive/-/work_items/194
Fico curioso para saber o que vai acontecer com a pirataria e os direitos autorais daqui para frente
A situação atual, centrada em aluguel, parece insustentável. Até pessoas comuns ao meu redor passaram a conhecer bastante coisas como VPN e NAS
Spotify, Netflix, Amazon etc. ofereceram um bom valor por um tempo, mas agora que a degradação dos serviços está a todo vapor, chegou a hora de uma volta em massa
É muito provável que o Gemini já tenha sido treinado com esses livros, então, em tese, ele poderia cuspir algumas frases literalmente
No processo que o NYT moveu contra a OpenAI um tempo atrás, apareceram exemplos desse tipo
Só que não são compressão sem perdas; eles encontraram uma forma de manter as partes importantes para executar a tarefa de prever o próximo token e imitar o restante