1 pontos por GN⁺ 4 시간 전 | 1 comentários | Compartilhar no WhatsApp
  • O Anna’s Archive ofereceu uma recompensa de US$ 200 mil para obter scans completos de livros do Google Books ou uma coleção de escala semelhante
  • Atualmente, o acesso ao Google Books por busca se concentra em pequenos snippets ao redor dos resultados, então obter os scans completos é tratado como uma tarefa central do ponto de vista de arquivamento
  • Caso alguém tenha encontrado um método escalável, a orientação é entrar em contato ainda na etapa de protótipo, sem esperar uma versão final
  • Pessoas com acesso interno no Google também são elegíveis; mesmo que consigam obter apenas o texto OCR, sem as imagens, podem receber metade da recompensa
  • O alvo não se limita ao Google Books e também se aplica a grandes coleções, incluindo livros raros, reunidas por empresas de IA e outras organizações

Alvo da recompensa e condições de participação

  • O Anna’s Archive oferece uma recompensa de US$ 200.000 para obter scans completos de livros do Google Books ou de coleções semelhantes
  • Antes de começar o trabalho, é preciso ler com atenção as instruções de bounties do Anna’s Archive
  • O Google Books possui muitos livros digitalizados, mas, ao acessá-los por busca, o que aparece são apenas pequenos snippets ao redor dos resultados
  • Caso encontre um método com potencial de escala, a orientação é entrar em contato cedo com um protótipo, sem esperar até ter uma versão completa
    • O Anna’s Archive pode ajudar depois no trabalho de expansão
  • Pessoas que trabalham no Google e têm acesso a esses dados também estão incluídas entre os elegíveis à recompensa
    • O texto diz que US$ 200.000 talvez não seja uma quantia enorme, mas que, se a pessoa conseguir levar os dados para fora, será chamada de “arquivista lendária”
  • A recompensa também se aplica a coleções de escala semelhante fora do Google Books
    • Como exemplo, foram citadas coleções reunidas por empresas de IA
    • Coleções que incluam uma quantidade significativa de livros raros são especialmente elegíveis

Escala e forma de entrega resumidas nos comentários

  • Um comentário escreveu que o arquivo completo teria cerca de 7 PB, incluindo materiais protegidos por direitos autorais, mas depois corrigiu para cerca de 1,5 PB, número que inclui a réplica do site da IUPUI
  • Materiais em domínio público e materiais disponibilizados pelos próprios autores foram mencionados como tendo cerca de 300 TB
  • O Anna’s Archive respondeu que estaria disposto a adicionar uma recompensa separada caso ainda não haja scraping dos materiais em domínio público e dos materiais disponibilizados pelos autores
  • Mesmo no caso de extrair apenas o texto OCR, e não as imagens completas, metade da recompensa pode ser paga para os fins desta recompensa
  • Como forma de entrega ao obter um grande volume de dados, foi mencionado SFTP ou método semelhante
  • O título da issue foi alterado em 7 de junho de 2025 para Google Books (or similar) all book scans — $200,000 bounty

1 comentários

 
GN⁺ 4 시간 전
Comentários do Hacker News
  • Moro em um país onde é difícil conseguir livros em inglês, e compras online no exterior têm procedimentos administrativos e restrições demais
    Se não fossem o Anna's Archive e a Z-Library, eu nem teria conseguido ler os livros que me tornaram quem sou hoje, e teria sido difícil manter minha paixão por aprender
    Também sou grato aos autores de quem obtive conhecimento sem conseguir pagar o preço dos livros

    • Meio brincando, meio a sério, alguém poderia dizer que isso significa que toda a minha vida atual se deve a ganhos do crime, mas o conhecimento deve ser livre
      O conhecimento não foi criado no vácuo; ele pertence a todos
    • Entendo esse ponto de vista, mas, se os autores não pudessem ganhar dinheiro, é bem provável que muitos desses livros nem tivessem existido
      Há algum tempo, no Reddit, um autor publicou estatísticas mostrando que as vendas reais do livro dele desabaram depois que ele apareceu em sites de compartilhamento ilegal
      Por isso, tento comprar especialmente livros de programação sempre que possível, e uso PDFs como uma espécie de prévia. Na verdade, por causa disso acabei comprando muito mais do que antes
      Claro que, se você mora em uma região onde comprar é simplesmente impossível, a conversa é outra, mas, ao elogiar esses sites, há uma tendência de enxergar só o lado positivo
    • Ainda bem que a localização está no nome de usuário. Hoje em dia, uma das coisas que mais me irrita online é gente dizendo “no meu país” sem jamais dizer qual é o país
    • https://send.djazz.se/
      É uma ferramenta essencial para enviar EPUBs para o Kobo
  • Em https://SourceLibrary.org há cerca de 16.000 traduções de livros raros, a maioria delas inédita
    O acervo tem 50.000 livros, que serão traduzidos quando houver financiamento; a contagem de tokens é maior que a da Wikipedia em inglês, e o tamanho é de cerca de 0,75 PB
    Não sei se isso se qualificaria para a recompensa, mas queria compartilhar, e estamos procurando patrocinadores pequenos e grandes para ajudar na tradução de textos renascentistas

    • O resultado é bonito, e as respostas são apropriadas e ressoam. O financiamento também parece possível por meio de algo como uma API de pesquisa paga
    • Parece interessante
      Não é fácil entender de imediato o que foi todo arquivado, mas tenho amigos historiadores acadêmicos que talvez se interessem por áreas específicas, e alguns poderiam ajudar a validar idiomas obscuros
      Fico curioso se é possível fazer buscas por região ou idioma
      Também queria saber se vocês já entraram em contato com historiadores sobre o projeto. Alunos de doutorado talvez consigam encontrar temas de pesquisa aí
      Ao acessar a linha do tempo https://sourcelibrary.org/timeline, apareceu um erro
    • Fico curioso para saber quanto orçamento foi necessário para chegar até aqui. A contagem de tokens é enorme, e parece que provavelmente estão usando Gemini Flash
  • Ontem o Anna's Archive foi realmente útil
    Passei dias procurando o arquivo ZIP de um CD que vinha com um livro de programação do início dos anos 2000; todos os anúncios de usados diziam que não tinham o CD, não encontrei nada nas buscas, e LLMs também não conseguiram achar
    O ChatGPT ficava dizendo que estava no archive, mas na verdade não estava; fui ao AA por via das dúvidas e lá estavam os ZIPs tanto da 1ª quanto da 2ª edição. Foi uma verdadeira salvação

  • Fico me perguntando quanto tempo vai levar até oferecerem recompensas também por raspagem da internet
    Por causa do Cloudflare CAPTCHA, a internet ficou quase inutilizável para mim, e acho que daqui para a frente vai piorar
    Talvez seja melhor simplesmente navegar por cópias em sites como archive.is ou baixar por torrent. A segunda opção é muito melhor também para privacidade, e de qualquer forma já uso bloqueador de anúncios

    • É bem provável que alguém na mesma rede esteja rodando algum jogo monetizado por proxies da Bright Data. Houve uma thread sobre isso há alguns dias
      Pode até ser uma smart TV. Se você encontrar e remover a causa, a reputação do IP pode melhorar e talvez veja menos CAPTCHAs
    • https://x.com/CloudflareDev/status/2031488099725754821
      Existe esse pequeno conflito de interesses
  • Fico curioso para saber quem está por trás do Anna's Archive. Parece haver muita gente anglófona na equipe e no fórum
    De todo modo, acho que não há problema enquanto compra não significar posse

    • Parece que a Anna está por trás
      https://redlib.catsarch.com/r/Annas_Archive/comments/1f6h74r/im_curious_actually_who_is_anna/
      https://reddit.com/r/Annas_Archive/comments/1f6h74r/im_curious_actually_who_is_anna/
    • Muitos dos livros ali provavelmente já podem ser comprados originalmente em formato sem DRM. Há mais autores que não se preocupam com DRM do que se imagina
      E, se você compra em papel, a compra claramente vira posse, então essa frase parece um pouco inadequada no caso de livros
    • Acho que a principal fonte era russa, ou talvez isso fosse o LibGen
      O mais surpreendente, porém, é haver tão poucas alternativas. Depois que Facebook e outros travaram guerra contra o LibGen e ele caiu, ainda havia surpreendentemente poucas alternativas, e o Anna's Archive era uma das poucas opções
      Ainda não sei exatamente o que aconteceu com o LibGen, mas, depois daquele ataque, ele parece estar praticamente meio desaparecido
    • Se você realmente acha que não há problema, fico me perguntando por que pergunta em um fórum público quem está por trás
  • Na frase “leia [this] com atenção antes de realizar trabalhos de recompensa”, o [this] aponta para um endereço .li, que leva a um lugar perigoso
    O endereço correto deveria ser https://annas-archive.gl/volunteering#bounties

  • Se alguém no Google está preocupado em ser demitido agora, talvez este seja o plano B

    • Se for pego extraindo os dados, será processado por uma quantia muito maior do que US$ 200 mil
    • É pouco provável que um funcionário comum tenha acesso ao arquivo inteiro
      Mesmo entre os pouquíssimos que têm acesso, se começarem a baixar mesmo uma fração minúscula do conteúdo, há uma grande chance de sistemas automatizados detectarem
    • O problema maior é que isso causaria prejuízo financeiro. Talvez a pessoa até precise se preparar para se mudar para outro país
  • Outras tarefas de recompensa interessantes que eles oferecem: https://software.annas-archive.gl/AnnaArchivist/annas-archive/-/work_items?label_name%5B%5D=2-Bounty
    Compra do conjunto de dados MARC completo da Library of Congress — recompensa de US$ 3.000
    Páginas da Wikipedia em inglês sobre instituições relacionadas — até US$ 100 por nova página
    Internet Archive Digital Lending — US$ 5.000 por 1 milhão de PDFs
    Versão em texto da biblioteca inteira — US$ 20.000 etc.

  • Fico curioso para saber o que vai acontecer com a pirataria e os direitos autorais daqui para frente
    A situação atual, centrada em aluguel, parece insustentável. Até pessoas comuns ao meu redor passaram a conhecer bastante coisas como VPN e NAS

    • Quando se pesquisa o quão pouco autores e artistas que criam as obras de fato recebem, dá vontade de torcer para que a guilhotina seja a resposta
    • Desde o começo, não era uma estrutura sustentável, mas sim captura regulatória por grandes detentores de propriedade intelectual
      Spotify, Netflix, Amazon etc. ofereceram um bom valor por um tempo, mas agora que a degradação dos serviços está a todo vapor, chegou a hora de uma volta em massa
  • É muito provável que o Gemini já tenha sido treinado com esses livros, então, em tese, ele poderia cuspir algumas frases literalmente
    No processo que o NYT moveu contra a OpenAI um tempo atrás, apareceram exemplos desse tipo

    • Gemini, GPT e Fable são, na prática, versões compactadas muito boas do conteúdo da internet
      Só que não são compressão sem perdas; eles encontraram uma forma de manter as partes importantes para executar a tarefa de prever o próximo token e imitar o restante