4 pontos por GN⁺ 2025-11-06 | 1 comentários | Compartilhar no WhatsApp
  • Anna’s Archive é um metabuscador de bibliotecas paralelas onde é possível encontrar e-books pirateados e outros materiais, lançado no outono de 2022
  • Nos últimos 3 anos, devido a denúncias de violação de direitos autorais feitas por editoras e autores, o Google removeu 749 milhões de URLs desse site dos resultados de busca
  • Isso corresponde a 5% de todas as URLs relacionadas a direitos autorais já processadas pelo Google até hoje, em um volume muito maior que o do The Pirate Bay
  • Mais de 1.000 detentores de direitos, como Penguin Random House e John Wiley & Sons, enviaram solicitações de DMCA, e cerca de 10 milhões de novas URLs são denunciadas toda semana
  • Apesar da remoção em massa, o domínio principal do Anna’s Archive continua acessível e ainda pode ser encontrado facilmente no Google ao buscar pelo nome do site

Visão geral do Anna’s Archive

  • Anna’s Archive é um metabuscador que permite pesquisar de forma integrada em várias bibliotecas paralelas, oferecendo a possibilidade de encontrar livros e materiais pirateados
    • Foi lançado no outono de 2022, logo após o Z-Library sofrer repressão por autoridades dos EUA
    • Surgiu com o objetivo de continuar oferecendo ao público livros e artigos “gratuitos”
  • Desde o lançamento, ao longo de 3 anos, sofreu bloqueios em vários países e foi alvo de um processo nos EUA por suposta coleta não autorizada de 2,2 TB de dados do WorldCat
  • Também vem realizando atividades para apoiar pesquisadores de IA com acesso a dados

A remoção em massa pelo Google

  • O Google remove dos resultados de busca URLs suspeitas de violação de direitos autorais a pedido dos detentores de direitos
  • No caso do Anna’s Archive, foram denunciadas ao todo 784 milhões de URLs, das quais 749 milhões foram efetivamente removidas
    • Alguns links não foram incluídos na remoção porque o Google não os havia indexado
  • Em comparação, o The Pirate Bay teve 4,2 milhões de URLs removidas, o que mostra como a escala do Anna’s Archive é muito maior
  • Como o site opera vários subdomínios por país e possui um volume enorme de páginas, o número de URLs sujeitas à remoção é alto

5% de todas as remoções por direitos autorais do Google

  • Segundo o relatório de transparência do Google, desde 2012 foram denunciadas 15,1 bilhões de URLs com infração de direitos autorais
    • Destas, as URLs relacionadas ao Anna’s Archive representam 5% do total
  • Penguin Random House e John Wiley & Sons são os principais autores das denúncias, e mais de 1.000 editoras e autores enviaram solicitações de DMCA
  • Ainda hoje, cerca de 10 milhões de novas URLs continuam sendo denunciadas a cada semana

Visibilidade nos resultados de busca

  • Devido à remoção em massa, a exposição do site em buscas relacionadas a livros diminuiu
    • Muitas URLs deixaram de ser exibidas ou perderam posição no ranking de busca
  • No entanto, ao pesquisar diretamente por “Anna’s Archive”, o domínio principal ainda aparece entre os primeiros resultados
  • Apesar das medidas do Google, o acesso ao site em si não foi bloqueado

A resposta do setor editorial e suas limitações

  • Como é difícil bloquear diretamente o site, as editoras continuam enviando pedidos de remoção a plataformas terceiras como o Google
  • Apesar da pressão jurídica, domínios principais como annas-archive.org, .li e .se continuam em operação
  • O texto original não menciona medidas futuras adicionais nem mudanças de política

1 comentários

 
GN⁺ 2025-11-06
Comentários no Hacker News
  • Pode soar estranho, mas descobri que o Yandex é um mecanismo de busca bem excelente para encontrar conteúdo removido por pedidos de DMCA
    Por exemplo, quando quero ver em streaming na web um filme que não está na Netflix, os resultados de busca são muito melhores
    É como voltar a usar o Google de 2005

    • Comecei a usar o Yandex há alguns anos para encontrar infohashes de bittorrent
      Foi porque Google, Bing e DuckDuckGo já não entregavam resultados decentes
      Hoje em dia, em lugares como exploradores de blockchain, só aparece correspondência parcial curta, e não sei se isso é intencional ou se é por causa de alguma tentativa de fuzzy matching
      De qualquer forma, para esse uso é um fracasso total
    • Já usei vários mecanismos de busca, como Kagi, Startpage, Ecosia e DDG, e todos dão resultados mais relevantes que o Google
      O Google é personalizado demais
    • Como ucraniano, sinto revolta por o Yandex ter se tornado uma ferramenta de propaganda, mas como engenheiro tenho respeito pelo legado de décadas de pesquisa deles e pela excelente tecnologia de busca
    • Há muito tempo testo a qualidade de mecanismos de busca assim
      Um mecanismo bom mostra sites piratas, e um excelente os coloca acima dos resultados falsos
      Mas quanto melhor o mecanismo, mais atenção ele acaba atraindo e mais esses resultados acabam sendo removidos
      Quando isso acontece, é hora de procurar outro lugar
    • Curiosamente, alguns dias atrás minha esposa estava falando sobre a história do país dela e recomendou um filme relacionado, mas ele não aparecia em Google, DDG, Bing nem Brave
      Já no Yandex ele apareceu entre os 3 primeiros imediatamente
      E, só para constar, o DDG agora está quase igual ao Google e até veio com resultados patrocinados
  • O Anna’s Archive já forneceu todos os dados de que o Gemini do Google precisava para treinamento, então agora parece que estão fingindo que ele não existe

    • Fico me perguntando se houve uma época em que o Anna’s Archive organizava a informação do mundo e a tornava universalmente acessível
    • O Google mantém voluntariamente um log de transparência, e conformidade com DMCA é apenas uma questão de interpretação legal
      É difícil entender por que comunidades online transformam isso em teorias conspiratórias maliciosas
  • Então o Google voltou a fazer busca agora?
    Hoje em dia, a marca de chatbot que eu uso evita 100 sites de spam de SEO e encontra a mesma informação para mim, então não sei como dá para competir com essa conveniência

    • Já ouvi dizer que chatbots são menos afetados por spam do que o Google, mas fico curioso se isso é verdade
    • Lembro que houve uma época em que o Google realmente fazia busca
      (belo apelido)
    • Chatbots não têm um índice em escala de internet próprio
      No fim, isso significa abrir mão da capacidade de julgamento de verificar diretamente a origem da informação
    • De 25% a 90% dos links fornecidos por chatbots são alucinações
      Ou então eles acabam apenas substituindo uma busca no Google
    • IA baseada em LLM é inerentemente vulnerável a ataques de manipulação de dados
      Uma AGI genuinamente em nível humano perceberia esse tipo de tentativa, mas os chatbots atuais não conseguem
      Artigo relacionado: NYTimes - AI Chatbot Prompts and Manipulation
  • Eu não faço nenhuma busca que provavelmente deixaria o Google desconfortável
    Números de série, telefones de empresas, artigos acadêmicos, livros — encontro tudo isso no Yandex ou no Brave
    Tanto faz o que o Google fizer, de qualquer forma eu não uso

  • Estou pensando que preciso baixar todos os torrents do z-archive antes que o Anna’s Archive desapareça
    Tirando os PDFs grandes e os livros em idiomas que não sejam inglês, talvez dê para compactar tudo em dois drives de 32 TB
    https://annas-archive.org/torrents

    • Não seria meio arbitrário demais remover PDFs grandes?
      Muitas vezes o PDF é grande por causa de cor ou resolução, não por causa do conteúdo
    • Já reduzi tamanho assim antes, diminuindo DPI e profundidade de cor e depois juntando tudo de novo em PDF
      Também daria para identificar automaticamente várias edições do mesmo livro e manter só um epub, removendo o resto
    • Eu também gostaria de fazer um backup das versões em inglês/alemão/francês
      Mas HDD e sistema de arquivos são um problema, então talvez eu tenha que criar algo como um divisor de torrents por conta própria
    • Eu inverti e organizei a lista preenchendo primeiro com os arquivos pequenos
  • https://annas-archive.org

  • Quase nunca dependi do Google para encontrar conteúdo nesse tipo de site
    O próprio site é bem indexado por título, autor, formato e data, então a busca livre já é suficiente

    • Busca na web como a do Google tem vantagem em busca por termos aproximados
      Por exemplo, mesmo se você pesquisar por “a a a a ah ah ah ah dance song”, ele encontra “Million Voices”, do Otto Knows
    • Mas fico pensando se esses sites não carecem de busca full-text
      Também não acho que o Google indexaria o conteúdo do corpo das páginas do Anna’s Archive
  • Depois que o Library Genesis foi encerrado recentemente, parece que o Anna’s Archive virou o último grande repositório de livros que restou
    Fico curioso se há outras alternativas

    • Existe o Open-Slum.org, vinculado pelo Anna’s Archive
    • Para livros, recomendo WeLib.org; para audiolivros, AudiobookBay
  • A marcha rumo à inutilidade do Google continua

    • Mesmo assim, o Google ainda responde por 97% das consultas de busca no mundo
  • O ambiente de busca na web mudou completamente

    • Há mais plataformas fechadas (walled gardens), então existem muitas áreas às quais os mecanismos de busca não conseguem acessar
    • Também há muitos dados inacessíveis por restrições legais
    • Agora é preciso usar não só Google, mas também Yandex, Kagi e ChatGPT juntos
    • Eu também uso meu próprio índice, Internet Places Database