Google remove 749 milhões de URLs relacionadas ao Anna’s Archive dos resultados de busca

(torrentfreak.com)

4 pontos por GN⁺ 2025-11-06 | 1 comentários | Compartilhar no WhatsApp

Anna’s Archive é um metabuscador de bibliotecas paralelas onde é possível encontrar e-books pirateados e outros materiais, lançado no outono de 2022
Nos últimos 3 anos, devido a denúncias de violação de direitos autorais feitas por editoras e autores, o Google removeu 749 milhões de URLs desse site dos resultados de busca
Isso corresponde a 5% de todas as URLs relacionadas a direitos autorais já processadas pelo Google até hoje, em um volume muito maior que o do The Pirate Bay
Mais de 1.000 detentores de direitos, como Penguin Random House e John Wiley & Sons, enviaram solicitações de DMCA, e cerca de 10 milhões de novas URLs são denunciadas toda semana
Apesar da remoção em massa, o domínio principal do Anna’s Archive continua acessível e ainda pode ser encontrado facilmente no Google ao buscar pelo nome do site

Visão geral do Anna’s Archive

Anna’s Archive é um metabuscador que permite pesquisar de forma integrada em várias bibliotecas paralelas, oferecendo a possibilidade de encontrar livros e materiais pirateados
- Foi lançado no outono de 2022, logo após o Z-Library sofrer repressão por autoridades dos EUA
- Surgiu com o objetivo de continuar oferecendo ao público livros e artigos “gratuitos”
Desde o lançamento, ao longo de 3 anos, sofreu bloqueios em vários países e foi alvo de um processo nos EUA por suposta coleta não autorizada de 2,2 TB de dados do WorldCat
Também vem realizando atividades para apoiar pesquisadores de IA com acesso a dados

A remoção em massa pelo Google

O Google remove dos resultados de busca URLs suspeitas de violação de direitos autorais a pedido dos detentores de direitos
No caso do Anna’s Archive, foram denunciadas ao todo 784 milhões de URLs, das quais 749 milhões foram efetivamente removidas
- Alguns links não foram incluídos na remoção porque o Google não os havia indexado
Em comparação, o The Pirate Bay teve 4,2 milhões de URLs removidas, o que mostra como a escala do Anna’s Archive é muito maior
Como o site opera vários subdomínios por país e possui um volume enorme de páginas, o número de URLs sujeitas à remoção é alto

5% de todas as remoções por direitos autorais do Google

Segundo o relatório de transparência do Google, desde 2012 foram denunciadas 15,1 bilhões de URLs com infração de direitos autorais
- Destas, as URLs relacionadas ao Anna’s Archive representam 5% do total
Penguin Random House e John Wiley & Sons são os principais autores das denúncias, e mais de 1.000 editoras e autores enviaram solicitações de DMCA
Ainda hoje, cerca de 10 milhões de novas URLs continuam sendo denunciadas a cada semana

Visibilidade nos resultados de busca

Devido à remoção em massa, a exposição do site em buscas relacionadas a livros diminuiu
- Muitas URLs deixaram de ser exibidas ou perderam posição no ranking de busca
No entanto, ao pesquisar diretamente por “Anna’s Archive”, o domínio principal ainda aparece entre os primeiros resultados
Apesar das medidas do Google, o acesso ao site em si não foi bloqueado

A resposta do setor editorial e suas limitações

Como é difícil bloquear diretamente o site, as editoras continuam enviando pedidos de remoção a plataformas terceiras como o Google
Apesar da pressão jurídica, domínios principais como annas-archive.org, .li e .se continuam em operação
O texto original não menciona medidas futuras adicionais nem mudanças de política

1 comentários

GN⁺ 2025-11-06

Comentários no Hacker News

Pode soar estranho, mas descobri que o Yandex é um mecanismo de busca bem excelente para encontrar conteúdo removido por pedidos de DMCA
Por exemplo, quando quero ver em streaming na web um filme que não está na Netflix, os resultados de busca são muito melhores
É como voltar a usar o Google de 2005
- Comecei a usar o Yandex há alguns anos para encontrar infohashes de bittorrent
  Foi porque Google, Bing e DuckDuckGo já não entregavam resultados decentes
  Hoje em dia, em lugares como exploradores de blockchain, só aparece correspondência parcial curta, e não sei se isso é intencional ou se é por causa de alguma tentativa de fuzzy matching
  De qualquer forma, para esse uso é um fracasso total
- Já usei vários mecanismos de busca, como Kagi, Startpage, Ecosia e DDG, e todos dão resultados mais relevantes que o Google
  O Google é personalizado demais
- Como ucraniano, sinto revolta por o Yandex ter se tornado uma ferramenta de propaganda, mas como engenheiro tenho respeito pelo legado de décadas de pesquisa deles e pela excelente tecnologia de busca
- Há muito tempo testo a qualidade de mecanismos de busca assim
  Um mecanismo bom mostra sites piratas, e um excelente os coloca acima dos resultados falsos
  Mas quanto melhor o mecanismo, mais atenção ele acaba atraindo e mais esses resultados acabam sendo removidos
  Quando isso acontece, é hora de procurar outro lugar
- Curiosamente, alguns dias atrás minha esposa estava falando sobre a história do país dela e recomendou um filme relacionado, mas ele não aparecia em Google, DDG, Bing nem Brave
  Já no Yandex ele apareceu entre os 3 primeiros imediatamente
  E, só para constar, o DDG agora está quase igual ao Google e até veio com resultados patrocinados
O Anna’s Archive já forneceu todos os dados de que o Gemini do Google precisava para treinamento, então agora parece que estão fingindo que ele não existe
- Fico me perguntando se houve uma época em que o Anna’s Archive organizava a informação do mundo e a tornava universalmente acessível
- O Google mantém voluntariamente um log de transparência, e conformidade com DMCA é apenas uma questão de interpretação legal
  É difícil entender por que comunidades online transformam isso em teorias conspiratórias maliciosas
Então o Google voltou a fazer busca agora?
Hoje em dia, a marca de chatbot que eu uso evita 100 sites de spam de SEO e encontra a mesma informação para mim, então não sei como dá para competir com essa conveniência
- Já ouvi dizer que chatbots são menos afetados por spam do que o Google, mas fico curioso se isso é verdade
- Lembro que houve uma época em que o Google realmente fazia busca
  (belo apelido)
- Chatbots não têm um índice em escala de internet próprio
  No fim, isso significa abrir mão da capacidade de julgamento de verificar diretamente a origem da informação
- De 25% a 90% dos links fornecidos por chatbots são alucinações
  Ou então eles acabam apenas substituindo uma busca no Google
- IA baseada em LLM é inerentemente vulnerável a ataques de manipulação de dados
  Uma AGI genuinamente em nível humano perceberia esse tipo de tentativa, mas os chatbots atuais não conseguem
  Artigo relacionado: NYTimes - AI Chatbot Prompts and Manipulation
Eu não faço nenhuma busca que provavelmente deixaria o Google desconfortável
Números de série, telefones de empresas, artigos acadêmicos, livros — encontro tudo isso no Yandex ou no Brave
Tanto faz o que o Google fizer, de qualquer forma eu não uso
Estou pensando que preciso baixar todos os torrents do z-archive antes que o Anna’s Archive desapareça
Tirando os PDFs grandes e os livros em idiomas que não sejam inglês, talvez dê para compactar tudo em dois drives de 32 TB
https://annas-archive.org/torrents
- Não seria meio arbitrário demais remover PDFs grandes?
  Muitas vezes o PDF é grande por causa de cor ou resolução, não por causa do conteúdo
- Já reduzi tamanho assim antes, diminuindo DPI e profundidade de cor e depois juntando tudo de novo em PDF
  Também daria para identificar automaticamente várias edições do mesmo livro e manter só um epub, removendo o resto
- Eu também gostaria de fazer um backup das versões em inglês/alemão/francês
  Mas HDD e sistema de arquivos são um problema, então talvez eu tenha que criar algo como um divisor de torrents por conta própria
- Eu inverti e organizei a lista preenchendo primeiro com os arquivos pequenos
https://annas-archive.org
Quase nunca dependi do Google para encontrar conteúdo nesse tipo de site
O próprio site é bem indexado por título, autor, formato e data, então a busca livre já é suficiente
- Busca na web como a do Google tem vantagem em busca por termos aproximados
  Por exemplo, mesmo se você pesquisar por “a a a a ah ah ah ah dance song”, ele encontra “Million Voices”, do Otto Knows
- Mas fico pensando se esses sites não carecem de busca full-text
  Também não acho que o Google indexaria o conteúdo do corpo das páginas do Anna’s Archive
Depois que o Library Genesis foi encerrado recentemente, parece que o Anna’s Archive virou o último grande repositório de livros que restou
Fico curioso se há outras alternativas
- Existe o Open-Slum.org, vinculado pelo Anna’s Archive
- Para livros, recomendo WeLib.org; para audiolivros, AudiobookBay
A marcha rumo à inutilidade do Google continua
- Mesmo assim, o Google ainda responde por 97% das consultas de busca no mundo
O ambiente de busca na web mudou completamente
- Há mais plataformas fechadas (walled gardens), então existem muitas áreas às quais os mecanismos de busca não conseguem acessar
- Também há muitos dados inacessíveis por restrições legais
- Agora é preciso usar não só Google, mas também Yandex, Kagi e ChatGPT juntos
- Eu também uso meu próprio índice, Internet Places Database

Google remove 749 milhões de URLs relacionadas ao Anna’s Archive dos resultados de busca

Visão geral do Anna’s Archive

A remoção em massa pelo Google

5% de todas as remoções por direitos autorais do Google

Visibilidade nos resultados de busca

A resposta do setor editorial e suas limitações

Leituras relacionadas

1 comentários

Comentários no Hacker News