- Grandes veículos de imprensa estão bloqueando ou restringindo o acesso do Internet Archive para impedir a coleta de dados para treinamento de IA
- O The Guardian excluiu páginas de artigos da API do Internet Archive e do Wayback Machine, mantendo apenas algumas páginas iniciais e de tópicos
- O The New York Times adicionou
archive.org_bot ao robots.txt no fim de 2025 e passou a bloquear totalmente o crawling
- 241 sites de notícias, incluindo a Gannett (USA Today Co.), bloquearam pelo menos um bot do Internet Archive; muitos também bloquearam Common Crawl, OpenAI e Google AI
- Essas medidas são uma resposta ao uso não autorizado de dados por empresas de IA e, ao mesmo tempo, expõem a questão do equilíbrio entre preservação de registros digitais e acessibilidade da informação
Restrição de acesso ao Internet Archive por grandes veículos
- O The Guardian restringiu o acesso por temer a possibilidade de empresas de IA coletarem conteúdo por meio do Internet Archive
- Excluiu suas páginas de artigos da API e da interface de URLs de artigos do Wayback Machine
- Páginas regionais, iniciais e de tópicos ainda seguem acessíveis no Wayback Machine
- Robert Hahn afirmou que “empresas de IA preferem bases de dados estruturadas, e a API do Internet Archive pode se tornar esse caminho”
- O The Guardian afirmou que não fez um bloqueio total e disse respeitar a missão do Internet Archive de democratizar a informação
- Ainda assim, está reavaliando sua posição no processo de revisão da política de gestão de bots
A resposta do The New York Times e do Financial Times
- O The New York Times adicionou
archive.org_bot ao robots.txt e aplicou um “hard block” ao crawler do Internet Archive
- Explicou que “o Wayback Machine oferece conteúdo do Times de forma ilimitada a terceiros, incluindo empresas de IA”
- O Financial Times bloqueou todos os bots relacionados, incluindo OpenAI, Anthropic, Perplexity e Internet Archive, para proteger conteúdo pago
- Como a maioria dos artigos do FT está atrás de paywall, apenas matérias públicas permanecem no Wayback Machine
Conflito entre Reddit e Internet Archive
- O Reddit bloqueou o acesso do Internet Archive em agosto de 2025
- O motivo foram casos de empresas de IA raspando dados do Reddit por meio do Wayback Machine
- O Reddit explicou que a restrição visa “impedir atividades de empresas de IA que violam as políticas da plataforma”
- O Reddit já firmou com o Google um acordo de licenciamento de dados para treinamento de IA
Posição e resposta do Internet Archive
- O fundador Brewster Kahle alertou que, se editoras restringirem bibliotecas como o Internet Archive, o acesso público aos registros históricos será reduzido
- Kahle afirmou no Mastodon que “algumas coleções não permitem download em massa” e que estão sendo usados limitação de taxa, filtragem e serviços de segurança da Cloudflare
- Em maio de 2023, houve um caso em que uma empresa de IA causou sobrecarga nos servidores com solicitações em massa, levando a uma interrupção temporária do Internet Archive
- Depois disso, a empresa fez um pedido de desculpas e uma doação
Análise de dados: situação dos bloqueios em sites de notícias no mundo
- O Nieman Lab analisou o banco de dados de 1.167 sites de notícias de Ben Welsh para investigar o cenário de bloqueios relacionados ao Internet Archive
- 241 sites de notícias bloquearam pelo menos um bot do Internet Archive
- 87% pertencem a veículos da USA Today Co. (Gannett), que em 2025 adicionaram
archive.org_bot e ia_archiver-web.archive.org ao robots.txt
- Alguns sites da Gannett exibem no Wayback Machine a mensagem “Esta URL foi excluída”
- A Gannett afirmou ter introduzido “um novo protocolo para impedir coleta não autorizada de dados” e informou que, em setembro de 2025, bloqueou 75 milhões de bots de IA em um único mês, dos quais 70 milhões vieram da OpenAI
- Três sites do grupo Le Monde, incluindo Le Monde e Le Huffington Post, bloquearam os três crawlers do Internet Archive
Expansão do bloqueio a crawlers relacionados a IA
- Além do Internet Archive, também há uma tendência de bloquear grandes crawlers de IA, como Common Crawl, OpenAI e Google AI
- Dos 241 sites, 240 bloquearam o Common Crawl, e 231 bloquearam bots da OpenAI e do Google AI
- O Common Crawl é visto como tendo forte ligação com o desenvolvimento comercial de LLMs
A questão do equilíbrio entre preservação da internet e acesso à informação
- O Internet Archive é o projeto mais abrangente de preservação da web nos EUA, em um contexto em que muitas organizações jornalísticas não têm capacidade própria de preservação
- Em dezembro de 2025, a Poynter e o Internet Archive anunciaram conjuntamente um programa de treinamento para preservação de notícias locais
- Hahn comentou que “o Internet Archive opera de boa-fé, mas há efeitos colaterais em que boas intenções acabam sendo mal utilizadas”
1 comentários
Comentários do Hacker News
Não me importo se permite scraping por IA ou não, mas o conteúdo precisa poder ser preservado de forma independente por terceiros
Regulamentos como SOC 2 e HIPAA exigem trilha de auditoria (audit trail) e retenção de evidências
Mas, quando documentos de segurança ou relatórios de resposta a incidentes desaparecem da web, já vi empresas serem reprovadas em auditorias de certificação porque a evidência de auditoria foi interrompida
No fim, o fato de a web não poder mais ser preservada está se tornando não só uma perda cultural, mas também um risco operacional
A página AWS Compliance Reports é exatamente um caso assim
Até uma simples tarefa de organização de logs virava discussão sobre nível de importância
Depois de alguns grandes incidentes de perda, isso deve virar realidade
Ultimamente tem havido muitas contas com esse padrão no HN, o que preocupa
No fim, quem sai perdendo são os usuários comuns, que não têm recursos para raspar a web inteira
Eu sempre sonhei com uma web em que o conteúdo fosse re-hospedado com base em hash — o IPFS tentou isso, mas infelizmente fracassou
Mas, mesmo existindo o Common Crawl, fico me perguntando por que as empresas de IA continuam rastreando diretamente
Sem arquivamento separado, até os artigos da imprensa estão destinados a desaparecer
Por exemplo, se um editor da Wikipédia não consegue garantir de forma estável um link de uma matéria do Times, no fim ele vai substituí-lo por uma matéria do WaPo
Isso é justamente uma tragédia dos comuns
É uma ferramenta que ajuda equipes a preservar URLs de forma estável sem depender de serviços externos
Salva em vários formatos, como snapshot HTML, captura de tela, PDF e modo leitor
Há uma versão com hospedagem em nuvem (linkwarden.app) e uma versão self-hosted (repositório no GitHub)
Mas, em termos de UX, seria bom ter uma função para marcar como “lido/arquivado”
Os erros de metadados estão aumentando, e mecanismos de busca científica como o Google Scholar também estão se deteriorando
Parece que algumas grandes editoras científicas também estão bloqueando bots de IA
20% dos sites de notícias estão barrando ambos
Como exemplo, a matéria do realtor.com não pode ser arquivada no IA por causa de um erro 429
No fim, o lado bom é bloqueado e só o lado ruim permanece
Mas o desafio seria como filtrar páginas que incluam informações pessoais
Quando as empresas de IA começaram a usar proxies, bloqueei todos os países que não eram alvo
A internet virou um ecossistema doente
Se a condição for nunca fornecer isso para treinamento de modelos corporativos, talvez seja possível
O problema é que os LLMs absorvem a cadeia de valor e não devolvem valor algum
Ele registraria apenas os domínios permitidos pelo usuário e, sendo open source, reduziria as preocupações com privacidade
Em vez de crawling automático, seria um método de upload de parte das visualizações de usuários reais
Mas os sites podem embutir informações de identificação do usuário, então há risco de exposição de dados pessoais
Para uso como registro histórico, é difícil assegurar confiabilidade