2 pontos por GN⁺ 2026-02-15 | 1 comentários | Compartilhar no WhatsApp
  • Grandes veículos de imprensa estão bloqueando ou restringindo o acesso do Internet Archive para impedir a coleta de dados para treinamento de IA
  • O The Guardian excluiu páginas de artigos da API do Internet Archive e do Wayback Machine, mantendo apenas algumas páginas iniciais e de tópicos
  • O The New York Times adicionou archive.org_bot ao robots.txt no fim de 2025 e passou a bloquear totalmente o crawling
  • 241 sites de notícias, incluindo a Gannett (USA Today Co.), bloquearam pelo menos um bot do Internet Archive; muitos também bloquearam Common Crawl, OpenAI e Google AI
  • Essas medidas são uma resposta ao uso não autorizado de dados por empresas de IA e, ao mesmo tempo, expõem a questão do equilíbrio entre preservação de registros digitais e acessibilidade da informação

Restrição de acesso ao Internet Archive por grandes veículos

  • O The Guardian restringiu o acesso por temer a possibilidade de empresas de IA coletarem conteúdo por meio do Internet Archive
    • Excluiu suas páginas de artigos da API e da interface de URLs de artigos do Wayback Machine
    • Páginas regionais, iniciais e de tópicos ainda seguem acessíveis no Wayback Machine
    • Robert Hahn afirmou que “empresas de IA preferem bases de dados estruturadas, e a API do Internet Archive pode se tornar esse caminho”
  • O The Guardian afirmou que não fez um bloqueio total e disse respeitar a missão do Internet Archive de democratizar a informação
    • Ainda assim, está reavaliando sua posição no processo de revisão da política de gestão de bots

A resposta do The New York Times e do Financial Times

  • O The New York Times adicionou archive.org_bot ao robots.txt e aplicou um “hard block” ao crawler do Internet Archive
    • Explicou que “o Wayback Machine oferece conteúdo do Times de forma ilimitada a terceiros, incluindo empresas de IA”
  • O Financial Times bloqueou todos os bots relacionados, incluindo OpenAI, Anthropic, Perplexity e Internet Archive, para proteger conteúdo pago
    • Como a maioria dos artigos do FT está atrás de paywall, apenas matérias públicas permanecem no Wayback Machine

Conflito entre Reddit e Internet Archive

  • O Reddit bloqueou o acesso do Internet Archive em agosto de 2025
    • O motivo foram casos de empresas de IA raspando dados do Reddit por meio do Wayback Machine
    • O Reddit explicou que a restrição visa “impedir atividades de empresas de IA que violam as políticas da plataforma”
  • O Reddit já firmou com o Google um acordo de licenciamento de dados para treinamento de IA

Posição e resposta do Internet Archive

  • O fundador Brewster Kahle alertou que, se editoras restringirem bibliotecas como o Internet Archive, o acesso público aos registros históricos será reduzido
  • Kahle afirmou no Mastodon que “algumas coleções não permitem download em massa” e que estão sendo usados limitação de taxa, filtragem e serviços de segurança da Cloudflare
  • Em maio de 2023, houve um caso em que uma empresa de IA causou sobrecarga nos servidores com solicitações em massa, levando a uma interrupção temporária do Internet Archive
    • Depois disso, a empresa fez um pedido de desculpas e uma doação

Análise de dados: situação dos bloqueios em sites de notícias no mundo

  • O Nieman Lab analisou o banco de dados de 1.167 sites de notícias de Ben Welsh para investigar o cenário de bloqueios relacionados ao Internet Archive
    • 241 sites de notícias bloquearam pelo menos um bot do Internet Archive
    • 87% pertencem a veículos da USA Today Co. (Gannett), que em 2025 adicionaram archive.org_bot e ia_archiver-web.archive.org ao robots.txt
    • Alguns sites da Gannett exibem no Wayback Machine a mensagem “Esta URL foi excluída”
  • A Gannett afirmou ter introduzido “um novo protocolo para impedir coleta não autorizada de dados” e informou que, em setembro de 2025, bloqueou 75 milhões de bots de IA em um único mês, dos quais 70 milhões vieram da OpenAI
  • Três sites do grupo Le Monde, incluindo Le Monde e Le Huffington Post, bloquearam os três crawlers do Internet Archive

Expansão do bloqueio a crawlers relacionados a IA

  • Além do Internet Archive, também há uma tendência de bloquear grandes crawlers de IA, como Common Crawl, OpenAI e Google AI
    • Dos 241 sites, 240 bloquearam o Common Crawl, e 231 bloquearam bots da OpenAI e do Google AI
  • O Common Crawl é visto como tendo forte ligação com o desenvolvimento comercial de LLMs

A questão do equilíbrio entre preservação da internet e acesso à informação

  • O Internet Archive é o projeto mais abrangente de preservação da web nos EUA, em um contexto em que muitas organizações jornalísticas não têm capacidade própria de preservação
  • Em dezembro de 2025, a Poynter e o Internet Archive anunciaram conjuntamente um programa de treinamento para preservação de notícias locais
  • Hahn comentou que “o Internet Archive opera de boa-fé, mas há efeitos colaterais em que boas intenções acabam sendo mal utilizadas

1 comentários

 
GN⁺ 2026-02-15
Comentários do Hacker News
  • Se um veículo de imprensa se recusa a permitir arquivamento independente, acho que não dá para confiar nas notícias dele
    Não me importo se permite scraping por IA ou não, mas o conteúdo precisa poder ser preservado de forma independente por terceiros
    • Penso o mesmo. Um registro independente é essencial
    • Sinto que não existe nenhuma fonte de notícias confiável. A maioria empurra uma agenda intencional e agora nem tenta mais esconder isso
  • Há um aspecto de compliance (conformidade regulatória) nessa questão
    Regulamentos como SOC 2 e HIPAA exigem trilha de auditoria (audit trail) e retenção de evidências
    Mas, quando documentos de segurança ou relatórios de resposta a incidentes desaparecem da web, já vi empresas serem reprovadas em auditorias de certificação porque a evidência de auditoria foi interrompida
    No fim, o fato de a web não poder mais ser preservada está se tornando não só uma perda cultural, mas também um risco operacional
    • Fui procurar exemplos e o primeiro resultado já era um 404
      A página AWS Compliance Reports é exatamente um caso assim
    • Já passei por várias auditorias SOC em grandes instituições financeiras, e houve muito conflito entre departamentos no processo de definir o que era crítico (critical)
      Até uma simples tarefa de organização de logs virava discussão sobre nível de importância
    • No fim, acho que seguradoras vão acabar exigindo armazenamento de cópias em papel dos documentos para evitar esse tipo de problema
      Depois de alguns grandes incidentes de perda, isso deve virar realidade
    • Empresas como Page Vault já existem para tentar resolver esse tipo de problema
    • Mas também há suspeitas de que o autor desse comentário pareça uma conta de ferramenta de IA
      Ultimamente tem havido muitas contas com esse padrão no HN, o que preocupa
  • Em vez de as empresas de IA fazerem um scraping único do Internet Archive, parece que vão usar proxy residencial (residential proxy) para raspar repetidamente cada site por conta própria
    No fim, quem sai perdendo são os usuários comuns, que não têm recursos para raspar a web inteira
    Eu sempre sonhei com uma web em que o conteúdo fosse re-hospedado com base em hash — o IPFS tentou isso, mas infelizmente fracassou
    • Na prática, empresas de IA realmente fazem scraping repetido da mesma página. Meu site pessoal continua igual e mesmo assim sigo recebendo requisições
    • O IPFS era um projeto que tinha justamente essa estrutura como objetivo
    • O tráfego de proxy do Vietnã e da Coreia está acabando com meu servidor. 3.500 requisições por segundo são insustentáveis
    • Empresas de IA já estão usando redes de proxy por meio de dispositivos ou apps infectados
    • Acho que esses proxies não vão durar muito. A pressão comercial deve fazê-los diminuir
      Mas, mesmo existindo o Common Crawl, fico me perguntando por que as empresas de IA continuam rastreando diretamente
  • A preocupação do Brewster com a preservação do registro histórico é realista
    Sem arquivamento separado, até os artigos da imprensa estão destinados a desaparecer
    Por exemplo, se um editor da Wikipédia não consegue garantir de forma estável um link de uma matéria do Times, no fim ele vai substituí-lo por uma matéria do WaPo
    Isso é justamente uma tragédia dos comuns
  • Eu mantenho um projeto open source chamado Linkwarden
    É uma ferramenta que ajuda equipes a preservar URLs de forma estável sem depender de serviços externos
    Salva em vários formatos, como snapshot HTML, captura de tela, PDF e modo leitor
    Há uma versão com hospedagem em nuvem (linkwarden.app) e uma versão self-hosted (repositório no GitHub)
    • O Linkwarden é excelente. Se usado junto com a extensão SingleFile, dá para salvar até páginas em que scrapers são bloqueados
      Mas, em termos de UX, seria bom ter uma função para marcar como “lido/arquivado”
    • Fiquei curioso sobre a forma de integração com o archive.org. Queria saber se ele só envia a URL ou se salva diretamente os dados buscados pelo cliente
  • Esse problema também afeta a área científica
    Os erros de metadados estão aumentando, e mecanismos de busca científica como o Google Scholar também estão se deteriorando
    Parece que algumas grandes editoras científicas também estão bloqueando bots de IA
    • Além disso, a qualidade da busca do próprio Google também piorou. Dá cada vez mais a sensação de um estreitamento do horizonte informacional
    • Impedir o acesso, por bloqueio de IA, a resultados científicos financiados com recursos públicos é uma violação do interesse público
    • Ainda assim, por enquanto estou conseguindo me virar graças ao PubMed e a operadores de busca precisos
  • Veículos como The Guardian e NYT estão bloqueando o Internet Archive e o Common Crawl
    20% dos sites de notícias estão barrando ambos
    Como exemplo, a matéria do realtor.com não pode ser arquivada no IA por causa de um erro 429
    • O IA interrompe o arquivamento quando solicitado, mas os scrapers maliciosos não fazem isso
      No fim, o lado bom é bloqueado e só o lado ruim permanece
    • Pediram evidências de que o The Guardian realmente bloqueia o IA. Ao verificar diretamente, funcionou normalmente
    • Acho que seria bom haver um arquivo por crowdsourcing baseado em extensão de navegador
      Mas o desafio seria como filtrar páginas que incluam informações pessoais
  • Minha primeira impressão é que as empresas de notícias estão usando a IA como desculpa para uma questão de direitos autorais
    • Como operador de site, mais de 90% do meu tráfego é de bots e spam
      Quando as empresas de IA começaram a usar proxies, bloqueei todos os países que não eram alvo
      A internet virou um ecossistema doente
  • Fico pensando se as empresas de mídia seriam mais receptivas a arquivos privados para pesquisa acadêmica e jornalística
    Se a condição for nunca fornecer isso para treinamento de modelos corporativos, talvez seja possível
    • Elas já oferecem a bibliotecas arquivos licenciados pagos. Dá para evitar abusos
    • A maioria das empresas de mídia já tem contratos de syndication (redistribuição de conteúdo)
      O problema é que os LLMs absorvem a cadeia de valor e não devolvem valor algum
    • Internamente, elas provavelmente têm arquivos, mas a questão é a acessibilidade pública
  • Pensei na ideia de um plug-in de navegador por crowdsourcing que envie automaticamente para um arquivo as páginas vistas pelos usuários
    Ele registraria apenas os domínios permitidos pelo usuário e, sendo open source, reduziria as preocupações com privacidade
    Em vez de crawling automático, seria um método de upload de parte das visualizações de usuários reais
    • O SingleFile já faz esse tipo de arquivamento bastante bem
      Mas os sites podem embutir informações de identificação do usuário, então há risco de exposição de dados pessoais
    • Outro problema é que é difícil garantir que os dados enviados pelo usuário não foram adulterados
      Para uso como registro histórico, é difícil assegurar confiabilidade