Bloquear o Internet Archive não vai parar a IA, mas vai apagar o registro histórico da web

(eff.org)

6 pontos por GN⁺ 2026-03-22 | 1 comentários | Compartilhar no WhatsApp

O Internet Archive, que preserva a web e jornais desde meados dos anos 1990, armazena mais de 1 trilhão de páginas da web por meio do Wayback Machine
Recentemente, grandes veículos de imprensa como o The New York Times e o The Guardian começaram a bloquear o rastreamento do arquivo por preocupação com scraping para IA
Essas medidas provocam uma ruptura no registro histórico da web e criam o risco de desaparecer o único registro capaz de mostrar mudanças antes e depois da edição ou remoção de artigos
Independentemente das disputas jurídicas sobre treinamento de IA, bloquear uma instituição sem fins lucrativos dedicada à preservação prejudica o interesse público
Busca e arquivamento da web já são áreas com legalidade estabelecida sob fair use e, ao bloqueá-los, pesquisadores do futuro podem perder o registro histórico da web

Bloquear o Internet Archive não vai parar a IA, mas vai apagar o registro histórico da web

O Internet Archive é a maior biblioteca digital do mundo, preservando a web e jornais desde meados dos anos 1990, e armazena mais de 1 trilhão de páginas da web por meio do Wayback Machine
Nos últimos meses, o The New York Times começou a bloquear o rastreamento do arquivo por preocupações com scraping de conteúdo para IA, e outros veículos como o The Guardian vêm seguindo o mesmo caminho
Esse bloqueio não é apenas uma limitação técnica, mas causa uma ruptura no registro histórico
- O Internet Archive muitas vezes se torna o único registro que permite verificar mudanças antes e depois da edição ou exclusão de artigos
- Se os veículos de imprensa bloquearem o acesso, há o risco de desaparecer um registro da web acumulado ao longo de décadas
Embora disputas jurídicas sobre treinamento de IA estejam em andamento, aponta-se que bloquear uma instituição sem fins lucrativos voltada à preservação é uma resposta equivocada
- O Internet Archive não desenvolve sistemas comerciais de IA e cumpre um propósito de interesse público de preservação histórica
- Na tentativa de controlar o acesso da IA, pode-se acabar prejudicando também a função de preservação de registros das bibliotecas

A legalidade do arquivamento e da busca

Tornar conteúdo pesquisável é algo reconhecido legalmente há muito tempo como fair use
- Os tribunais entenderam que copiar o material original é inevitável para construir índices de busca
- Também no caso em que o Google copiou livros inteiros para criar um banco de dados pesquisável, isso foi reconhecido como transformative purpose
O Internet Archive também opera com base no mesmo princípio
- Assim como bibliotecas físicas preservam jornais, o arquivo preserva o registro histórico da web
- Pesquisadores e jornalistas usam isso todos os dias, e só a Wikipédia já vincula 2,6 milhões de artigos de notícias em 249 idiomas ao arquivo
- Inúmeros blogueiros, pesquisadores e jornalistas dependem dele como fonte estável e confiável
Os princípios jurídicos que protegem os mecanismos de busca também devem se aplicar da mesma forma a arquivos e bibliotecas
- Mesmo que os tribunais imponham limites ao treinamento de IA, a legalidade da busca e do arquivamento da web já está estabelecida

A crise na preservação do registro histórico

O Internet Archive mantém o registro histórico da web há cerca de 30 anos
Se grandes veículos de imprensa começarem a bloqueá-lo, há uma grande possibilidade de que pesquisadores do futuro percam um vasto acervo de registros
As controvérsias jurídicas relacionadas ao treinamento de IA devem ser resolvidas nos tribunais, mas alerta-se que sacrificar os registros públicos é um erro grave e irreversível

1 comentários

GN⁺ 2026-03-22

Comentários do Hacker News

Como operador de site, estou lutando contra crawlers de IA agressivos
Fico preocupado se minhas regras de bloqueio acabaram barrando até o Internet Archive
O Facebook ignora o robots.txt e distribui as requisições por vários IPs para ultrapassar o crawl delay
Por isso criei regras separadas no nginx especificamente para o Facebook
Até agora, bloquear hashes JA3 foi o mais eficaz
Mas eu queria que existisse um wrapper para encaixar o hugin-net no nginx para fingerprinting de TCP
Como não sei Rust, até tenho medo de pedir isso a um LLM
Só que esse método tem problema de race condition. Na primeira conexão não há hash JA4, e os crawlers de IA fazem apenas uma requisição por IP, então não há chance de bloquear a segunda
- O Internet Archive também não segue o robots.txt
  Eles afirmaram em um post oficial do blog que “o futuro do arquivamento da web dependerá menos do robots.txt”
  Outro grupo, o Archiveteam, também ignora o robots.txt
  Hoje em dia, os grandes grupos de arquivamento parecem considerar muito pouco a posição dos operadores de sites
- Técnicas de evasão como randomização ou disfarce de JA3 contornam a detecção com facilidade
- Fico pensando se seria possível um mecanismo de bypass do bloqueio de bots em que só passassem requisições assinadas por uma chave de whitelist
  Assim talvez fosse possível permitir apenas o crawler do Internet Archive
Fico curioso para saber o que pensam as pessoas que já aceitaram que não dá mais para bloquear completamente os scrapers de IA
O dia em que a distinção entre navegador humano e agente de LLM desaparecerá não está longe
Eles podem abrir sessões GUI reais, navegar pelas páginas com um navegador e reconstruir o conteúdo tirando snapshots no nível do sistema operacional
No fim, a própria ideia de impedir acesso na web pública parece estar ficando obsoleta
Então qual seria a forma de reduzir a carga sobre hosts individuais?
Surgirá uma instituição central de arquivamento confiável, ou veremos algum modelo de punição para o “mau comportamento” dos LLMs?
- Já deveríamos ter aprendido que quase não existe capacidade real de aplicação nas leis da internet
- É possível fornecer hashes do conteúdo e fazer com que os dados reais sejam buscados em IPFS ou BitTorrent, reduzindo a carga no site
  Se os navegadores dessem suporte a isso, daria para obter a eficiência de uma CDN sem centralização
- Se você simplesmente não publicar na web pública, a preocupação com scraping desaparece
  Talvez um modelo em que a CDN venda os dados diretamente seja até mais eficiente
- Hoje milhares de empresas de IA estão raspando a web inteira, mas quando a bolha da IA estourar, no fim só algumas vão sobreviver
  Nessa hora, a demanda por scraping contínuo vai diminuir
- O problema real é a carga de tráfego e o custo de banda
  Parece que o senso básico de engenharia e noções de contabilidade foram esquecidos
As empresas de mídia superestimam o impacto do próprio conteúdo no avanço da IA
Mesmo sem elas, a qualidade dos LLMs não seria tão diferente
- Só Wikipedia, Reddit e artigos acadêmicos têm limitações
  No fim, são necessários textos variados como reportagens jornalísticas
- Quanto mais a web se enche de conteúdo gerado por IA, maior fica o valor do texto escrito por humanos
  Faz sentido ter uma estratégia para impedir que empresas de IA usem isso sem consentimento
Estamos queimando a biblioteca para punir o incendiário
O incendiário já foi embora
- Mas, na prática, talvez 90% dos visitantes da biblioteca sejam incendiários
Foi por isso que o archive.is surgiu
Em vez de tentar rastrear o fundador e puni-lo, não deveríamos apoiar o projeto por ele ser útil?
- Concordo. Se o archive.is desaparecer, o archive.org vira monopólio
  O archive.org aceita pedidos de remoção de proprietários de sites, então ao comprar um domínio antigo dá até para apagar registros do passado
- Mas o fundador do archive.is tem histórico de ataques DDoS contra jornalista
  Como envolveu usuários nesses ataques, não é alguém para ser exaltado
Como alguém que já trabalhou construindo sistemas antispam, acho que no futuro até o acesso a sites terá algum tipo de sistema de autenticação tipo “licença de táxi”
Por exemplo, se o Internet Archive enviar uma requisição HTTPS assinada, o site poderá verificar que ela é legítima
Isso vai contra o espírito da internet aberta, mas é preciso alguma forma de distinguir crawlers confiáveis
- Eu exijo o seguinte de crawlers que não parecem humanos
  - que exista DNS reverso e que o domínio tenha uma página de política de comportamento
  - que haja um registro TXT baseado em IP especificando quem acessa, quando e com que frequência
    Com base nessas informações, tomo decisões automáticas de bloqueio
    Já documentei no blog uma política de bloqueio padrão para requisições da Amazon
Acho o New York Times horrível. Justamente por isso ele precisa ser preservado para o futuro
- Todos os artigos de opinião da imprensa são, no fim, propaganda
  Cada veículo só publica textos alinhados à própria ideologia
- Fico curioso para saber por que você acha isso tão ruim. Eu não leio
A EFF é morna em relação à IA
Mesmo com a IA estragando a internet e os empregos, ela não assume uma posição dura
Pela lista de patrocinadores, há muitos financiadores corporativos, o que reduz sua credibilidade como organização de liberdade
Grupos como OSI e EFF já foram cooptados por empresas e chegam a ser prejudiciais
Se o Internet Archive tivesse um programa distribuído de crawling com IPs residenciais, eu participaria com prazer
Só precisaria haver um mecanismo contra manipulação
- O Internet Archive não tem isso, mas existe o Archive Team Warrior
- A IA faz tudo de forma pública, e respeita até pedidos abusivos de DMCA
- Se eles encerrarem o TLS do lado deles, fica simples. No fim, isso passaria a funcionar como proxy residencial
Se alguém vende fertilizante e diesel ao mesmo tempo, é razoável presumir que seja um fornecedor agrícola
Mas se estiver vendendo em volume de caminhão para alguém que não é agricultor, também é natural desconfiar

Bloquear o Internet Archive não vai parar a IA, mas vai apagar o registro histórico da web

Bloquear o Internet Archive não vai parar a IA, mas vai apagar o registro histórico da web

A legalidade do arquivamento e da busca

Os princípios jurídicos que protegem os mecanismos de busca também devem se aplicar da mesma forma a arquivos e bibliotecas

A crise na preservação do registro histórico

Leituras relacionadas

1 comentários

Comentários do Hacker News