6 pontos por GN⁺ 2026-03-22 | 1 comentários | Compartilhar no WhatsApp
  • O Internet Archive, que preserva a web e jornais desde meados dos anos 1990, armazena mais de 1 trilhão de páginas da web por meio do Wayback Machine
  • Recentemente, grandes veículos de imprensa como o The New York Times e o The Guardian começaram a bloquear o rastreamento do arquivo por preocupação com scraping para IA
  • Essas medidas provocam uma ruptura no registro histórico da web e criam o risco de desaparecer o único registro capaz de mostrar mudanças antes e depois da edição ou remoção de artigos
  • Independentemente das disputas jurídicas sobre treinamento de IA, bloquear uma instituição sem fins lucrativos dedicada à preservação prejudica o interesse público
  • Busca e arquivamento da web já são áreas com legalidade estabelecida sob fair use e, ao bloqueá-los, pesquisadores do futuro podem perder o registro histórico da web

Bloquear o Internet Archive não vai parar a IA, mas vai apagar o registro histórico da web

  • O Internet Archive é a maior biblioteca digital do mundo, preservando a web e jornais desde meados dos anos 1990, e armazena mais de 1 trilhão de páginas da web por meio do Wayback Machine
  • Nos últimos meses, o The New York Times começou a bloquear o rastreamento do arquivo por preocupações com scraping de conteúdo para IA, e outros veículos como o The Guardian vêm seguindo o mesmo caminho
  • Esse bloqueio não é apenas uma limitação técnica, mas causa uma ruptura no registro histórico
    • O Internet Archive muitas vezes se torna o único registro que permite verificar mudanças antes e depois da edição ou exclusão de artigos
    • Se os veículos de imprensa bloquearem o acesso, há o risco de desaparecer um registro da web acumulado ao longo de décadas
  • Embora disputas jurídicas sobre treinamento de IA estejam em andamento, aponta-se que bloquear uma instituição sem fins lucrativos voltada à preservação é uma resposta equivocada
    • O Internet Archive não desenvolve sistemas comerciais de IA e cumpre um propósito de interesse público de preservação histórica
    • Na tentativa de controlar o acesso da IA, pode-se acabar prejudicando também a função de preservação de registros das bibliotecas

A legalidade do arquivamento e da busca

  • Tornar conteúdo pesquisável é algo reconhecido legalmente há muito tempo como fair use
    • Os tribunais entenderam que copiar o material original é inevitável para construir índices de busca
    • Também no caso em que o Google copiou livros inteiros para criar um banco de dados pesquisável, isso foi reconhecido como transformative purpose
  • O Internet Archive também opera com base no mesmo princípio
    • Assim como bibliotecas físicas preservam jornais, o arquivo preserva o registro histórico da web
    • Pesquisadores e jornalistas usam isso todos os dias, e só a Wikipédia já vincula 2,6 milhões de artigos de notícias em 249 idiomas ao arquivo
    • Inúmeros blogueiros, pesquisadores e jornalistas dependem dele como fonte estável e confiável
  • Os princípios jurídicos que protegem os mecanismos de busca também devem se aplicar da mesma forma a arquivos e bibliotecas

    • Mesmo que os tribunais imponham limites ao treinamento de IA, a legalidade da busca e do arquivamento da web já está estabelecida

A crise na preservação do registro histórico

  • O Internet Archive mantém o registro histórico da web há cerca de 30 anos
  • Se grandes veículos de imprensa começarem a bloqueá-lo, há uma grande possibilidade de que pesquisadores do futuro percam um vasto acervo de registros
  • As controvérsias jurídicas relacionadas ao treinamento de IA devem ser resolvidas nos tribunais, mas alerta-se que sacrificar os registros públicos é um erro grave e irreversível

1 comentários

 
GN⁺ 2026-03-22
Comentários do Hacker News
  • Como operador de site, estou lutando contra crawlers de IA agressivos
    Fico preocupado se minhas regras de bloqueio acabaram barrando até o Internet Archive
    O Facebook ignora o robots.txt e distribui as requisições por vários IPs para ultrapassar o crawl delay
    Por isso criei regras separadas no nginx especificamente para o Facebook
    Até agora, bloquear hashes JA3 foi o mais eficaz
    Mas eu queria que existisse um wrapper para encaixar o hugin-net no nginx para fingerprinting de TCP
    Como não sei Rust, até tenho medo de pedir isso a um LLM
    Só que esse método tem problema de race condition. Na primeira conexão não há hash JA4, e os crawlers de IA fazem apenas uma requisição por IP, então não há chance de bloquear a segunda

    • O Internet Archive também não segue o robots.txt
      Eles afirmaram em um post oficial do blog que “o futuro do arquivamento da web dependerá menos do robots.txt”
      Outro grupo, o Archiveteam, também ignora o robots.txt
      Hoje em dia, os grandes grupos de arquivamento parecem considerar muito pouco a posição dos operadores de sites
    • Técnicas de evasão como randomização ou disfarce de JA3 contornam a detecção com facilidade
    • Fico pensando se seria possível um mecanismo de bypass do bloqueio de bots em que só passassem requisições assinadas por uma chave de whitelist
      Assim talvez fosse possível permitir apenas o crawler do Internet Archive
  • Fico curioso para saber o que pensam as pessoas que já aceitaram que não dá mais para bloquear completamente os scrapers de IA
    O dia em que a distinção entre navegador humano e agente de LLM desaparecerá não está longe
    Eles podem abrir sessões GUI reais, navegar pelas páginas com um navegador e reconstruir o conteúdo tirando snapshots no nível do sistema operacional
    No fim, a própria ideia de impedir acesso na web pública parece estar ficando obsoleta
    Então qual seria a forma de reduzir a carga sobre hosts individuais?
    Surgirá uma instituição central de arquivamento confiável, ou veremos algum modelo de punição para o “mau comportamento” dos LLMs?

    • Já deveríamos ter aprendido que quase não existe capacidade real de aplicação nas leis da internet
    • É possível fornecer hashes do conteúdo e fazer com que os dados reais sejam buscados em IPFS ou BitTorrent, reduzindo a carga no site
      Se os navegadores dessem suporte a isso, daria para obter a eficiência de uma CDN sem centralização
    • Se você simplesmente não publicar na web pública, a preocupação com scraping desaparece
      Talvez um modelo em que a CDN venda os dados diretamente seja até mais eficiente
    • Hoje milhares de empresas de IA estão raspando a web inteira, mas quando a bolha da IA estourar, no fim só algumas vão sobreviver
      Nessa hora, a demanda por scraping contínuo vai diminuir
    • O problema real é a carga de tráfego e o custo de banda
      Parece que o senso básico de engenharia e noções de contabilidade foram esquecidos
  • As empresas de mídia superestimam o impacto do próprio conteúdo no avanço da IA
    Mesmo sem elas, a qualidade dos LLMs não seria tão diferente

    • Só Wikipedia, Reddit e artigos acadêmicos têm limitações
      No fim, são necessários textos variados como reportagens jornalísticas
    • Quanto mais a web se enche de conteúdo gerado por IA, maior fica o valor do texto escrito por humanos
      Faz sentido ter uma estratégia para impedir que empresas de IA usem isso sem consentimento
  • Estamos queimando a biblioteca para punir o incendiário
    O incendiário já foi embora

    • Mas, na prática, talvez 90% dos visitantes da biblioteca sejam incendiários
  • Foi por isso que o archive.is surgiu
    Em vez de tentar rastrear o fundador e puni-lo, não deveríamos apoiar o projeto por ele ser útil?

    • Concordo. Se o archive.is desaparecer, o archive.org vira monopólio
      O archive.org aceita pedidos de remoção de proprietários de sites, então ao comprar um domínio antigo dá até para apagar registros do passado
    • Mas o fundador do archive.is tem histórico de ataques DDoS contra jornalista
      Como envolveu usuários nesses ataques, não é alguém para ser exaltado
  • Como alguém que já trabalhou construindo sistemas antispam, acho que no futuro até o acesso a sites terá algum tipo de sistema de autenticação tipo “licença de táxi”
    Por exemplo, se o Internet Archive enviar uma requisição HTTPS assinada, o site poderá verificar que ela é legítima
    Isso vai contra o espírito da internet aberta, mas é preciso alguma forma de distinguir crawlers confiáveis

    • Eu exijo o seguinte de crawlers que não parecem humanos
      • que exista DNS reverso e que o domínio tenha uma página de política de comportamento
      • que haja um registro TXT baseado em IP especificando quem acessa, quando e com que frequência
        Com base nessas informações, tomo decisões automáticas de bloqueio
        Já documentei no blog uma política de bloqueio padrão para requisições da Amazon
  • Acho o New York Times horrível. Justamente por isso ele precisa ser preservado para o futuro

    • Todos os artigos de opinião da imprensa são, no fim, propaganda
      Cada veículo só publica textos alinhados à própria ideologia
    • Fico curioso para saber por que você acha isso tão ruim. Eu não leio
  • A EFF é morna em relação à IA
    Mesmo com a IA estragando a internet e os empregos, ela não assume uma posição dura
    Pela lista de patrocinadores, há muitos financiadores corporativos, o que reduz sua credibilidade como organização de liberdade
    Grupos como OSI e EFF já foram cooptados por empresas e chegam a ser prejudiciais

  • Se o Internet Archive tivesse um programa distribuído de crawling com IPs residenciais, eu participaria com prazer
    Só precisaria haver um mecanismo contra manipulação

    • O Internet Archive não tem isso, mas existe o Archive Team Warrior
    • A IA faz tudo de forma pública, e respeita até pedidos abusivos de DMCA
    • Se eles encerrarem o TLS do lado deles, fica simples. No fim, isso passaria a funcionar como proxy residencial
  • Se alguém vende fertilizante e diesel ao mesmo tempo, é razoável presumir que seja um fornecedor agrícola
    Mas se estiver vendendo em volume de caminhão para alguém que não é agricultor, também é natural desconfiar