- O Internet Archive, que preserva a web e jornais desde meados dos anos 1990, armazena mais de 1 trilhão de páginas da web por meio do Wayback Machine
- Recentemente, grandes veículos de imprensa como o The New York Times e o The Guardian começaram a bloquear o rastreamento do arquivo por preocupação com scraping para IA
- Essas medidas provocam uma ruptura no registro histórico da web e criam o risco de desaparecer o único registro capaz de mostrar mudanças antes e depois da edição ou remoção de artigos
- Independentemente das disputas jurídicas sobre treinamento de IA, bloquear uma instituição sem fins lucrativos dedicada à preservação prejudica o interesse público
- Busca e arquivamento da web já são áreas com legalidade estabelecida sob fair use e, ao bloqueá-los, pesquisadores do futuro podem perder o registro histórico da web
Bloquear o Internet Archive não vai parar a IA, mas vai apagar o registro histórico da web
- O Internet Archive é a maior biblioteca digital do mundo, preservando a web e jornais desde meados dos anos 1990, e armazena mais de 1 trilhão de páginas da web por meio do Wayback Machine
- Nos últimos meses, o The New York Times começou a bloquear o rastreamento do arquivo por preocupações com scraping de conteúdo para IA, e outros veículos como o The Guardian vêm seguindo o mesmo caminho
- Esse bloqueio não é apenas uma limitação técnica, mas causa uma ruptura no registro histórico
- O Internet Archive muitas vezes se torna o único registro que permite verificar mudanças antes e depois da edição ou exclusão de artigos
- Se os veículos de imprensa bloquearem o acesso, há o risco de desaparecer um registro da web acumulado ao longo de décadas
- Embora disputas jurídicas sobre treinamento de IA estejam em andamento, aponta-se que bloquear uma instituição sem fins lucrativos voltada à preservação é uma resposta equivocada
- O Internet Archive não desenvolve sistemas comerciais de IA e cumpre um propósito de interesse público de preservação histórica
- Na tentativa de controlar o acesso da IA, pode-se acabar prejudicando também a função de preservação de registros das bibliotecas
A legalidade do arquivamento e da busca
- Tornar conteúdo pesquisável é algo reconhecido legalmente há muito tempo como fair use
- Os tribunais entenderam que copiar o material original é inevitável para construir índices de busca
- Também no caso em que o Google copiou livros inteiros para criar um banco de dados pesquisável, isso foi reconhecido como transformative purpose
- O Internet Archive também opera com base no mesmo princípio
- Assim como bibliotecas físicas preservam jornais, o arquivo preserva o registro histórico da web
- Pesquisadores e jornalistas usam isso todos os dias, e só a Wikipédia já vincula 2,6 milhões de artigos de notícias em 249 idiomas ao arquivo
- Inúmeros blogueiros, pesquisadores e jornalistas dependem dele como fonte estável e confiável
-
Os princípios jurídicos que protegem os mecanismos de busca também devem se aplicar da mesma forma a arquivos e bibliotecas
- Mesmo que os tribunais imponham limites ao treinamento de IA, a legalidade da busca e do arquivamento da web já está estabelecida
A crise na preservação do registro histórico
- O Internet Archive mantém o registro histórico da web há cerca de 30 anos
- Se grandes veículos de imprensa começarem a bloqueá-lo, há uma grande possibilidade de que pesquisadores do futuro percam um vasto acervo de registros
- As controvérsias jurídicas relacionadas ao treinamento de IA devem ser resolvidas nos tribunais, mas alerta-se que sacrificar os registros públicos é um erro grave e irreversível
1 comentários
Comentários do Hacker News
Como operador de site, estou lutando contra crawlers de IA agressivos
Fico preocupado se minhas regras de bloqueio acabaram barrando até o Internet Archive
O Facebook ignora o robots.txt e distribui as requisições por vários IPs para ultrapassar o crawl delay
Por isso criei regras separadas no nginx especificamente para o Facebook
Até agora, bloquear hashes JA3 foi o mais eficaz
Mas eu queria que existisse um wrapper para encaixar o hugin-net no nginx para fingerprinting de TCP
Como não sei Rust, até tenho medo de pedir isso a um LLM
Só que esse método tem problema de race condition. Na primeira conexão não há hash JA4, e os crawlers de IA fazem apenas uma requisição por IP, então não há chance de bloquear a segunda
Eles afirmaram em um post oficial do blog que “o futuro do arquivamento da web dependerá menos do robots.txt”
Outro grupo, o Archiveteam, também ignora o robots.txt
Hoje em dia, os grandes grupos de arquivamento parecem considerar muito pouco a posição dos operadores de sites
Assim talvez fosse possível permitir apenas o crawler do Internet Archive
Fico curioso para saber o que pensam as pessoas que já aceitaram que não dá mais para bloquear completamente os scrapers de IA
O dia em que a distinção entre navegador humano e agente de LLM desaparecerá não está longe
Eles podem abrir sessões GUI reais, navegar pelas páginas com um navegador e reconstruir o conteúdo tirando snapshots no nível do sistema operacional
No fim, a própria ideia de impedir acesso na web pública parece estar ficando obsoleta
Então qual seria a forma de reduzir a carga sobre hosts individuais?
Surgirá uma instituição central de arquivamento confiável, ou veremos algum modelo de punição para o “mau comportamento” dos LLMs?
Se os navegadores dessem suporte a isso, daria para obter a eficiência de uma CDN sem centralização
Talvez um modelo em que a CDN venda os dados diretamente seja até mais eficiente
Nessa hora, a demanda por scraping contínuo vai diminuir
Parece que o senso básico de engenharia e noções de contabilidade foram esquecidos
As empresas de mídia superestimam o impacto do próprio conteúdo no avanço da IA
Mesmo sem elas, a qualidade dos LLMs não seria tão diferente
No fim, são necessários textos variados como reportagens jornalísticas
Faz sentido ter uma estratégia para impedir que empresas de IA usem isso sem consentimento
Estamos queimando a biblioteca para punir o incendiário
O incendiário já foi embora
Foi por isso que o archive.is surgiu
Em vez de tentar rastrear o fundador e puni-lo, não deveríamos apoiar o projeto por ele ser útil?
O archive.org aceita pedidos de remoção de proprietários de sites, então ao comprar um domínio antigo dá até para apagar registros do passado
Como envolveu usuários nesses ataques, não é alguém para ser exaltado
Como alguém que já trabalhou construindo sistemas antispam, acho que no futuro até o acesso a sites terá algum tipo de sistema de autenticação tipo “licença de táxi”
Por exemplo, se o Internet Archive enviar uma requisição HTTPS assinada, o site poderá verificar que ela é legítima
Isso vai contra o espírito da internet aberta, mas é preciso alguma forma de distinguir crawlers confiáveis
Com base nessas informações, tomo decisões automáticas de bloqueio
Já documentei no blog uma política de bloqueio padrão para requisições da Amazon
Acho o New York Times horrível. Justamente por isso ele precisa ser preservado para o futuro
Cada veículo só publica textos alinhados à própria ideologia
A EFF é morna em relação à IA
Mesmo com a IA estragando a internet e os empregos, ela não assume uma posição dura
Pela lista de patrocinadores, há muitos financiadores corporativos, o que reduz sua credibilidade como organização de liberdade
Grupos como OSI e EFF já foram cooptados por empresas e chegam a ser prejudiciais
Se o Internet Archive tivesse um programa distribuído de crawling com IPs residenciais, eu participaria com prazer
Só precisaria haver um mecanismo contra manipulação
Se alguém vende fertilizante e diesel ao mesmo tempo, é razoável presumir que seja um fornecedor agrícola
Mas se estiver vendendo em volume de caminhão para alguém que não é agricultor, também é natural desconfiar