Exigir que NYT, Atlantic e USA Today mantenham o Wayback Machine

(savethearchive.com)

2 pontos por GN⁺ 2026-05-14 | 1 comentários | Compartilhar no WhatsApp

Grandes veículos de imprensa como New York Times, The Atlantic e USA Today estão bloqueando a preservação de notícias no Wayback Machine, o que gerou pedidos para que isso seja interrompido
Líderes dos principais meios de comunicação devem assumir publicamente o compromisso de trabalhar com o Internet Archive para preservar todas as notícias no Wayback Machine
2026 é apresentado como o primeiro ano em 30 anos em que, no World Press Freedom Day, o trabalho dos principais veículos não estará preservado no Internet Archive
As preocupações com IA citadas pelos veículos como motivo para a proibição são tratadas como hipotéticas, e a preservação independente se torna ainda mais importante na era da IA generativa
Em um cenário de aumento da censura, do autoritarismo e de ameaças de morte contra jornalistas, a preservação neutra por terceiros garante que as reportagens não desapareçam

Contexto do bloqueio

2026 é apresentado como o primeiro ano em 30 anos em que, no World Press Freedom Day, o trabalho de grandes veículos como New York Times, The Atlantic e USA Today não estará preservado na organização independente sem fins lucrativos Internet Archive
O New York Times vem exigindo desde fevereiro deste ano que o Wayback Machine do Internet Archive não preserve o trabalho de seus jornalistas
Segundo reportagem da Wired, o USA Today publica reportagens contundentes que dependem do Wayback Machine, mas ao mesmo tempo bloqueia a preservação dessas mesmas reportagens no Wayback Machine
Depois que mais de 100 jornalistas entregaram uma carta em apoio à preservação jornalística do Internet Archive, o CEO da The Atlantic se pronunciou, mas não prometeu encontrar uma solução

Preocupações com IA e o papel do Wayback Machine

As preocupações com IA citadas por esses veículos como motivo para proibir o Wayback Machine são tratadas como inteiramente hipotéticas
A IA generativa não pode servir de motivo para esconder reportagens responsáveis dos checadores de fatos; ao contrário, só aumenta a necessidade do Wayback Machine
Empresas de IA podem ignorar regras e retirar notícias de sites de editoras sem consentimento, como fazem sites de arquivo imitadores, e há poucos meios para impedir isso
O Wayback Machine, que usa a palavra “archive”, é diferente de serviços que tentam parecer com o Internet Archive, e não é um serviço temporário
O Wayback Machine preserva notícias há mais tempo do que a idade de muitas pessoas que assinam a petição
O Wayback Machine não é um serviço para burlar paywall, mas sim um bem público independente e sem fins lucrativos para a preservação jornalística
O motivo pelo qual o Internet Archive não age como a maior parte do Vale do Silício é sua integrity, e isso é visto como o que o torna confiável e capaz de operar no longo prazo

Preservação jornalística e interesse público

A liberdade de imprensa inclui não apenas a liberdade de escrever artigos, mas também a liberdade de que esse trabalho seja lido e lembrado ao longo das gerações
Com o avanço da censura e do autoritarismo, também aumenta a pressão para alterar reportagens ou apagar fatos
Jornalistas frequentemente recebem ameaças de morte, e foi afirmado que vários jornalistas morreram no último ano por causa de seu trabalho
Nesse contexto, é preciso fortalecer a preservação neutra por terceiros do Wayback Machine para que o trabalho dos jornalistas não desapareça
As reportagens devem estar acessíveis não apenas a colegas e familiares enlutados, mas também aos olhos da história
O Wayback Machine ajuda veículos jornalísticos online a resistirem melhor à pressão para apagar artigos que ameacem pessoas no poder
Para veículos de imprensa que realmente fazem jornalismo, apoiar essa aliança também está de acordo com seus próprios interesses

Exigência e materiais de referência

A liderança dos principais meios de comunicação deve prometer publicamente que vai trabalhar com o Internet Archive para preservar todas as notícias no Wayback Machine
Não deveria ser tão difícil encontrar uma forma de preservar as notícias de maneira independente
Materiais de referência
- Wired
- Marketplace
- TechRadar
- The Verge
- Forbes

1 comentários

GN⁺ 2026-05-14

Comentários no Hacker News

Fico me perguntando se isso aconteceu porque o archive.org respeita o robots.txt e esses sites bloquearam a indexação pelos rastreadores
É frustrante que o “comportamento correto” de respeitar o robots.txt acabe virando o ônus de ter que responder a petições, enquanto quem ignorou a mesma instrução sai ganhando
- Se um crawler muito conhecido como o archive.org ignorar o robots.txt, é bem mais provável que sofra processo ou outro tipo de pressão
  Isso não é só uma escolha moral; é praticamente a única escolha racional, e a razão de “o outro lado lucrar” é que, para agentes com obrigação quase contratual ou pouca visibilidade, o incentivo para ir até um processo é pequeno
- Sim. O robots.txt do nytimes.com tem um trecho assim: User-agent: archive.org_bot / Disallow: /
- O motivo é que eles querem impedir que empresas de IA roubem conteúdo, e se o Internet Archive fizer proxy de tudo, não dá para bloquear isso
  Se não tivessem conseguido raspar notícias recentes, todos os grandes modelos de linguagem seriam muito menos úteis
- Não, o archive.org não respeita robots.txt. Você precisa entrar em contato diretamente e pedir para não incluírem seu site: https://blog.archive.org/2017/04/17/robots-txt-meant-for-sea...
- É a mesma burrice criada pelo DRM
  Acaba empurrando as pessoas para a pirataria, porque o pirata é livre
O problema parece ser que, se o Archive.org puder acessar conteúdo do NYT e de outras editoras, as pessoas poderão coletar conteúdo do NYT em massa via Archive.org, mesmo que não consigam raspar em grande escala diretamente do NYT
Se o Archive.org bloquear raspadores, as editoras talvez façam outra escolha e permitam o acesso ao Archive.org
Ideia: e se permitirem o scraping, mas impedirem a divulgação pública por 1 ano?
- Também seria preciso criar um fundo conjunto para ações judiciais para obrigar o Archive a não repassar isso para crawlers de LLM
Assim como o Financial Times é disponibilizado no serviço NewsBank com escrow de 30 dias, talvez eles também possam adotar um escrow
Colocando o chapéu de teoria da conspiração, suspeito que parte do motivo seja que eles gostam de poder editar sorrateiramente e fingir que versões antigas de artigos nunca existiram
Então pessoas que nunca viram anúncios dessas organizações nem pagaram assinatura querem brigar exigindo que elas mantenham uma porta dos fundos aberta para elas?
Conheço um pouco dessa discussão do lado do Times e do Atlantic. Posso ser criticado por isso, mas perguntei a uma pessoa sênior do lado digital o que achava dos métodos comuns de burlar paywall no HN, e fiquei realmente surpreso com o fato de que eles nunca tinham ouvido falar disso
No fim, concordaram que um equilíbrio razoável seria liberar após 30 dias e impor uma limitação de acesso para que, se isso vier a ser relevante no futuro, não seja possível buscar mais de N vezes por dia. Pelo que sei, o Internet Archive não fez uma abordagem ativa sobre esse tema, e a pressão deveria ser para que as editoras negociem, mas também para que o Internet Archive negocie
- Parece um compromisso bem razoável. As organizações de notícias mantêm o pico inicial de pageviews, e o papel da internet como informação gratuita / biblioteca universal também é preservado
  Ainda assim, revistas provavelmente vão querer controlar seu acervo antigo. Já vendem acesso para bibliotecas e universidades, e, como já apareceu muitas vezes no HN, algumas organizações de notícias podem querer alterar ou atualizar artigos sem deixar um “histórico de revisões” público
- O Internet Archive é usado regularmente para burlar paywall? Normalmente é o archive.is, que não tem relação com a IA
- Essa ideia de limitar para não poder buscar mais de N vezes por dia “se isso se tornar relevante” não acaba beneficiando eles de qualquer forma?
  Dá a impressão de que alguém está olhando para algum painel infeliz de métricas digitais em algum lugar, e talvez esse culto aos números tenha substituído o espírito original do jornalismo
- Não é tão surpreendente. Eles operam com um modelo da época errada, com incentivos errados
  Ainda agem como se vivessem num mundo em que dados e informação são escassos e eles fossem a única fonte da verdade. Hoje isso se inverteu: não existe uma verdade única de referência, mas dados e informação são abundantes, e essa abundância inclui dados falsos e mentiras. O jornalismo investigativo que NYT e Atlantic fazem em seus melhores dias agrega valor ao mundo, mas, embora os repórteres queiram acessibilidade, as instituições tentam esconder e isolar esse trabalho. Idealmente, toda criança poderia aprender inglês com NYT e Atlantic, crescer junto com esses veículos de registro e enxergar o mundo por meio deles, mas o modelo atual não permite isso. Uma mistura de patrocínio com fundação no estilo Wikimedia talvez fosse mais adequada. Leitores que amam a instituição e a missão pagariam o quanto quisessem, receberiam benefícios de acordo com o valor, e as contribuições entrariam num fundo investido cujo rendimento bancaria parte do orçamento operacional. Num mundo de informação abundante, acho difícil o jornalismo clássico sobreviver sem uma abordagem baseada em patrocínio
- Eu preferia que esses sites de “notícias” nem aparecessem no HN. Se a matéria for verdadeira e valer discussão, uma organização mais confiável como a Reuters vai reportar, ou será uma fonte primária que deveria ser postada diretamente
  Com muita frequência, eles fazem cobertura seletiva de detalhes e citações, ou publicam fatos de fontes não confiáveis que depois se revelam totalmente falsos. Neste último caso, retiram o artigo discretamente, então a maioria dos leitores continua acreditando na mentira. Talvez seja por isso que não queiram ser arquivados. Eu preferiria até um post de blog pequeno; pode ser enviesado e pouco confiável, mas pelo menos tem pensamento original, apoia um indivíduo e talvez não tenha anúncios. Claro, o fato de aparecer tanto blog óbvio de LLM aqui já é outro problema
Estou aguardando isto: (https://news.ycombinator.com/item?id=48070516)
Precisamos de um arquivo da internet criptograficamente verificável. Sem algo como web3, nostr ou gpg/pgp, talvez isso nem seja possível
- Ter vários arquivos sem relação entre si já seria suficientemente bom
- O Archive não poderia publicar algo como a assinatura SSL de todas as requisições?
  Carimbos de tempo podem ser verificados criptograficamente com algo sobre Bitcoin, como o opentimestamps
Assinei, mas precisamos ser honestos
Se você fizer um gráfico de pizza com o número de vezes em que leu artigos antigos do NYT no Wayback Machine e o número de vezes em que comentários do topo no HN colocaram links de matérias relativamente novas e todo mundo foi lá para burlar o paywall, vai dar um círculo completo
- Se não existisse um arquivo, você teria pago ao NYT para ver esse artigo? Acho que não

Exigir que NYT, Atlantic e USA Today mantenham o Wayback Machine

Contexto do bloqueio

Preocupações com IA e o papel do Wayback Machine

Preservação jornalística e interesse público

Exigência e materiais de referência

Materiais de referência

Leituras relacionadas

1 comentários

Comentários no Hacker News