Exigir que NYT, Atlantic e USA Today mantenham o Wayback Machine
(savethearchive.com)- Grandes veículos de imprensa como New York Times, The Atlantic e USA Today estão bloqueando a preservação de notícias no Wayback Machine, o que gerou pedidos para que isso seja interrompido
- Líderes dos principais meios de comunicação devem assumir publicamente o compromisso de trabalhar com o Internet Archive para preservar todas as notícias no Wayback Machine
- 2026 é apresentado como o primeiro ano em 30 anos em que, no World Press Freedom Day, o trabalho dos principais veículos não estará preservado no Internet Archive
- As preocupações com IA citadas pelos veículos como motivo para a proibição são tratadas como hipotéticas, e a preservação independente se torna ainda mais importante na era da IA generativa
- Em um cenário de aumento da censura, do autoritarismo e de ameaças de morte contra jornalistas, a preservação neutra por terceiros garante que as reportagens não desapareçam
Contexto do bloqueio
- 2026 é apresentado como o primeiro ano em 30 anos em que, no World Press Freedom Day, o trabalho de grandes veículos como New York Times, The Atlantic e USA Today não estará preservado na organização independente sem fins lucrativos Internet Archive
- O New York Times vem exigindo desde fevereiro deste ano que o Wayback Machine do Internet Archive não preserve o trabalho de seus jornalistas
- Segundo reportagem da Wired, o USA Today publica reportagens contundentes que dependem do Wayback Machine, mas ao mesmo tempo bloqueia a preservação dessas mesmas reportagens no Wayback Machine
- Depois que mais de 100 jornalistas entregaram uma carta em apoio à preservação jornalística do Internet Archive, o CEO da The Atlantic se pronunciou, mas não prometeu encontrar uma solução
Preocupações com IA e o papel do Wayback Machine
- As preocupações com IA citadas por esses veículos como motivo para proibir o Wayback Machine são tratadas como inteiramente hipotéticas
- A IA generativa não pode servir de motivo para esconder reportagens responsáveis dos checadores de fatos; ao contrário, só aumenta a necessidade do Wayback Machine
- Empresas de IA podem ignorar regras e retirar notícias de sites de editoras sem consentimento, como fazem sites de arquivo imitadores, e há poucos meios para impedir isso
- O Wayback Machine, que usa a palavra “archive”, é diferente de serviços que tentam parecer com o Internet Archive, e não é um serviço temporário
- O Wayback Machine preserva notícias há mais tempo do que a idade de muitas pessoas que assinam a petição
- O Wayback Machine não é um serviço para burlar paywall, mas sim um bem público independente e sem fins lucrativos para a preservação jornalística
- O motivo pelo qual o Internet Archive não age como a maior parte do Vale do Silício é sua integrity, e isso é visto como o que o torna confiável e capaz de operar no longo prazo
Preservação jornalística e interesse público
- A liberdade de imprensa inclui não apenas a liberdade de escrever artigos, mas também a liberdade de que esse trabalho seja lido e lembrado ao longo das gerações
- Com o avanço da censura e do autoritarismo, também aumenta a pressão para alterar reportagens ou apagar fatos
- Jornalistas frequentemente recebem ameaças de morte, e foi afirmado que vários jornalistas morreram no último ano por causa de seu trabalho
- Nesse contexto, é preciso fortalecer a preservação neutra por terceiros do Wayback Machine para que o trabalho dos jornalistas não desapareça
- As reportagens devem estar acessíveis não apenas a colegas e familiares enlutados, mas também aos olhos da história
- O Wayback Machine ajuda veículos jornalísticos online a resistirem melhor à pressão para apagar artigos que ameacem pessoas no poder
- Para veículos de imprensa que realmente fazem jornalismo, apoiar essa aliança também está de acordo com seus próprios interesses
Exigência e materiais de referência
- A liderança dos principais meios de comunicação deve prometer publicamente que vai trabalhar com o Internet Archive para preservar todas as notícias no Wayback Machine
- Não deveria ser tão difícil encontrar uma forma de preservar as notícias de maneira independente
-
Materiais de referência
1 comentários
Comentários no Hacker News
Fico me perguntando se isso aconteceu porque o archive.org respeita o robots.txt e esses sites bloquearam a indexação pelos rastreadores
É frustrante que o “comportamento correto” de respeitar o robots.txt acabe virando o ônus de ter que responder a petições, enquanto quem ignorou a mesma instrução sai ganhando
Isso não é só uma escolha moral; é praticamente a única escolha racional, e a razão de “o outro lado lucrar” é que, para agentes com obrigação quase contratual ou pouca visibilidade, o incentivo para ir até um processo é pequeno
User-agent: archive.org_bot/Disallow: /Se não tivessem conseguido raspar notícias recentes, todos os grandes modelos de linguagem seriam muito menos úteis
Acaba empurrando as pessoas para a pirataria, porque o pirata é livre
O problema parece ser que, se o Archive.org puder acessar conteúdo do NYT e de outras editoras, as pessoas poderão coletar conteúdo do NYT em massa via Archive.org, mesmo que não consigam raspar em grande escala diretamente do NYT
Se o Archive.org bloquear raspadores, as editoras talvez façam outra escolha e permitam o acesso ao Archive.org
Ideia: e se permitirem o scraping, mas impedirem a divulgação pública por 1 ano?
Assim como o Financial Times é disponibilizado no serviço NewsBank com escrow de 30 dias, talvez eles também possam adotar um escrow
Colocando o chapéu de teoria da conspiração, suspeito que parte do motivo seja que eles gostam de poder editar sorrateiramente e fingir que versões antigas de artigos nunca existiram
Então pessoas que nunca viram anúncios dessas organizações nem pagaram assinatura querem brigar exigindo que elas mantenham uma porta dos fundos aberta para elas?
Conheço um pouco dessa discussão do lado do Times e do Atlantic. Posso ser criticado por isso, mas perguntei a uma pessoa sênior do lado digital o que achava dos métodos comuns de burlar paywall no HN, e fiquei realmente surpreso com o fato de que eles nunca tinham ouvido falar disso
No fim, concordaram que um equilíbrio razoável seria liberar após 30 dias e impor uma limitação de acesso para que, se isso vier a ser relevante no futuro, não seja possível buscar mais de N vezes por dia. Pelo que sei, o Internet Archive não fez uma abordagem ativa sobre esse tema, e a pressão deveria ser para que as editoras negociem, mas também para que o Internet Archive negocie
Ainda assim, revistas provavelmente vão querer controlar seu acervo antigo. Já vendem acesso para bibliotecas e universidades, e, como já apareceu muitas vezes no HN, algumas organizações de notícias podem querer alterar ou atualizar artigos sem deixar um “histórico de revisões” público
Dá a impressão de que alguém está olhando para algum painel infeliz de métricas digitais em algum lugar, e talvez esse culto aos números tenha substituído o espírito original do jornalismo
Ainda agem como se vivessem num mundo em que dados e informação são escassos e eles fossem a única fonte da verdade. Hoje isso se inverteu: não existe uma verdade única de referência, mas dados e informação são abundantes, e essa abundância inclui dados falsos e mentiras. O jornalismo investigativo que NYT e Atlantic fazem em seus melhores dias agrega valor ao mundo, mas, embora os repórteres queiram acessibilidade, as instituições tentam esconder e isolar esse trabalho. Idealmente, toda criança poderia aprender inglês com NYT e Atlantic, crescer junto com esses veículos de registro e enxergar o mundo por meio deles, mas o modelo atual não permite isso. Uma mistura de patrocínio com fundação no estilo Wikimedia talvez fosse mais adequada. Leitores que amam a instituição e a missão pagariam o quanto quisessem, receberiam benefícios de acordo com o valor, e as contribuições entrariam num fundo investido cujo rendimento bancaria parte do orçamento operacional. Num mundo de informação abundante, acho difícil o jornalismo clássico sobreviver sem uma abordagem baseada em patrocínio
Com muita frequência, eles fazem cobertura seletiva de detalhes e citações, ou publicam fatos de fontes não confiáveis que depois se revelam totalmente falsos. Neste último caso, retiram o artigo discretamente, então a maioria dos leitores continua acreditando na mentira. Talvez seja por isso que não queiram ser arquivados. Eu preferiria até um post de blog pequeno; pode ser enviesado e pouco confiável, mas pelo menos tem pensamento original, apoia um indivíduo e talvez não tenha anúncios. Claro, o fato de aparecer tanto blog óbvio de LLM aqui já é outro problema
Estou aguardando isto: (https://news.ycombinator.com/item?id=48070516)
Precisamos de um arquivo da internet criptograficamente verificável. Sem algo como web3, nostr ou gpg/pgp, talvez isso nem seja possível
Carimbos de tempo podem ser verificados criptograficamente com algo sobre Bitcoin, como o opentimestamps
Assinei, mas precisamos ser honestos
Se você fizer um gráfico de pizza com o número de vezes em que leu artigos antigos do NYT no Wayback Machine e o número de vezes em que comentários do topo no HN colocaram links de matérias relativamente novas e todo mundo foi lá para burlar o paywall, vai dar um círculo completo