1 pontos por GN⁺ 1 시간 전 | 1 comentários | Compartilhar no WhatsApp
  • Grandes veículos de imprensa como New York Times, The Atlantic e USA Today estão bloqueando a preservação de notícias no Wayback Machine, o que gerou pedidos para que isso seja interrompido
  • Líderes dos principais meios de comunicação devem assumir publicamente o compromisso de trabalhar com o Internet Archive para preservar todas as notícias no Wayback Machine
  • 2026 é apresentado como o primeiro ano em 30 anos em que, no World Press Freedom Day, o trabalho dos principais veículos não estará preservado no Internet Archive
  • As preocupações com IA citadas pelos veículos como motivo para a proibição são tratadas como hipotéticas, e a preservação independente se torna ainda mais importante na era da IA generativa
  • Em um cenário de aumento da censura, do autoritarismo e de ameaças de morte contra jornalistas, a preservação neutra por terceiros garante que as reportagens não desapareçam

Contexto do bloqueio

  • 2026 é apresentado como o primeiro ano em 30 anos em que, no World Press Freedom Day, o trabalho de grandes veículos como New York Times, The Atlantic e USA Today não estará preservado na organização independente sem fins lucrativos Internet Archive
  • O New York Times vem exigindo desde fevereiro deste ano que o Wayback Machine do Internet Archive não preserve o trabalho de seus jornalistas
  • Segundo reportagem da Wired, o USA Today publica reportagens contundentes que dependem do Wayback Machine, mas ao mesmo tempo bloqueia a preservação dessas mesmas reportagens no Wayback Machine
  • Depois que mais de 100 jornalistas entregaram uma carta em apoio à preservação jornalística do Internet Archive, o CEO da The Atlantic se pronunciou, mas não prometeu encontrar uma solução

Preocupações com IA e o papel do Wayback Machine

  • As preocupações com IA citadas por esses veículos como motivo para proibir o Wayback Machine são tratadas como inteiramente hipotéticas
  • A IA generativa não pode servir de motivo para esconder reportagens responsáveis dos checadores de fatos; ao contrário, só aumenta a necessidade do Wayback Machine
  • Empresas de IA podem ignorar regras e retirar notícias de sites de editoras sem consentimento, como fazem sites de arquivo imitadores, e há poucos meios para impedir isso
  • O Wayback Machine, que usa a palavra “archive”, é diferente de serviços que tentam parecer com o Internet Archive, e não é um serviço temporário
  • O Wayback Machine preserva notícias há mais tempo do que a idade de muitas pessoas que assinam a petição
  • O Wayback Machine não é um serviço para burlar paywall, mas sim um bem público independente e sem fins lucrativos para a preservação jornalística
  • O motivo pelo qual o Internet Archive não age como a maior parte do Vale do Silício é sua integrity, e isso é visto como o que o torna confiável e capaz de operar no longo prazo

Preservação jornalística e interesse público

  • A liberdade de imprensa inclui não apenas a liberdade de escrever artigos, mas também a liberdade de que esse trabalho seja lido e lembrado ao longo das gerações
  • Com o avanço da censura e do autoritarismo, também aumenta a pressão para alterar reportagens ou apagar fatos
  • Jornalistas frequentemente recebem ameaças de morte, e foi afirmado que vários jornalistas morreram no último ano por causa de seu trabalho
  • Nesse contexto, é preciso fortalecer a preservação neutra por terceiros do Wayback Machine para que o trabalho dos jornalistas não desapareça
  • As reportagens devem estar acessíveis não apenas a colegas e familiares enlutados, mas também aos olhos da história
  • O Wayback Machine ajuda veículos jornalísticos online a resistirem melhor à pressão para apagar artigos que ameacem pessoas no poder
  • Para veículos de imprensa que realmente fazem jornalismo, apoiar essa aliança também está de acordo com seus próprios interesses

Exigência e materiais de referência

  • A liderança dos principais meios de comunicação deve prometer publicamente que vai trabalhar com o Internet Archive para preservar todas as notícias no Wayback Machine
  • Não deveria ser tão difícil encontrar uma forma de preservar as notícias de maneira independente
  • Materiais de referência

1 comentários

 
GN⁺ 1 시간 전
Comentários no Hacker News
  • Fico me perguntando se isso aconteceu porque o archive.org respeita o robots.txt e esses sites bloquearam a indexação pelos rastreadores
    É frustrante que o “comportamento correto” de respeitar o robots.txt acabe virando o ônus de ter que responder a petições, enquanto quem ignorou a mesma instrução sai ganhando

    • Se um crawler muito conhecido como o archive.org ignorar o robots.txt, é bem mais provável que sofra processo ou outro tipo de pressão
      Isso não é só uma escolha moral; é praticamente a única escolha racional, e a razão de “o outro lado lucrar” é que, para agentes com obrigação quase contratual ou pouca visibilidade, o incentivo para ir até um processo é pequeno
    • Sim. O robots.txt do nytimes.com tem um trecho assim: User-agent: archive.org_bot / Disallow: /
    • O motivo é que eles querem impedir que empresas de IA roubem conteúdo, e se o Internet Archive fizer proxy de tudo, não dá para bloquear isso
      Se não tivessem conseguido raspar notícias recentes, todos os grandes modelos de linguagem seriam muito menos úteis
    • Não, o archive.org não respeita robots.txt. Você precisa entrar em contato diretamente e pedir para não incluírem seu site: https://blog.archive.org/2017/04/17/robots-txt-meant-for-sea...
    • É a mesma burrice criada pelo DRM
      Acaba empurrando as pessoas para a pirataria, porque o pirata é livre
  • O problema parece ser que, se o Archive.org puder acessar conteúdo do NYT e de outras editoras, as pessoas poderão coletar conteúdo do NYT em massa via Archive.org, mesmo que não consigam raspar em grande escala diretamente do NYT
    Se o Archive.org bloquear raspadores, as editoras talvez façam outra escolha e permitam o acesso ao Archive.org

  • Ideia: e se permitirem o scraping, mas impedirem a divulgação pública por 1 ano?

    • Também seria preciso criar um fundo conjunto para ações judiciais para obrigar o Archive a não repassar isso para crawlers de LLM
  • Assim como o Financial Times é disponibilizado no serviço NewsBank com escrow de 30 dias, talvez eles também possam adotar um escrow

  • Colocando o chapéu de teoria da conspiração, suspeito que parte do motivo seja que eles gostam de poder editar sorrateiramente e fingir que versões antigas de artigos nunca existiram

  • Então pessoas que nunca viram anúncios dessas organizações nem pagaram assinatura querem brigar exigindo que elas mantenham uma porta dos fundos aberta para elas?

  • Conheço um pouco dessa discussão do lado do Times e do Atlantic. Posso ser criticado por isso, mas perguntei a uma pessoa sênior do lado digital o que achava dos métodos comuns de burlar paywall no HN, e fiquei realmente surpreso com o fato de que eles nunca tinham ouvido falar disso
    No fim, concordaram que um equilíbrio razoável seria liberar após 30 dias e impor uma limitação de acesso para que, se isso vier a ser relevante no futuro, não seja possível buscar mais de N vezes por dia. Pelo que sei, o Internet Archive não fez uma abordagem ativa sobre esse tema, e a pressão deveria ser para que as editoras negociem, mas também para que o Internet Archive negocie

    • Parece um compromisso bem razoável. As organizações de notícias mantêm o pico inicial de pageviews, e o papel da internet como informação gratuita / biblioteca universal também é preservado
      Ainda assim, revistas provavelmente vão querer controlar seu acervo antigo. Já vendem acesso para bibliotecas e universidades, e, como já apareceu muitas vezes no HN, algumas organizações de notícias podem querer alterar ou atualizar artigos sem deixar um “histórico de revisões” público
    • O Internet Archive é usado regularmente para burlar paywall? Normalmente é o archive.is, que não tem relação com a IA
    • Essa ideia de limitar para não poder buscar mais de N vezes por dia “se isso se tornar relevante” não acaba beneficiando eles de qualquer forma?
      Dá a impressão de que alguém está olhando para algum painel infeliz de métricas digitais em algum lugar, e talvez esse culto aos números tenha substituído o espírito original do jornalismo
    • Não é tão surpreendente. Eles operam com um modelo da época errada, com incentivos errados
      Ainda agem como se vivessem num mundo em que dados e informação são escassos e eles fossem a única fonte da verdade. Hoje isso se inverteu: não existe uma verdade única de referência, mas dados e informação são abundantes, e essa abundância inclui dados falsos e mentiras. O jornalismo investigativo que NYT e Atlantic fazem em seus melhores dias agrega valor ao mundo, mas, embora os repórteres queiram acessibilidade, as instituições tentam esconder e isolar esse trabalho. Idealmente, toda criança poderia aprender inglês com NYT e Atlantic, crescer junto com esses veículos de registro e enxergar o mundo por meio deles, mas o modelo atual não permite isso. Uma mistura de patrocínio com fundação no estilo Wikimedia talvez fosse mais adequada. Leitores que amam a instituição e a missão pagariam o quanto quisessem, receberiam benefícios de acordo com o valor, e as contribuições entrariam num fundo investido cujo rendimento bancaria parte do orçamento operacional. Num mundo de informação abundante, acho difícil o jornalismo clássico sobreviver sem uma abordagem baseada em patrocínio
    • Eu preferia que esses sites de “notícias” nem aparecessem no HN. Se a matéria for verdadeira e valer discussão, uma organização mais confiável como a Reuters vai reportar, ou será uma fonte primária que deveria ser postada diretamente
      Com muita frequência, eles fazem cobertura seletiva de detalhes e citações, ou publicam fatos de fontes não confiáveis que depois se revelam totalmente falsos. Neste último caso, retiram o artigo discretamente, então a maioria dos leitores continua acreditando na mentira. Talvez seja por isso que não queiram ser arquivados. Eu preferiria até um post de blog pequeno; pode ser enviesado e pouco confiável, mas pelo menos tem pensamento original, apoia um indivíduo e talvez não tenha anúncios. Claro, o fato de aparecer tanto blog óbvio de LLM aqui já é outro problema
  • Estou aguardando isto: (https://news.ycombinator.com/item?id=48070516)

  • Precisamos de um arquivo da internet criptograficamente verificável. Sem algo como web3, nostr ou gpg/pgp, talvez isso nem seja possível

    • Ter vários arquivos sem relação entre si já seria suficientemente bom
    • O Archive não poderia publicar algo como a assinatura SSL de todas as requisições?
      Carimbos de tempo podem ser verificados criptograficamente com algo sobre Bitcoin, como o opentimestamps
  • Assinei, mas precisamos ser honestos
    Se você fizer um gráfico de pizza com o número de vezes em que leu artigos antigos do NYT no Wayback Machine e o número de vezes em que comentários do topo no HN colocaram links de matérias relativamente novas e todo mundo foi lá para burlar o paywall, vai dar um círculo completo

    • Se não existisse um arquivo, você teria pago ao NYT para ver esse artigo? Acho que não