2 pontos por GN⁺ 2026-02-22 | 1 comentários | Compartilhar no WhatsApp
  • A Wikipédia em inglês adicionou o site Archive.today à lista negra e começou a remover links
  • Foi confirmado que o site induziu ataques DDoS contra blogs e manipulou snapshots da web
  • Os editores da Wikipédia concordaram em interromper o uso por causa da perda de confiabilidade do site e do risco de abuso dos dispositivos dos usuários
  • Há cerca de 695 mil links em 400 mil artigos, e a avaliação é que a maioria pode ser substituída por outros serviços de arquivamento
  • Os editores foram orientados a substituir por Internet Archive, Ghostarchive, Megalodon etc. ou remover os links

Decisão da Wikipédia de bloquear o Archive.today

  • A Wikipédia em inglês decidiu adicionar o Archive.today à lista negra
    • O motivo da decisão foi o fato de o site ter sido usado em ataques DDoS contra blogs
    • Durante as discussões na Wikipédia, foi descoberto um caso em que o site manipulou snapshots de páginas da web para inserir o nome de um blogueiro alvo do ataque
  • Os editores da Wikipédia entenderam que a manipulação foi uma retaliação a uma postagem de blog que dizia que o operador do site escondia sua identidade usando vários pseudônimos

Conteúdo do consenso da comunidade da Wikipédia

  • Segundo uma atualização oficial da Wikipédia, foi decidido descontinuar imediatamente (deprecate) o uso do Archive.today e adicioná-lo à lista negra de spam ou bloqueá-lo com filtros de edição
    • Também foi decidido remover todos os links existentes
  • A comunidade citou como base a política (WP:ELNO#3): “não se deve direcionar leitores a um site que sequestra os computadores dos usuários para realizar ataques DDoS
  • Foram apresentadas evidências de que o conteúdo das páginas arquivadas foi manipulado, e concluiu-se que a confiabilidade do site foi comprometida

Escala dos links e possibilidade de substituição

  • Os links do Archive.today estão presentes em mais de 695 mil ocorrências em cerca de 400 mil artigos
  • O site vinha sendo usado com frequência para contornar paywalls de notícias
  • Houve opiniões favoráveis à manutenção do status quo, mas a análise confirmou que a maioria dos links pode ser substituída por outros arquivos
  • Alguns editores começaram a detalhar o procedimento de remoção e substituição dos links

Diretrizes para editores

  • O documento recém-publicado Wikipedia:Archive.today_guidance orienta os editores sobre como remover e substituir links
    • Os domínios alvo incluem archive.today, archive.is, archive.ph, archive.fo, archive.li, archive.md, archive.vn etc.
  • Se a fonte original ainda estiver online e o conteúdo for o mesmo, é possível remover o link do Archive.today
  • Ou então substituí-lo por outros serviços de arquivamento, como Internet Archive, Ghostarchive, Megalodon
  • Se o original existir em formato impresso ou se o link tiver apenas finalidade de conveniência, é possível remover o próprio link de arquivo

Medidas para reforçar a confiabilidade e a segurança dentro da Wikipédia

  • Esta medida é vista como uma ação para reforçar a confiabilidade da Wikipédia e a proteção dos usuários
  • A comunidade considera isso uma oportunidade para estabelecer critérios claros de resposta a manipulação de sites e ações maliciosas
  • No futuro, deverão ocorrer discussões adicionais sobre formas de conduzir com eficiência o trabalho de remoção de links

1 comentários

 
GN⁺ 2026-02-22
Comentários do Hacker News
  • Vi recentemente um texto sobre uma possível campanha coordenada contra o archive.today
    Fiquei curioso para saber se existe algum material que explique com mais profundidade como a estrutura técnica do archive.today realmente funciona. Preciso de algo além de resultados de busca por IA ou da thread anterior no HN

    • Se eles realmente forem alvo de uma campanha organizada de difamação, fazer DDoS contra o blog de outras pessoas ou modificar páginas arquivadas não ajuda em nada a própria causa
    • O archive.today funciona muito bem para mim. Muitas vezes consegue arquivar quando o archive.org falha
      Como o archive.org atende pedidos de remoção, fico pensando se o archive.today não está sendo atacado justamente por preservar conteúdo cuja remoção ele se recusa a fazer
    • Também houve notícias recentes de que vários sites começaram a bloquear o Internet Archive. Parece a próxima fase da guerra da informação
    • Aquele texto soa como se tivesse sido escrito por IA. É estruturado demais em forma de resumo e não há informação sobre o autor. Meu detector de IA apita
  • Acho que doxxing de alguém não faz sentido. Ainda mais se for alguém que oferece um serviço útil para usuários comuns
    Mas acho problemático se o archive.today estiver transformando usuários em botnet para fazer ataques DDoS ou alterando o conteúdo de páginas arquivadas.
    Esse tipo de comportamento faz o site parecer infectado por malware e reduz a confiabilidade do conteúdo arquivado. Entendo por que a Wikipédia bloqueou

    • Antigamente, doxxing significava divulgar informações privadas. Mas hoje chamar de doxxing só por reunir informações públicas já é exagero
      Se a investigação foi feita apenas com dados públicos, é difícil chamar isso de antiético
    • Ironicamente, é interessante que um site que defende preservação permanente tente derrubar textos que o mencionam. É uma situação meio “quem com ferro fere, com ferro será ferido”
    • Esse tipo de problema talvez pudesse ser resolvido com um sistema distribuído de verificação baseado em blockchain. Daria para gerenciar o histórico de alterações sem perder o original
    • Sites de arquivamento da web muitas vezes precisam modificar um pouco o HTML. Alterações de usabilidade, como mudar caminhos de links, são naturais
      O problema, no caso do archive.today, é que essas mudanças parecem manipulação intencional
    • A autenticidade das páginas arquivadas é o ponto central. Daqui para frente, essa deveria ser a questão principal da discussão
  • Descobri que algumas capturas de X/Twitter no archive.today foram salvas enquanto a conta “advancedhosters” estava logada
    Essa conta está ligada a uma empresa de hospedagem web no Chipre e, recentemente, publicou um link para um texto que divulgava e-mails privados entre o operador do archive.today (que usa o apelido “Volth”) e o dono de um site
    A publicação anterior era um link para artigos pró-Rússia e anti-Ucrânia arquivados no archive.today. Parece uma pista interessante

    • Essa conta pode ter sido recebida por doação. Sites da família archive.today às vezes usam contas pagas para contornar paywalls
      Mas, diferente do Internet Archive, que é uma instituição sem fins lucrativos legalmente estabelecida, esse tipo de operação é difícil de distinguir de atividade criminosa
    • Chamar isso de “pista interessante” tudo bem, mas não está claro aonde isso realmente levaria
  • No ano passado, vi um caso em que páginas arquivadas eram alteradas no archive.today
    Antes, páginas arquivadas do Reddit mostravam o nome de usuário no canto superior direito, mas em algum momento isso sumiu. O problema é que a alteração foi feita retroativamente até em capturas antigas
    Na aba de screenshot o nome ainda aparecia, então ficou uma diferença em relação ao original. No começo achei algo pequeno, mas vendo os acontecimentos recentes, talvez não seja

    • Mas isso pode ter sido mais uma medida para evitar expor contas logadas do que algo malicioso.
      Se tivessem alterado o próprio conteúdo da postagem do Reddit, aí seria uma questão completamente diferente, mas se era só informação da conta, dá para entender
  • Muita gente não sabe, mas o Perma.cc é uma ferramenta oficial de arquivamento adequada para uso em lugares como a Wikipédia
    Há mais detalhes também no artigo da Wikipédia

    • Só que, depois de 10 links, é preciso assinatura paga ou conta institucional. Isso não serve bem para uma enciclopédia que qualquer pessoa pode editar
    • Acho que seria melhor a Wikipédia construir isso por conta própria. Eles já operam a própria CDN, então parece viável. Mas contornar paywall seria arriscado
    • Também migrei para o Perma.cc esta semana, mas ele dá erro em páginas com muitas imagens e bloqueia o Reddit por completo. Mesmo assim, por ser open source, ainda há espaço para melhorar
  • Fiquei pensando se existe algum servidor de arquivamento self-hosted que dê para usar pessoalmente
    Parece que o ArchiveBox é o mais conhecido, então pretendo testar. Só que a ausência de reescrita de URL parece inconveniente
    Seria ótimo se houvesse um recurso que conectasse automaticamente várias páginas de uma mesma matéria

    • Eu prefiro o Readeck. É open source e tem app para iOS e Android
      Com o recurso Content Scripts, dá para escrever os próprios scripts de transformação de URL
    • Outra alternativa é o Omnom. O repositório no GitHub também é público
  • Segundo uma matéria da Ars Technica, o archive.today foi bloqueado pela Wikipédia por causa de ataques DDoS e manipulação de conteúdo
    Pessoalmente, quase nunca uso o archive.today porque acho desconfortável. Mas no HN ele parece ser usado com frequência para contornar paywalls
    O problema é o histórico passado e a anonimidade do operador. Ele está em uma posição que permite coletar muitos dados sobre os hábitos de leitura dos usuários do HN

    • Eu uso archive.today com frequência. Por exemplo, para ler matérias com paywall, como as do The Economist, não há muito substituto
    • Se o domínio .today for bloqueado, dá para trocar para outros TLDs como archive.ph, archive.is, archive.md
    • Não faz sentido discutir uma matéria sem lê-la, então contornar paywall é necessário até para manter a qualidade das discussões no HN
    • “archive.today” na verdade é um nome genérico para vários domínios archive.tld. Dizer que ele é “promovido” no HN significa só que os links são compartilhados com frequência
    • Muitos usuários usam o archive.today simplesmente com a intenção de permitir que todos possam ler
  • Curiosamente, esta não é a primeira vez que o archive.today se envolve com DDoS
    Segundo um post do HN de 3 anos atrás, houve um caso em que o archive.ph executou ataques DDoS com código XmlHttpRequest
    Na época, o alvo era o northcountrygazette.org, e o site ficou tão lento que parece que o ataque realmente surtiu efeito
    Esse site já havia ameaçado rastrear pessoas que contornavam paywall e usava robots.txt para bloquear arquivamento. Pelo visto, acabou sendo encerrado

  • Fiquei pensando se é possível criar arquivos web irreversíveis localmente sem depender de sites de terceiros
    Talvez desse para registrar a transação TLS inteira e depois revalidá-la no futuro. Claro que, se o certificado vazar, existe risco de falsificação

    • No mínimo, se um site de arquivamento publicasse o hash do conteúdo, depois daria para verificar se houve adulteração
      Tecnicamente, o Wayback Machine também não é muito melhor que o archive.today nesse aspecto
    • Mas reproduzir e validar uma sessão TLS depois é impossível. Um sistema público de logs transparentes poderia ser uma alternativa, embora seja difícil fazer isso perfeitamente por causa da natureza dinâmica da web
  • Existem várias soluções self-hosted de arquivamento, mas o nível de maturidade varia bastante
    Parece que já deveria existir ao menos uma implementação padrão que servisse tanto para uso pessoal quanto público, mas ainda não há

    • Penso a mesma coisa. Seria ótimo haver uma alternativa simples para uso pessoal