Wikipedia interrompe uso do Archive.today e inicia remoção de 695 mil links

(arstechnica.com)

2 pontos por GN⁺ 2026-02-22 | 1 comentários | Compartilhar no WhatsApp

A Wikipédia em inglês adicionou o site Archive.today à lista negra e começou a remover links
Foi confirmado que o site induziu ataques DDoS contra blogs e manipulou snapshots da web
Os editores da Wikipédia concordaram em interromper o uso por causa da perda de confiabilidade do site e do risco de abuso dos dispositivos dos usuários
Há cerca de 695 mil links em 400 mil artigos, e a avaliação é que a maioria pode ser substituída por outros serviços de arquivamento
Os editores foram orientados a substituir por Internet Archive, Ghostarchive, Megalodon etc. ou remover os links

Decisão da Wikipédia de bloquear o Archive.today

A Wikipédia em inglês decidiu adicionar o Archive.today à lista negra
- O motivo da decisão foi o fato de o site ter sido usado em ataques DDoS contra blogs
- Durante as discussões na Wikipédia, foi descoberto um caso em que o site manipulou snapshots de páginas da web para inserir o nome de um blogueiro alvo do ataque
Os editores da Wikipédia entenderam que a manipulação foi uma retaliação a uma postagem de blog que dizia que o operador do site escondia sua identidade usando vários pseudônimos

Conteúdo do consenso da comunidade da Wikipédia

Segundo uma atualização oficial da Wikipédia, foi decidido descontinuar imediatamente (deprecate) o uso do Archive.today e adicioná-lo à lista negra de spam ou bloqueá-lo com filtros de edição
- Também foi decidido remover todos os links existentes
A comunidade citou como base a política (WP:ELNO#3): “não se deve direcionar leitores a um site que sequestra os computadores dos usuários para realizar ataques DDoS”
Foram apresentadas evidências de que o conteúdo das páginas arquivadas foi manipulado, e concluiu-se que a confiabilidade do site foi comprometida

Escala dos links e possibilidade de substituição

Os links do Archive.today estão presentes em mais de 695 mil ocorrências em cerca de 400 mil artigos
O site vinha sendo usado com frequência para contornar paywalls de notícias
Houve opiniões favoráveis à manutenção do status quo, mas a análise confirmou que a maioria dos links pode ser substituída por outros arquivos
Alguns editores começaram a detalhar o procedimento de remoção e substituição dos links

Diretrizes para editores

O documento recém-publicado Wikipedia:Archive.today_guidance orienta os editores sobre como remover e substituir links
- Os domínios alvo incluem archive.today, archive.is, archive.ph, archive.fo, archive.li, archive.md, archive.vn etc.
Se a fonte original ainda estiver online e o conteúdo for o mesmo, é possível remover o link do Archive.today
Ou então substituí-lo por outros serviços de arquivamento, como Internet Archive, Ghostarchive, Megalodon
Se o original existir em formato impresso ou se o link tiver apenas finalidade de conveniência, é possível remover o próprio link de arquivo

Medidas para reforçar a confiabilidade e a segurança dentro da Wikipédia

Esta medida é vista como uma ação para reforçar a confiabilidade da Wikipédia e a proteção dos usuários
A comunidade considera isso uma oportunidade para estabelecer critérios claros de resposta a manipulação de sites e ações maliciosas
No futuro, deverão ocorrer discussões adicionais sobre formas de conduzir com eficiência o trabalho de remoção de links

1 comentários

GN⁺ 2026-02-22

Comentários do Hacker News

Vi recentemente um texto sobre uma possível campanha coordenada contra o archive.today
Fiquei curioso para saber se existe algum material que explique com mais profundidade como a estrutura técnica do archive.today realmente funciona. Preciso de algo além de resultados de busca por IA ou da thread anterior no HN
- Se eles realmente forem alvo de uma campanha organizada de difamação, fazer DDoS contra o blog de outras pessoas ou modificar páginas arquivadas não ajuda em nada a própria causa
- O archive.today funciona muito bem para mim. Muitas vezes consegue arquivar quando o archive.org falha
  Como o archive.org atende pedidos de remoção, fico pensando se o archive.today não está sendo atacado justamente por preservar conteúdo cuja remoção ele se recusa a fazer
- Também houve notícias recentes de que vários sites começaram a bloquear o Internet Archive. Parece a próxima fase da guerra da informação
- Aquele texto soa como se tivesse sido escrito por IA. É estruturado demais em forma de resumo e não há informação sobre o autor. Meu detector de IA apita
Acho que doxxing de alguém não faz sentido. Ainda mais se for alguém que oferece um serviço útil para usuários comuns
Mas acho problemático se o archive.today estiver transformando usuários em botnet para fazer ataques DDoS ou alterando o conteúdo de páginas arquivadas.
Esse tipo de comportamento faz o site parecer infectado por malware e reduz a confiabilidade do conteúdo arquivado. Entendo por que a Wikipédia bloqueou
- Antigamente, doxxing significava divulgar informações privadas. Mas hoje chamar de doxxing só por reunir informações públicas já é exagero
  Se a investigação foi feita apenas com dados públicos, é difícil chamar isso de antiético
- Ironicamente, é interessante que um site que defende preservação permanente tente derrubar textos que o mencionam. É uma situação meio “quem com ferro fere, com ferro será ferido”
- Esse tipo de problema talvez pudesse ser resolvido com um sistema distribuído de verificação baseado em blockchain. Daria para gerenciar o histórico de alterações sem perder o original
- Sites de arquivamento da web muitas vezes precisam modificar um pouco o HTML. Alterações de usabilidade, como mudar caminhos de links, são naturais
  O problema, no caso do archive.today, é que essas mudanças parecem manipulação intencional
- A autenticidade das páginas arquivadas é o ponto central. Daqui para frente, essa deveria ser a questão principal da discussão
Descobri que algumas capturas de X/Twitter no archive.today foram salvas enquanto a conta “advancedhosters” estava logada
Essa conta está ligada a uma empresa de hospedagem web no Chipre e, recentemente, publicou um link para um texto que divulgava e-mails privados entre o operador do archive.today (que usa o apelido “Volth”) e o dono de um site
A publicação anterior era um link para artigos pró-Rússia e anti-Ucrânia arquivados no archive.today. Parece uma pista interessante
- Essa conta pode ter sido recebida por doação. Sites da família archive.today às vezes usam contas pagas para contornar paywalls
  Mas, diferente do Internet Archive, que é uma instituição sem fins lucrativos legalmente estabelecida, esse tipo de operação é difícil de distinguir de atividade criminosa
- Chamar isso de “pista interessante” tudo bem, mas não está claro aonde isso realmente levaria
No ano passado, vi um caso em que páginas arquivadas eram alteradas no archive.today
Antes, páginas arquivadas do Reddit mostravam o nome de usuário no canto superior direito, mas em algum momento isso sumiu. O problema é que a alteração foi feita retroativamente até em capturas antigas
Na aba de screenshot o nome ainda aparecia, então ficou uma diferença em relação ao original. No começo achei algo pequeno, mas vendo os acontecimentos recentes, talvez não seja
- Mas isso pode ter sido mais uma medida para evitar expor contas logadas do que algo malicioso.
  Se tivessem alterado o próprio conteúdo da postagem do Reddit, aí seria uma questão completamente diferente, mas se era só informação da conta, dá para entender
Muita gente não sabe, mas o Perma.cc é uma ferramenta oficial de arquivamento adequada para uso em lugares como a Wikipédia
Há mais detalhes também no artigo da Wikipédia
- Só que, depois de 10 links, é preciso assinatura paga ou conta institucional. Isso não serve bem para uma enciclopédia que qualquer pessoa pode editar
- Acho que seria melhor a Wikipédia construir isso por conta própria. Eles já operam a própria CDN, então parece viável. Mas contornar paywall seria arriscado
- Também migrei para o Perma.cc esta semana, mas ele dá erro em páginas com muitas imagens e bloqueia o Reddit por completo. Mesmo assim, por ser open source, ainda há espaço para melhorar
Fiquei pensando se existe algum servidor de arquivamento self-hosted que dê para usar pessoalmente
Parece que o ArchiveBox é o mais conhecido, então pretendo testar. Só que a ausência de reescrita de URL parece inconveniente
Seria ótimo se houvesse um recurso que conectasse automaticamente várias páginas de uma mesma matéria
- Eu prefiro o Readeck. É open source e tem app para iOS e Android
  Com o recurso Content Scripts, dá para escrever os próprios scripts de transformação de URL
- Outra alternativa é o Omnom. O repositório no GitHub também é público
Segundo uma matéria da Ars Technica, o archive.today foi bloqueado pela Wikipédia por causa de ataques DDoS e manipulação de conteúdo
Pessoalmente, quase nunca uso o archive.today porque acho desconfortável. Mas no HN ele parece ser usado com frequência para contornar paywalls
O problema é o histórico passado e a anonimidade do operador. Ele está em uma posição que permite coletar muitos dados sobre os hábitos de leitura dos usuários do HN
- Eu uso archive.today com frequência. Por exemplo, para ler matérias com paywall, como as do The Economist, não há muito substituto
- Se o domínio .today for bloqueado, dá para trocar para outros TLDs como archive.ph, archive.is, archive.md
- Não faz sentido discutir uma matéria sem lê-la, então contornar paywall é necessário até para manter a qualidade das discussões no HN
- “archive.today” na verdade é um nome genérico para vários domínios archive.tld. Dizer que ele é “promovido” no HN significa só que os links são compartilhados com frequência
- Muitos usuários usam o archive.today simplesmente com a intenção de permitir que todos possam ler
Curiosamente, esta não é a primeira vez que o archive.today se envolve com DDoS
Segundo um post do HN de 3 anos atrás, houve um caso em que o archive.ph executou ataques DDoS com código XmlHttpRequest
Na época, o alvo era o northcountrygazette.org, e o site ficou tão lento que parece que o ataque realmente surtiu efeito
Esse site já havia ameaçado rastrear pessoas que contornavam paywall e usava robots.txt para bloquear arquivamento. Pelo visto, acabou sendo encerrado
Fiquei pensando se é possível criar arquivos web irreversíveis localmente sem depender de sites de terceiros
Talvez desse para registrar a transação TLS inteira e depois revalidá-la no futuro. Claro que, se o certificado vazar, existe risco de falsificação
- No mínimo, se um site de arquivamento publicasse o hash do conteúdo, depois daria para verificar se houve adulteração
  Tecnicamente, o Wayback Machine também não é muito melhor que o archive.today nesse aspecto
- Mas reproduzir e validar uma sessão TLS depois é impossível. Um sistema público de logs transparentes poderia ser uma alternativa, embora seja difícil fazer isso perfeitamente por causa da natureza dinâmica da web
Existem várias soluções self-hosted de arquivamento, mas o nível de maturidade varia bastante
Parece que já deveria existir ao menos uma implementação padrão que servisse tanto para uso pessoal quanto público, mas ainda não há
- Penso a mesma coisa. Seria ótimo haver uma alternativa simples para uso pessoal

Wikipedia interrompe uso do Archive.today e inicia remoção de 695 mil links

Decisão da Wikipédia de bloquear o Archive.today

Conteúdo do consenso da comunidade da Wikipédia

Escala dos links e possibilidade de substituição

Diretrizes para editores

Medidas para reforçar a confiabilidade e a segurança dentro da Wikipédia

Leituras relacionadas

1 comentários

Comentários do Hacker News