- A Wikipédia em inglês adicionou o site Archive.today à lista negra e começou a remover links
- Foi confirmado que o site induziu ataques DDoS contra blogs e manipulou snapshots da web
- Os editores da Wikipédia concordaram em interromper o uso por causa da perda de confiabilidade do site e do risco de abuso dos dispositivos dos usuários
- Há cerca de 695 mil links em 400 mil artigos, e a avaliação é que a maioria pode ser substituída por outros serviços de arquivamento
- Os editores foram orientados a substituir por Internet Archive, Ghostarchive, Megalodon etc. ou remover os links
Decisão da Wikipédia de bloquear o Archive.today
- A Wikipédia em inglês decidiu adicionar o Archive.today à lista negra
- O motivo da decisão foi o fato de o site ter sido usado em ataques DDoS contra blogs
- Durante as discussões na Wikipédia, foi descoberto um caso em que o site manipulou snapshots de páginas da web para inserir o nome de um blogueiro alvo do ataque
- Os editores da Wikipédia entenderam que a manipulação foi uma retaliação a uma postagem de blog que dizia que o operador do site escondia sua identidade usando vários pseudônimos
Conteúdo do consenso da comunidade da Wikipédia
- Segundo uma atualização oficial da Wikipédia, foi decidido descontinuar imediatamente (deprecate) o uso do Archive.today e adicioná-lo à lista negra de spam ou bloqueá-lo com filtros de edição
- Também foi decidido remover todos os links existentes
- A comunidade citou como base a política (WP:ELNO#3): “não se deve direcionar leitores a um site que sequestra os computadores dos usuários para realizar ataques DDoS”
- Foram apresentadas evidências de que o conteúdo das páginas arquivadas foi manipulado, e concluiu-se que a confiabilidade do site foi comprometida
Escala dos links e possibilidade de substituição
- Os links do Archive.today estão presentes em mais de 695 mil ocorrências em cerca de 400 mil artigos
- O site vinha sendo usado com frequência para contornar paywalls de notícias
- Houve opiniões favoráveis à manutenção do status quo, mas a análise confirmou que a maioria dos links pode ser substituída por outros arquivos
- Alguns editores começaram a detalhar o procedimento de remoção e substituição dos links
Diretrizes para editores
- O documento recém-publicado Wikipedia:Archive.today_guidance orienta os editores sobre como remover e substituir links
- Os domínios alvo incluem archive.today, archive.is, archive.ph, archive.fo, archive.li, archive.md, archive.vn etc.
- Se a fonte original ainda estiver online e o conteúdo for o mesmo, é possível remover o link do Archive.today
- Ou então substituí-lo por outros serviços de arquivamento, como Internet Archive, Ghostarchive, Megalodon
- Se o original existir em formato impresso ou se o link tiver apenas finalidade de conveniência, é possível remover o próprio link de arquivo
Medidas para reforçar a confiabilidade e a segurança dentro da Wikipédia
- Esta medida é vista como uma ação para reforçar a confiabilidade da Wikipédia e a proteção dos usuários
- A comunidade considera isso uma oportunidade para estabelecer critérios claros de resposta a manipulação de sites e ações maliciosas
- No futuro, deverão ocorrer discussões adicionais sobre formas de conduzir com eficiência o trabalho de remoção de links
1 comentários
Comentários do Hacker News
Vi recentemente um texto sobre uma possível campanha coordenada contra o archive.today
Fiquei curioso para saber se existe algum material que explique com mais profundidade como a estrutura técnica do archive.today realmente funciona. Preciso de algo além de resultados de busca por IA ou da thread anterior no HN
Como o archive.org atende pedidos de remoção, fico pensando se o archive.today não está sendo atacado justamente por preservar conteúdo cuja remoção ele se recusa a fazer
Acho que doxxing de alguém não faz sentido. Ainda mais se for alguém que oferece um serviço útil para usuários comuns
Mas acho problemático se o archive.today estiver transformando usuários em botnet para fazer ataques DDoS ou alterando o conteúdo de páginas arquivadas.
Esse tipo de comportamento faz o site parecer infectado por malware e reduz a confiabilidade do conteúdo arquivado. Entendo por que a Wikipédia bloqueou
Se a investigação foi feita apenas com dados públicos, é difícil chamar isso de antiético
O problema, no caso do archive.today, é que essas mudanças parecem manipulação intencional
Descobri que algumas capturas de X/Twitter no archive.today foram salvas enquanto a conta “advancedhosters” estava logada
Essa conta está ligada a uma empresa de hospedagem web no Chipre e, recentemente, publicou um link para um texto que divulgava e-mails privados entre o operador do archive.today (que usa o apelido “Volth”) e o dono de um site
A publicação anterior era um link para artigos pró-Rússia e anti-Ucrânia arquivados no archive.today. Parece uma pista interessante
Mas, diferente do Internet Archive, que é uma instituição sem fins lucrativos legalmente estabelecida, esse tipo de operação é difícil de distinguir de atividade criminosa
No ano passado, vi um caso em que páginas arquivadas eram alteradas no archive.today
Antes, páginas arquivadas do Reddit mostravam o nome de usuário no canto superior direito, mas em algum momento isso sumiu. O problema é que a alteração foi feita retroativamente até em capturas antigas
Na aba de screenshot o nome ainda aparecia, então ficou uma diferença em relação ao original. No começo achei algo pequeno, mas vendo os acontecimentos recentes, talvez não seja
Se tivessem alterado o próprio conteúdo da postagem do Reddit, aí seria uma questão completamente diferente, mas se era só informação da conta, dá para entender
Muita gente não sabe, mas o Perma.cc é uma ferramenta oficial de arquivamento adequada para uso em lugares como a Wikipédia
Há mais detalhes também no artigo da Wikipédia
Fiquei pensando se existe algum servidor de arquivamento self-hosted que dê para usar pessoalmente
Parece que o ArchiveBox é o mais conhecido, então pretendo testar. Só que a ausência de reescrita de URL parece inconveniente
Seria ótimo se houvesse um recurso que conectasse automaticamente várias páginas de uma mesma matéria
Com o recurso Content Scripts, dá para escrever os próprios scripts de transformação de URL
Segundo uma matéria da Ars Technica, o archive.today foi bloqueado pela Wikipédia por causa de ataques DDoS e manipulação de conteúdo
Pessoalmente, quase nunca uso o archive.today porque acho desconfortável. Mas no HN ele parece ser usado com frequência para contornar paywalls
O problema é o histórico passado e a anonimidade do operador. Ele está em uma posição que permite coletar muitos dados sobre os hábitos de leitura dos usuários do HN
Curiosamente, esta não é a primeira vez que o archive.today se envolve com DDoS
Segundo um post do HN de 3 anos atrás, houve um caso em que o archive.ph executou ataques DDoS com código XmlHttpRequest
Na época, o alvo era o northcountrygazette.org, e o site ficou tão lento que parece que o ataque realmente surtiu efeito
Esse site já havia ameaçado rastrear pessoas que contornavam paywall e usava robots.txt para bloquear arquivamento. Pelo visto, acabou sendo encerrado
Fiquei pensando se é possível criar arquivos web irreversíveis localmente sem depender de sites de terceiros
Talvez desse para registrar a transação TLS inteira e depois revalidá-la no futuro. Claro que, se o certificado vazar, existe risco de falsificação
Tecnicamente, o Wayback Machine também não é muito melhor que o archive.today nesse aspecto
Existem várias soluções self-hosted de arquivamento, mas o nível de maturidade varia bastante
Parece que já deveria existir ao menos uma implementação padrão que servisse tanto para uso pessoal quanto público, mas ainda não há