3 pontos por GN⁺ 2025-08-18 | 1 comentários | Compartilhar no WhatsApp
  • A ArchiveTeam arquivou com sucesso todos os links encurtados do goo.gl
  • Qualquer pessoa pode participar de projetos de arquivamento por meio do programa virtual de arquivamento ArchiveTeam Warrior
  • Esse Warrior pode ser executado sem riscos separados em ambientes Windows, OS X e Linux
  • Com uma configuração simples, o usuário pode escolher projetos e participar das atividades
  • Oferece uma forma fácil e intuitiva de ajudar nas atividades de arquivamento sem necessidade de conhecimentos técnicos especiais

Introdução ao ArchiveTeam Warrior

  • O ArchiveTeam Warrior é um appliance virtual de arquivamento que qualquer pessoa pode usar com facilidade
  • Ao executar o Warrior, o usuário pode participar do trabalho de baixar sites e outros conteúdos e enviá-los para o arquivo da ArchiveTeam
  • O Warrior não oferece riscos ao ambiente real do computador e usa apenas largura de banda da internet e um pouco de espaço em disco
  • É compatível com Windows, OS X e Linux, e requer um programa de máquina virtual como VirtualBox ou VMware

Como usar com o VirtualBox

  • Baixe o appliance Warrior (357 MB)
  • No VirtualBox, clique no menu File > Import Appliance e carregue o arquivo baixado
  • Ao iniciar a máquina virtual, ela recebe automaticamente as atualizações mais recentes e solicita o uso do navegador da web

Processo após iniciar o Warrior

  • Acesse e confira a página Settings
  • Escolha um nome de usuário para exibir o progresso no leaderboard
  • Na aba All projects, selecione o projeto desejado para participar, ou escolha ArchiveTeam’s Choice para entrar no projeto mais urgente

Vantagens de participar

  • Sem necessidade de conhecimentos especiais nem processos complexos, qualquer pessoa pode contribuir facilmente com projetos de arquivamento
  • O histórico de atividades de arquivamento do usuário aparece no leaderboard, o que ajuda na motivação e na colaboração

1 comentários

 
GN⁺ 2025-08-18
Comentários do Hacker News
  • Sempre fico impressionado quando o ArchiveTeam faz projetos assim. Alguns anos atrás, quando a plataforma de vídeo em que eu trabalhava estava prestes a anunciar o encerramento do serviço, acabei entrando em contato com uma pessoa do ArchiveTeam e ouvi que ela tinha interesse em preservar os dados. Dei algumas dicas a essa pessoa (informações sobre endpoints do servidor que poderiam dificultar o arquivamento) e emprestei temporariamente algumas das minhas instâncias EC2. Como os servidores eram meus, pude ver o que estava acontecendo: em 2 minutos as instâncias estavam totalmente prontas e começaram a arquivar vídeos rapidamente, e cada instância baixava vídeos diferentes com eficiência, sem duplicação. O ArchiveTeam sempre tem uma ótima missão, mas a eficiência da execução deles é realmente impressionante.

  • O título não está correto. Na verdade é o Archiveteam.org, e não o Archive.org. O Internet Archive fornece espaço de armazenamento, mas o trabalho real de arquivamento é feito pelos membros do Archiveteam.

    • Fico curioso sobre qual é exatamente a contribuição do Archiveteam. Não entendo muito bem. No fim, parece apenas um intermediário desnecessário entre o alvo do arquivamento e o servidor de arquivamento. Queria saber se estou deixando passar alguma coisa.
  • Queria compartilhar material relacionado: "Junte-se à guerra contra o link rot" (link), vários tópicos do HN sobre mudanças na política do goo.gl pelo Google (coletânea de posts relacionados de 2018 a 2025, aqui, aqui, aqui, aqui, aqui, aqui). Há várias discussões, então espero que seja útil.

  • Compartilhando a atualização mais recente do Google: link para a atualização no blog do Google

    • Ah, por eu considerar o Google uma empresa extremamente não confiável, vejo isso como informação extremamente não confiável, então não acredito nem um pouco nesta "atualização".
    • Segundo o anúncio do Google, os links encurtados (links goo.gl) "deixarão de funcionar após 25 de agosto e recomendamos migrar para outro serviço de encurtamento de URL". Nesse caso, isso não torna sem sentido manter apenas alguns links funcionando? Não significa que os links encurtados já embutidos em documentos e que não podem mais ser alterados vão acabar todos quebrando?
    • No fim, fico me perguntando qual é o sentido disso. Redirecionar links antigos quase sem uso (ou de baixa atividade) não deve custar tanto assim, então não entendo por que precisam encerrar isso de vez (inclusive essa política de continuar redirecionando apenas links de alto uso).
    • Isso eu realmente não entendo. Fico me perguntando se guardar o banco de dados inteiro custa tanto assim. Ainda mais considerando que eles vão ter que manter parte dele de qualquer jeito.
  • Existe alguém arquivando o reddit ou o twitter por completo? Estou curioso, mesmo que os Terms deles tenham mudado e não permitam isso.

    • O reddit costumava ter um projeto chamado Pushshift. Antes das mudanças na API do reddit, esses dados podiam ser baixados em the-eye, outro grupo de arquivamento/preservação de dados. No caso do twitter, até onde eu sei não. Além disso, já faz anos que arquivar tweets no Wayback Machine não é possível.
    • No Academictorrents, ainda é possível obter dumps mensais de todas as submissions e comments do reddit, mesmo após as limitações da API.
    • Outra opção é perguntar ao OpenAI.
  • Não estou entendendo bem a página. Há uma lista de datasets (acho eu?), e o tamanho parece chegar a 91 TiB. Não parece que uma lista de links curtos do Google e URLs de destino precisaria de 91 TiB. Alguém sabe como isso funciona?

    • Fiz uma conta rápida. Uma URL escolhida aleatoriamente no Google Search tinha 705 bytes, o link curto do goo.gl tinha 22 bytes, e guardar apenas o ID simples daria 6 bytes. Mesmo com casos mais curtos ou mais longos, no geral dá para ver que isso corresponde ao volume de dezenas de bilhões a trilhões de URLs.
  • Fico feliz por ter contribuído nem que seja um pouco com esse arquivamento.

    • Também fico feliz de ver meu nome no leaderboard. Na prática, tudo o que fiz foi instalar um docker container por um dia e depois esquecer dele.
  • Fico curioso sobre quantos links apontam para vídeos privados do YouTube, Google Docs e coisas do tipo.

    • Eu ia brincar internamente com um "agora é só baixar e pesquisar você mesmo", mas na verdade, aqui aparece "Access-restricted-item: true", então o acesso é restrito. Eles também são oferecidos em blocos de 10GB.
  • Fico curioso se "all" significa realmente todas as URLs publicamente acessíveis, ou se eles tentaram iterativamente o namespace inteiro de URLs.

    • Na prática, foi um método em que voluntários executaram diretamente o cliente e tentaram iterativamente todo o namespace de URLs sem bloqueio de IP.
    • As URLs públicas do goo.gl já estão todas incluídas no rastreamento do Internet Archive e do Common Crawl.