- A Wayback Machine, operada pelo Internet Archive, alcançou o marco histórico de preservar 1 trilhão de páginas da web no mundo todo
- Iniciado em 1996, o projeto é uma colaboração para preservar a memória coletiva da web, arquivando diversos tipos de conteúdo, como notícias, blogs e homepages pessoais
- Para celebrar, será realizada ao longo de outubro uma série de eventos, como concerto, conversas, fórum e open house, em San Francisco e online
- Participam dos eventos pioneiros da internet como Tim Berners-Lee, criador da web, Brewster Kahle, fundador do Internet Archive, e Vint Cerf, do Google
- A conquista reforça o valor de preservar o registro coletivo na era digital e serve como espaço para discutir, em conjunto, o futuro de uma web livre e aberta
O significado da marca de 1 trilhão de páginas do Internet Archive
- Desde 1996, a Wayback Machine coleta e preserva automaticamente sites do mundo inteiro, permitindo que qualquer pessoa explore a web do passado
- Alcançar 1 trilhão representa um grande avanço rumo ao objetivo de ser uma “biblioteca compartilhada da história online da humanidade”
- O projeto tem sido mantido por meio de colaboração global com bibliotecas, instituições de pesquisa e voluntários individuais
- O arquivo transforma rastros da web que poderiam desaparecer — como manchetes de notícias, blogs, fóruns e homepages pessoais — em memória digital para as futuras gerações
Agenda de eventos comemorativos de outubro
7 de outubro — The Vast Blue We: Del Sol Quartet at the Internet Archive
- Apresentação na sede em San Francisco com música executada pelo Del Sol Quartet, celebrando a grandiosidade da colaboração humana
- Serão apresentadas novas composições de Erika Oba e Sam Reider
- A música expressa a beleza da colaboração na web criada pela soma das ações de bilhões de pessoas
9 de outubro — Conversa entre Sir Tim Berners-Lee e Brewster Kahle
- Discussão entre Sir Tim Berners-Lee, criador da World Wide Web, e Brewster Kahle, fundador do Internet Archive
- Serão abordados diversos temas, como o crescimento da internet, mudanças sociais e o papel do Internet Archive
- O encontro será composto por uma conversa aprofundada sobre a evolução contínua da internet e questões para o futuro
- Realização no Commonwealth Club de San Francisco e com transmissão online ao vivo
16 de outubro — Library Leaders Forum 2025 (online)
- Compartilhamento de novos serviços de biblioteca do Internet Archive e de instituições parceiras, além do andamento de projetos existentes
- Líderes de bibliotecas do mundo todo participarão para discutir o futuro da preservação digital e do apoio à pesquisa
- Também serão apresentados novos serviços do Internet Archive e casos de apoio à pesquisa
21 de outubro — Doors Open 2025: tour pelo arquivo físico
- Apresentação do arquivo físico em Richmond, California, mostrando o ambiente real de preservação de livros, música, vídeo, filmes e outros materiais
- Demonstração do processo de arquivamento físico de livros, música, filmes e microfichas
- Uma oportunidade para ver de perto todo o ciclo de vida de materiais físicos, incluindo doação, preservação, digitalização e acessibilidade
22 de outubro — The Web We’ve Built: 1 Trillion Celebration
- Evento oficial de comemoração pela marca de 1 trilhão de páginas da web na Wayback Machine
- Com festa global transmitida por streaming simultaneamente à realização na sede em San Francisco
- Sob o tema “a conquista de preservar 1 trilhão de memórias, momentos e movimentos”,
celebra o valor da web pública e o poder do registro coletivo
27 de outubro — Wayback to the Future: Celebrating the Open Web
- Realizado na Riggs Library da Georgetown University, em Washington, D.C.
- Coorganizado por Foundation for American Innovation, Massive Data Institute e Internet Archive
- Relembra o valor da antiga web aberta e experimental e, ao mesmo tempo, discute a sustentabilidade de um ecossistema de internet livre e o futuro da web em meio às tendências atuais de centralização e fechamento
- Participação de palestrantes como Vint Cerf (Google), Cindy Cohn (EFF) e Jon Stokes (Ars Technica)
O futuro da memória digital
- Preservar 1 trilhão de páginas da web tem um significado que vai muito além de um simples número
- Esses dados ajudam a consolidar a Wayback Machine como um recurso público essencial em diversas áreas, como casos de imigração, histórias pessoais, pesquisa acadêmica e jornalismo investigativo
- O Internet Archive seguirá com a visão de uma “biblioteca pública da web acessível a todos”
- A marca de 1 trilhão de páginas não é o fim, mas um novo ponto de partida,
e o debate sobre formas de acesso e preservação da informação na era da IA também deve continuar
- Brewster Kahle enfatizou: “A web que construímos juntos é um enorme registro da inteligência coletiva,
e protegê-la é uma responsabilidade da humanidade”
1 comentários
Comentários do Hacker News
Se tem uma coisa que eu gostaria de ver, é uma rede de espelhos P2P do archive.org; a aplicação web da IA tende a limitar o acesso bem rápido quando você tenta clicar em várias datas, então seria ótimo se existisse uma fonte alternativa em que o conteúdo do archive.org fosse espelhado de forma distribuída e lenta, no estilo torrent, permitindo que os usuários consultem e verifiquem seletivamente os dados; atualmente eu mantenho meu próprio arquivo com o ArchiveBox, mas ele acaba servindo só para minhas necessidades pessoais; no fim, a maioria das pessoas ainda usa a IA, porque ela tem material demais
O Archive Team já tocou um projeto separado do Internet Archive para fazer backup distribuído de partes do arquivo da internet; dá para ver mais detalhes e o andamento no wiki do projeto INTERNETARCHIVE.BAK; mas recentemente ele está em pausa por tempo indeterminado
Com certeza já senti na pele como o arquivo da web pode ser realmente lento; parece que os raspadores de IA também criam gargalos de banda; alguns arquivos digitais, como o Common Crawl, exigem até contas específicas para pesquisadores para permitir acesso; a quantidade de dados é enorme e o objetivo de preservação também é vasto, então eles armazenam não só a internet, mas também a dimensão extra do tempo; há dados demais, o que torna navegação e busca extremamente difíceis e, na prática, quase inutilizáveis; por isso eu mesmo criei o projeto de links de metadados Internet-Places-Database para obter informações de domínio
Quando fiz um projeto de scraping no passado, tentei procurar snapshots antigos e descobri que extrair informações do Internet Archive era inesperadamente difícil; usar o pywaybackup melhorou bastante a situação
Tenho curiosidade sobre por que a IA não opera uma instância de IPFS, ou se opera e ela simplesmente não é muito popular; já existem vários serviços de espelho via IPFS que funcionam bem rápido; um dos problemas que tive com a IA é que sites muito antigos às vezes não renderizam direito por causa de problemas de JS ou CSS; também fico pensando se haveria como corrigir isso retroativamente; se fosse possível exportar todo o código viável daquela época, talvez desse para restaurar os sites de forma mais completa; seria excelente se, ao clicar em um domínio na IA, um cliente desktop pudesse baixar lentamente, em uma fila de baixa prioridade, quantos arquivos WAR eu quisesse, para que eu pudesse ver tudo perfeitamente até offline
Já imaginei um sistema para “doar” espaço de armazenamento sobrando ao archive.org; você executaria um cliente e diria que quer oferecer 1 TB, e então o servidor enviaria para o seu computador o conteúdo mais raro; seria baseado em torrent, e daria para colocar por cima um sistema simples de distribuição de conteúdo; também poderia ser usado para receber dados dessa rede; mandei e-mail para alguns times de arquivamento, mas ninguém demonstrou interesse, então nunca cheguei a construir isso
Eu lidero a equipe de datacenter/infraestrutura no Internet Archive; gostaria de convidar todo mundo para os vários eventos que vamos realizar neste outono; se o preço do ingresso for um problema, por favor entrem em contato por e-mail (vejam meu perfil), e vamos tentar ao máximo viabilizar a participação
Fiquei curioso se a equipe da IA vai fazer eventos distribuídos pelo mundo todo ou se vai se reunir em SF; e obrigado de verdade pelo trabalho importantíssimo que vocês fazem pela humanidade
Eu gostaria de trabalhar na IA, mas vagas lá realmente aparecem muito raramente
Tenho curiosidade sobre os bastidores técnicos usados para alcançar esse marco, por exemplo detalhes sobre como fazem o crawling da web e como armazenam tudo isso
Queria saber mais especificamente que eventos são esses
A conquista de arquivar 1 trilhão de páginas da web é impressionante, mas... não existe uma forma de pesquisar isso; no fim, se você souber a URL pode digitá-la diretamente para encontrar, mas isso reduz muito a utilidade do serviço; por exemplo, seria ótimo poder pesquisar por nome de artista, nome de arquivo ou até conteúdo de imagem
Indexar tudo isso deve ser um verdadeiro pesadelo
Lembro que isso era possível em algum lugar como o Kagi, mas agora não consigo achar onde usar
Também é preciso pensar nas questões de privacidade nesse processo; as regras de
robots.txtpassariam a não valer de nada, e apagar um site também se tornaria, na prática, impossível de forma retroativa; no fim, já que é material público, talvez não haja muito o que fazer para impedir, mas tornar toda a IA pesquisável parece uma péssima ideiaEu uso a busca web do GPT e às vezes peço para encontrar livros didáticos na IA; para esse tipo de busca funciona bem, mas não sei o quanto seria útil para páginas web em geral
Se você quiser contribuir com material adicional para a IA, o grupo voluntário relacionado é o ArchiveTeam; é de lá que dados são enviados para a IA, e há mais informações em archiveteam.org
Acho que o Internet Archive deveria fechar um grande acordo com empresas de IA... algo como: vamos entregar um caminhão cheio de todos os dados para a empresa de IA, e em troca vocês fazem uma doação substancial para manter a IA funcionando pelos próximos anos; se não quiserem pagar, o acesso continuaria permitido, mas a velocidade de download poderia ser drasticamente reduzida, de modo que levaria anos para baixar tudo
Tenho curiosidade se o Internet Archive e o Common Crawl já colaboraram; queria comparar o escopo e a infraestrutura das duas instituições; os objetivos são diferentes, mas na prática elas fazem coisas parecidas
O artista Sam Reider, que vai se apresentar no evento presencial desta semana, é realmente excelente; estou muito animado
Então isso quer dizer que, sem precisar rastrear a web inteira, basta pagar ao Archive para obter todos os dados?
Estão reunindo relatos no post relacionado do blog, então vale conferir
https://blog.archive.org/2025/09/23/celebrating-1-trillion-webpages-archived-share-your-wayback-story/
É um marco realmente extraordinário na história da internet