1 trilhão de páginas da web foi preservado no Internet Archive

(blog.archive.org)

4 pontos por GN⁺ 2025-10-07 | 1 comentários | Compartilhar no WhatsApp

A Wayback Machine, operada pelo Internet Archive, alcançou o marco histórico de preservar 1 trilhão de páginas da web no mundo todo
Iniciado em 1996, o projeto é uma colaboração para preservar a memória coletiva da web, arquivando diversos tipos de conteúdo, como notícias, blogs e homepages pessoais
Para celebrar, será realizada ao longo de outubro uma série de eventos, como concerto, conversas, fórum e open house, em San Francisco e online
Participam dos eventos pioneiros da internet como Tim Berners-Lee, criador da web, Brewster Kahle, fundador do Internet Archive, e Vint Cerf, do Google
A conquista reforça o valor de preservar o registro coletivo na era digital e serve como espaço para discutir, em conjunto, o futuro de uma web livre e aberta

O significado da marca de 1 trilhão de páginas do Internet Archive

Desde 1996, a Wayback Machine coleta e preserva automaticamente sites do mundo inteiro, permitindo que qualquer pessoa explore a web do passado
Alcançar 1 trilhão representa um grande avanço rumo ao objetivo de ser uma “biblioteca compartilhada da história online da humanidade”
O projeto tem sido mantido por meio de colaboração global com bibliotecas, instituições de pesquisa e voluntários individuais
O arquivo transforma rastros da web que poderiam desaparecer — como manchetes de notícias, blogs, fóruns e homepages pessoais — em memória digital para as futuras gerações

Agenda de eventos comemorativos de outubro

7 de outubro — The Vast Blue We: Del Sol Quartet at the Internet Archive

Apresentação na sede em San Francisco com música executada pelo Del Sol Quartet, celebrando a grandiosidade da colaboração humana
Serão apresentadas novas composições de Erika Oba e Sam Reider
- A música expressa a beleza da colaboração na web criada pela soma das ações de bilhões de pessoas

9 de outubro — Conversa entre Sir Tim Berners-Lee e Brewster Kahle

Discussão entre Sir Tim Berners-Lee, criador da World Wide Web, e Brewster Kahle, fundador do Internet Archive
Serão abordados diversos temas, como o crescimento da internet, mudanças sociais e o papel do Internet Archive
O encontro será composto por uma conversa aprofundada sobre a evolução contínua da internet e questões para o futuro
Realização no Commonwealth Club de San Francisco e com transmissão online ao vivo

16 de outubro — Library Leaders Forum 2025 (online)

Compartilhamento de novos serviços de biblioteca do Internet Archive e de instituições parceiras, além do andamento de projetos existentes
Líderes de bibliotecas do mundo todo participarão para discutir o futuro da preservação digital e do apoio à pesquisa
Também serão apresentados novos serviços do Internet Archive e casos de apoio à pesquisa

21 de outubro — Doors Open 2025: tour pelo arquivo físico

Apresentação do arquivo físico em Richmond, California, mostrando o ambiente real de preservação de livros, música, vídeo, filmes e outros materiais
Demonstração do processo de arquivamento físico de livros, música, filmes e microfichas
Uma oportunidade para ver de perto todo o ciclo de vida de materiais físicos, incluindo doação, preservação, digitalização e acessibilidade

22 de outubro — The Web We’ve Built: 1 Trillion Celebration

Evento oficial de comemoração pela marca de 1 trilhão de páginas da web na Wayback Machine
Com festa global transmitida por streaming simultaneamente à realização na sede em San Francisco
Sob o tema “a conquista de preservar 1 trilhão de memórias, momentos e movimentos”,
celebra o valor da web pública e o poder do registro coletivo

27 de outubro — Wayback to the Future: Celebrating the Open Web

Realizado na Riggs Library da Georgetown University, em Washington, D.C.
Coorganizado por Foundation for American Innovation, Massive Data Institute e Internet Archive
Relembra o valor da antiga web aberta e experimental e, ao mesmo tempo, discute a sustentabilidade de um ecossistema de internet livre e o futuro da web em meio às tendências atuais de centralização e fechamento
Participação de palestrantes como Vint Cerf (Google), Cindy Cohn (EFF) e Jon Stokes (Ars Technica)

O futuro da memória digital

Preservar 1 trilhão de páginas da web tem um significado que vai muito além de um simples número
Esses dados ajudam a consolidar a Wayback Machine como um recurso público essencial em diversas áreas, como casos de imigração, histórias pessoais, pesquisa acadêmica e jornalismo investigativo
O Internet Archive seguirá com a visão de uma “biblioteca pública da web acessível a todos”
A marca de 1 trilhão de páginas não é o fim, mas um novo ponto de partida,
e o debate sobre formas de acesso e preservação da informação na era da IA também deve continuar
Brewster Kahle enfatizou: “A web que construímos juntos é um enorme registro da inteligência coletiva,
e protegê-la é uma responsabilidade da humanidade”

1 comentários

GN⁺ 2025-10-07

Comentários do Hacker News

Se tem uma coisa que eu gostaria de ver, é uma rede de espelhos P2P do archive.org; a aplicação web da IA tende a limitar o acesso bem rápido quando você tenta clicar em várias datas, então seria ótimo se existisse uma fonte alternativa em que o conteúdo do archive.org fosse espelhado de forma distribuída e lenta, no estilo torrent, permitindo que os usuários consultem e verifiquem seletivamente os dados; atualmente eu mantenho meu próprio arquivo com o ArchiveBox, mas ele acaba servindo só para minhas necessidades pessoais; no fim, a maioria das pessoas ainda usa a IA, porque ela tem material demais
- O Archive Team já tocou um projeto separado do Internet Archive para fazer backup distribuído de partes do arquivo da internet; dá para ver mais detalhes e o andamento no wiki do projeto INTERNETARCHIVE.BAK; mas recentemente ele está em pausa por tempo indeterminado
- Com certeza já senti na pele como o arquivo da web pode ser realmente lento; parece que os raspadores de IA também criam gargalos de banda; alguns arquivos digitais, como o Common Crawl, exigem até contas específicas para pesquisadores para permitir acesso; a quantidade de dados é enorme e o objetivo de preservação também é vasto, então eles armazenam não só a internet, mas também a dimensão extra do tempo; há dados demais, o que torna navegação e busca extremamente difíceis e, na prática, quase inutilizáveis; por isso eu mesmo criei o projeto de links de metadados Internet-Places-Database para obter informações de domínio
- Quando fiz um projeto de scraping no passado, tentei procurar snapshots antigos e descobri que extrair informações do Internet Archive era inesperadamente difícil; usar o pywaybackup melhorou bastante a situação
- Tenho curiosidade sobre por que a IA não opera uma instância de IPFS, ou se opera e ela simplesmente não é muito popular; já existem vários serviços de espelho via IPFS que funcionam bem rápido; um dos problemas que tive com a IA é que sites muito antigos às vezes não renderizam direito por causa de problemas de JS ou CSS; também fico pensando se haveria como corrigir isso retroativamente; se fosse possível exportar todo o código viável daquela época, talvez desse para restaurar os sites de forma mais completa; seria excelente se, ao clicar em um domínio na IA, um cliente desktop pudesse baixar lentamente, em uma fila de baixa prioridade, quantos arquivos WAR eu quisesse, para que eu pudesse ver tudo perfeitamente até offline
- Já imaginei um sistema para “doar” espaço de armazenamento sobrando ao archive.org; você executaria um cliente e diria que quer oferecer 1 TB, e então o servidor enviaria para o seu computador o conteúdo mais raro; seria baseado em torrent, e daria para colocar por cima um sistema simples de distribuição de conteúdo; também poderia ser usado para receber dados dessa rede; mandei e-mail para alguns times de arquivamento, mas ninguém demonstrou interesse, então nunca cheguei a construir isso
Eu lidero a equipe de datacenter/infraestrutura no Internet Archive; gostaria de convidar todo mundo para os vários eventos que vamos realizar neste outono; se o preço do ingresso for um problema, por favor entrem em contato por e-mail (vejam meu perfil), e vamos tentar ao máximo viabilizar a participação
- Fiquei curioso se a equipe da IA vai fazer eventos distribuídos pelo mundo todo ou se vai se reunir em SF; e obrigado de verdade pelo trabalho importantíssimo que vocês fazem pela humanidade
- Eu gostaria de trabalhar na IA, mas vagas lá realmente aparecem muito raramente
- Tenho curiosidade sobre os bastidores técnicos usados para alcançar esse marco, por exemplo detalhes sobre como fazem o crawling da web e como armazenam tudo isso
- Queria saber mais especificamente que eventos são esses
A conquista de arquivar 1 trilhão de páginas da web é impressionante, mas... não existe uma forma de pesquisar isso; no fim, se você souber a URL pode digitá-la diretamente para encontrar, mas isso reduz muito a utilidade do serviço; por exemplo, seria ótimo poder pesquisar por nome de artista, nome de arquivo ou até conteúdo de imagem
- Indexar tudo isso deve ser um verdadeiro pesadelo
- Lembro que isso era possível em algum lugar como o Kagi, mas agora não consigo achar onde usar
- Também é preciso pensar nas questões de privacidade nesse processo; as regras de robots.txt passariam a não valer de nada, e apagar um site também se tornaria, na prática, impossível de forma retroativa; no fim, já que é material público, talvez não haja muito o que fazer para impedir, mas tornar toda a IA pesquisável parece uma péssima ideia
- Eu uso a busca web do GPT e às vezes peço para encontrar livros didáticos na IA; para esse tipo de busca funciona bem, mas não sei o quanto seria útil para páginas web em geral
Se você quiser contribuir com material adicional para a IA, o grupo voluntário relacionado é o ArchiveTeam; é de lá que dados são enviados para a IA, e há mais informações em archiveteam.org
- Alguém provavelmente precisa decidir manualmente que tipo de material vale a pena preservar; tem que haver algum filtro para impedir que alguém use a IA como armazenamento gratuito para fotos de viagem
Acho que o Internet Archive deveria fechar um grande acordo com empresas de IA... algo como: vamos entregar um caminhão cheio de todos os dados para a empresa de IA, e em troca vocês fazem uma doação substancial para manter a IA funcionando pelos próximos anos; se não quiserem pagar, o acesso continuaria permitido, mas a velocidade de download poderia ser drasticamente reduzida, de modo que levaria anos para baixar tudo
- Isso quebraria a confiança construída até agora como bem público; a maioria das pessoas provavelmente aceita que a IA preserve o conteúdo que elas criam, mas se ela começar a ganhar dinheiro com isso, certamente haverá uma reação enorme
Tenho curiosidade se o Internet Archive e o Common Crawl já colaboraram; queria comparar o escopo e a infraestrutura das duas instituições; os objetivos são diferentes, mas na prática elas fazem coisas parecidas
- A IA recebe dados coletados por vários grupos, incluindo WARCs coletados pelo CC e material reunido por grupos como o ArchiveTeam
O artista Sam Reider, que vai se apresentar no evento presencial desta semana, é realmente excelente; estou muito animado
Então isso quer dizer que, sem precisar rastrear a web inteira, basta pagar ao Archive para obter todos os dados?
Estão reunindo relatos no post relacionado do blog, então vale conferir
https://blog.archive.org/2025/09/23/celebrating-1-trillion-webpages-archived-share-your-wayback-story/
É um marco realmente extraordinário na história da internet

1 trilhão de páginas da web foi preservado no Internet Archive

O significado da marca de 1 trilhão de páginas do Internet Archive

Agenda de eventos comemorativos de outubro

7 de outubro — The Vast Blue We: Del Sol Quartet at the Internet Archive

9 de outubro — Conversa entre Sir Tim Berners-Lee e Brewster Kahle

16 de outubro — Library Leaders Forum 2025 (online)

21 de outubro — Doors Open 2025: tour pelo arquivo físico

22 de outubro — The Web We’ve Built: 1 Trillion Celebration

27 de outubro — Wayback to the Future: Celebrating the Open Web

O futuro da memória digital

Leituras relacionadas

1 comentários

Comentários do Hacker News