38% das páginas da web que existiam em 2013 ficaram inacessíveis 10 anos depois

(pewresearch.org)

1 pontos por GN⁺ 2024-05-20 | 1 comentários | Compartilhar no WhatsApp

Embora a web pareça um registro permanente, na amostra do Pew Research Center 25% das páginas que existiram em algum momento entre 2013 e 2023 tinham desaparecido em outubro de 2023, e entre as páginas de 2013 38% estavam inacessíveis
Nesta contagem, inacessível foi limitado a 9 códigos de erro que indicam claramente que a página ou o servidor de hospedagem deixou de existir, e não a mudanças no conteúdo ou problemas de acessibilidade
Ao verificar links de governo, notícias e Wikipedia na primavera de 2023, 23% das páginas de notícias, 21% das páginas do governo e 54% das páginas da English Wikipedia continham pelo menos um link quebrado
Ao acompanhar por 3 meses cerca de 5 milhões de tweets públicos no X, então chamado Twitter, 18% deixaram de ficar visíveis publicamente, e em 60% desses casos isso ocorreu por conta de contas privadas, suspensas ou excluídas
Em páginas da web, materiais de órgãos públicos, links de notícias, referências da Wikipedia e postagens sociais, o conteúdo vai desaparecendo, e quanto mais antigo o material, mais evidente fica a degradação digital

Páginas da web que desapareceram em 10 anos

A internet é usada como repositório de materiais da vida moderna, como livros, imagens e artigos de notícias, mas parte desse conteúdo deixa de ser visível com o passar do tempo
O Pew Research Center verificou, em uma amostra de páginas da web que existiram entre 2013 e 2023, se elas ainda estavam acessíveis em outubro de 2023
Na amostra total, 25% das páginas que existiram em algum momento já não estavam mais acessíveis
- 16% tinham o domínio raiz funcionando, mas a página individual estava inacessível
- 9% não podiam ser acessadas porque o domínio raiz inteiro já não funcionava mais
Quanto mais antiga a página, maior era a taxa de desaparecimento
- Entre as páginas do snapshot de 2013, 38% estavam inacessíveis em 2023
- Entre as páginas do snapshot de 2023, 8% estavam inacessíveis
- Mesmo entre as páginas do snapshot de 2021, cerca de um quinto estava inacessível dois anos depois

Critérios usados para definir inacessibilidade

Nesta análise, inacessível foi restrito aos casos em que a página deixou de existir
- Isso inclui os casos em que o servidor de hospedagem ou a página desapareceu, normalmente exibindo erros do servidor como 404 Not Found
Os casos abaixo ficaram fora do escopo deste estudo
- Quando o endereço da página existe, mas o conteúdo mudou muito em relação ao original
- Quando a página existe, mas é difícil ou impossível de ler para alguns usuários, como pessoas com deficiência visual
Ainda há ambiguidades ao determinar o status de uma página
- Existem dezenas de códigos de status de erro, e alguns não deixam claro se se trata de desaparecimento permanente ou falha temporária
- Muitos sites bloqueiam coleta automatizada de dados por motivos de segurança
Por isso, foi adotado o critério mais conservador possível, contando como inacessíveis apenas 9 códigos de erro que indicam claramente que a página ou o servidor de hospedagem não existem mais ou estão em estado não funcional
A lista completa dos códigos de erro está na methodology

Amostra de páginas da web com base no Common Crawl

A análise foi feita com coleta aleatória de páginas da web de cada ano entre 2013 e 2023 no serviço de arquivamento da internet Common Crawl
A amostra total tinha pouco menos de 1 milhão de páginas, com cerca de 90 mil por ano
Em outubro de 2023, 25% de toda a amostra de 2013 a 2023 estava inacessível
As páginas inacessíveis se dividiram em dois tipos
- A página individual desapareceu, mas o domínio raiz continua funcionando: 16%
- O domínio raiz inteiro deixou de funcionar: 9%
Quanto mais antigo o snapshot, maior era a taxa de inacessibilidade, e entre as páginas de 2013 38% já não existiam mais

Links quebrados em sites do governo

A análise de sites do governo usou como amostra cerca de 500 mil páginas do snapshot de março a abril de 2023 do Common Crawl
A amostra incluía sites governamentais de vários níveis, como federal, estadual e municipal
Foram encontrados 42 milhões de links em todas as páginas governamentais
- 86% eram links internos para outras páginas do mesmo site
- Cerca de três quartos das páginas governamentais continham pelo menos um link
- A mediana de links por página foi de 50
- As 10% páginas no topo tinham 190 links, e o 1% no topo tinha 740 links
O formato dos links também foi verificado
- A maioria apontava para páginas HTTP seguras iniciadas por https://
- 6% apontavam para arquivos estáticos, como PDFs
- 16% redirecionavam para uma URL diferente da original
Ao seguir e verificar os links, 6% dos links em sites do governo já não estavam mais acessíveis
21% de todas as páginas governamentais analisadas continham pelo menos um link quebrado
- As taxas de links não funcionais internos e externos eram semelhantes
- Em todos os níveis de governo, pelo menos 14% das páginas tinham links quebrados
- As páginas de governos municipais apresentaram a maior taxa de links quebrados

Links quebrados em sites de notícias

A análise de sites de notícias usou como amostra cerca de 500 mil páginas de 2.063 sites classificados pela comScore como “News/Information”
As páginas foram coletadas do snapshot de março a abril de 2023 do Common Crawl
A amostra de sites de notícias incluía mais de 14 milhões de links para sites externos
- Links internos não foram coletados nem tiveram seu funcionamento verificado
- 94% das páginas de notícias continham pelo menos um link externo
- A mediana de links por página foi de 20
- As 10% páginas com mais links continham 56 links
A maior parte dos links em sites de notícias apontava para páginas HTTP seguras iniciadas por https://
- Cerca de 12% apontavam para arquivos estáticos, como PDFs
- 32% redirecionavam para uma URL diferente da original
- A taxa de redirecionamento dos links externos em sites do governo era de 39%
Ao rastrear os links de sites de notícias, 5% de todos os links estavam inacessíveis
23% das páginas de notícias da amostra continham pelo menos um link quebrado
- Entre as páginas dos 20% sites de notícias com maior tráfego, 25% continham pelo menos um link quebrado
- Entre as páginas dos 20% sites de notícias com menor tráfego, 26% continham pelo menos um link quebrado
- Quase não houve diferença na taxa de links quebrados conforme o volume de tráfego

Links de referências na Wikipedia

A análise verificou links da seção “References” em 50 mil páginas da English Wikipedia coletadas aleatoriamente
82% das páginas da amostra continham pelo menos um link de referência para páginas externas à Wikipedia
A amostra total incluía pouco mais de 1 milhão de links de referência
Uma página típica tinha 4 links de referência
11% de todos os links de referência da Wikipedia já não estavam mais acessíveis
Entre as páginas originais com links de referência, cerca de 2% tinham todos os links quebrados ou inacessíveis
Outros 53% das páginas continham pelo menos um link quebrado

O desaparecimento de postagens no X/Twitter

A análise de redes sociais foi feita com coleta em tempo real de cerca de 5 milhões de tweets públicos no X, então chamado Twitter, entre 8 de março e 27 de abril de 2023
A coleta usou a Twitter Streaming API e capturou 3.000 tweets públicos a cada 30 minutos
O acompanhamento foi mantido até 15 de junho de 2023, verificando diariamente se cada tweet continuava acessível no site
No fim do período de observação, 18% dos tweets coletados inicialmente já não estavam mais visíveis publicamente
- 60% desses casos ocorreram porque a conta original foi tornada privada, suspensa ou excluída
- 40% ocorreram porque a conta permaneceu, mas o tweet individual foi apagado

Características dos tweets que desapareceram com mais frequência

Tweets em certos idiomas tinham maior probabilidade de desaparecer
- Quase metade dos tweets em turco já não estava acessível no fim do acompanhamento
- Tweets em árabe também desapareceram, em taxa ligeiramente menor
- Pelo critério resumido, mais de 40% dos tweets em turco ou árabe deixaram de ficar visíveis em até 3 meses
Tweets de contas com configurações de perfil padrão também desapareceram com mais frequência
- Mais da metade dos tweets de contas com imagem de perfil padrão já não estava mais acessível
- Mais de um terço dos tweets de contas com campo de biografia padrão já não estava mais acessível
- Nesses casos, os tweets tendiam a desaparecer por exclusão da conta ou mudança para privado, e não por exclusão do tweet individual
Tweets de contas não verificadas também tinham maior probabilidade de serem apagados ou removidos
Em geral, os tweets que desapareceram eram mais novos e vinham de contas com relativamente poucos seguidores e nível moderado de atividade
- As contas que publicaram tweets que deixaram de ficar visíveis eram, em média, cerca de 8 meses mais novas do que as contas que publicaram tweets que permaneceram visíveis
Retweets, tweets com citação e tweets originais não diferiram muito da média geral
Respostas foram removidas com menos frequência, e a taxa de inacessibilidade no fim do acompanhamento foi de 12%

A velocidade com que os tweets desaparecem e reaparecem

A maior parte dos tweets removidos desaparece relativamente rápido após a publicação
Pela análise de sobrevivência, os momentos de remoção foram os seguintes
- 1% foi removido na primeira hora após a publicação
- 3% foi removido em até um dia
- 10% foi removido em até uma semana
- 15% foi removido em até um mês
No fim, metade dos tweets que acabaram removidos ficou inacessível em até 6 dias após a publicação
90% dos tweets que acabaram removidos ficaram inacessíveis em até 46 dias após a publicação
Tweets nem sempre desaparecem de forma permanente
- 6% dos tweets coletados desapareceram e depois voltaram a ficar acessíveis
- Isso pode acontecer quando uma conta privada volta a ser pública, ou quando uma suspensão é revertida
- 90% dos tweets que reapareceram continuavam acessíveis no Twitter no fim do acompanhamento

1 comentários

GN⁺ 2024-05-20

Opiniões no Hacker News

Um problema maior do que 38% das páginas da web terem desaparecido é que muitas organizações, grupos e empresas agora usam quase só páginas do Facebook e não têm presença na web fora do Facebook
No fim, para interagir com eles, uma conta no Facebook acaba sendo obrigatória
- Com fóruns aconteceu a mesma coisa
  Agora tudo foi para subreddits, grupos do Facebook e chats no Discord, e é realmente uma pena que informações valiosas fiquem escondidas dentro desses grupos
- Uso o Facebook apenas para manter contato com familiares que estão longe
  Dou uma olhada uma vez por dia para ver o que está acontecendo; se você tem conta, este link facilita muito isso: https://www.facebook.com/?filter=friends
- Fico me perguntando se existe de fato alguma empresa de certo porte que use só o Facebook
  Os negócios locais aqui por perto têm bastante informação no Google Maps e, mesmo quando têm site, em geral ele está desatualizado, mas, se você ligar diretamente, consegue tirar suas dúvidas
- Os 38% da web antiga eram espaços diversos, com menos intenções ocultas e feitos por amadores no bom sentido
  Hoje a web é muito maior, mas muito mais homogênea; esse percentual talvez seja algo como 0,00001%, e considero os sites da Web 1.0 melhores do que as “páginas de grupo” fechadas de hoje
- Já fui a um restaurante que deixava o cardápio digital só no Facebook
  Quando disse que não usava Facebook, olharam para mim como se eu fosse uma pessoa estranha
Ainda assim, sites bons fazem algum esforço para preservar conteúdo antigo
Por exemplo, as páginas de cobertura da CNN e da BBC durante os ataques de 11 de setembro ainda existem: http://news.bbc.co.uk/hi/english/static/in_depth/americas/20...
http://edition.cnn.com/SPECIALS/2001/trade.center/index.html
É difícil esperar que muitos links funcionem corretamente, mas só de ver como era a web antiga já é interessante
- Alguns elementos interativos de antigas coberturas eleitorais da BBC ainda funcionam quase normalmente
  É difícil imaginar que muitos sites atuais ainda estejam assim daqui a 20 anos; não porque seja tecnicamente impossível, mas parece algo parecido com a piora na qualidade da escrita depois da invenção do processador de texto
  Hoje tudo é gerenciado e estruturado, e dá a sensação de que desapareceram a liberdade e a efervescência que permitiam criar coisas boas de maneiras difíceis de explicar
Para apoiar esforços de preservação não só de conteúdo antigo, mas de vários tipos de conteúdo, vale doar algumas libras para o Internet Archive (archive.org)
E, para aquilo que você considera valioso, é bom fazer cópias locais sempre que possível, caso um dia desapareça
Uma boa parte das páginas técnicas do meu arquivo de favoritos, que venho levando comigo por mais de 20 anos entre instalações, agora aponta para o último backup completo feito pouco antes de a página original desaparecer
O Internet Archive é um benefício enorme para todos
- Percebi que eu usava favoritos em excesso
  Agora, quando há algum texto perspicaz, informação técnica, humor ou algo parecido que quero consultar depois, salvo a página em PDF ou formato semelhante
  Favoritos servem para coisas em que só vale a pena acessar a versão mais recente: sites de banco, lojas on-line, sistemas de desktop remoto da empresa e coisas assim
- Seria bom se o Internet Archive fosse dividido em duas entidades independentes
  Uma simplesmente preservaria sites, e a outra cuidaria do restante, como os testes agressivos de propriedade intelectual envolvendo e-books ou videogames
  Assim, mesmo que o “outro lado” desmorone por causa de processos, a preservação de sites poderia continuar. A primeira é um serviço importante para a humanidade, por isso faço doações, mas fico preocupado com o futuro
Opero um site de notícias desde 2019
A cada hora, um crawler procura links mortos e troca cerca de um por dia por um link do archive.org
O mais engraçado é quando, no dia seguinte à eleição, os sites dos candidatos viram todos páginas em branco; o mais triste são os sites do governo que saem do ar toda semana entre 3h e 5h da manhã
- Interessante; esse crawler verifica todos os links a cada hora ou roda em lotes separados?
Na verdade, fiquei surpreso por não ser um número ainda maior
Em 2013, a era dos sites de hobby do começo da internet já tinha ficado bem para trás, e a maioria dos novos sites era criada com fins comerciais
Considerando a vida útil das empresas, eu esperaria que muito mais sites tivessem desaparecido 11 anos depois
Talvez a morte de muitos espaços de construção de comunidade como Angelfire e Geocities tenha pesado bastante
Seria especialmente interessante ver um gráfico de quanto tempo os sites duram. Bastante conteúdo inicial ainda existe, e imagino que o pico de desaparecimento de sites fique por volta de 2008 a 2018
- Boa parte do conteúdo inicial já estava em plataformas que morreram há muito tempo
  Por exemplo, Geocities, pastas FTP fornecidas por universidades que eram apagadas após a formatura, e pastas FTP oferecidas por ISPs como Earthlink, Juno e Comcast; é bem provável que a maioria tenha sido apagada
Eu preferiria que nem tudo permanecesse para sempre
Há pouco tempo, encontrei por acaso meu primeiro .com, feito nos anos 90; ele estava hospedado no Angelfire e o archive.org o havia preservado novamente com dedicação, e o resultado era exatamente o que você imaginaria
Era uma página que fiz com um amigo na quarta série; para os padrões da época até era aceitável, mas, para os padrões atuais, havia coisas que não eram aceitáveis mesmo entendendo o contexto
Não era horrível, mas era conteúdo de mau gosto vindo da ignorância inocente típica de alunos do ensino fundamental nos anos 90, e provavelmente nunca vai sair completamente da minha consciência; então só me resta lidar com isso e torcer para que ninguém veja
- Tenho materiais parecidos também
  Se serve de consolo, todos nós éramos apenas crianças ou adolescentes e estávamos aprendendo sobre o mundo
  Sinto ainda mais pena das gerações depois da nossa, que cresceram quando a internet já era mais acessível e, às vezes, mais permanente
- Entendo essa dor
  Felizmente, o archive também remove materiais de vez em quando
Tudo na internet é, por natureza, temporário.
É melhor aceitar isso do que lutar contra, e, se quiser preservar algo, basta criar uma cópia offline.
PDF/A, especialmente as versões -1 e -2, é um formato projetado explicitamente para preservação e funciona bem para conteúdo estático.
Ainda assim, é uma pena que o espelhamento não esteja mais facilmente embutido na stack web, ou seja, em HTTP/HTML. Se fosse possível criar links simples que incluíssem uma cópia local como caminho alternativo, o apodrecimento de links seria uma preocupação muito menor.
Pessoalmente, a forma como a Wikipedia linka tudo via archive.org me parece um pouco um paliativo.
Sinceramente, surpreende que esse número seja tão baixo.
A maior parte da web hoje parece lixo de otimização para mecanismos de busca.
- Às vezes experimento alguma coisa, coloco um site pequeno no ar e, depois de esquecer dele por um tempo, tiro do ar quando concluo que não é mais relevante.
  Isso em si não é ruim.
  Mesmo assim, é ótimo que exista algo como arquivos da web para preservar nossa memória coletiva em favor de conteúdo valioso.
  Especialmente espero que registros exatos escritos no momento em que os eventos aconteciam sejam preservados em algum lugar onde não possam ser alterados depois. Hoje em dia parece estar na moda reescrever a história, e preservar os registros originais da época ajuda a combater isso.
  Mesmo que esses registros não fossem completamente precisos, eles ajudam a entender o que os agentes da época acreditavam ser verdade.
- Algumas coisas ainda existem, mas simplesmente não aparecem mais no Google.
Vejo isso como uma falha grave da internet que, coletivamente, deveríamos ter evitado melhor.
Na maioria dos casos, o conteúdo em si provavelmente ainda está em algum lugar; o que quebrou foi apenas o link.
Um sistema de duas camadas, como o sistema DOI usado por bibliotecas, poderia ajudar nesses casos: https://nuim.libguides.com/referencing/DigitalObjectIdentifi...
Mas, para manter a utilidade e a conveniência dos URLs, isso teria de ser tratado automaticamente, e não sei bem como isso seria possível.
Isso não é um bug, é uma funcionalidade.
Seria horrível viver em um mundo que nunca esquece nem perdoa.
Também é bom que seja necessário algum esforço para preservar conteúdo valioso. Assim seu valor é mais reconhecido.
- “Um mundo que nunca esquece nem perdoa” é uma questão separada, principalmente ligada à privacidade.
  A lógica de que “conteúdo valioso deve exigir esforço de preservação para ter seu valor mais reconhecido” parece quase um argumento de que tudo deveria ser caro.
  Algo como: armazenamento barato é ruim porque nos faz não reconhecer o valor dos arquivos, enquanto saúde cara é boa porque nos faz perceber o valor dos órgãos.
  A parte difícil é prever que conteúdo será considerado valioso no futuro. Até hoje nenhuma civilização humana conseguiu resolver isso direito, e em geral elas se concentraram em preservar o quanto seus reis eram grandiosos.
- No dia em que a Apple comprou a NeXT, li em algum lugar da internet um texto muito engraçado.
  Começava com “Filhos do Macintosh, ajoelhem-se diante do Unix…” e mantinha um estilo bíblico do começo ao fim ao explicar por que o Mac havia sido conquistado pela NeXT.
  Era um texto realmente excelente, e às vezes tento encontrá-lo de novo na internet, mas é difícil saber o que desapareceu quando você não sabe que desapareceu.
- Onde você acha que vivemos nos últimos 5 mil anos?
  Temos tábuas de argila em escrita cuneiforme escavadas dos montes de lixo de Ur, e graças a elas restou ao menos o pouco que sabemos sobre a Suméria.
  A invenção da escrita tornou o esquecimento impossível, e antropólogos como Jack Goody, James Carey, David Olson e Barry Powell, além de autores como Walter Ong, estudaram isso profundamente.
  Na prática, vivemos em um mundo terrível, em grande parte preso ao passado, e a complexidade cultural se acumula em camadas como as cascas de uma cebola.
  Qualquer um pode voltar ao passado e sentir nostalgia dele, mas o passado acessado por meio do conhecimento armazenado assume significados diferentes para quem não o viveu diretamente.
  Desde a prensa, vivemos em uma inflação de informação contínua. Estudiosos medievais reclamavam que, por causa da prensa, qualquer um podia ler e escrever livros; escolásticos ficaram chocados com a ascensão das línguas vernáculas; e Michelangelo reclamava da arte vazia dos pintores flamengos.
  O ponto importante aqui é a velocidade com que a deterioração acontece. O texto diz que 38% dos sites que existiam em 2013 desapareceram, e isso em apenas 10 anos.
  Não sabemos quanto disso era ruído e quanto era informação útil, ou pelo menos conteúdo interessante, porque já desapareceu.
  Também não sabemos quanto os grandes scrapers da web armazenaram, nem quanto o Google ou o Twitter guardam.
  Como definir conteúdo valioso? Seria um tweet com 1 milhão de visualizações contendo apenas uma foto de uma atriz seminua, ou um tweet sobre uma descoberta importante com 300 visualizações?
  Quando a internet derrubou os gatekeepers que eram os editores de jornais, livros, revistas, TV e rádio, ficamos infinitamente felizes, mas o resultado foi sermos inundados por ruído, teorias da conspiração, memes, TikTok e afins.
  O problema é que mal conseguimos lidar com a enorme quantidade de informação que cai sobre nós, há gente demais e gostos diferentes demais para chegarmos a um consenso sobre o que tem valor e o que não tem.
  A “funcionalidade” de que você falou pode até ser intencional, mas isso não significa que seja útil ou moralmente correta.

38% das páginas da web que existiam em 2013 ficaram inacessíveis 10 anos depois

Páginas da web que desapareceram em 10 anos

Critérios usados para definir inacessibilidade

Amostra de páginas da web com base no Common Crawl

Links quebrados em sites do governo

Links quebrados em sites de notícias

Links de referências na Wikipedia

O desaparecimento de postagens no X/Twitter

Características dos tweets que desapareceram com mais frequência

A velocidade com que os tweets desaparecem e reaparecem

Leituras relacionadas

1 comentários

Opiniões no Hacker News