38% das páginas da web que existiam em 2013 não estavam mais acessíveis 10 anos depois
(pewresearch.org)-
A vastidão da internet e o desaparecimento de conteúdo
- A internet, com suas dezenas de bilhões de páginas, é um vasto repositório da vida moderna.
- No entanto, o conteúdo do qual os usuários dependem às vezes desaparece.
- Uma nova análise do Pew Research Center mostra que o conteúdo online é altamente efêmero.
- Um quarto de todas as páginas da web que existiram entre 2013 e 2023 já não estava mais acessível em outubro de 2023.
- Isso ocorre principalmente porque páginas específicas foram apagadas ou removidas.
-
A ocorrência da deterioração digital
- Foram analisados sites do governo, sites de notícias e a seção de "referências" de páginas da Wikipedia.
- 23% das páginas de notícias contêm pelo menos um link quebrado.
- 21% dos sites governamentais contêm pelo menos um link quebrado.
- 54% das páginas da Wikipedia incluem links para páginas que já não existem mais.
- Foram analisados sites do governo, sites de notícias e a seção de "referências" de páginas da Wikipedia.
-
Deterioração digital nas redes sociais
- Durante a primavera de 2023, foi coletada uma amostra em tempo real de tuítes na plataforma social X (então chamada Twitter) e acompanhada por 3 meses.
- Cerca de um quinto dos tuítes já não estava mais visível publicamente alguns meses após a publicação.
- Em 60% desses casos, a conta que publicou o tuíte original tornou-se privada, foi suspensa ou foi completamente deletada.
- Nos 40% restantes, a conta continuava existindo, mas o tuíte individual havia sido apagado.
- Durante a primavera de 2023, foi coletada uma amostra em tempo real de tuítes na plataforma social X (então chamada Twitter) e acompanhada por 3 meses.
-
Links privados e definição de página da web
- Há várias formas de definir páginas que existiram na internet, mas hoje não estão acessíveis.
- A página já não existe mais no servidor de hospedagem, ou o próprio servidor deixou de existir.
- O endereço da página ainda existe, mas o conteúdo mudou.
- A página existe, mas é difícil de ler para determinados usuários (por exemplo, pessoas com deficiência visual).
- Este relatório foca na primeira definição: páginas que já não existem mais.
- Há várias formas de definir páginas que existiram na internet, mas hoje não estão acessíveis.
-
Páginas da web na última década
- Foi coletada uma amostra aleatória de cerca de 1 milhão de páginas da web do arquivo Common Crawl.
- 25% de todas as páginas coletadas entre 2013 e 2023 já não estavam mais acessíveis em outubro de 2023.
- 38% das páginas coletadas em 2013 já não estavam mais acessíveis em 2023.
- Foi coletada uma amostra aleatória de cerca de 1 milhão de páginas da web do arquivo Common Crawl.
-
Links em sites do governo
- Foram amostradas cerca de 500 mil páginas de sites governamentais coletadas em março/abril de 2023.
- 86% das páginas incluem links internos, e 6% deles já não estavam mais acessíveis.
- No total, 21% das páginas governamentais analisadas contêm pelo menos um link quebrado.
- Foram amostradas cerca de 500 mil páginas de sites governamentais coletadas em março/abril de 2023.
-
Links em sites de notícias
- Foram amostradas cerca de 500 mil páginas de sites de notícias coletadas em março/abril de 2023.
- 94% dos sites de notícias incluem pelo menos um link externo, e 23% das páginas contêm pelo menos um link quebrado.
- Foram amostradas cerca de 500 mil páginas de sites de notícias coletadas em março/abril de 2023.
-
Links de referência na Wikipedia
- Foram amostradas aleatoriamente 50.000 páginas da Wikipedia em inglês.
- 82% das páginas coletadas incluem pelo menos um link de referência, e 11% desses links já não estavam mais acessíveis.
- Foram amostradas aleatoriamente 50.000 páginas da Wikipedia em inglês.
-
Postagens no Twitter
- Em 2023, durante a primavera, foram coletados 5 milhões de tuítes e acompanhados por 3 meses.
- 18% dos tuítes coletados já não estavam mais visíveis publicamente ao fim do período de acompanhamento.
- Entre os tuítes apagados, 60% correspondiam a contas que se tornaram privadas, foram suspensas ou deletadas.
- 1% dos tuítes é apagado em até uma hora, 3% em até um dia, 10% em até uma semana e 15% em até um mês.
- Em 2023, durante a primavera, foram coletados 5 milhões de tuítes e acompanhados por 3 meses.
-
Análise de sobrevivência dos tuítes
- Metade dos tuítes que desaparecem some nos primeiros 6 dias após a publicação.
- 90% dos tuítes tornam-se inacessíveis em até 46 dias após a publicação.
- 6% dos tuítes que foram apagados voltam a ficar públicos mais tarde.
1 comentários
Opiniões no Hacker News
Resumo dos comentários do Hacker News
Problemas das páginas no Facebook
Esforços de arquivamento
Apoio ao Internet Archive
Experiência operando um site de notícias
Gráfico da vida útil de sites
Problemas de sites antigos
Caráter efêmero da internet
Problema de SEO
Problema de links quebrados
Importância do esquecimento e do perdão