1 pontos por GN⁺ 2024-05-20 | 1 comentários | Compartilhar no WhatsApp
  • A vastidão da internet e o desaparecimento de conteúdo

    • A internet, com suas dezenas de bilhões de páginas, é um vasto repositório da vida moderna.
    • No entanto, o conteúdo do qual os usuários dependem às vezes desaparece.
    • Uma nova análise do Pew Research Center mostra que o conteúdo online é altamente efêmero.
      • Um quarto de todas as páginas da web que existiram entre 2013 e 2023 já não estava mais acessível em outubro de 2023.
      • Isso ocorre principalmente porque páginas específicas foram apagadas ou removidas.
  • A ocorrência da deterioração digital

    • Foram analisados sites do governo, sites de notícias e a seção de "referências" de páginas da Wikipedia.
      • 23% das páginas de notícias contêm pelo menos um link quebrado.
      • 21% dos sites governamentais contêm pelo menos um link quebrado.
      • 54% das páginas da Wikipedia incluem links para páginas que já não existem mais.
  • Deterioração digital nas redes sociais

    • Durante a primavera de 2023, foi coletada uma amostra em tempo real de tuítes na plataforma social X (então chamada Twitter) e acompanhada por 3 meses.
      • Cerca de um quinto dos tuítes já não estava mais visível publicamente alguns meses após a publicação.
      • Em 60% desses casos, a conta que publicou o tuíte original tornou-se privada, foi suspensa ou foi completamente deletada.
      • Nos 40% restantes, a conta continuava existindo, mas o tuíte individual havia sido apagado.
  • Links privados e definição de página da web

    • Há várias formas de definir páginas que existiram na internet, mas hoje não estão acessíveis.
      • A página já não existe mais no servidor de hospedagem, ou o próprio servidor deixou de existir.
      • O endereço da página ainda existe, mas o conteúdo mudou.
      • A página existe, mas é difícil de ler para determinados usuários (por exemplo, pessoas com deficiência visual).
    • Este relatório foca na primeira definição: páginas que já não existem mais.
  • Páginas da web na última década

    • Foi coletada uma amostra aleatória de cerca de 1 milhão de páginas da web do arquivo Common Crawl.
      • 25% de todas as páginas coletadas entre 2013 e 2023 já não estavam mais acessíveis em outubro de 2023.
      • 38% das páginas coletadas em 2013 já não estavam mais acessíveis em 2023.
  • Links em sites do governo

    • Foram amostradas cerca de 500 mil páginas de sites governamentais coletadas em março/abril de 2023.
      • 86% das páginas incluem links internos, e 6% deles já não estavam mais acessíveis.
      • No total, 21% das páginas governamentais analisadas contêm pelo menos um link quebrado.
  • Links em sites de notícias

    • Foram amostradas cerca de 500 mil páginas de sites de notícias coletadas em março/abril de 2023.
      • 94% dos sites de notícias incluem pelo menos um link externo, e 23% das páginas contêm pelo menos um link quebrado.
  • Links de referência na Wikipedia

    • Foram amostradas aleatoriamente 50.000 páginas da Wikipedia em inglês.
      • 82% das páginas coletadas incluem pelo menos um link de referência, e 11% desses links já não estavam mais acessíveis.
  • Postagens no Twitter

    • Em 2023, durante a primavera, foram coletados 5 milhões de tuítes e acompanhados por 3 meses.
      • 18% dos tuítes coletados já não estavam mais visíveis publicamente ao fim do período de acompanhamento.
      • Entre os tuítes apagados, 60% correspondiam a contas que se tornaram privadas, foram suspensas ou deletadas.
      • 1% dos tuítes é apagado em até uma hora, 3% em até um dia, 10% em até uma semana e 15% em até um mês.
  • Análise de sobrevivência dos tuítes

    • Metade dos tuítes que desaparecem some nos primeiros 6 dias após a publicação.
    • 90% dos tuítes tornam-se inacessíveis em até 46 dias após a publicação.
    • 6% dos tuítes que foram apagados voltam a ficar públicos mais tarde.

1 comentários

 
GN⁺ 2024-05-20
Opiniões no Hacker News

Resumo dos comentários do Hacker News

  • Problemas das páginas no Facebook

    • Muitas organizações e empresas usam apenas páginas no Facebook e acabam não tendo nenhuma outra presença na web. É obrigatório ter uma conta no Facebook.
  • Esforços de arquivamento

    • Sites como CNN e BBC fazem esforços para arquivar conteúdo antigo. Exemplo: cobertura dos ataques de 11 de setembro.
  • Apoio ao Internet Archive

    • É necessário doar para o Internet Archive (archive.org) para apoiar a preservação de conteúdo antigo. Também é recomendável manter cópias locais de conteúdo importante.
  • Experiência operando um site de notícias

    • Desde 2019, uma pessoa opera um site de notícias e, a cada hora, usa um crawler para encontrar links mortos e substituí-los por links arquivados. No dia seguinte às eleições, é comum que os sites de candidatos desapareçam.
  • Gráfico da vida útil de sites

    • É provável que muitos sites tenham desaparecido desde 2013. O desaparecimento de sites comunitários, especialmente como Angelfire e Geocities, teve grande impacto. Seria interessante representar a vida útil dos sites em um gráfico.
  • Problemas de sites antigos

    • Alguém voltou a ver seu primeiro site .com, hospedado no Angelfire nos anos 90. Na época parecia aceitável, mas pelos padrões atuais há muito conteúdo inadequado.
  • Caráter efêmero da internet

    • É preciso aceitar a natureza inerentemente efêmera da internet. Se quiser arquivar algo, é melhor criar cópias offline. O formato PDF/A é adequado para arquivamento.
  • Problema de SEO

    • Grande parte da web atual está cheia de spam de SEO.
  • Problema de links quebrados

    • É um grande problema da internet: muitas vezes o conteúdo ainda existe, mas o link está quebrado. Um sistema em duas etapas, como o DOI das bibliotecas, pode ajudar.
  • Importância do esquecimento e do perdão

    • Um mundo em que tudo permanece para sempre seria terrível. É necessário fazer esforços para preservar conteúdo valioso, e por isso esse valor é ainda mais apreciado.