1 pontos por GN⁺ 2024-02-14 | 1 comentários | Compartilhar no WhatsApp

Tentativa de abrir o arquivo da proposta original da WWW

  • No site do W3C, existe a proposta original da WWW escrita por Tim Berners-Lee.
  • O arquivo original da proposta é um arquivo do Word para Macintosh 4.0, provavelmente criado em 1990.
  • O documento original tem 68.608 bytes e, ao verificar o tipo do arquivo no Mac, ele aparece como um arquivo Microsoft Word for Macintosh 4.0.

Tentativas de abrir com vários softwares

  • Microsoft Word: o arquivo original foi enviado para o OneDrive e aberto no Microsoft Word com a extensão .doc.
  • Apple Pages: não consegue interpretar arquivos antigos do Microsoft Word for Macintosh.
  • Apache OpenOffice: consegue abrir o arquivo, mas a formatação desaparece e os diagramas somem.
  • LibreOffice: abre o arquivo e os diagramas também aparecem com nitidez, mas há problemas de margens e de outras formatações.

Comparação entre o PDF do CERN e o PDF gerado pelo LibreOffice

  • O PDF fornecido pelo CERN foi gerado em 1998 e tem 20 páginas.
  • A versão importada pelo LibreOffice tem 24 páginas.
  • Ao comparar os dois PDFs, há diferenças em margens, tamanho da fonte, cabeçalhos e rodapés, divisão de páginas e outros aspectos.

Verificação do documento original por emulação

  • Ao emular um Macintosh dos anos 1990 e executar o Word for Macintosh 4.0 real, foi possível verificar a aparência do documento original.
  • O documento original e o PDF do CERN são bastante diferentes, e o documento original aparece com 22 páginas em papel A4.

Conclusão

  • Converter o documento original com software moderno é ao mesmo tempo uma vitória do software de código aberto e uma demonstração das dificuldades de preservação documental.
  • Para preservar o documento, uma versão .odt foi enviada ao GitHub.
  • É um pouco decepcionante que um documento de 34 anos ainda seja difícil de abrir e que, mesmo quando aberto, não fique exatamente igual ao original.

Opinião do GN⁺

  • Este post de blog destaca a importância da preservação digital e da acessibilidade do documento original da proposta da WWW.
  • Mostra o papel importante que o software de código aberto pode desempenhar ao lidar com formatos de documentos antigos.
  • Também serve para compreender as dificuldades da preservação documental e reconhecer a importância de considerar compatibilidade e acessibilidade de longo prazo à medida que a tecnologia evolui.

1 comentários

 
GN⁺ 2024-02-14
Comentários do Hacker News
  • Compartilhamento do documento convertido para um formato moderno do Word

    • Foi compartilhado um documento convertido para um formato moderno do Word, com toda a arte vetorial e as fontes preservadas.
    • Para converter o documento, ele foi primeiro aberto e salvo novamente usando o Word 98 rodando em um Power Mac emulado com QEMU.
    • No entanto, as imagens estavam ausentes, e o Word alegava não ter memória nem espaço em disco suficientes para exibi-las ou imprimi-las.
    • Para restaurar as imagens, foi feito um PDF a partir da impressão no Acrobat dentro do Word 98, e depois cada imagem foi extraída como um PDF separado usando o Adobe Illustrator.
    • Excluir as imagens originais e restaurá-las arrastando e soltando os PDFs substitutos no Finder foi uma tarefa simples.
    • Para comparação, foram compartilhados o PDF gerado no Power Mac com o Word 98 e o PDF gerado por uma versão moderna do Word rodando no macOS Sonoma.
  • Verificação de fontes e layout

    • É preciso ter as fontes originais para verificar como o documento deveria aparecer.
    • O Word 4.0 tinha arquivos de fonte separados para tela e impressora, para diferentes resoluções de saída.
    • Se a fonte da impressora estivesse ausente, ele imprimia uma renderização escalada da fonte de tela; se a fonte de tela estivesse ausente, ela era substituída por uma fonte do sistema.
    • Neste caso, eram necessárias as conhecidas fontes Palatino e Courier, mas o LibreOffice substituiu por Times New Roman mesmo com Palatino Linotype instalada.
  • Utilidade do comando file

    • O comando file é muito útil para matar a curiosidade sobre arquivos e fornecer informações úteis.
  • Excelente suporte do LibreOffice a formatos antigos de documentos

    • O LibreOffice oferece suporte muito bom a formatos antigos de arquivos de documentos, por isso foi usado para isso.
    • Também foi divertido usar os emuladores BasiliskII e InfiniteMac.
  • Compatibilidade retroativa do Microsoft Word

    • O arquivo abre quase totalmente bem na versão Windows do Word, e o layout é igual ao PDF do artigo.
    • Não foi possível abrir as imagens por falta do filtro gráfico, mas há expectativa de que isso funcione no Word 2003.
  • Recursos surpreendentes do LibreOffice

    • O LibreOffice não só consegue abrir vários formatos de documento, como também permite automatizar tarefas por meio de opções de linha de comando.
  • Impressão de documentos em emuladores

    • Em um emulador rodando Mac 4.0, é possível instalar uma fila de impressão que gera arquivos .ps (Postscript), que depois podem ser convertidos em PDF.
  • Decepção com a compatibilidade de documentos do Microsoft Word

    • Há a opinião de que a Microsoft deveria assumir a responsabilidade de fazer o Microsoft Word abrir documentos criados em qualquer versão do Word.
    • Se houver preocupação com vulnerabilidades, ela deveria oferecer um recurso que executasse isso em um sandbox isolado em um processo externo e convertesse para uma versão mais nova.
  • Possíveis problemas de backups com retenção infinita

    • Algumas empresas têm backups com retenção infinita, o que gera o problema de não entender a diferença entre algo “legível” e algo “utilizável”.
  • Uso de Macs antigos e Word

    • Há um Mac SE/30 com System 7.1 e Word 5 instalado; se enviarem o documento, é possível ajudar a atualizá-lo para o Office 2001.