2 pontos por GN⁺ 2023-09-05 | 1 comentários | Compartilhar no WhatsApp
  • Guia para editar o conteúdo de texto de PDFs: sem ferramentas comerciais como o Adobe Acrobat
  • Guia principal para usuários de Mac: com menção a ferramentas que também podem ser usadas na maioria das distribuições Linux
  • Armazenamento comprimido de dados de texto em PDFs: descompressão com a ferramenta de linha de comando qpdf
  • Verificação dos dados de texto após a descompressão: visualização em um editor de texto, com a codificação e a vinculação a fontes específicas
  • A complexidade da codificação de texto em PDFs: várias codificações possíveis, incluindo codificações personalizadas embutidas no próprio arquivo
  • Extração de informações de codificação: uso da ferramenta de linha de comando pdffonts
  • Exemplo de como identificar a fonte relacionada à codificação embutida e encontrar a tabela de codificação embutida dessa fonte
  • Tabela de codificação: mapeia pontos de codificação personalizados para pontos Unicode
  • Conversão da tabela com Python: transformar a tabela em um dicionário e escrever funções de codificação e decodificação
  • Substituição do texto original com essas funções: é possível trocar o texto original por texto de substituição codificado de forma personalizada

1 comentários

 
GN⁺ 2023-09-05
Comentários do Hacker News
  • A especificação do PDF é complexa e oferece suporte a vários recursos, incluindo modos de mesclagem de camadas do Photoshop e conteúdos adicionais que modificam conteúdos anteriores.
  • O PDF inclui criptografia baseada em senha com senhas diferentes de "proprietário" e "usuário", além de opções para impedir impressão ou cópia de texto.
  • Apesar de sua natureza complexa, o PDF não é um formato binário intocável, mas sim um grafo de objetos de vários tipos, bem descrito na especificação oficial.
  • Ferramentas como mutool podem ser usadas para converter um PDF em uma versão sem dados compactados, facilitando sua compreensão e modificação.
  • O PDF oferece suporte a diversos recursos, como objetos 3D, JavaScript, filmes de objetos Flash incorporados, anotações invisíveis e widgets que usam um subconjunto de XHTML e CSS.
  • No entanto, o PDF é principalmente um formato de descrição de páginas e representa a estrutura do documento, não a exibição da página. Portanto, recomenda-se editar o documento a partir do qual o PDF foi gerado.
  • Como o objetivo principal do PDF é exibir ou imprimir o conteúdo com fidelidade, ele se parece mais com um formato de imagem que ocupa menos bytes do que uma imagem real.
  • Ferramentas como qpdf e RUPS podem ser usadas para entender e modificar a estrutura de um PDF.
  • O Firefox oferece uma maneira fácil de assinar PDFs.
  • A especificação do PDF é vasta e complexa, e mesmo após anos de estudo, pode parecer que você mal arranhou a superfície.