6 pontos por xguru 2020-03-04 | 1 comentários | Compartilhar no WhatsApp
  • Biblioteca open source rápida baseada em XPDF, escrita em C

  • Fornece executáveis para Windows/Mac/Linux

  • Extrai os textos internos do PDF, incluindo fontes, com coordenadas x,y

1 comentários

 
xguru 2020-03-04

Já existe uma versão em JavaScript do pdf2json usando pdf.js, mas esta usa o XPDF.

https://github.com/mozilla/pdf.js/

https://github.com/modesty/pdf2json

Para recursos gerais de PDF, você pode usar o Apache PDFBox.

https://pdfbox.apache.org/

O PDFBox é uma biblioteca Java que permite criar PDFs, extrair conteúdo, dividir e mesclar, converter em imagens e muito mais.