PDF2JSON - ferramenta para extrair PDFs em JSON
(github.com)-
Biblioteca open source rápida baseada em XPDF, escrita em C
-
Fornece executáveis para Windows/Mac/Linux
-
Extrai os textos internos do PDF, incluindo fontes, com coordenadas x,y
Biblioteca open source rápida baseada em XPDF, escrita em C
Fornece executáveis para Windows/Mac/Linux
Extrai os textos internos do PDF, incluindo fontes, com coordenadas x,y
1 comentários
Já existe uma versão em JavaScript do
pdf2jsonusandopdf.js, mas esta usa o XPDF.https://github.com/mozilla/pdf.js/
https://github.com/modesty/pdf2json
Para recursos gerais de PDF, você pode usar o Apache PDFBox.
https://pdfbox.apache.org/
O PDFBox é uma biblioteca Java que permite criar PDFs, extrair conteúdo, dividir e mesclar, converter em imagens e muito mais.