13 pontos por xguru 2021-03-12 | 1 comentários | Compartilhar no WhatsApp
  • Projeto open source que extrai dados de tabelas de PDFs ou imagens e os transforma em CSV

  • Código em Python + OpenCV + Tesseract

  • As imagens dentro de PDFs podem ser extraídas individualmente como arquivos de imagem com Poppler + ImageMagick e processadas de uma vez só (script em lote)

1 comentários

 
xguru 2021-03-12

Quando a tabela contém apenas números, o código abaixo parece ser mais prático porque consegue até selecionar as áreas e extrair os dados.

image2csv - open source para converter imagens de tabelas numéricas em CSV

https://github.com/artperrin/image2csv

  • código em Python + OpenCV + Tesseract

  • reconhecimento automático de grade (tabela)

  • na detecção manual, seleção de área com o mouse no Windows