Image-Table-OCR - converte imagens de tabelas em CSV
(github.com)-
Projeto open source que extrai dados de tabelas de PDFs ou imagens e os transforma em CSV
-
Código em Python + OpenCV + Tesseract
-
As imagens dentro de PDFs podem ser extraídas individualmente como arquivos de imagem com Poppler + ImageMagick e processadas de uma vez só (script em lote)
1 comentários
Quando a tabela contém apenas números, o código abaixo parece ser mais prático porque consegue até selecionar as áreas e extrair os dados.
image2csv - open source para converter imagens de tabelas numéricas em CSV
https://github.com/artperrin/image2csv
código em Python + OpenCV + Tesseract
reconhecimento automático de grade (tabela)
na detecção manual, seleção de área com o mouse no Windows