- PDF ainda é o formato de documento predominante → mas há limitações para desempenho de busca com LLM
- Experimento de conversão de PDF→Markdown com o open source markitdown da Microsoft
- Limitações como fórmulas e layout quebrados, com legibilidade melhorada via correção por LLM
- Adequado para PDFs de coluna única e centrados em texto; documentos complexos têm restrições
5 comentários
No RAG, esse documento PDF também sempre causa problemas.
O pior formato: PDF
O
markitdowné prático para converter entre formatos, mas com PDF não dá para usar de jeito nenhum.Já existem muitos métodos de extração de documentos usando LLMs multimodais como o Gemini, e nos benchmarks eles também têm um desempenho bem bom. O problema é o custo.
Algo como o
doclingtambém é bom.O docling também é bom
O
markitdownusa isto para fazer o parsing de PDF: https://github.com/pdfminer/pdfminer.six, e extrai diretamente do arquivo o texto ou as imagens incorporadas. Falar em OCR já até dá tontura...