18 pontos por computerphilosopher 2025-09-20 | 5 comentários | Compartilhar no WhatsApp
  • PDF ainda é o formato de documento predominante → mas há limitações para desempenho de busca com LLM
  • Experimento de conversão de PDF→Markdown com o open source markitdown da Microsoft
  • Limitações como fórmulas e layout quebrados, com legibilidade melhorada via correção por LLM
  • Adequado para PDFs de coluna única e centrados em texto; documentos complexos têm restrições

5 comentários

 
ahwjdekf 2025-09-23

No RAG, esse documento PDF também sempre causa problemas.

 
ahwjdekf 2025-09-22

O pior formato: PDF

 
kbumsik 2025-09-22

O markitdown é prático para converter entre formatos, mas com PDF não dá para usar de jeito nenhum.

Já existem muitos métodos de extração de documentos usando LLMs multimodais como o Gemini, e nos benchmarks eles também têm um desempenho bem bom. O problema é o custo.

Algo como o docling também é bom.

 
kaydash 2025-09-22

O docling também é bom

 
lamanus 2025-09-21

O markitdown usa isto para fazer o parsing de PDF: https://github.com/pdfminer/pdfminer.six, e extrai diretamente do arquivo o texto ou as imagens incorporadas. Falar em OCR já até dá tontura...