Convertendo PDF em Markdown com markitdown e LLM

computerphilosopher · 2025-09-20T18:57:27+09:00

PDF ainda é o formato de documento predominante → mas há limitações para desempenho de busca com LLM Experimento de conversão de PDF→Markdown com o open source markitdown da Microsoft Limitações como fórmulas e layout quebrados, com legibilidade melhorada via correção por LLM Adequado para PDFs de coluna única e centrados em texto; documentos complexos têm restrições

(velog.io)

18 pontos por computerphilosopher 2025-09-20 | 5 comentários | Compartilhar no WhatsApp

PDF ainda é o formato de documento predominante → mas há limitações para desempenho de busca com LLM
Experimento de conversão de PDF→Markdown com o open source markitdown da Microsoft
Limitações como fórmulas e layout quebrados, com legibilidade melhorada via correção por LLM
Adequado para PDFs de coluna única e centrados em texto; documentos complexos têm restrições

5 comentários

ahwjdekf 2025-09-23

No RAG, esse documento PDF também sempre causa problemas.

ahwjdekf 2025-09-22

O pior formato: PDF

kbumsik 2025-09-22

O markitdown é prático para converter entre formatos, mas com PDF não dá para usar de jeito nenhum.

Já existem muitos métodos de extração de documentos usando LLMs multimodais como o Gemini, e nos benchmarks eles também têm um desempenho bem bom. O problema é o custo.

Algo como o docling também é bom.

kaydash 2025-09-22

O docling também é bom

lamanus 2025-09-21

O markitdown usa isto para fazer o parsing de PDF: https://github.com/pdfminer/pdfminer.six, e extrai diretamente do arquivo o texto ou as imagens incorporadas. Falar em OCR já até dá tontura...

Convertendo PDF em Markdown com markitdown e LLM

Leituras relacionadas

5 comentários