Microsoft MarkItDown - ferramenta em Python para converter arquivos e documentos do Office em Markdown
(github.com/microsoft)- Ferramenta utilitária para converter diversos arquivos em Markdown
- Formatos suportados:
- PDF (.pdf), PowerPoint (.pptx), Word (.docx), Excel (.xlsx)
- Imagens (metadados EXIF e OCR), áudio (metadados EXIF e transcrição de voz)
- HTML (com tratamento especial especialmente para Wikipedia) e vários outros formatos baseados em texto (csv, json, xml etc.)
- O uso da API é simples:
from markitdown import MarkItDown markitdown = MarkItDown() result = markitdown.convert("test.xlsx") print(result.text_content)
2 comentários
Ah, então parece que até dentro da Microsoft estão pensando em transformar isso em open source, né?
Comentários no Hacker News
Se você tiver o
uvinstalado, pode executar em um arquivo com o comandouvx markitdown path-to-file.pdf, sem instalação separadaTenho experiência desenvolvendo, na empresa, funcionalidades para converter arquivos em texto amigável para LLM
Muitas startups e projetos open source tornam essa área mais complicada, mas o objetivo final é um projeto simples, fácil de entender e fácil de implantar
Seria bom se houvesse, no processamento de PDF, um recurso para ajustar "quanto processamento você quer"
Para processamento de PDF, talvez seja melhor integrar o PDFMiner diretamente
É possível usar o Pandoc para converter arquivos .docx para Markdown e outros formatos
Indexei um livro de RPG de mesa em PDF com layout visual complexo e muitas tabelas
Foi inesperado, mas positivo, que não haja menção a LLM no README
Compartilhando uma experiência de quando enviei tarefas pelo Slack em uma aula de idiomas online
Curiosidade sobre a comparação com o docling
Fico me perguntando se existe alguma boa biblioteca para converter de Markdown para PDF ou .docx
Sendo da Microsoft, talvez consiga resultados razoáveis em metade dos casos com HTML do Outlook e .docx