Marker - Open source para converter PDF em Markdown

xguru · 2023-12-04T10:04:01+09:00

Converte PDF, EPUB e MOBI em Markdown Mais de 10 vezes mais rápido e com conversão mais precisa do que o Nougat, criado pela Facebook Research Otimizado para formatos de livros e artigos acadêmicos Remove cabeçalhos, rodapés e outros artefatos Converte a maioria das fórmulas para LaTeX Formata blocos de código e tabelas Suporte multilíngue

(github.com/VikParuchuri)

37 pontos por xguru 2023-12-04 | 6 comentários | Compartilhar no WhatsApp

Converte PDF, EPUB e MOBI em Markdown
Mais de 10 vezes mais rápido e com conversão mais precisa do que o Nougat, criado pela Facebook Research
Otimizado para formatos de livros e artigos acadêmicos
Remove cabeçalhos, rodapés e outros artefatos
Converte a maioria das fórmulas para LaTeX
Formata blocos de código e tabelas
Suporte multilíngue

6 comentários

bus710 2023-12-05

Nossa....
Tempos difíceis estão chegando para as editoras do mercado de língua inglesa.
Algumas editoras mais focadas em tecnologia até chegam a entregar o arquivo PDF junto na compra do livro, então fico curioso para ver como vão lidar com isso.

hero512 2023-12-04

O PDF precisa estar com OCR feito?? Vou testar agora mesmo

limc132 2023-12-04

Pelo que vi só pelo README, parece que ele também faz o trabalho de OCR... posso ter lido errado...

hero512 2023-12-04

Sim... usaram uma expressão meio difícil para quem não manja de inglês
Extract text, OCR if necessary??

say8425 2023-12-04

This works best on digital PDFs that won't require a lot of OCR. It's optimized for speed, and limited OCR is used to fix errors.

Como o foco é velocidade, a chance de não servir bem para PDFs que exigem muito OCR é alta.
Dá para fazer OCR, mas a ideia é entender como “funciona, porém sem garantia”.

Only languages similar to English (Spanish, French, German, Russian, etc) are supported. Languages with different character sets (Chinese, Japanese, Korean, etc) are not.

Além disso, CJK não é suportado.

hero512 2023-12-04

Obrigado!

Marker - Open source para converter PDF em Markdown

Leituras relacionadas

6 comentários