Marker - Open source para converter PDF em Markdown
(github.com/VikParuchuri)- Converte PDF, EPUB e MOBI em Markdown
- Mais de 10 vezes mais rápido e com conversão mais precisa do que o Nougat, criado pela Facebook Research
- Otimizado para formatos de livros e artigos acadêmicos
- Remove cabeçalhos, rodapés e outros artefatos
- Converte a maioria das fórmulas para LaTeX
- Formata blocos de código e tabelas
- Suporte multilíngue
6 comentários
Nossa....
Tempos difíceis estão chegando para as editoras do mercado de língua inglesa.
Algumas editoras mais focadas em tecnologia até chegam a entregar o arquivo PDF junto na compra do livro, então fico curioso para ver como vão lidar com isso.
O PDF precisa estar com OCR feito?? Vou testar agora mesmo
Pelo que vi só pelo README, parece que ele também faz o trabalho de OCR... posso ter lido errado...
Sim... usaram uma expressão meio difícil para quem não manja de inglês
Extract text, OCR if necessary??
> This works best on digital PDFs that won't require a lot of OCR. It's optimized for speed, and limited OCR is used to fix errors.
Como o foco é velocidade, a chance de não servir bem para PDFs que exigem muito OCR é alta.
Dá para fazer OCR, mas a ideia é entender como “funciona, porém sem garantia”.
> Only languages similar to English (Spanish, French, German, Russian, etc) are supported. Languages with different character sets (Chinese, Japanese, Korean, etc) are not.
Além disso, CJK não é suportado.
Obrigado!