37 pontos por xguru 2023-12-04 | 6 comentários | Compartilhar no WhatsApp
  • Converte PDF, EPUB e MOBI em Markdown
  • Mais de 10 vezes mais rápido e com conversão mais precisa do que o Nougat, criado pela Facebook Research
  • Otimizado para formatos de livros e artigos acadêmicos
  • Remove cabeçalhos, rodapés e outros artefatos
  • Converte a maioria das fórmulas para LaTeX
  • Formata blocos de código e tabelas
  • Suporte multilíngue

6 comentários

 
bus710 2023-12-05

Nossa....
Tempos difíceis estão chegando para as editoras do mercado de língua inglesa.
Algumas editoras mais focadas em tecnologia até chegam a entregar o arquivo PDF junto na compra do livro, então fico curioso para ver como vão lidar com isso.

 
hero512 2023-12-04

O PDF precisa estar com OCR feito?? Vou testar agora mesmo

 
limc132 2023-12-04

Pelo que vi só pelo README, parece que ele também faz o trabalho de OCR... posso ter lido errado...

 
hero512 2023-12-04

Sim... usaram uma expressão meio difícil para quem não manja de inglês
Extract text, OCR if necessary??

 
say8425 2023-12-04

> This works best on digital PDFs that won't require a lot of OCR. It's optimized for speed, and limited OCR is used to fix errors.

Como o foco é velocidade, a chance de não servir bem para PDFs que exigem muito OCR é alta.
Dá para fazer OCR, mas a ideia é entender como “funciona, porém sem garantia”.

> Only languages similar to English (Spanish, French, German, Russian, etc) are supported. Languages with different character sets (Chinese, Japanese, Korean, etc) are not.

Além disso, CJK não é suportado.

 
hero512 2023-12-04

Obrigado!