OlmOCR - Ferramenta de código aberto para extrair texto de PDFs

xguru · 2025-03-03T09:51:15+09:00

Ferramenta de código aberto que converte documentos PDF e JPG/PNG em texto simples, preservando a ordem natural de leitura Projetada para processar grandes volumes de documentos rapidamente, com suporte a tabelas, fórmulas e texto manuscrito Treinada com base em artigos acadêmicos, documentação técnica e outros materiais de referência Usa uma técnica exclusiva de prompting para aumentar a precisão e reduzir alucinações (hallucinations) O modelo atual é otimizado para documentos em inglês, e há grande chance de que outros idiomas não sejam devidamente suportados É possível testar documentos diretamente na página de demonstração O custo para converter 1 milhão de páginas é de aproximadamente US$ 190, permitindo uma operação econômica Requer GPU NVIDIA recente (testado com RTX 4090, L40S, A100, H100) Teste online (PDF, JPG, PNG) Códigos incluídos no toolkit de código aberto Estratégia de prompting baseada em ChatGPT 4o (buildsilver.py) : inclui técnicas para maximizar o desempenho de parsing de texto natural Ferramenta de avaliação comparativa de pipelines (runeval.py) Função de filtragem de idioma e remoção de spam de SEO (filter.py) Código de fine-tuning para Qwen2-VL e Molmo-O (train.py) Pipeline para processar grandes volumes de PDFs (pipeline.py) : pode processar milhões de PDFs usando Sglang Visualizador de documentos Dolma (dolmaviewer.py) : permite verificar visualmente documentos no formato Dolma convertidos a partir de PDFs

(github.com/allenai)

25 pontos por xguru 2025-03-03 | 2 comentários | Compartilhar no WhatsApp

Ferramenta de código aberto que converte documentos PDF e JPG/PNG em texto simples, preservando a ordem natural de leitura
Projetada para processar grandes volumes de documentos rapidamente, com suporte a tabelas, fórmulas e texto manuscrito
Treinada com base em artigos acadêmicos, documentação técnica e outros materiais de referência
Usa uma técnica exclusiva de prompting para aumentar a precisão e reduzir alucinações (hallucinations)
O modelo atual é otimizado para documentos em inglês, e há grande chance de que outros idiomas não sejam devidamente suportados
É possível testar documentos diretamente na página de demonstração
O custo para converter 1 milhão de páginas é de aproximadamente US$ 190, permitindo uma operação econômica
Requer GPU NVIDIA recente (testado com RTX 4090, L40S, A100, H100)
Teste online (PDF, JPG, PNG)

Códigos incluídos no toolkit de código aberto

Estratégia de prompting baseada em ChatGPT 4o (buildsilver.py) : inclui técnicas para maximizar o desempenho de parsing de texto natural
Ferramenta de avaliação comparativa de pipelines (runeval.py)
Função de filtragem de idioma e remoção de spam de SEO (filter.py)
Código de fine-tuning para Qwen2-VL e Molmo-O (train.py)
Pipeline para processar grandes volumes de PDFs (pipeline.py) : pode processar milhões de PDFs usando Sglang
Visualizador de documentos Dolma (dolmaviewer.py) : permite verificar visualmente documentos no formato Dolma convertidos a partir de PDFs

2 comentários

kleinstein 2025-03-06

No momento, parece que não roda no Windows...

kaydash 2025-03-03

Parece que as bibliotecas que funcionam sem GPU ainda vão ser úteis por enquanto.

OlmOCR - Ferramenta de código aberto para extrair texto de PDFs

Códigos incluídos no toolkit de código aberto

Leituras relacionadas

2 comentários