- Ferramenta de código aberto que converte documentos PDF e JPG/PNG em texto simples, preservando a ordem natural de leitura
- Projetada para processar grandes volumes de documentos rapidamente, com suporte a tabelas, fórmulas e texto manuscrito
- Treinada com base em artigos acadêmicos, documentação técnica e outros materiais de referência
- Usa uma técnica exclusiva de prompting para aumentar a precisão e reduzir alucinações (hallucinations)
- O modelo atual é otimizado para documentos em inglês, e há grande chance de que outros idiomas não sejam devidamente suportados
- É possível testar documentos diretamente na página de demonstração
- O custo para converter 1 milhão de páginas é de aproximadamente US$ 190, permitindo uma operação econômica
- Requer GPU NVIDIA recente (testado com RTX 4090, L40S, A100, H100)
- Teste online (PDF, JPG, PNG)
Códigos incluídos no toolkit de código aberto
- Estratégia de prompting baseada em ChatGPT 4o (
buildsilver.py) : inclui técnicas para maximizar o desempenho de parsing de texto natural
- Ferramenta de avaliação comparativa de pipelines (
runeval.py)
- Função de filtragem de idioma e remoção de spam de SEO (
filter.py)
- Código de fine-tuning para Qwen2-VL e Molmo-O (
train.py)
- Pipeline para processar grandes volumes de PDFs (
pipeline.py) : pode processar milhões de PDFs usando Sglang
- Visualizador de documentos Dolma (
dolmaviewer.py) : permite verificar visualmente documentos no formato Dolma convertidos a partir de PDFs
2 comentários
No momento, parece que não roda no Windows...
Parece que as bibliotecas que funcionam sem GPU ainda vão ser úteis por enquanto.