25 pontos por xguru 2025-03-03 | 2 comentários | Compartilhar no WhatsApp
  • Ferramenta de código aberto que converte documentos PDF e JPG/PNG em texto simples, preservando a ordem natural de leitura
  • Projetada para processar grandes volumes de documentos rapidamente, com suporte a tabelas, fórmulas e texto manuscrito
  • Treinada com base em artigos acadêmicos, documentação técnica e outros materiais de referência
  • Usa uma técnica exclusiva de prompting para aumentar a precisão e reduzir alucinações (hallucinations)
  • O modelo atual é otimizado para documentos em inglês, e há grande chance de que outros idiomas não sejam devidamente suportados
  • É possível testar documentos diretamente na página de demonstração
  • O custo para converter 1 milhão de páginas é de aproximadamente US$ 190, permitindo uma operação econômica
  • Requer GPU NVIDIA recente (testado com RTX 4090, L40S, A100, H100)
  • Teste online (PDF, JPG, PNG)

Códigos incluídos no toolkit de código aberto

  • Estratégia de prompting baseada em ChatGPT 4o (buildsilver.py) : inclui técnicas para maximizar o desempenho de parsing de texto natural
  • Ferramenta de avaliação comparativa de pipelines (runeval.py)
  • Função de filtragem de idioma e remoção de spam de SEO (filter.py)
  • Código de fine-tuning para Qwen2-VL e Molmo-O (train.py)
  • Pipeline para processar grandes volumes de PDFs (pipeline.py) : pode processar milhões de PDFs usando Sglang
  • Visualizador de documentos Dolma (dolmaviewer.py) : permite verificar visualmente documentos no formato Dolma convertidos a partir de PDFs

2 comentários

 
kleinstein 2025-03-06

No momento, parece que não roda no Windows...

 
kaydash 2025-03-03

Parece que as bibliotecas que funcionam sem GPU ainda vão ser úteis por enquanto.