- Comparação no benchmark Omni OCR, que analisa o desempenho de OCR, incluindo modelos lançados recentemente como Qwen 2.5 VL (72B, 32B), Gemma-3-27B, DeepSeek-v3-0324 e mistral-ocr
- Os modelos Qwen 2.5 VL 72B/32B registraram a maior precisão
- Ambos mostraram desempenho no nível do GPT-4o, com cerca de 75% de precisão
- O Qwen 72B registrou 0,4% a mais de precisão que o 32B, um desempenho praticamente similar dentro da margem de erro
- Os dois modelos Qwen superaram o desempenho do mistral-ocr (72,2%)
- Apesar de o mistral-ocr ter sido treinado com foco em OCR, ficou atrás do Qwen
- O modelo Gemma-3 (27B) teve baixa precisão, de 42,9%
- Foi um resultado um tanto inesperado, já que ele é baseado na arquitetura Gemini 2.0, mas apresentou desempenho baixo
Omni OCR Benchmark
- Ferramenta de benchmarking para comparar capacidades de OCR e extração de dados, avaliando a precisão da extração de texto e JSON de grandes modelos multimodais como o GPT-4o
- O objetivo deste benchmark é publicar uma avaliação abrangente da precisão de OCR entre provedores tradicionais de OCR e modelos de linguagem multimodais em geral
- Tanto o dataset de avaliação quanto a metodologia são oferecidos como open source, e é incentivada a expansão deste benchmark para incluir provedores adicionais
1 comentários
Opiniões no Hacker News
"Qwen2.5-VL-32b-Instruct -8bit"pelo LM Studio e pretendo usá-la em um projeto paralelo de OCR