Qwen-2.5-32B agora é o melhor modelo OCR open source

(github.com/getomni-ai)

8 pontos por GN⁺ 2025-04-04 | 1 comentários | Compartilhar no WhatsApp

Comparação no benchmark Omni OCR, que analisa o desempenho de OCR, incluindo modelos lançados recentemente como Qwen 2.5 VL (72B, 32B), Gemma-3-27B, DeepSeek-v3-0324 e mistral-ocr
Os modelos Qwen 2.5 VL 72B/32B registraram a maior precisão
- Ambos mostraram desempenho no nível do GPT-4o, com cerca de 75% de precisão
- O Qwen 72B registrou 0,4% a mais de precisão que o 32B, um desempenho praticamente similar dentro da margem de erro
Os dois modelos Qwen superaram o desempenho do mistral-ocr (72,2%)
- Apesar de o mistral-ocr ter sido treinado com foco em OCR, ficou atrás do Qwen
O modelo Gemma-3 (27B) teve baixa precisão, de 42,9%
- Foi um resultado um tanto inesperado, já que ele é baseado na arquitetura Gemini 2.0, mas apresentou desempenho baixo

Omni OCR Benchmark

Ferramenta de benchmarking para comparar capacidades de OCR e extração de dados, avaliando a precisão da extração de texto e JSON de grandes modelos multimodais como o GPT-4o
O objetivo deste benchmark é publicar uma avaliação abrangente da precisão de OCR entre provedores tradicionais de OCR e modelos de linguagem multimodais em geral
Tanto o dataset de avaliação quanto a metodologia são oferecidos como open source, e é incentivada a expansão deste benchmark para incluir provedores adicionais

1 comentários

GN⁺ 2025-04-04

Opiniões no Hacker News

O 32b tem uma saída mais amigável para humanos, faz melhor raciocínio matemático, e o pequeno ajuste para ajudar na compreensão detalhada parece útil
O Qwen2.5-VL-72b foi lançado há dois meses, e houve comentários entusiasmados sobre reconhecimento de escrita à mão
- Foi um lançamento interessante que ajudou a superar o ceticismo e a frustração com IA
- As notas de lançamento estão bem organizadas, e o post do blog também é excelente
A saída em HTML do Qwen foi interessante
- Ele fornece caixas delimitadoras em formato HTML, permitindo criar feedback visual rapidamente ou usar dados estruturados com facilidade
- O OCR tradicional tem uma grande vantagem sobre LLMs quando se trata de fornecer coordenadas de caixas delimitadoras
Até atingir mais de 95% de precisão, é necessária dupla verificação e correção humanas, e sem caixas delimitadoras isso é irrealista
Estou baixando a versão MLX de "Qwen2.5-VL-32b-Instruct -8bit" pelo LM Studio e pretendo usá-la em um projeto paralelo de OCR
Gostaria de saber se poderiam compartilhar os resultados caso tenham medido custo e latência além da precisão
Continuo impressionado com a capacidade de OCR do Gemini, e o Qwen está evoluindo rapidamente
Comparo vários modelos para realizar tarefas, e o modelo mais recente do Qwen é muito mais estável do que antes e mais fácil de ajustar finamente
O desempenho de OCR da OpenAI não melhora há muito tempo, o que é estranho e irritante
O Qwen 2.5 VL 72b supera o Gemini em visão geral e pode ser executado localmente
Estou experimentando com APIs de OCR no macOS e gostaria de compará-las com esses LLMs
O Tesseract pode alcançar 99% de precisão em tudo, exceto escrita à mão
Gostaria de saber se há alguma vantagem em usar LLMs
Fiquei muito impressionado com os resultados de teste do Qwen e acho que as pessoas estão subestimando isso
Gostaria de saber como configuram a interface de LLM para processar vários arquivos com um único prompt
Excelente trabalho do Tyler e da equipe

Qwen-2.5-32B agora é o melhor modelo OCR open source

Omni OCR Benchmark

Leituras relacionadas

1 comentários

Opiniões no Hacker News