8 pontos por GN⁺ 2025-04-04 | 1 comentários | Compartilhar no WhatsApp
  • Comparação no benchmark Omni OCR, que analisa o desempenho de OCR, incluindo modelos lançados recentemente como Qwen 2.5 VL (72B, 32B), Gemma-3-27B, DeepSeek-v3-0324 e mistral-ocr
  • Os modelos Qwen 2.5 VL 72B/32B registraram a maior precisão
    • Ambos mostraram desempenho no nível do GPT-4o, com cerca de 75% de precisão
    • O Qwen 72B registrou 0,4% a mais de precisão que o 32B, um desempenho praticamente similar dentro da margem de erro
  • Os dois modelos Qwen superaram o desempenho do mistral-ocr (72,2%)
    • Apesar de o mistral-ocr ter sido treinado com foco em OCR, ficou atrás do Qwen
  • O modelo Gemma-3 (27B) teve baixa precisão, de 42,9%
    • Foi um resultado um tanto inesperado, já que ele é baseado na arquitetura Gemini 2.0, mas apresentou desempenho baixo

Omni OCR Benchmark

  • Ferramenta de benchmarking para comparar capacidades de OCR e extração de dados, avaliando a precisão da extração de texto e JSON de grandes modelos multimodais como o GPT-4o
  • O objetivo deste benchmark é publicar uma avaliação abrangente da precisão de OCR entre provedores tradicionais de OCR e modelos de linguagem multimodais em geral
  • Tanto o dataset de avaliação quanto a metodologia são oferecidos como open source, e é incentivada a expansão deste benchmark para incluir provedores adicionais

1 comentários

 
GN⁺ 2025-04-04
Opiniões no Hacker News
  • O 32b tem uma saída mais amigável para humanos, faz melhor raciocínio matemático, e o pequeno ajuste para ajudar na compreensão detalhada parece útil
  • O Qwen2.5-VL-72b foi lançado há dois meses, e houve comentários entusiasmados sobre reconhecimento de escrita à mão
    • Foi um lançamento interessante que ajudou a superar o ceticismo e a frustração com IA
    • As notas de lançamento estão bem organizadas, e o post do blog também é excelente
  • A saída em HTML do Qwen foi interessante
    • Ele fornece caixas delimitadoras em formato HTML, permitindo criar feedback visual rapidamente ou usar dados estruturados com facilidade
    • O OCR tradicional tem uma grande vantagem sobre LLMs quando se trata de fornecer coordenadas de caixas delimitadoras
  • Até atingir mais de 95% de precisão, é necessária dupla verificação e correção humanas, e sem caixas delimitadoras isso é irrealista
  • Estou baixando a versão MLX de "Qwen2.5-VL-32b-Instruct -8bit" pelo LM Studio e pretendo usá-la em um projeto paralelo de OCR
  • Gostaria de saber se poderiam compartilhar os resultados caso tenham medido custo e latência além da precisão
  • Continuo impressionado com a capacidade de OCR do Gemini, e o Qwen está evoluindo rapidamente
  • Comparo vários modelos para realizar tarefas, e o modelo mais recente do Qwen é muito mais estável do que antes e mais fácil de ajustar finamente
  • O desempenho de OCR da OpenAI não melhora há muito tempo, o que é estranho e irritante
  • O Qwen 2.5 VL 72b supera o Gemini em visão geral e pode ser executado localmente
  • Estou experimentando com APIs de OCR no macOS e gostaria de compará-las com esses LLMs
  • O Tesseract pode alcançar 99% de precisão em tudo, exceto escrita à mão
  • Gostaria de saber se há alguma vantagem em usar LLMs
  • Fiquei muito impressionado com os resultados de teste do Qwen e acho que as pessoas estão subestimando isso
  • Gostaria de saber como configuram a interface de LLM para processar vários arquivos com um único prompt
  • Excelente trabalho do Tyler e da equipe