- Com base na série Qwen2.5-VL lançada em janeiro, o modelo foi otimizado por meio de aprendizado por reforço, e o novo modelo VL Qwen2.5-VL-32B-Instruct, com 32B parâmetros, foi aberto como open source sob a licença Apache 2.0
- Em comparação com o modelo anterior, este modelo VL de 32B tem as seguintes características:
- Respostas mais alinhadas às preferências humanas: o estilo de saída foi ajustado para fornecer respostas mais detalhadas e bem organizadas.
- Raciocínio matemático: a precisão na resolução de problemas matemáticos complexos melhorou significativamente.
- Compreensão e raciocínio detalhados sobre imagens: a precisão e a análise detalhada foram reforçadas em tarefas como parsing de imagens, reconhecimento de conteúdo e raciocínio lógico visual.
Desempenho
- Em benchmarking amplo com modelos recentes da mesma categoria, o Qwen2.5-VL-32B-Instruct supera modelos de referência como Mistral-Small-3.1-24B e Gemma-3-27B-IT, além de também apresentar resultados melhores que o maior Qwen2-VL-72B-Instruct.
- Em especial, apresenta vantagens significativas em tarefas multimodais complexas e de múltiplas etapas que exigem raciocínio, como MMMU, MMMU-Pro e MathVista.
- No MM-MT-Bench, que enfatiza avaliações subjetivas da experiência do usuário, mostrou desempenho claramente superior ao Qwen2-VL-72B-Instruct.
- Além das capacidades visuais, também alcança desempenho de alto nível em capacidades puramente textuais dentro da mesma escala.
1 comentários
Opiniões do Hacker News
uv, sem necessidade de instalar bibliotecas