Qwen2.5-VL-32B - um modelo mais inteligente e mais leve

(qwenlm.github.io)

5 pontos por GN⁺ 2025-03-25 | 1 comentários | Compartilhar no WhatsApp

Com base na série Qwen2.5-VL lançada em janeiro, o modelo foi otimizado por meio de aprendizado por reforço, e o novo modelo VL Qwen2.5-VL-32B-Instruct, com 32B parâmetros, foi aberto como open source sob a licença Apache 2.0
Em comparação com o modelo anterior, este modelo VL de 32B tem as seguintes características:
- Respostas mais alinhadas às preferências humanas: o estilo de saída foi ajustado para fornecer respostas mais detalhadas e bem organizadas.
- Raciocínio matemático: a precisão na resolução de problemas matemáticos complexos melhorou significativamente.
- Compreensão e raciocínio detalhados sobre imagens: a precisão e a análise detalhada foram reforçadas em tarefas como parsing de imagens, reconhecimento de conteúdo e raciocínio lógico visual.

Desempenho

Em benchmarking amplo com modelos recentes da mesma categoria, o Qwen2.5-VL-32B-Instruct supera modelos de referência como Mistral-Small-3.1-24B e Gemma-3-27B-IT, além de também apresentar resultados melhores que o maior Qwen2-VL-72B-Instruct.
Em especial, apresenta vantagens significativas em tarefas multimodais complexas e de múltiplas etapas que exigem raciocínio, como MMMU, MMMU-Pro e MathVista.
No MM-MT-Bench, que enfatiza avaliações subjetivas da experiência do usuário, mostrou desempenho claramente superior ao Qwen2-VL-72B-Instruct.
Além das capacidades visuais, também alcança desempenho de alto nível em capacidades puramente textuais dentro da mesma escala.

1 comentários

GN⁺ 2025-03-25

Opiniões do Hacker News

É um grande dia para lançamentos de modelos chineses de código aberto. O DeepSeek-v3-0324 foi atualizado e lançado hoje sob licença MIT (antes era uma licença personalizada da DeepSeek)
Usei o Llama Vision 3.2 há alguns meses e fiquei muito decepcionado com a velocidade e a qualidade dos resultados. Procurando alternativas no Hugging Face, encontrei o Qwen. A diferença em precisão e velocidade foi enorme. Ao analisar uma imagem e pedir uma resposta, recebo respostas corretas na maior parte das vezes em meio segundo numa 4090. O mais impressionante é que, ao extrair nomes de entidades de uma imagem, ele fornece o nome completo mesmo quando o nome está cortado (por exemplo, se "Coca-C" aparece ao fundo de forma apagada, ele retorna "Coca-Cola"). Também lida bem com entidades pouco conhecidas ou conhecidas apenas em regiões específicas. Desde que comecei a usar o Qwen, não voltei para o Llama nem para outros modelos de visão
O modelo 32B é atualmente um dos meus tamanhos de modelo favoritos. É muito poderoso, mas pequeno o suficiente para rodar em uma única GPU ou em um MacBook com especificações razoáveis (32 GB ou mais)
Este modelo agora está disponível no MLX em vários tamanhos
- Roda usando uv, sem necessidade de instalar bibliotecas
- Baixei cerca de 18 GB de modelo e obtive resultados muito impressionantes
Pode ser uma pergunta boba, mas me pergunto como OpenAI, Claude e afins conseguem ter avaliações tão altas considerando todos os modelos de código aberto. Não estou dizendo que vão desaparecer ou encolher, mas me pergunto por que valem tanto
Os modelos com pesos abertos estão saindo tão rápido que é difícil acompanhar. Fico me perguntando se há alguém mantendo uma lista do que está "atual" em cada modelo
Gostaria de saber se alguém entende que impacto tornar um modelo multimodal tem sobre suas capacidades de texto. O artigo afirma que ele também tem bom desempenho em texto puro, mas fico curioso se existe alguma análise de quanto isso realmente afeta. Algumas pessoas afirmam que o modelo melhora em texto, mas sem dados é difícil acreditar
Gostaria de entender melhor de que tamanho de placa de vídeo é necessário. Pelo link do Hugging Face, como é bfloat16, parece que seriam necessários pelo menos 64 GB. Será que a versão -7B consegue rodar na minha placa AMD de 16 GB?
O Qwen é feito pela Alibaba Cloud (isso não é mencionado em nenhum lugar do post do blog)
Hoje é Qwen, amanhã é o novo modelo SOTA do Google, na semana que vem deve sair o R2. Ainda não chegamos ao limite

Qwen2.5-VL-32B - um modelo mais inteligente e mais leve

Desempenho

Leituras relacionadas

1 comentários

Opiniões do Hacker News