5 pontos por GN⁺ 2025-03-25 | 1 comentários | Compartilhar no WhatsApp
  • Com base na série Qwen2.5-VL lançada em janeiro, o modelo foi otimizado por meio de aprendizado por reforço, e o novo modelo VL Qwen2.5-VL-32B-Instruct, com 32B parâmetros, foi aberto como open source sob a licença Apache 2.0
  • Em comparação com o modelo anterior, este modelo VL de 32B tem as seguintes características:
    • Respostas mais alinhadas às preferências humanas: o estilo de saída foi ajustado para fornecer respostas mais detalhadas e bem organizadas.
    • Raciocínio matemático: a precisão na resolução de problemas matemáticos complexos melhorou significativamente.
    • Compreensão e raciocínio detalhados sobre imagens: a precisão e a análise detalhada foram reforçadas em tarefas como parsing de imagens, reconhecimento de conteúdo e raciocínio lógico visual.

Desempenho

  • Em benchmarking amplo com modelos recentes da mesma categoria, o Qwen2.5-VL-32B-Instruct supera modelos de referência como Mistral-Small-3.1-24B e Gemma-3-27B-IT, além de também apresentar resultados melhores que o maior Qwen2-VL-72B-Instruct.
  • Em especial, apresenta vantagens significativas em tarefas multimodais complexas e de múltiplas etapas que exigem raciocínio, como MMMU, MMMU-Pro e MathVista.
  • No MM-MT-Bench, que enfatiza avaliações subjetivas da experiência do usuário, mostrou desempenho claramente superior ao Qwen2-VL-72B-Instruct.
  • Além das capacidades visuais, também alcança desempenho de alto nível em capacidades puramente textuais dentro da mesma escala.

1 comentários

 
GN⁺ 2025-03-25
Opiniões do Hacker News
  • É um grande dia para lançamentos de modelos chineses de código aberto. O DeepSeek-v3-0324 foi atualizado e lançado hoje sob licença MIT (antes era uma licença personalizada da DeepSeek)
  • Usei o Llama Vision 3.2 há alguns meses e fiquei muito decepcionado com a velocidade e a qualidade dos resultados. Procurando alternativas no Hugging Face, encontrei o Qwen. A diferença em precisão e velocidade foi enorme. Ao analisar uma imagem e pedir uma resposta, recebo respostas corretas na maior parte das vezes em meio segundo numa 4090. O mais impressionante é que, ao extrair nomes de entidades de uma imagem, ele fornece o nome completo mesmo quando o nome está cortado (por exemplo, se "Coca-C" aparece ao fundo de forma apagada, ele retorna "Coca-Cola"). Também lida bem com entidades pouco conhecidas ou conhecidas apenas em regiões específicas. Desde que comecei a usar o Qwen, não voltei para o Llama nem para outros modelos de visão
  • O modelo 32B é atualmente um dos meus tamanhos de modelo favoritos. É muito poderoso, mas pequeno o suficiente para rodar em uma única GPU ou em um MacBook com especificações razoáveis (32 GB ou mais)
  • Este modelo agora está disponível no MLX em vários tamanhos
    • Roda usando uv, sem necessidade de instalar bibliotecas
    • Baixei cerca de 18 GB de modelo e obtive resultados muito impressionantes
  • Pode ser uma pergunta boba, mas me pergunto como OpenAI, Claude e afins conseguem ter avaliações tão altas considerando todos os modelos de código aberto. Não estou dizendo que vão desaparecer ou encolher, mas me pergunto por que valem tanto
  • Os modelos com pesos abertos estão saindo tão rápido que é difícil acompanhar. Fico me perguntando se há alguém mantendo uma lista do que está "atual" em cada modelo
  • Gostaria de saber se alguém entende que impacto tornar um modelo multimodal tem sobre suas capacidades de texto. O artigo afirma que ele também tem bom desempenho em texto puro, mas fico curioso se existe alguma análise de quanto isso realmente afeta. Algumas pessoas afirmam que o modelo melhora em texto, mas sem dados é difícil acreditar
  • Gostaria de entender melhor de que tamanho de placa de vídeo é necessário. Pelo link do Hugging Face, como é bfloat16, parece que seriam necessários pelo menos 64 GB. Será que a versão -7B consegue rodar na minha placa AMD de 16 GB?
  • O Qwen é feito pela Alibaba Cloud (isso não é mencionado em nenhum lugar do post do blog)
  • Hoje é Qwen, amanhã é o novo modelo SOTA do Google, na semana que vem deve sair o R2. Ainda não chegamos ao limite