Review do novo modelo de raciocínio visual QvQ da Qwen

(simonwillison.net)

5 pontos por GN⁺ 2024-12-26 | 1 comentários | Compartilhar no WhatsApp

A equipe da Alibaba Qwen apresentou o novo modelo de raciocínio visual QvQ-72B-Preview
- Recebe imagem e prompt como entrada e realiza uma inferência detalhada
- Originalmente estava marcado como Apache 2.0, mas agora foi alterado para a licença Qwen
Diferenças em relação ao modelo anterior QwQ
- O QwQ era focado em raciocínio baseado em texto e foi projetado com um mecanismo de "refletir os limites do pensamento"
- O QvQ adiciona entrada visual a isso e faz análises mais profundas com base em imagens

Casos de uso e testes do QvQ

É possível usar o modelo QvQ no Hugging Face Spaces
- Ao inserir imagem e um único prompt, gera uma resposta muito longa e não é possível inserir prompts adicionais
- Analisa a imagem de entrada e descreve o processo de inferência de forma sequencial
Resultados dos testes
- Contagem de pelicanos: usou o prompt "Count the pelicans" para contar os pelicanos na foto
  - Contou corretamente um total de 4 pelicanos, excluindo aves parcialmente visíveis
  - Explicou a inferência em um tom amigável e conversacional
- Quebra-cabeça ARC-AGI: tentou resolver um problema complexo, mas não conseguiu obter um resultado correto
  - Sugeriu abordagens originais como autômatos celulares
- Estimativa de altura de dinossauro (dragão): tentou estimar a altura de um dragão sem um objeto de referência comparável
  - Sugeriu cerca de 8 a 9 pés de altura, mostrando observação refinada

Como executar o modelo QvQ

Ambiente hospedado
- Testes podem ser feitos no Hugging Face Spaces com pesos do modelo em GPU
- Execute usando o pacote Python qwen-vl-utils
Execução local
- O Prince Canuma converteu o modelo para o framework Apple MLX e é possível executá-lo via o pacote mlx-vlm
- Funcionou com sucesso em um ambiente macOS com M2 e 64 GB de RAM usando a versão quantizada de 4 bits
  - Comando de execução:
```
uv run --with 'numpy<2.0' --with mlx-vlm python \
  -m mlx_vlm.generate \
  --model mlx-community/QVQ-72B-Preview-4bit \
  --max-tokens 10000 \
  --temp 0.0 \
  --prompt "describe this" \
  --image pelicans-on-bicycles-veo2.jpg  
```

Mudança de licença do QvQ

A licença do QvQ mudou de Apache 2.0 para a licença Qwen
- Parece ter sido uma correção de um erro inicial
O modelo QwQ ainda mantém a licença Apache 2.0
- Foi confirmada uma política de licença diferenciada entre os dois modelos

Conclusão

QvQ é um modelo de raciocínio visual poderoso que combina imagem e texto, gerando resultados interessantes em diversos experimentos
Espera-se atualizações futuras e novas possibilidades de uso

1 comentários

GN⁺ 2024-12-26

Comentário do Hacker News

Mostra como executar o modelo QVQ-72B-Preview-4bit em um notebook com M2 de 64 GB para analisar imagens
- Usei o comando uv run --with 'numpy<2.0' --with mlx-vlm python -m mlx_vlm.generate --model mlx-community/QVQ-72B-Preview-4bit --max-tokens 10000 --temp 0.0 --prompt "describe this" --image pelicans-on-bicycles-veo2.jpg
- Os resultados estão disponíveis no link
O modelo é divertido
- Ao enviar uma imagem e fazer perguntas como "fale em voz alta enquanto olha para esta imagem", é possível obter resultados interessantes
- Por exemplo, ao olhar para uma imagem de sanduíche, ele faz descrições detalhadas e imagina o gosto
Usei como teste um quebra-cabeça de caça-palavras, mas o modelo QvQ falhou
- A versão do Gemini no AI Studio também falhou no início, mas encontrou as palavras com sucesso após algumas tentativas
- Criar um programa para resolver o problema trouxe resultados melhores do que pedir a solução diretamente
Quando inseri a famosa foto do "Tank Man", recebi uma resposta em branco
O conjunto de dados em que o anotador é instruído a pensar em voz alta enquanto olha para uma imagem é o PixMo
- Isso sugere que o QvQ também pode ter sido treinado de forma semelhante
Perguntou se o modelo Q* é open source
- Ao pedir conselhos de conduta sobre autoridade, ele recomendou fortemente ser obediente
O estilo da resposta ao contar o número de pinguins em uma foto de pelicanos é divertido
- Ele transmite uma sensação mais casual do que o GPT-4
Houve discussão sobre a licença do modelo QvQ-72B-Preview
- Havia confusão entre a licença Apache 2.0 e a licença da Qwen
O modelo QvQ tem ótimo desempenho em analisar fotos de celebridades, cães e charges da The New Yorker
Também tem capacidade de processar imagens de equações matemáticas

Review do novo modelo de raciocínio visual QvQ da Qwen

Casos de uso e testes do QvQ

Como executar o modelo QvQ

Mudança de licença do QvQ

Conclusão

Leituras relacionadas

1 comentários

Comentário do Hacker News