Review do novo modelo de raciocínio visual QvQ da Qwen
(simonwillison.net)- A equipe da Alibaba Qwen apresentou o novo modelo de raciocínio visual QvQ-72B-Preview
- Recebe imagem e prompt como entrada e realiza uma inferência detalhada
- Originalmente estava marcado como Apache 2.0, mas agora foi alterado para a licença Qwen
- Diferenças em relação ao modelo anterior QwQ
- O QwQ era focado em raciocínio baseado em texto e foi projetado com um mecanismo de "refletir os limites do pensamento"
- O QvQ adiciona entrada visual a isso e faz análises mais profundas com base em imagens
Casos de uso e testes do QvQ
- É possível usar o modelo QvQ no Hugging Face Spaces
- Ao inserir imagem e um único prompt, gera uma resposta muito longa e não é possível inserir prompts adicionais
- Analisa a imagem de entrada e descreve o processo de inferência de forma sequencial
- Resultados dos testes
- Contagem de pelicanos: usou o prompt "Count the pelicans" para contar os pelicanos na foto
- Contou corretamente um total de 4 pelicanos, excluindo aves parcialmente visíveis
- Explicou a inferência em um tom amigável e conversacional
- Quebra-cabeça ARC-AGI: tentou resolver um problema complexo, mas não conseguiu obter um resultado correto
- Sugeriu abordagens originais como autômatos celulares
- Estimativa de altura de dinossauro (dragão): tentou estimar a altura de um dragão sem um objeto de referência comparável
- Sugeriu cerca de 8 a 9 pés de altura, mostrando observação refinada
- Contagem de pelicanos: usou o prompt "Count the pelicans" para contar os pelicanos na foto
Como executar o modelo QvQ
-
Ambiente hospedado
- Testes podem ser feitos no Hugging Face Spaces com pesos do modelo em GPU
- Execute usando o pacote Python qwen-vl-utils
-
Execução local
- O Prince Canuma converteu o modelo para o framework Apple MLX e é possível executá-lo via o pacote mlx-vlm
- Funcionou com sucesso em um ambiente macOS com M2 e 64 GB de RAM usando a versão quantizada de 4 bits
- Comando de execução:
uv run --with 'numpy<2.0' --with mlx-vlm python \ -m mlx_vlm.generate \ --model mlx-community/QVQ-72B-Preview-4bit \ --max-tokens 10000 \ --temp 0.0 \ --prompt "describe this" \ --image pelicans-on-bicycles-veo2.jpg
- Comando de execução:
Mudança de licença do QvQ
- A licença do QvQ mudou de Apache 2.0 para a licença Qwen
- Parece ter sido uma correção de um erro inicial
- O modelo QwQ ainda mantém a licença Apache 2.0
- Foi confirmada uma política de licença diferenciada entre os dois modelos
Conclusão
- QvQ é um modelo de raciocínio visual poderoso que combina imagem e texto, gerando resultados interessantes em diversos experimentos
- Espera-se atualizações futuras e novas possibilidades de uso
1 comentários
Comentário do Hacker News
Mostra como executar o modelo QVQ-72B-Preview-4bit em um notebook com M2 de 64 GB para analisar imagens
uv run --with 'numpy<2.0' --with mlx-vlm python -m mlx_vlm.generate --model mlx-community/QVQ-72B-Preview-4bit --max-tokens 10000 --temp 0.0 --prompt "describe this" --image pelicans-on-bicycles-veo2.jpgO modelo é divertido
Usei como teste um quebra-cabeça de caça-palavras, mas o modelo QvQ falhou
Quando inseri a famosa foto do "Tank Man", recebi uma resposta em branco
O conjunto de dados em que o anotador é instruído a pensar em voz alta enquanto olha para uma imagem é o PixMo
Perguntou se o modelo Q* é open source
O estilo da resposta ao contar o número de pinguins em uma foto de pelicanos é divertido
Houve discussão sobre a licença do modelo QvQ-72B-Preview
O modelo QvQ tem ótimo desempenho em analisar fotos de celebridades, cães e charges da The New Yorker
Também tem capacidade de processar imagens de equações matemáticas