5 pontos por GN⁺ 2024-12-26 | 1 comentários | Compartilhar no WhatsApp
  • A equipe da Alibaba Qwen apresentou o novo modelo de raciocínio visual QvQ-72B-Preview
    • Recebe imagem e prompt como entrada e realiza uma inferência detalhada
    • Originalmente estava marcado como Apache 2.0, mas agora foi alterado para a licença Qwen
  • Diferenças em relação ao modelo anterior QwQ
    • O QwQ era focado em raciocínio baseado em texto e foi projetado com um mecanismo de "refletir os limites do pensamento"
    • O QvQ adiciona entrada visual a isso e faz análises mais profundas com base em imagens

Casos de uso e testes do QvQ

  • É possível usar o modelo QvQ no Hugging Face Spaces
    • Ao inserir imagem e um único prompt, gera uma resposta muito longa e não é possível inserir prompts adicionais
    • Analisa a imagem de entrada e descreve o processo de inferência de forma sequencial
  • Resultados dos testes
    • Contagem de pelicanos: usou o prompt "Count the pelicans" para contar os pelicanos na foto
      • Contou corretamente um total de 4 pelicanos, excluindo aves parcialmente visíveis
      • Explicou a inferência em um tom amigável e conversacional
    • Quebra-cabeça ARC-AGI: tentou resolver um problema complexo, mas não conseguiu obter um resultado correto
      • Sugeriu abordagens originais como autômatos celulares
    • Estimativa de altura de dinossauro (dragão): tentou estimar a altura de um dragão sem um objeto de referência comparável
      • Sugeriu cerca de 8 a 9 pés de altura, mostrando observação refinada

Como executar o modelo QvQ

  • Ambiente hospedado

  • Execução local

    • O Prince Canuma converteu o modelo para o framework Apple MLX e é possível executá-lo via o pacote mlx-vlm
    • Funcionou com sucesso em um ambiente macOS com M2 e 64 GB de RAM usando a versão quantizada de 4 bits
      • Comando de execução:
        uv run --with 'numpy<2.0' --with mlx-vlm python \
          -m mlx_vlm.generate \
          --model mlx-community/QVQ-72B-Preview-4bit \
          --max-tokens 10000 \
          --temp 0.0 \
          --prompt "describe this" \
          --image pelicans-on-bicycles-veo2.jpg  
        

Mudança de licença do QvQ

  • A licença do QvQ mudou de Apache 2.0 para a licença Qwen
    • Parece ter sido uma correção de um erro inicial
  • O modelo QwQ ainda mantém a licença Apache 2.0
    • Foi confirmada uma política de licença diferenciada entre os dois modelos

Conclusão

  • QvQ é um modelo de raciocínio visual poderoso que combina imagem e texto, gerando resultados interessantes em diversos experimentos
  • Espera-se atualizações futuras e novas possibilidades de uso

1 comentários

 
GN⁺ 2024-12-26
Comentário do Hacker News
  • Mostra como executar o modelo QVQ-72B-Preview-4bit em um notebook com M2 de 64 GB para analisar imagens

    • Usei o comando uv run --with 'numpy<2.0' --with mlx-vlm python -m mlx_vlm.generate --model mlx-community/QVQ-72B-Preview-4bit --max-tokens 10000 --temp 0.0 --prompt "describe this" --image pelicans-on-bicycles-veo2.jpg
    • Os resultados estão disponíveis no link
  • O modelo é divertido

    • Ao enviar uma imagem e fazer perguntas como "fale em voz alta enquanto olha para esta imagem", é possível obter resultados interessantes
    • Por exemplo, ao olhar para uma imagem de sanduíche, ele faz descrições detalhadas e imagina o gosto
  • Usei como teste um quebra-cabeça de caça-palavras, mas o modelo QvQ falhou

    • A versão do Gemini no AI Studio também falhou no início, mas encontrou as palavras com sucesso após algumas tentativas
    • Criar um programa para resolver o problema trouxe resultados melhores do que pedir a solução diretamente
  • Quando inseri a famosa foto do "Tank Man", recebi uma resposta em branco

  • O conjunto de dados em que o anotador é instruído a pensar em voz alta enquanto olha para uma imagem é o PixMo

    • Isso sugere que o QvQ também pode ter sido treinado de forma semelhante
  • Perguntou se o modelo Q* é open source

    • Ao pedir conselhos de conduta sobre autoridade, ele recomendou fortemente ser obediente
  • O estilo da resposta ao contar o número de pinguins em uma foto de pelicanos é divertido

    • Ele transmite uma sensação mais casual do que o GPT-4
  • Houve discussão sobre a licença do modelo QvQ-72B-Preview

    • Havia confusão entre a licença Apache 2.0 e a licença da Qwen
  • O modelo QvQ tem ótimo desempenho em analisar fotos de celebridades, cães e charges da The New Yorker

  • Também tem capacidade de processar imagens de equações matemáticas