6 pontos por GN⁺ 2025-09-26 | 2 comentários | Compartilhar no WhatsApp
  • Qwen3-VL é a geração mais recente de modelos multimodais de visão e linguagem, oferecendo desempenho aprimorado em todas as áreas, como compreensão e geração de texto, reconhecimento de vídeo, raciocínio espacial e entendimento de contextos longos
  • O modelo principal, Qwen3-VL-235B-A22B, é lançado nas versões Instruct e Thinking, e cada uma delas registra resultados de ponta em reconhecimento visual e raciocínio multimodal, respectivamente
  • O modelo reforça diversas capacidades práticas de uso real, como funções de agente, codificação visual, raciocínio espacial 2D/3D e compreensão de textos longos e vídeos extensos
  • Também amplia seu escopo de suporte para OCR em 32 idiomas, compreensão de documentos complexos e processamento de múltiplas imagens e vídeos, tornando-se adequado tanto para uso cotidiano quanto profissional
  • Espera-se que isso forneça à comunidade open source uma base multimodal de altíssimo nível e acelere a resolução de problemas do mundo real e o avanço dos agentes de IA

Introdução ao Qwen3-VL

  • Qwen3-VL é um modelo de IA multimodal de última geração desenvolvido pela QwenTeam, com a capacidade de processar e compreender de forma abrangente diversos formatos de dados, como imagens, texto, tabelas, documentos, fórmulas e gráficos

Principais características

  • Funções de agente visual: realiza reconhecimento de GUI, clique em botões e chamada de ferramentas, permitindo tarefas de automação em ambientes de computador e mobile
  • Desempenho de texto aprimorado: com aprendizado conjunto de texto e visão desde estágios iniciais, garante uma capacidade de processamento de texto forte, em nível de modelos puramente de linguagem
  • Codificação visual: converte imagens de design em código HTML, CSS e JavaScript, concretizando o conceito de “programar como se vê”
  • Compreensão espacial: expande de coordenadas absolutas em 2D para coordenadas relativas e oferece suporte até a grounding em 3D, estabelecendo base para robótica e direção autônoma
  • Processamento de contexto longo e vídeos extensos: suporta 256K tokens por padrão, com expansão possível até 1 milhão de tokens, e consegue memorizar e recuperar com precisão até vídeos de 2 horas
  • Otimização para raciocínio (versão Thinking): forte na resolução de problemas de matemática e STEM, com melhor desempenho em benchmarks como MathVision, MMMU e MathVista

Avaliação de desempenho

  • Versão Instruct: alcança desempenho de reconhecimento visual superior ao de grandes modelos fechados, como Gemini 2.5 Pro e GPT-5
  • Versão Thinking: atinge nível de classe mundial em raciocínio multimodal para matemática e ciência, superando especialmente o Gemini 2.5 Pro no MathVision
  • Tarefas centradas em texto: desempenho equivalente ao Qwen3-235B-A22B-2507
  • Teste com vídeos longos: comprova alta estabilidade com 99,5% de precisão mesmo com entrada de 1 milhão de tokens
  • OCR multilíngue: alcança mais de 70% de precisão em 32 dos 39 idiomas

Melhorias de arquitetura

  • Interleaved-MRoPE: distribui de forma intercalada as dimensões de tempo, altura e largura para reforçar a compreensão de vídeos longos
  • DeepStack: melhora o alinhamento preciso entre texto e imagem por meio da fusão de características de múltiplas camadas do ViT
  • Alinhamento texto-timestamp: faz o pareamento preciso entre informações temporais em nível de frame e conteúdo visual, melhorando a precisão na detecção de eventos e ações

Funcionalidades do modelo

  • Agente para operação em smartphone e PC: automatiza abertura de apps, cliques em botões e preenchimento de formulários
  • Raciocínio baseado em imagem: permite análises complexas combinadas com chamada de ferramentas
  • Suporte ao desenvolvimento frontend: conversão de esboço em página web e depuração de UI
  • Detecção de objetos 2D/3D: gera centenas de caixas de detecção e faz estimativa de profundidade
  • Reconhecimento universal: reconhece celebridades, marcas, plantas, animais e personagens de animação
  • Suporte à criação: storytelling com base em imagens, copywriting e geração de roteiros de vídeo
  • Resolução de problemas STEM: raciocínio passo a passo, análise de causalidade e solução de problemas científicos
  • Seguimento de instruções complexas: processa também condições em várias etapas e solicitações estruturadas
  • Compreensão de documentos: interpreta PDFs longos e layouts web, com suporte ao formato QwenVL Markdown
  • Conversas com múltiplas imagens: compara e relaciona várias imagens mantendo o contexto
  • Compreensão de vídeo: suporta desde a detecção de eventos em vídeos longos até a geração de código

Conclusão

  • Qwen3-VL é um modelo multimodal open source que supera modelos fechados, avançando de forma abrangente de percepção a raciocínio e execução
  • Mais do que simples reconhecimento visual, o modelo se consolida como uma arquitetura expandida para compreensão do mundo, raciocínio e ação, oferecendo uma base para o uso de agentes em ambientes reais

2 comentários

 
crawler 2025-09-26

Eu achava impressionante só o fato de ele saber quem venceu a corrida de atletismo e quem ultrapassou quem naquele vídeo promocional do Gemini de menos de meio ano atrás.

> Também consegue lembrar e buscar com precisão até vídeos de 2 horas

Fico realmente curioso sobre o que exatamente ele está "lembrando" nisso.

 
GN⁺ 2025-09-26
Comentários do Hacker News
  • Como mencionei ontem, recentemente tive que processar algumas centenas de imagens de baixa qualidade de faturas de projetos de construção. Originalmente rodei um script usando PIL/opencv, pytesseract e OpenAI, mas houve falhas demais. Hoje testei algumas faturas de qualidade realmente horrível com o Qwen, e ele extraiu sem dificuldade todas as informações de que eu precisava. Mais impressionante ainda é que ele também fornece informações de bound box que podem ser usadas para melhorar o tesseract

    • Se você precisar fazer algo parecido, também recomendo a Printed Text Recognition API da Microsoft
    • Fiquei curioso sobre por que você escolheu o Qwen. A Mistral tem um modelo especializado divulgado especificamente para OCR, e quando testei de fato ele funcionou bem com livros antigos em inglês (anos 80 e 90)
    • Gosto de testar esses modelos lendo capturas de tela de jogos de Apple ][ dos anos 80. É uma área em que a maioria dos modelos open source sofre, por serem imagens de resolução muito baixa e alta densidade
    • Eu já tentei estimar bound boxes de limites de terrenos em imagens de mapas de satélite com um modelo VLLM, mas não tive resultado. Gostaria de saber se há alguma dica para obter resultados melhores
    • Eu também tentei detectar o layout de scans para melhorar o desempenho de OCR, mas no fim um Qwen 2.5 VLM 7B fine-tunado foi melhor. Acho que fine-tuning é a resposta
  • A China está fazendo com tecnologias centrais o mesmo que fez na manufatura: pegar a base e repetir otimizações de 10x em custo/eficiência. É realmente admirável. É um modelo famoso nos benchmarks, mas hoje pareceu até candidato a open source SOTA. Inclusive hoje eles também lançaram um modelo fechado de 1 trilhão de parâmetros que ficou em 3º no lm arena, e o modelo de 80GB ficou em 17º, enquanto o gpt-oss 120b está em 52º
    Link relacionado

    • As descrições, nomes de produto e distinções de versão continuam confusas. Eu sei que o Qwen3-VL Plus (novo modelo) e o Qwen3-VL 235B (outro modelo) são completamente diferentes, apesar dos nomes parecidos, mas as informações são vagas a ponto de não ficar claro qual dos dois é melhor. Pelo nome, também não dá para entender qual é a diferença entre Qwen-Plus-2025-09-11 e qwen3-235b-a22b-instruct-2507. Estão comunicando os nomes com menos clareza até do que a OpenAI
      Qwen3-VL Plus
      Qwen3-VL-235B
      qwen-plus-2025-09-11
      qwen3-235b-a22b-instruct-2507
    • Dizer que eles estão “simplesmente otimizando” não corresponde aos fatos. A equipe do Qwen também vem propondo ideias novas, como o DeepStack
      Artigo do DeepStack
      E, em vez de generalizar como “os chineses”, acho mais correto dar o crédito à própria equipe do Qwen. Existem laboratórios excelentes e laboratórios medianos em vários países do mundo
    • Curiosamente, modelos como o Kimi K2 passam a sensação de gerar texto muito mais natural do que modelos americanos. O desempenho em benchmark não chega a SOTA, mas a experiência real de uso é diferente
    • Os EUA também costumavam focar nesse tipo de otimização, mas nos últimos 10 a 15 anos o clima tem sido cada vez mais de apenas jogar mais recursos no problema e deixar a otimização de lado. Por exemplo, adicionar mais RAM para web apps progressivos, trocar por CPUs mais potentes ou simplesmente garantir mais energia. No fundo, parece que o problema é não aplicar na prática o que se aprende nas aulas de algoritmos da faculdade. Já a China está de fato colocando isso em prática, e os EUA ficam parecendo ainda mais ridículos por comparação
  • Se você estiver em São Francisco, não perca a chance de participar do primeiro evento oficial do time do Qwen nos EUA. O vice-presidente do Qwen Lab vai apresentar pessoalmente na SF teach week
    Link do evento
    É uma oportunidade rara de interagir diretamente com membros da equipe do Qwen

    • As vagas já esgotaram ;-(
    • Hoje em dia, com os problemas para obtenção de visto, entrar nos EUA já pode ser 50:50, então espero que consigam vir sem problemas
  • O ponto principal do Qwen desta vez é que eles atingiram desempenho multimodal de nível SOTA, superior ao de modelos proprietários, e ainda assim abriram os pesos do modelo. Nos meus testes iniciais, isso realmente parece ser verdade; vou continuar testando. Impressionante

    • A maior parte das implementações de entrada multimodal costuma ter desempenho fraco. Não diria que o Qwen está muito à frente das soluções comerciais já conhecidas, mas ainda assim é ótimo ver uma tentativa de publicar resultados assim. Não é nada fácil criar um modelo em que entrada multimodal funcione tão bem nesse nível
    • Na verdade, tenho a impressão de que modelos open source, independentemente do tamanho, sempre tendem a afirmar que estão “no nível do SOTA comercial”
  • Na prática, o modelo Qwen3-VL de 235B parâmetros (FP16) parece exigir pelo menos 512GB de RAM. Suspeito que, para cobrir uma context window razoável, talvez precise de ainda mais. Supondo que não vá rodar em CPU, gostaria de saber qual seria a melhor forma de executar isso em casa com orçamento abaixo de 10 mil dólares. Se CPU for a única opção viável, queria saber se o melhor caminho é vLLM + várias máquinas ligadas em rede (10/25/100Gbit), ou se existe alguma alternativa melhor

    • Um Apple Mac Studio com 512GB de memória unificada custa por volta de 10 mil dólares. Se você realmente precisa dessa potência em casa e tem dinheiro sobrando, essa é a opção mais simples.
      Não é obrigatório rodar em FP16. Na maioria dos casos, quantizar até q8 quase não traz perda de qualidade, e mesmo em q4 ou abaixo ainda dá para rodar com pouca degradação. Só em q8 já seriam necessários 235GB de RAM, então, no caso de uma RTX 5090 (32GB de VRAM), seriam necessárias 8 placas, e o custo já fica pesado. Também é preciso considerar placa-mãe, CPU e a divisão entre 8 GPUs. Dá para tentar servidores de mineração usados com RTX 3090 antigas ou P40, mas com GPUs de consumidor é difícil viabilizar isso por menos de 10 mil dólares.
      Sem NVLink, distribuir o modelo entre vários computadores derruba tanto a velocidade que, na prática, recomenda-se uma única máquina. Desempenho de CPU também não é ruim. O importante é a largura de banda da memória, então CPUs de servidor ou workstation com muitos canais DDR5 são adequadas (por exemplo, AMD Ryzen Threadripper 7965WX, 8 canais DDR5, suporte a 5200 MT/s, cerca de 2.500 dólares).
      Por fim, vale pensar de novo se você realmente precisa rodar isso em casa. Dependendo do objetivo, os 10 mil dólares investidos em hardware podem perder valor rapidamente em poucos anos. Em crédito de nuvem, 10 mil dólares podem durar bastante tempo
    • Qualquer opção que não seja CPU em geral exige reforço na instalação elétrica, e rodar várias máquinas consumindo 2 a 3kW cada, distribuídas em circuitos elétricos diferentes, implica um custo adicional enorme
  • Graças ao Qwen, que lançou pesos abertos para um multimodal SOTA, meu coração de desenvolvedor está pendendo para o lado do Qwen. Pelo menos o meu já foi conquistado

    • Acho que a disputa já acabou. Hoje em dia, quando você olha a lista dos principais autores de artigos dos EUA, está cheia de nomes de origem chinesa
    • Também existe o fato de que, como eles não estão mirando lucro, estão jogando um jogo diferente, com regras diferentes
    • Eu mesmo fico curioso sobre por que estão se esforçando tanto para conquistar as pessoas desse jeito
  • Agradeço pela generosidade da equipe do Qwen. Já estou usando o modelo “Thinking” para automatizar várias tarefas internas entediantes com workflows muito legais
    Modelo thinking do Qwen
    Agora, com este lançamento, também pretendo aplicar novos workflows para classificar e gerar legendas de fotos de refeições, fotos de usuários e assim por diante. Muito bom

  • Modelos relacionados da equipe do Qwen para referência

  • Tenho certeza de que este anúncio foi o que exibiu a maior quantidade de números de benchmark que já vi. Quero elogiar isso, porque não parece uma apresentação escolhendo só os truques favoráveis

    • Em áreas em que os benchmarks já estão saturados, parece que exibir mais números já não significa muita coisa
  • Infelizmente, o Qwen3-VL ainda falha no teste de “membros extras”. Inserimos com Photoshop imagens de animais com membros adicionais nas pernas, como um cachorro com uma perna saindo da barriga ou um gato com dois pares de patas dianteiras, e ele, assim como todos os outros modelos, insistiu que o número de membros do animal era normal. Mesmo quando eu dizia “parece que há uma perna saindo da barriga”, ele insistia até o fim que eu estava enganado e que estava tudo normal. O Qwen chegou a responder que eram 4 mesmo depois de ser informado de que a imagem tinha sido editada

    • Como todos os VLMs, ele é fraco em casos extremos. Ler relógio analógico só chegou a passar em um caso especializado no passado, com 1 milhão de imagens sintéticas editadas para isso
      Dataset de relógios
      Exemplo de dado d20
      Em resumo, sem criar 1 milhão de exemplos de dados para casos como membros extras, ele não acerta, e o problema de ter que criar novos datasets para outros problemas continua se repetindo
    • Definitivamente não é um modelo adequado para contar membros de espécies estranhas. Em compensação, talvez não deixe a desejar em temas abundantes no conjunto de treinamento
    • Fiquei curioso se, ao usar o recurso de comando de edição de imagem do modelo Qwen e pedir para alterar outras partes sem mexer no número de membros, ele acabaria mesmo assim tentando “corrigir” a quantidade de membros para o padrão normal