- Qwen3-VL é a geração mais recente de modelos multimodais de visão e linguagem, oferecendo desempenho aprimorado em todas as áreas, como compreensão e geração de texto, reconhecimento de vídeo, raciocínio espacial e entendimento de contextos longos
- O modelo principal, Qwen3-VL-235B-A22B, é lançado nas versões Instruct e Thinking, e cada uma delas registra resultados de ponta em reconhecimento visual e raciocínio multimodal, respectivamente
- O modelo reforça diversas capacidades práticas de uso real, como funções de agente, codificação visual, raciocínio espacial 2D/3D e compreensão de textos longos e vídeos extensos
- Também amplia seu escopo de suporte para OCR em 32 idiomas, compreensão de documentos complexos e processamento de múltiplas imagens e vídeos, tornando-se adequado tanto para uso cotidiano quanto profissional
- Espera-se que isso forneça à comunidade open source uma base multimodal de altíssimo nível e acelere a resolução de problemas do mundo real e o avanço dos agentes de IA
Introdução ao Qwen3-VL
- Qwen3-VL é um modelo de IA multimodal de última geração desenvolvido pela QwenTeam, com a capacidade de processar e compreender de forma abrangente diversos formatos de dados, como imagens, texto, tabelas, documentos, fórmulas e gráficos
Principais características
- Funções de agente visual: realiza reconhecimento de GUI, clique em botões e chamada de ferramentas, permitindo tarefas de automação em ambientes de computador e mobile
- Desempenho de texto aprimorado: com aprendizado conjunto de texto e visão desde estágios iniciais, garante uma capacidade de processamento de texto forte, em nível de modelos puramente de linguagem
- Codificação visual: converte imagens de design em código HTML, CSS e JavaScript, concretizando o conceito de “programar como se vê”
- Compreensão espacial: expande de coordenadas absolutas em 2D para coordenadas relativas e oferece suporte até a grounding em 3D, estabelecendo base para robótica e direção autônoma
- Processamento de contexto longo e vídeos extensos: suporta 256K tokens por padrão, com expansão possível até 1 milhão de tokens, e consegue memorizar e recuperar com precisão até vídeos de 2 horas
- Otimização para raciocínio (versão Thinking): forte na resolução de problemas de matemática e STEM, com melhor desempenho em benchmarks como MathVision, MMMU e MathVista
Avaliação de desempenho
- Versão Instruct: alcança desempenho de reconhecimento visual superior ao de grandes modelos fechados, como Gemini 2.5 Pro e GPT-5
- Versão Thinking: atinge nível de classe mundial em raciocínio multimodal para matemática e ciência, superando especialmente o Gemini 2.5 Pro no MathVision
- Tarefas centradas em texto: desempenho equivalente ao Qwen3-235B-A22B-2507
- Teste com vídeos longos: comprova alta estabilidade com 99,5% de precisão mesmo com entrada de 1 milhão de tokens
- OCR multilíngue: alcança mais de 70% de precisão em 32 dos 39 idiomas
Melhorias de arquitetura
- Interleaved-MRoPE: distribui de forma intercalada as dimensões de tempo, altura e largura para reforçar a compreensão de vídeos longos
- DeepStack: melhora o alinhamento preciso entre texto e imagem por meio da fusão de características de múltiplas camadas do ViT
- Alinhamento texto-timestamp: faz o pareamento preciso entre informações temporais em nível de frame e conteúdo visual, melhorando a precisão na detecção de eventos e ações
Funcionalidades do modelo
- Agente para operação em smartphone e PC: automatiza abertura de apps, cliques em botões e preenchimento de formulários
- Raciocínio baseado em imagem: permite análises complexas combinadas com chamada de ferramentas
- Suporte ao desenvolvimento frontend: conversão de esboço em página web e depuração de UI
- Detecção de objetos 2D/3D: gera centenas de caixas de detecção e faz estimativa de profundidade
- Reconhecimento universal: reconhece celebridades, marcas, plantas, animais e personagens de animação
- Suporte à criação: storytelling com base em imagens, copywriting e geração de roteiros de vídeo
- Resolução de problemas STEM: raciocínio passo a passo, análise de causalidade e solução de problemas científicos
- Seguimento de instruções complexas: processa também condições em várias etapas e solicitações estruturadas
- Compreensão de documentos: interpreta PDFs longos e layouts web, com suporte ao formato QwenVL Markdown
- Conversas com múltiplas imagens: compara e relaciona várias imagens mantendo o contexto
- Compreensão de vídeo: suporta desde a detecção de eventos em vídeos longos até a geração de código
Conclusão
- Qwen3-VL é um modelo multimodal open source que supera modelos fechados, avançando de forma abrangente de percepção a raciocínio e execução
- Mais do que simples reconhecimento visual, o modelo se consolida como uma arquitetura expandida para compreensão do mundo, raciocínio e ação, oferecendo uma base para o uso de agentes em ambientes reais
2 comentários
Eu achava impressionante só o fato de ele saber quem venceu a corrida de atletismo e quem ultrapassou quem naquele vídeo promocional do Gemini de menos de meio ano atrás.
> Também consegue lembrar e buscar com precisão até vídeos de 2 horas
Fico realmente curioso sobre o que exatamente ele está "lembrando" nisso.
Comentários do Hacker News
Como mencionei ontem, recentemente tive que processar algumas centenas de imagens de baixa qualidade de faturas de projetos de construção. Originalmente rodei um script usando PIL/opencv, pytesseract e OpenAI, mas houve falhas demais. Hoje testei algumas faturas de qualidade realmente horrível com o Qwen, e ele extraiu sem dificuldade todas as informações de que eu precisava. Mais impressionante ainda é que ele também fornece informações de bound box que podem ser usadas para melhorar o tesseract
A China está fazendo com tecnologias centrais o mesmo que fez na manufatura: pegar a base e repetir otimizações de 10x em custo/eficiência. É realmente admirável. É um modelo famoso nos benchmarks, mas hoje pareceu até candidato a open source SOTA. Inclusive hoje eles também lançaram um modelo fechado de 1 trilhão de parâmetros que ficou em 3º no lm arena, e o modelo de 80GB ficou em 17º, enquanto o gpt-oss 120b está em 52º
Link relacionado
Qwen3-VL Plus
Qwen3-VL-235B
qwen-plus-2025-09-11
qwen3-235b-a22b-instruct-2507
Artigo do DeepStack
E, em vez de generalizar como “os chineses”, acho mais correto dar o crédito à própria equipe do Qwen. Existem laboratórios excelentes e laboratórios medianos em vários países do mundo
Se você estiver em São Francisco, não perca a chance de participar do primeiro evento oficial do time do Qwen nos EUA. O vice-presidente do Qwen Lab vai apresentar pessoalmente na SF teach week
Link do evento
É uma oportunidade rara de interagir diretamente com membros da equipe do Qwen
O ponto principal do Qwen desta vez é que eles atingiram desempenho multimodal de nível SOTA, superior ao de modelos proprietários, e ainda assim abriram os pesos do modelo. Nos meus testes iniciais, isso realmente parece ser verdade; vou continuar testando. Impressionante
Na prática, o modelo Qwen3-VL de 235B parâmetros (FP16) parece exigir pelo menos 512GB de RAM. Suspeito que, para cobrir uma context window razoável, talvez precise de ainda mais. Supondo que não vá rodar em CPU, gostaria de saber qual seria a melhor forma de executar isso em casa com orçamento abaixo de 10 mil dólares. Se CPU for a única opção viável, queria saber se o melhor caminho é vLLM + várias máquinas ligadas em rede (10/25/100Gbit), ou se existe alguma alternativa melhor
Não é obrigatório rodar em FP16. Na maioria dos casos, quantizar até q8 quase não traz perda de qualidade, e mesmo em q4 ou abaixo ainda dá para rodar com pouca degradação. Só em q8 já seriam necessários 235GB de RAM, então, no caso de uma RTX 5090 (32GB de VRAM), seriam necessárias 8 placas, e o custo já fica pesado. Também é preciso considerar placa-mãe, CPU e a divisão entre 8 GPUs. Dá para tentar servidores de mineração usados com RTX 3090 antigas ou P40, mas com GPUs de consumidor é difícil viabilizar isso por menos de 10 mil dólares.
Sem NVLink, distribuir o modelo entre vários computadores derruba tanto a velocidade que, na prática, recomenda-se uma única máquina. Desempenho de CPU também não é ruim. O importante é a largura de banda da memória, então CPUs de servidor ou workstation com muitos canais DDR5 são adequadas (por exemplo, AMD Ryzen Threadripper 7965WX, 8 canais DDR5, suporte a 5200 MT/s, cerca de 2.500 dólares).
Por fim, vale pensar de novo se você realmente precisa rodar isso em casa. Dependendo do objetivo, os 10 mil dólares investidos em hardware podem perder valor rapidamente em poucos anos. Em crédito de nuvem, 10 mil dólares podem durar bastante tempo
Graças ao Qwen, que lançou pesos abertos para um multimodal SOTA, meu coração de desenvolvedor está pendendo para o lado do Qwen. Pelo menos o meu já foi conquistado
Agradeço pela generosidade da equipe do Qwen. Já estou usando o modelo “Thinking” para automatizar várias tarefas internas entediantes com workflows muito legais
Modelo thinking do Qwen
Agora, com este lançamento, também pretendo aplicar novos workflows para classificar e gerar legendas de fotos de refeições, fotos de usuários e assim por diante. Muito bom
Modelos relacionados da equipe do Qwen para referência
Tenho certeza de que este anúncio foi o que exibiu a maior quantidade de números de benchmark que já vi. Quero elogiar isso, porque não parece uma apresentação escolhendo só os truques favoráveis
Infelizmente, o Qwen3-VL ainda falha no teste de “membros extras”. Inserimos com Photoshop imagens de animais com membros adicionais nas pernas, como um cachorro com uma perna saindo da barriga ou um gato com dois pares de patas dianteiras, e ele, assim como todos os outros modelos, insistiu que o número de membros do animal era normal. Mesmo quando eu dizia “parece que há uma perna saindo da barriga”, ele insistia até o fim que eu estava enganado e que estava tudo normal. O Qwen chegou a responder que eram 4 mesmo depois de ser informado de que a imagem tinha sido editada
Dataset de relógios
Exemplo de dado d20
Em resumo, sem criar 1 milhão de exemplos de dados para casos como membros extras, ele não acerta, e o problema de ter que criar novos datasets para outros problemas continua se repetindo