Qwen3.5-Omni: lançado LLM totalmente omnimodal que processa texto, imagem, áudio e vídeo

(qwen.ai)

7 pontos por GN⁺ 2026-03-31 | Ainda não há comentários. | Compartilhar no WhatsApp

O modelo mais recente da equipe Alibaba Qwen, que compreende e gera texto, imagem, áudio e vídeo, aplica Hybrid-Attention MoE à arquitetura Thinker-Talker para reforçar amplamente a capacidade de processamento em todas as modalidades
Disponível em três tamanhos da versão Instruct — Plus, Flash e Light — com suporte a entrada de contexto longo de 256k, mais de 10 horas de áudio e mais de 400 segundos de vídeo em 720P
O Qwen3.5-Omni-Plus alcançou SOTA em 215 benchmarks de compreensão de áudio e vídeo e superou o Gemini-3.1 Pro em compreensão geral de áudio, raciocínio, tradução e conversa
Em relação à geração anterior, o suporte multilíngue foi ampliado de forma significativa, com reconhecimento de fala em 74 idiomas e 39 dialetos do chinês, além de síntese de fala em 36 idiomas; também adiciona recursos interativos como clonagem de voz, busca na web, conversa em tempo real e controle de emoção/velocidade/volume
A tecnologia ARIA (Adaptive Rate Interleave Alignment) resolve problemas de omissão e leitura incorreta causados pela diferença de eficiência de codificação entre tokens de texto e voz, melhorando drasticamente a naturalidade e a estabilidade da síntese de voz em streaming

Visão geral do modelo

Qwen3.5-Omni é o mais recente LLM totalmente omnimodal da Qwen, capaz de processar texto, imagem, áudio e vídeo
Tanto o Thinker quanto o Talker adotam a estrutura Hybrid-Attention MoE para melhorar o desempenho multimodal
Disponível em três versões Instruct: Plus, Flash e Light, todas com suporte a entrada de contexto longo de 256k
- Entrada de áudio: mais de 10 horas
- Entrada de vídeo em 720P·1FPS: mais de 400 segundos
Realizou pré-treinamento omnimodal com uma enorme quantidade de texto, dados visuais e mais de 100 milhões de horas de dados audiovisuais
Já está disponível por meio das APIs Offline e Realtime

O Qwen3.5-Omni-Plus atingiu SOTA em 215 subtarefas/benchmarks de compreensão, raciocínio e interação audiovisual
- Inclui 3 benchmarks audiovisuais, 5 benchmarks de áudio, 8 benchmarks de ASR, 156 S2TT por idioma e 43 ASR por idioma
Supera o Gemini-3.1 Pro em compreensão geral de áudio, raciocínio, reconhecimento, tradução e conversa, e atinge o nível do Gemini-3.1 Pro na compreensão audiovisual geral
O desempenho em visão e texto é equivalente ao dos modelos Qwen3.5 de mesmo porte
Recurso de legendagem audiovisual: suporta descrições detalhadas e estruturadas em nível de cenário, com segmentação automática, anotações com timestamp, personagens e relações de áudio
Audio-Visual Vibe Coding: foi confirmada uma nova capacidade omnimodal de gerar código diretamente a partir de instruções audiovisuais

Semantic Interruption: usa reconhecimento de intenção de turn-taking baseado em Odin para evitar interrupções desnecessárias causadas por backchanneling e ruído de fundo; vem ativado por padrão na API
Suporte nativo a WebSearch e FunctionCall complexos: o modelo decide de forma autônoma se deve chamar a busca na web para responder consultas em tempo real
Controle de voz end-to-end: segue instruções como um humano e permite controlar livremente volume, velocidade e emoção da fala
Clonagem de voz (Voice Clone): o usuário pode enviar uma voz para personalizar a fala do assistente de IA; tudo disponível pela Realtime API
É possível alterar o estilo de conversa e a identidade do modelo modificando o system prompt

Para resolver problemas de omissão, leitura incorreta e pronúncia imprecisa causados pela diferença de eficiência de codificação entre tokens de texto e voz em interações de voz por streaming, foi proposta a tecnologia ARIA (Adaptive Rate Interleave Alignment)
Alinha dinamicamente unidades de texto e voz em interleave, preservando o desempenho em tempo real e melhorando amplamente a naturalidade e a estabilidade da síntese de voz
Substitui a abordagem anterior da geração Qwen3-Omni, que usava uma proporção fixa de 1:1 entre tokenizadores de texto e voz

Backbone: MoE → Hybrid-MoE
Comprimento de sequência: 32k → 256k (10 horas de áudio, 400 segundos de vídeo)
Escopo de legendagem: apenas áudio → audiovisual
Semantic Interruption: sem suporte → com suporte
WebSearch/Tool: sem suporte → com suporte
Controle/clonagem de voz: sem suporte → com suporte
Estrutura do Talker: Dual-Track Autoregression → Interleave + ARIA

Reconhecimento de fala (ASR)
- Antes: 11 idiomas multilíngues + 8 dialetos do chinês
- Agora: 74 idiomas + 39 dialetos do chinês
Síntese de fala (TTS)
- Antes: 29 idiomas multilíngues + 7 dialetos do chinês
- Agora: geração de voz em 36 idiomas (o texto original não especifica separadamente uma lista de dialetos para síntese)

Audiovisual (Qwen3.5-Omni-Plus vs Gemini-3.1 Pro)
- DailyOmni: 84.6 vs 82.7
- AVUT: 85.0 vs 85.6
- VideoMME (with audio): 83.7 vs 89.0
- OmniGAIA: 57.2 vs 68.9
Áudio (Qwen3.5-Omni-Plus vs Gemini-3.1 Pro)
- MMAU: 82.2 vs 81.1
- VoiceBench: 93.1 vs 88.9
- Fleurs S2TT (xx↔en top59): 35.4 vs 34.6
Estabilidade de síntese de fala WER↓ (Custom Voice, Seed-hard)
- Qwen3.5-Omni-Plus: 6.24
- ElevenLabs: 27.70 / Gemini-2.5 Pro: 11.57 / GPT-Audio: 8.19

Offline API: oferece suporte a análise de vídeo/áudio e busca na web (parâmetro enable_search); chamada via SDK compatível com Python OpenAI
Realtime API: conversa em tempo real baseada em WebSocket; usa o SDK dashscope, com suporte a streaming de entrada e saída de voz
IDs de modelo disponíveis: qwen3.5-omni-plus, qwen3.5-omni-plus-realtime
Suporte a endpoints separados para China continental (Pequim) e internacional (Singapura)

Vozes personalizadas em chinês e inglês: 5 opções, incluindo Tina, Cindy, Liora Mira, Sunnybobi e Raymond
Vozes de cenário com emoção e roleplay: 19 opções, incluindo Ethan, Harvey e Maia (chinês e inglês)
Vozes de dialetos chineses: 8 opções, incluindo dialeto de Sichuan, dialeto de Pequim, dialeto de Tianjin e cantonês
Vozes multilíngues: 23 vozes em 23 idiomas, incluindo coreano (Sohee), alemão (Lenn), japonês (Ono Anna), espanhol, francês e russo