- O modelo mais recente da equipe Alibaba Qwen, que compreende e gera texto, imagem, áudio e vídeo, aplica Hybrid-Attention MoE à arquitetura Thinker-Talker para reforçar amplamente a capacidade de processamento em todas as modalidades
- Disponível em três tamanhos da versão Instruct — Plus, Flash e Light — com suporte a entrada de contexto longo de 256k, mais de 10 horas de áudio e mais de 400 segundos de vídeo em 720P
- O Qwen3.5-Omni-Plus alcançou SOTA em 215 benchmarks de compreensão de áudio e vídeo e superou o Gemini-3.1 Pro em compreensão geral de áudio, raciocínio, tradução e conversa
- Em relação à geração anterior, o suporte multilíngue foi ampliado de forma significativa, com reconhecimento de fala em 74 idiomas e 39 dialetos do chinês, além de síntese de fala em 36 idiomas; também adiciona recursos interativos como clonagem de voz, busca na web, conversa em tempo real e controle de emoção/velocidade/volume
- A tecnologia ARIA (Adaptive Rate Interleave Alignment) resolve problemas de omissão e leitura incorreta causados pela diferença de eficiência de codificação entre tokens de texto e voz, melhorando drasticamente a naturalidade e a estabilidade da síntese de voz em streaming
Visão geral do modelo
- Qwen3.5-Omni é o mais recente LLM totalmente omnimodal da Qwen, capaz de processar texto, imagem, áudio e vídeo
- Tanto o Thinker quanto o Talker adotam a estrutura Hybrid-Attention MoE para melhorar o desempenho multimodal
- Disponível em três versões Instruct: Plus, Flash e Light, todas com suporte a entrada de contexto longo de 256k
- Entrada de áudio: mais de 10 horas
- Entrada de vídeo em 720P·1FPS: mais de 400 segundos
- Realizou pré-treinamento omnimodal com uma enorme quantidade de texto, dados visuais e mais de 100 milhões de horas de dados audiovisuais
- Já está disponível por meio das APIs Offline e Realtime
Principais resultados (Offline)
- O Qwen3.5-Omni-Plus atingiu SOTA em 215 subtarefas/benchmarks de compreensão, raciocínio e interação audiovisual
- Inclui 3 benchmarks audiovisuais, 5 benchmarks de áudio, 8 benchmarks de ASR, 156 S2TT por idioma e 43 ASR por idioma
- Supera o Gemini-3.1 Pro em compreensão geral de áudio, raciocínio, reconhecimento, tradução e conversa, e atinge o nível do Gemini-3.1 Pro na compreensão audiovisual geral
- O desempenho em visão e texto é equivalente ao dos modelos Qwen3.5 de mesmo porte
- Recurso de legendagem audiovisual: suporta descrições detalhadas e estruturadas em nível de cenário, com segmentação automática, anotações com timestamp, personagens e relações de áudio
- Audio-Visual Vibe Coding: foi confirmada uma nova capacidade omnimodal de gerar código diretamente a partir de instruções audiovisuais
Principais recursos (Realtime)
- Semantic Interruption: usa reconhecimento de intenção de turn-taking baseado em Odin para evitar interrupções desnecessárias causadas por backchanneling e ruído de fundo; vem ativado por padrão na API
- Suporte nativo a WebSearch e FunctionCall complexos: o modelo decide de forma autônoma se deve chamar a busca na web para responder consultas em tempo real
- Controle de voz end-to-end: segue instruções como um humano e permite controlar livremente volume, velocidade e emoção da fala
- Clonagem de voz (Voice Clone): o usuário pode enviar uma voz para personalizar a fala do assistente de IA; tudo disponível pela Realtime API
- É possível alterar o estilo de conversa e a identidade do modelo modificando o system prompt
Tecnologia ARIA
- Para resolver problemas de omissão, leitura incorreta e pronúncia imprecisa causados pela diferença de eficiência de codificação entre tokens de texto e voz em interações de voz por streaming, foi proposta a tecnologia ARIA (Adaptive Rate Interleave Alignment)
- Alinha dinamicamente unidades de texto e voz em interleave, preservando o desempenho em tempo real e melhorando amplamente a naturalidade e a estabilidade da síntese de voz
- Substitui a abordagem anterior da geração Qwen3-Omni, que usava uma proporção fixa de 1:1 entre tokenizadores de texto e voz
Mudanças de arquitetura (em relação ao Qwen3-Omni)
- Backbone: MoE → Hybrid-MoE
- Comprimento de sequência: 32k → 256k (10 horas de áudio, 400 segundos de vídeo)
- Escopo de legendagem: apenas áudio → audiovisual
- Semantic Interruption: sem suporte → com suporte
- WebSearch/Tool: sem suporte → com suporte
- Controle/clonagem de voz: sem suporte → com suporte
- Estrutura do Talker: Dual-Track Autoregression → Interleave + ARIA
Expansão do suporte multilíngue
- Reconhecimento de fala (ASR)
- Antes: 11 idiomas multilíngues + 8 dialetos do chinês
- Agora: 74 idiomas + 39 dialetos do chinês
- Síntese de fala (TTS)
- Antes: 29 idiomas multilíngues + 7 dialetos do chinês
- Agora: geração de voz em 36 idiomas (o texto original não especifica separadamente uma lista de dialetos para síntese)
Números de benchmark (principais trechos)
- Audiovisual (Qwen3.5-Omni-Plus vs Gemini-3.1 Pro)
- DailyOmni: 84.6 vs 82.7
- AVUT: 85.0 vs 85.6
- VideoMME (with audio): 83.7 vs 89.0
- OmniGAIA: 57.2 vs 68.9
- Áudio (Qwen3.5-Omni-Plus vs Gemini-3.1 Pro)
- MMAU: 82.2 vs 81.1
- VoiceBench: 93.1 vs 88.9
- Fleurs S2TT (xx↔en top59): 35.4 vs 34.6
- Estabilidade de síntese de fala WER↓ (Custom Voice, Seed-hard)
- Qwen3.5-Omni-Plus: 6.24
- ElevenLabs: 27.70 / Gemini-2.5 Pro: 11.57 / GPT-Audio: 8.19
API e forma de uso
- Offline API: oferece suporte a análise de vídeo/áudio e busca na web (parâmetro
enable_search); chamada via SDK compatível com Python OpenAI
- Realtime API: conversa em tempo real baseada em WebSocket; usa o SDK dashscope, com suporte a streaming de entrada e saída de voz
- IDs de modelo disponíveis:
qwen3.5-omni-plus, qwen3.5-omni-plus-realtime
- Suporte a endpoints separados para China continental (Pequim) e internacional (Singapura)
Lista de vozes
- Vozes personalizadas em chinês e inglês: 5 opções, incluindo Tina, Cindy, Liora Mira, Sunnybobi e Raymond
- Vozes de cenário com emoção e roleplay: 19 opções, incluindo Ethan, Harvey e Maia (chinês e inglês)
- Vozes de dialetos chineses: 8 opções, incluindo dialeto de Sichuan, dialeto de Pequim, dialeto de Tianjin e cantonês
- Vozes multilíngues: 23 vozes em 23 idiomas, incluindo coreano (Sohee), alemão (Lenn), japonês (Ono Anna), espanhol, francês e russo
Ainda não há comentários.