7 pontos por GN⁺ 2026-03-31 | Ainda não há comentários. | Compartilhar no WhatsApp
  • O modelo mais recente da equipe Alibaba Qwen, que compreende e gera texto, imagem, áudio e vídeo, aplica Hybrid-Attention MoE à arquitetura Thinker-Talker para reforçar amplamente a capacidade de processamento em todas as modalidades
  • Disponível em três tamanhos da versão Instruct — Plus, Flash e Light — com suporte a entrada de contexto longo de 256k, mais de 10 horas de áudio e mais de 400 segundos de vídeo em 720P
  • O Qwen3.5-Omni-Plus alcançou SOTA em 215 benchmarks de compreensão de áudio e vídeo e superou o Gemini-3.1 Pro em compreensão geral de áudio, raciocínio, tradução e conversa
  • Em relação à geração anterior, o suporte multilíngue foi ampliado de forma significativa, com reconhecimento de fala em 74 idiomas e 39 dialetos do chinês, além de síntese de fala em 36 idiomas; também adiciona recursos interativos como clonagem de voz, busca na web, conversa em tempo real e controle de emoção/velocidade/volume
  • A tecnologia ARIA (Adaptive Rate Interleave Alignment) resolve problemas de omissão e leitura incorreta causados pela diferença de eficiência de codificação entre tokens de texto e voz, melhorando drasticamente a naturalidade e a estabilidade da síntese de voz em streaming

Visão geral do modelo

  • Qwen3.5-Omni é o mais recente LLM totalmente omnimodal da Qwen, capaz de processar texto, imagem, áudio e vídeo
  • Tanto o Thinker quanto o Talker adotam a estrutura Hybrid-Attention MoE para melhorar o desempenho multimodal
  • Disponível em três versões Instruct: Plus, Flash e Light, todas com suporte a entrada de contexto longo de 256k
    • Entrada de áudio: mais de 10 horas
    • Entrada de vídeo em 720P·1FPS: mais de 400 segundos
  • Realizou pré-treinamento omnimodal com uma enorme quantidade de texto, dados visuais e mais de 100 milhões de horas de dados audiovisuais
  • Já está disponível por meio das APIs Offline e Realtime

Principais resultados (Offline)

  • O Qwen3.5-Omni-Plus atingiu SOTA em 215 subtarefas/benchmarks de compreensão, raciocínio e interação audiovisual
    • Inclui 3 benchmarks audiovisuais, 5 benchmarks de áudio, 8 benchmarks de ASR, 156 S2TT por idioma e 43 ASR por idioma
  • Supera o Gemini-3.1 Pro em compreensão geral de áudio, raciocínio, reconhecimento, tradução e conversa, e atinge o nível do Gemini-3.1 Pro na compreensão audiovisual geral
  • O desempenho em visão e texto é equivalente ao dos modelos Qwen3.5 de mesmo porte
  • Recurso de legendagem audiovisual: suporta descrições detalhadas e estruturadas em nível de cenário, com segmentação automática, anotações com timestamp, personagens e relações de áudio
  • Audio-Visual Vibe Coding: foi confirmada uma nova capacidade omnimodal de gerar código diretamente a partir de instruções audiovisuais

Principais recursos (Realtime)

  • Semantic Interruption: usa reconhecimento de intenção de turn-taking baseado em Odin para evitar interrupções desnecessárias causadas por backchanneling e ruído de fundo; vem ativado por padrão na API
  • Suporte nativo a WebSearch e FunctionCall complexos: o modelo decide de forma autônoma se deve chamar a busca na web para responder consultas em tempo real
  • Controle de voz end-to-end: segue instruções como um humano e permite controlar livremente volume, velocidade e emoção da fala
  • Clonagem de voz (Voice Clone): o usuário pode enviar uma voz para personalizar a fala do assistente de IA; tudo disponível pela Realtime API
  • É possível alterar o estilo de conversa e a identidade do modelo modificando o system prompt

Tecnologia ARIA

  • Para resolver problemas de omissão, leitura incorreta e pronúncia imprecisa causados pela diferença de eficiência de codificação entre tokens de texto e voz em interações de voz por streaming, foi proposta a tecnologia ARIA (Adaptive Rate Interleave Alignment)
  • Alinha dinamicamente unidades de texto e voz em interleave, preservando o desempenho em tempo real e melhorando amplamente a naturalidade e a estabilidade da síntese de voz
  • Substitui a abordagem anterior da geração Qwen3-Omni, que usava uma proporção fixa de 1:1 entre tokenizadores de texto e voz

Mudanças de arquitetura (em relação ao Qwen3-Omni)

  • Backbone: MoE → Hybrid-MoE
  • Comprimento de sequência: 32k → 256k (10 horas de áudio, 400 segundos de vídeo)
  • Escopo de legendagem: apenas áudio → audiovisual
  • Semantic Interruption: sem suporte → com suporte
  • WebSearch/Tool: sem suporte → com suporte
  • Controle/clonagem de voz: sem suporte → com suporte
  • Estrutura do Talker: Dual-Track Autoregression → Interleave + ARIA

Expansão do suporte multilíngue

  • Reconhecimento de fala (ASR)
    • Antes: 11 idiomas multilíngues + 8 dialetos do chinês
    • Agora: 74 idiomas + 39 dialetos do chinês
  • Síntese de fala (TTS)
    • Antes: 29 idiomas multilíngues + 7 dialetos do chinês
    • Agora: geração de voz em 36 idiomas (o texto original não especifica separadamente uma lista de dialetos para síntese)

Números de benchmark (principais trechos)

  • Audiovisual (Qwen3.5-Omni-Plus vs Gemini-3.1 Pro)
    • DailyOmni: 84.6 vs 82.7
    • AVUT: 85.0 vs 85.6
    • VideoMME (with audio): 83.7 vs 89.0
    • OmniGAIA: 57.2 vs 68.9
  • Áudio (Qwen3.5-Omni-Plus vs Gemini-3.1 Pro)
    • MMAU: 82.2 vs 81.1
    • VoiceBench: 93.1 vs 88.9
    • Fleurs S2TT (xx↔en top59): 35.4 vs 34.6
  • Estabilidade de síntese de fala WER↓ (Custom Voice, Seed-hard)
    • Qwen3.5-Omni-Plus: 6.24
    • ElevenLabs: 27.70 / Gemini-2.5 Pro: 11.57 / GPT-Audio: 8.19

API e forma de uso

  • Offline API: oferece suporte a análise de vídeo/áudio e busca na web (parâmetro enable_search); chamada via SDK compatível com Python OpenAI
  • Realtime API: conversa em tempo real baseada em WebSocket; usa o SDK dashscope, com suporte a streaming de entrada e saída de voz
  • IDs de modelo disponíveis: qwen3.5-omni-plus, qwen3.5-omni-plus-realtime
  • Suporte a endpoints separados para China continental (Pequim) e internacional (Singapura)

Lista de vozes

  • Vozes personalizadas em chinês e inglês: 5 opções, incluindo Tina, Cindy, Liora Mira, Sunnybobi e Raymond
  • Vozes de cenário com emoção e roleplay: 19 opções, incluindo Ethan, Harvey e Maia (chinês e inglês)
  • Vozes de dialetos chineses: 8 opções, incluindo dialeto de Sichuan, dialeto de Pequim, dialeto de Tianjin e cantonês
  • Vozes multilíngues: 23 vozes em 23 idiomas, incluindo coreano (Sohee), alemão (Lenn), japonês (Ono Anna), espanhol, francês e russo

Ainda não há comentários.

Ainda não há comentários.