Qwen3-Omni-Flash-2025-12-01: modelo grande multimodal nativo de próxima geração

(qwen.ai)

1 pontos por GN⁺ 2025-12-12 | 1 comentários | Compartilhar no WhatsApp

Qwen3-Omni-Flash-2025-12-01 é um modelo multimodal de próxima geração que processa texto, imagem, áudio e vídeo simultaneamente e gera saídas em texto e voz por streaming em tempo real
A compreensão de comandos de áudio e visuais e a estabilidade em conversas foram significativamente aprimoradas, permitindo interações naturais e consistentes entre voz e vídeo
Com o recurso de controle total do system prompt, é possível ajustar em detalhe estilo de personalidade, tom de fala, comprimento da saída e mais
Oferece suporte a texto em 119 idiomas, reconhecimento de fala em 19 idiomas e síntese de voz em 10 idiomas, resolvendo problemas de consistência multilíngue
O desempenho foi melhorado em todas as áreas, incluindo raciocínio lógico, geração de código e compreensão visual e de voz, oferecendo uma experiência de interação com IA natural e precisa

Visão geral do Qwen3-Omni-Flash-2025-12-01

Qwen3-Omni é um modelo grande multimodal nativo que processa diversas entradas, como texto, imagem, áudio e vídeo, e gera texto em tempo real e saídas de voz naturais
Esta versão, Qwen3-Omni-Flash-2025-12-01, é uma versão totalmente atualizada baseada no Qwen3-Omni anterior
O desempenho e a eficiência do modelo foram aprimorados de forma geral, oferecendo processamento multimodal mais rápido e preciso

Principais melhorias de recursos

Reforço da interação audiovisual
- A compreensão e execução de comandos de voz e vídeo foram significativamente aprimoradas, resolvendo o problema de degradação de inteligência em situações cotidianas de fala coloquial
- A estabilidade e consistência de conversas audiovisuais de múltiplas rodadas aumentaram, possibilitando interações naturais
Maior controle do system prompt
- O system prompt pode ser totalmente personalizado, permitindo controle preciso do comportamento do modelo
- É possível ajustar detalhadamente elementos como estilo de personalidade (ex.: doce, cool, estilo anime), tom de fala e comprimento da saída
Maior confiabilidade no suporte multilíngue
- Suporte para interações baseadas em texto em 119 idiomas, reconhecimento de fala em 19 idiomas e síntese de voz em 10 idiomas
- Os problemas de instabilidade linguística da versão anterior foram resolvidos, garantindo desempenho multilíngue preciso e consistente
Síntese de voz natural
- A velocidade da fala, as pausas e a entonação são ajustadas automaticamente conforme o contexto do texto, produzindo qualidade de voz semelhante à humana
- Elimina vozes lentas ou mecânicas e oferece saída de voz natural e expressiva

Indicadores de melhoria de desempenho

Fortalecimento da compreensão e geração de texto
- Melhorias em raciocínio lógico com ZebraLogic +5.6, geração de código com LiveCodeBench-v6 +9.3, MultiPL-E +2.7 e qualidade de escrita com WritingBench +2.2
- Maior confiabilidade na execução de instruções complexas em múltiplas etapas
Melhoria na precisão da compreensão de voz
- Redução da taxa de erro de palavras em Fleurs-zh e melhoria de VoiceBench +3.2
- Reforço da compreensão de voz em ambientes de conversação reais
Melhoria na qualidade da síntese de voz
- Implementação de entonação e ritmo naturais em ambientes em chinês e multilíngues
- Qualidade de fala semelhante à voz humana
Fortalecimento da compreensão de imagem
- Melhorias em tarefas de raciocínio visual com MMMU +4.7, MMMU-Pro +4.8 e MathVision_full +2.2
- Maior capacidade de interpretar conteúdos visuais complexos, como diagramas e figuras matemáticas
Melhoria na compreensão de vídeo
- Aumento de MLVU +1.6, reforçando a compreensão semântica de vídeo
- Melhoria da sincronização audiovisual, fortalecendo a base para conversas em vídeo em tempo real

Planos futuros

Está prevista a coleta de feedback de usuários e de casos inovadores de aplicação baseados no Qwen3-Omni
No futuro, estão planejadas expansões como reconhecimento de fala com múltiplos locutores (ASR), OCR de vídeo, aprendizado autônomo de áudio e vídeo e suporte a workflows baseados em agentes e function calling

Informações de citação

Ao usar em pesquisas, recomenda-se utilizar a seguinte citação
- @misc{qwen3_omni_20251201, author={{Qwen Team, Alibaba}}, title={{Qwen3-Omni-Flash-2025-12-01：Hear You. See You. Follow Smarter!}}, year={2025}, url={https://qwen.ai/blog?id=qwen3-omni-20251201}}

1 comentários

GN⁺ 2025-12-12

Comentários do Hacker News

Este modelo usa uma arquitetura MoE de 30B parâmetros, com cerca de 3B de parâmetros ativos
Como sucessor do antigo modelo omni de 7B, dá para esperar um desempenho parecido com o Qwen2.5-Omni-7B
Como não existem muitos modelos omni abertos, acho que é um lançamento bem relevante
Pessoalmente, eu gostaria de usar esse modelo para substituir a interface de entrada e saída (teclado e monitor), enquanto o backend faria o processamento com outras tecnologias
Também existe uma versão reasoning, e parece divertido que ela tenha a função de pronunciar tokens de “pensando” durante o chat por voz
- Este modelo é uma pilha de vários componentes
  Há um encoder de áudio de 650M, um encoder visual de 540M, um LLM 30B-A3B, um LLM de áudio 3B-A0.3B, e um Transformer de 80M/ConvNet de 200M para converter tokens de áudio em forma de onda
  É uma versão com atualização de pesos não pública do Qwen3-Omni, e anteriormente o Qwen/Qwen3-Omni-30B-A3B-Instruct havia sido divulgado
  No momento, ele ainda não é totalmente suportado por frameworks de inferência open source, então só roda no transformers, e bem devagar
- Pela documentação da Alibaba Cloud, este modelo não é open source
- Não consegui encontrar os novos pesos em lugar nenhum. Verifiquei no Modelscope e no Hugging Face, mas não estavam lá, e parece que a janela de contexto foi expandida para 200K+ tokens
- Acho interessante que a versão reasoning pronuncie tokens de pensamento. O Claude já funcionou assim no passado
- Seria divertido colocar algum efeito tipo reverb nos tokens de pensamento para talvez ouvir o “som do pensamento” do modelo
Eu queria saber se o Qwen3-Omni suporta conversa em tempo real como o GPT-4o
Pela documentação parecia que não, mas na prática parece que sim
Também tenho curiosidade se alguém já conseguiu rodar isso localmente em um ambiente sem NVIDIA
- No site oficial de chat ainda não existe um modelo áudio→áudio
  Eu costumo testar isso com homônimos (record vs record) ou pedindo mudanças no tom de voz
- Como frameworks de inferência como vLLM ou SGLang ainda não têm suporte completo, em ambientes sem NVIDIA isso é impossível
- Mesmo assim, parece haver suporte nativo a speech-to-speech
- Ainda acho que não existe um app local de chat por voz realmente bem acabado
  Até coisas como Silly Tavern estão quase em nível unusable
  Mas justamente esses modelos de voz locais devem ser o núcleo de workflows baseados em linguagem natural
Eu queria saber se dá para rodar um modelo Omni em Macbook com GGUF ou MLX
Com LMStudio ou Llama.cpp até daria, mas eles não suportam streaming de microfone nem webcam
A Qwen normalmente fornece exemplos em Python baseados em Cuda, então estou procurando alternativas open source
- Consultando o guia de uso do vLLM e a demo local de Web UI, parece que dá para conectar
- Dá para fazer isso usando whisper.cpp
Estou usando bastante o Gemini Flash Live 2.5
Espero que a versão 3.0 saia em breve
Nos benchmarks ele parece melhor que o Gemini Live, mas preciso testar por conta própria
Pessoalmente, sempre achei os modelos Qwen Omni um pouco decepcionantes em ambientes centrados no inglês
Com 32B, ele parece pequeno o bastante para rodar até em máquinas com 64GB de RAM
Quando aparecer no Ollama, pretendo testar eu mesmo
- O Qwen3-Omni-30B-A3B do Hugging Face parece ter sido atualizado em setembro
  Mas nos benchmarks do paper, o Qwen3-Omni-Flash-2025-12-01 aparece com desempenho acima do Qwen3-235B-A22B
  Fico confuso sobre como isso é possível sendo um modelo de 30B
  A versão FLASH não está no Hugging Face e provavelmente é um modelo exclusivo de API
- Eu o rodo bem em um Mac com 48GB de RAM, graças à memória unificada
No começo achei que fosse só para API, mas há um modelo na coleção do Hugging Face
Só que na prática é a versão anterior, e a demo do HF também chama a API, então não há processamento local
É impressionante como o Qwen3-Omni supera o 2.5 Flash em todos os benchmarks
Parece que chegou a hora de mover workloads de LLM para GPUs locais
- Mas é indispensável fazer benchmark com o seu próprio dataset
  É difícil confiar em benchmarks públicos, e escolher modelo com base neles pode acabar decepcionando
- Para tarefas só de texto, é mais eficiente usar Qwen3-30B-A3B em vez do Omni
- Os benchmarks de imagem parecem ter sido comparados com o Qwen 2.0, então isso soa um pouco suspeito
Eu queria entender por que o jeito de falar desses modelos de voz parece sem vida
Principalmente na parte do preço das frutas, soava totalmente natural, mas ainda dava para perceber imediatamente que era IA
Talvez seja por causa da entonação ou da velocidade constante da fala
- Eu, na verdade, prefiro quando a emoção não é exagerada
  Expressividade excessiva parece artificial
  Só foi uma pena haver erros de pronúncia em alemão
- Talvez ele nem seja multimodal end-to-end de verdade
  Parece haver uma etapa separada de síntese de voz, e isso gera esse resultado
  Dá para verificar com testes de canto ou de entonação
- Parece que tentaram colocar funções demais — visão, áudio, multilíngue, controle de entonação etc. — em apenas 30B parâmetros
  O modelo de voz do ChatGPT ainda é o mais natural
- O fato de dar para perceber na hora que é IA talvez seja, na verdade, uma coisa boa
- Eu até prefiro quando a IA tem um accent característico
Na saída de voz em tempo real, existe o problema de ser difícil distinguir entre os tokens de “pensando” e a fala destinada ao usuário
- Uma forma simples é separar o stream de saída antes do TTS
  Enviando tokens de reasoning/estruturados para um lado e o texto para o usuário para outro
  e sintetizando em voz apenas o segundo, o problema de ouvir o “pensando” pode ser resolvido
Parece que a Qwen está sendo vaga sobre se libera ou não pesos abertos
Na prática, a maioria é fechada, e muitos casos parecem públicos, mas são somente via API
Isso acaba fazendo os usuários perderem tempo procurando modelos à toa

Qwen3-Omni-Flash-2025-12-01: modelo grande multimodal nativo de próxima geração

Visão geral do Qwen3-Omni-Flash-2025-12-01

Principais melhorias de recursos

Indicadores de melhoria de desempenho

Planos futuros

Informações de citação

Leituras relacionadas

1 comentários

Comentários do Hacker News