1 pontos por GN⁺ 2025-12-12 | 1 comentários | Compartilhar no WhatsApp
  • Qwen3-Omni-Flash-2025-12-01 é um modelo multimodal de próxima geração que processa texto, imagem, áudio e vídeo simultaneamente e gera saídas em texto e voz por streaming em tempo real
  • A compreensão de comandos de áudio e visuais e a estabilidade em conversas foram significativamente aprimoradas, permitindo interações naturais e consistentes entre voz e vídeo
  • Com o recurso de controle total do system prompt, é possível ajustar em detalhe estilo de personalidade, tom de fala, comprimento da saída e mais
  • Oferece suporte a texto em 119 idiomas, reconhecimento de fala em 19 idiomas e síntese de voz em 10 idiomas, resolvendo problemas de consistência multilíngue
  • O desempenho foi melhorado em todas as áreas, incluindo raciocínio lógico, geração de código e compreensão visual e de voz, oferecendo uma experiência de interação com IA natural e precisa

Visão geral do Qwen3-Omni-Flash-2025-12-01

  • Qwen3-Omni é um modelo grande multimodal nativo que processa diversas entradas, como texto, imagem, áudio e vídeo, e gera texto em tempo real e saídas de voz naturais
  • Esta versão, Qwen3-Omni-Flash-2025-12-01, é uma versão totalmente atualizada baseada no Qwen3-Omni anterior
  • O desempenho e a eficiência do modelo foram aprimorados de forma geral, oferecendo processamento multimodal mais rápido e preciso

Principais melhorias de recursos

  • Reforço da interação audiovisual

    • A compreensão e execução de comandos de voz e vídeo foram significativamente aprimoradas, resolvendo o problema de degradação de inteligência em situações cotidianas de fala coloquial
    • A estabilidade e consistência de conversas audiovisuais de múltiplas rodadas aumentaram, possibilitando interações naturais
  • Maior controle do system prompt

    • O system prompt pode ser totalmente personalizado, permitindo controle preciso do comportamento do modelo
    • É possível ajustar detalhadamente elementos como estilo de personalidade (ex.: doce, cool, estilo anime), tom de fala e comprimento da saída
  • Maior confiabilidade no suporte multilíngue

    • Suporte para interações baseadas em texto em 119 idiomas, reconhecimento de fala em 19 idiomas e síntese de voz em 10 idiomas
    • Os problemas de instabilidade linguística da versão anterior foram resolvidos, garantindo desempenho multilíngue preciso e consistente
  • Síntese de voz natural

    • A velocidade da fala, as pausas e a entonação são ajustadas automaticamente conforme o contexto do texto, produzindo qualidade de voz semelhante à humana
    • Elimina vozes lentas ou mecânicas e oferece saída de voz natural e expressiva

Indicadores de melhoria de desempenho

  • Fortalecimento da compreensão e geração de texto

    • Melhorias em raciocínio lógico com ZebraLogic +5.6, geração de código com LiveCodeBench-v6 +9.3, MultiPL-E +2.7 e qualidade de escrita com WritingBench +2.2
    • Maior confiabilidade na execução de instruções complexas em múltiplas etapas
  • Melhoria na precisão da compreensão de voz

    • Redução da taxa de erro de palavras em Fleurs-zh e melhoria de VoiceBench +3.2
    • Reforço da compreensão de voz em ambientes de conversação reais
  • Melhoria na qualidade da síntese de voz

    • Implementação de entonação e ritmo naturais em ambientes em chinês e multilíngues
    • Qualidade de fala semelhante à voz humana
  • Fortalecimento da compreensão de imagem

    • Melhorias em tarefas de raciocínio visual com MMMU +4.7, MMMU-Pro +4.8 e MathVision_full +2.2
    • Maior capacidade de interpretar conteúdos visuais complexos, como diagramas e figuras matemáticas
  • Melhoria na compreensão de vídeo

    • Aumento de MLVU +1.6, reforçando a compreensão semântica de vídeo
    • Melhoria da sincronização audiovisual, fortalecendo a base para conversas em vídeo em tempo real

Planos futuros

  • Está prevista a coleta de feedback de usuários e de casos inovadores de aplicação baseados no Qwen3-Omni
  • No futuro, estão planejadas expansões como reconhecimento de fala com múltiplos locutores (ASR), OCR de vídeo, aprendizado autônomo de áudio e vídeo e suporte a workflows baseados em agentes e function calling

Informações de citação

  • Ao usar em pesquisas, recomenda-se utilizar a seguinte citação

1 comentários

 
GN⁺ 2025-12-12
Comentários do Hacker News
  • Este modelo usa uma arquitetura MoE de 30B parâmetros, com cerca de 3B de parâmetros ativos
    Como sucessor do antigo modelo omni de 7B, dá para esperar um desempenho parecido com o Qwen2.5-Omni-7B
    Como não existem muitos modelos omni abertos, acho que é um lançamento bem relevante
    Pessoalmente, eu gostaria de usar esse modelo para substituir a interface de entrada e saída (teclado e monitor), enquanto o backend faria o processamento com outras tecnologias
    Também existe uma versão reasoning, e parece divertido que ela tenha a função de pronunciar tokens de “pensando” durante o chat por voz

    • Este modelo é uma pilha de vários componentes
      Há um encoder de áudio de 650M, um encoder visual de 540M, um LLM 30B-A3B, um LLM de áudio 3B-A0.3B, e um Transformer de 80M/ConvNet de 200M para converter tokens de áudio em forma de onda
      É uma versão com atualização de pesos não pública do Qwen3-Omni, e anteriormente o Qwen/Qwen3-Omni-30B-A3B-Instruct havia sido divulgado
      No momento, ele ainda não é totalmente suportado por frameworks de inferência open source, então só roda no transformers, e bem devagar
    • Pela documentação da Alibaba Cloud, este modelo não é open source
    • Não consegui encontrar os novos pesos em lugar nenhum. Verifiquei no Modelscope e no Hugging Face, mas não estavam lá, e parece que a janela de contexto foi expandida para 200K+ tokens
    • Acho interessante que a versão reasoning pronuncie tokens de pensamento. O Claude já funcionou assim no passado
    • Seria divertido colocar algum efeito tipo reverb nos tokens de pensamento para talvez ouvir o “som do pensamento” do modelo
  • Eu queria saber se o Qwen3-Omni suporta conversa em tempo real como o GPT-4o
    Pela documentação parecia que não, mas na prática parece que sim
    Também tenho curiosidade se alguém já conseguiu rodar isso localmente em um ambiente sem NVIDIA

    • No site oficial de chat ainda não existe um modelo áudio→áudio
      Eu costumo testar isso com homônimos (record vs record) ou pedindo mudanças no tom de voz
    • Como frameworks de inferência como vLLM ou SGLang ainda não têm suporte completo, em ambientes sem NVIDIA isso é impossível
    • Mesmo assim, parece haver suporte nativo a speech-to-speech
    • Ainda acho que não existe um app local de chat por voz realmente bem acabado
      Até coisas como Silly Tavern estão quase em nível unusable
      Mas justamente esses modelos de voz locais devem ser o núcleo de workflows baseados em linguagem natural
  • Eu queria saber se dá para rodar um modelo Omni em Macbook com GGUF ou MLX
    Com LMStudio ou Llama.cpp até daria, mas eles não suportam streaming de microfone nem webcam
    A Qwen normalmente fornece exemplos em Python baseados em Cuda, então estou procurando alternativas open source

  • Estou usando bastante o Gemini Flash Live 2.5
    Espero que a versão 3.0 saia em breve
    Nos benchmarks ele parece melhor que o Gemini Live, mas preciso testar por conta própria
    Pessoalmente, sempre achei os modelos Qwen Omni um pouco decepcionantes em ambientes centrados no inglês

  • Com 32B, ele parece pequeno o bastante para rodar até em máquinas com 64GB de RAM
    Quando aparecer no Ollama, pretendo testar eu mesmo

    • O Qwen3-Omni-30B-A3B do Hugging Face parece ter sido atualizado em setembro
      Mas nos benchmarks do paper, o Qwen3-Omni-Flash-2025-12-01 aparece com desempenho acima do Qwen3-235B-A22B
      Fico confuso sobre como isso é possível sendo um modelo de 30B
      A versão FLASH não está no Hugging Face e provavelmente é um modelo exclusivo de API
    • Eu o rodo bem em um Mac com 48GB de RAM, graças à memória unificada
  • No começo achei que fosse só para API, mas há um modelo na coleção do Hugging Face
    Só que na prática é a versão anterior, e a demo do HF também chama a API, então não há processamento local

  • É impressionante como o Qwen3-Omni supera o 2.5 Flash em todos os benchmarks
    Parece que chegou a hora de mover workloads de LLM para GPUs locais

    • Mas é indispensável fazer benchmark com o seu próprio dataset
      É difícil confiar em benchmarks públicos, e escolher modelo com base neles pode acabar decepcionando
    • Para tarefas só de texto, é mais eficiente usar Qwen3-30B-A3B em vez do Omni
    • Os benchmarks de imagem parecem ter sido comparados com o Qwen 2.0, então isso soa um pouco suspeito
  • Eu queria entender por que o jeito de falar desses modelos de voz parece sem vida
    Principalmente na parte do preço das frutas, soava totalmente natural, mas ainda dava para perceber imediatamente que era IA
    Talvez seja por causa da entonação ou da velocidade constante da fala

    • Eu, na verdade, prefiro quando a emoção não é exagerada
      Expressividade excessiva parece artificial
      Só foi uma pena haver erros de pronúncia em alemão
    • Talvez ele nem seja multimodal end-to-end de verdade
      Parece haver uma etapa separada de síntese de voz, e isso gera esse resultado
      Dá para verificar com testes de canto ou de entonação
    • Parece que tentaram colocar funções demais — visão, áudio, multilíngue, controle de entonação etc. — em apenas 30B parâmetros
      O modelo de voz do ChatGPT ainda é o mais natural
    • O fato de dar para perceber na hora que é IA talvez seja, na verdade, uma coisa boa
    • Eu até prefiro quando a IA tem um accent característico
  • Na saída de voz em tempo real, existe o problema de ser difícil distinguir entre os tokens de “pensando” e a fala destinada ao usuário

    • Uma forma simples é separar o stream de saída antes do TTS
      Enviando tokens de reasoning/estruturados para um lado e o texto para o usuário para outro
      e sintetizando em voz apenas o segundo, o problema de ouvir o “pensando” pode ser resolvido
  • Parece que a Qwen está sendo vaga sobre se libera ou não pesos abertos
    Na prática, a maioria é fechada, e muitos casos parecem públicos, mas são somente via API
    Isso acaba fazendo os usuários perderem tempo procurando modelos à toa