Qwen3-Omni: modelo nativo de IA omni para texto, imagem e vídeo

(github.com/QwenLM)

12 pontos por GN⁺ 2025-09-23 | 2 comentários | Compartilhar no WhatsApp

LLM multimodal de ponta que processa texto, imagem, áudio e vídeo em um único modelo, com geração de voz em tempo real
Suporta 119 idiomas de texto, 19 idiomas de entrada por voz e 10 idiomas de saída por voz, sendo otimizado para implementar serviços globais
A arquitetura do modelo usa um design Thinker–Talker baseado em MoE, reforçando desempenho e eficiência, além de oferecer conversação por streaming e controle de comportamento personalizado para o usuário
O Qwen3-Omni-30B-A3B-Captioner, lançado como open source, oferece legendagem de áudio detalhada com baixa taxa de alucinação
Conta com caminhos variados e flexíveis para uso em produção, como Hugging Face Transformers, vLLM, Docker e API, além de recursos que facilitam o desenvolvimento

Visão geral e importância do Qwen3-Omni

Qwen3-Omni é um LLM omnimodal multilíngue de ponta a ponta desenvolvido pela equipe Qwen da Alibaba Cloud
O projeto se destaca por ser um dos raros AIs multimodais open source capazes de entender de forma integrada texto, imagem, áudio e vídeo, além de gerar respostas em tempo real
Em comparação com alternativas open source concorrentes, possui vantagens como amplo suporte a idiomas, streaming em tempo real e legendagem de áudio de alta precisão
Permite colocar em prática rapidamente diversos novos serviços, como perguntas e respostas em linguagem natural, análise de contextos de áudio e visuais, e interfaces multimodais temporais

Principais características

Processamento multimodal: lida com entradas de texto, imagem, áudio e vídeo, e produz respostas em texto/voz em tempo real
Desempenho de ponta: alcança SOTA em 22 de 36 benchmarks relacionados a áudio/vídeo, 32 SOTA no critério open source, e desempenho em ASR e diálogo por voz semelhante ao Gemini 2.5 Pro
Amplo suporte a idiomas: oferece suporte a 119 idiomas de texto, 19 idiomas de entrada por voz e 10 idiomas de saída por voz
Streaming em tempo real: turn-taking natural e respostas imediatas rápidas
Controle personalizado pelo usuário: permite ajuste fino de comportamento via system prompt e maior adaptabilidade
Arquitetura baseada em MoE: design Thinker–Talker, pré-treinamento AuT e estrutura de múltiplos codebooks para atingir latência ultrabaixa e alta eficiência
Modelo de legendagem de áudio open source: com o Qwen3-Omni-30B-A3B-Captioner, oferece descrição detalhada de áudio e mitigação de alucinações

Exemplos de cenários por domínio suportado

Áudio: reconhecimento de fala, tradução de fala, análise de música/sons e legendagem de áudio
Visual: OCR de imagens complexas, reconhecimento de objetos, QA com base em imagem, resolução de problemas matemáticos, descrição de vídeo/navegação e análise de transição de cenas
Áudio + visual: QA multimodal, conversação e chamadas de voz para agentes
Fine-tuning downstream: fine-tuning de modelos de caption com o Qwen3-Omni-30B-A3B-Instruct

Descrição dos modelos

Qwen3-Omni-30B-A3B-Instruct: entrada de áudio, vídeo e texto + saída em texto/voz (thinker + talker)
Qwen3-Omni-30B-A3B-Thinking: entrada de áudio, vídeo e texto + saída em texto (apenas thinker, chain-of-thought reasoning)
Qwen3-Omni-30B-A3B-Captioner: entrada de áudio → saída em texto, com descrições detalhadas e minimização de alucinações (especializado em caption)

Principais ambientes de uso e vantagens

Integração com Hugging Face Transformers: fácil incorporação no código, tratamento flexível de vários canais de entrada (B64, URL etc.) e suporte a FlashAttention 2
vLLM: forte em baixa latência e concorrência para serviços de grande escala, inferência em lote rápida, expansão simples em ambientes multi-GPU e integração robusta entre servidor e API
Imagem Docker disponível: reduz conflitos de ambiente e facilita testes/distribuição
DashScope API: API oficial da Alibaba, com suporte tanto em tempo real quanto offline
Demos web/on-premises: experiência via web mesmo sem implantação separada

Exemplos de uso real e dicas

Algoritmo central e recursos

A estrutura Thinker–Talker permite raciocínio avançado e síntese de voz de forma separada
Suporta API consistente e processamento explícito de prompts para várias combinações de entrada (apenas texto/texto + imagem/áudio/vídeo etc.)
Caso saída por voz não seja desejada, há opção de economia de memória (mais de 10 GB)
Suporta opções variadas de síntese de voz (Ethan, Chelsie, Aiden etc.), selecionáveis pelo parâmetro speaker

Exemplos avançados de lote/conversação

É eficiente para grandes volumes de dados, benchmarks e serviços conversacionais ao processar de uma vez várias mensagens multimodais combinadas
Gera respostas personalizadas para cada mensagem (combinações de texto, imagem, áudio e vídeo)

Implantação prática com base em vLLM

Permite inferência concorrente e tuning de memória por meio de configuração de parâmetros (tensor_parallel_size, max_num_seqs, limit_mm_per_prompt etc.)
Suporta conversação via API em vLLM serve, com previsão de suporte futuro à saída de áudio no modelo Instruct

API e ambiente

Fornece documentação de API em nuvem via DashScope API para tempo real, offline e caption (China/global)
Oferece flexibilidade para abranger ambientes como vLLM, Official API e Transformers conforme o objetivo, seja produção ou pesquisa

Especificações do sistema/recomendações

Para precisão BF16 e vídeos de 15 a 120 segundos, há orientação de memória mínima entre 68 e 145 GB
Requer ambiente com GPU e suporte a FlashAttention 2
Dica de uso de prompt: usar instruções textuais explícitas junto com a entrada multimodal

Uso em agentes e downstream

Permite construir diversos agentes, como chamadas de função baseadas em áudio, serviços de assistente com diálogo e análise multimodal em tempo real, e legendagem detalhada de áudio
Traz exemplos de controle de papéis via system prompt e de configuração de estilo de conversa e framing

Encerramento

O Qwen3-Omni integra, entre os LLMs open source, um conjunto de uso geral de texto + voz + imagem + vídeo em escala de classe mundial, sendo ideal para serviços web em tempo real e em grande escala, pesquisa e implantação interna em organizações. Sua integração estreita com ambientes como vLLM, API e Docker, além da alta compatibilidade e do suporte detalhado a casos de uso, traz grandes vantagens para a eficiência de desenvolvimento e a competitividade.

2 comentários

yeorinhieut 2025-09-24

Coreano - parece que ele dá suporte ao coreano!

GN⁺ 2025-09-23

Comentários no Hacker News

Quando conversei em inglês, pareceu muito lento, mas em espanhol senti que era bem mais rápido. É realmente impressionante pensar que em breve poderemos usar recursos enormes como tradução em tempo real. Se os laboratórios americanos não entrarem de forma agressiva na disputa por pesos abertos, acho que no fim a China vai dominar o mercado de IA. Também fico pensando que americanos sensíveis a privacidade ou propriedade dos dados talvez acabem montando em casa um dispositivo de US$ 1.000 a US$ 2.000 rodando um modelo chinês aberto, e isso parece uma mudança realmente espantosa.
- Morando nos EUA, tenho visto notícias de que a China está recomendando Linux com força, promovendo arquiteturas de CPU abertas como RISC-V e até modelos abertos auto-hospedados. Estou começando a achar que nós é que somos os “vilões”.
- Eu realmente rodo duas 3090 em casa com o Qwen3. Também integrei com o Home Assistant e uso até dispositivos de voz satélite com esp32. Funciona surpreendentemente bem.
- O americano médio aparentemente quase não tem disposição para gastar US$ 1.000 a US$ 2.000 extras em tecnologia que garanta privacidade. A maioria já entrega todo o áudio e vídeo da casa ao governo sem mandado por meio de câmeras IoT (como Ring etc.) para economizar entre US$ 20 e US$ 200.
Dá para testar diretamente em https://chat.qwen.ai/. É preciso entrar com Google ou GitHub para usar o modo de voz. Há várias vozes disponíveis, por exemplo Dylan (adolescente que cresceu nos becos de Pequim), Peter (especialista em esquetes cômicas de Tianjin), Cherry (jovem mulher alegre e positiva), Ethan (garoto enérgico e caloroso), Eric (homem especial de Chengdu, em Sichuan) e Jada (irmãzona carismática de Xangai).
- É especialmente engraçado testar as vozes mudando o idioma. Em russo, Ryan soa como um ocidental que começou a aprender russo há um mês; Dylan parece mais natural; e as outras vozes falam russo com um forte sotaque asiático, então cada uma tem uma personalidade divertida.
- Eu só vejo o Omni Flash; queria saber se é isso mesmo.
Os pesos do modelo têm 70GB, e o tamanho dos arquivos também aparece no Hugging Face (Qwen/Qwen3-Omni-30B-A3B-Instruct). É um tamanho bem acessível para rodar localmente. Fico curioso se vai sair uma porta para macOS em breve; por enquanto parece exigir GPU da NVIDIA.
- Considerando BF16, se quantizar para Q4, parece que caberia tranquilamente até em uma GPU de 24GB. Acho que é parecido com outros modelos da mesma linha 30B-A3B. Eu estava com medo de que fosse algo na faixa de 200B+, então achei um alívio.
- Não tive tempo de testar, mas parece interessante tentar fazer isso funcionar junto com o Mojo stuff para Apple lançado ontem. Ainda não sei quão maduro está, mas parece um desafio divertido.
- Queria saber se existe algum motor de inferência que rode no macOS.
- Gostaria de saber se roda numa 5090, ou se dá para ligar várias GPUs, ou se a NVIDIA bloqueou isso.
O vídeo de demonstração está aqui; em especial, a parte em que ele traduz entrada de vídeo e voz para outro idioma e ainda gera saída em voz foi a coisa mais impressionante que vi até agora.
Vídeo de demonstração no YouTube
O verdadeiro ponto de alavancagem nessa área é desempenho/tamanho. Se surgir competição em pesos abertos, acho que a inovação em eficiência será forçada. Modelos de pesos fechados podem acabar enfrentando vantagens que nem imaginaram. Se mecanismos coletivos de inferência em cluster evoluírem o suficiente, fico curioso para saber quando um servidor H100 com 8 modelos de 30B poderá superar um único modelo de 240B em termos de precisão.
Por curiosidade, testei com alguns clipes de áudio simples e ele consegue distinguir até instrumentos como piano e bateria. Acho que ainda vi pouca pesquisa de LLM multimodal focada em reconhecimento de áudio além de voz. Seria ótimo ver uma análise mais profunda do estado da arte (SOTA).
Fico curioso sobre o que “native video support” realmente significa. É só interpretar imagens full-frame contínuas, de um jeito que perde eventos rápidos, ou quer dizer algo mais complexo?
Acho que entrada de voz + saída de voz é uma mudança enorme. Em teoria, dá para conversar por voz e traduzir imediatamente para o meu idioma ou para o idioma da outra pessoa. Hoje ainda são necessárias várias tecnologias no meio, como palavra de ativação, fala-para-texto, texto-para-fala etc., mas este modelo aparentemente já tem pelo menos umas 3 versões na faixa de 32b com entrada e saída de voz. Dependendo da arquitetura, no futuro talvez dê para rodar isso em casa ou em um dispositivo tipo uma “torradeira de IA”.
- Acho que há oportunidades enormes se modelos assim forem conectados por tool calls a sistemas de automação residencial. Eu estava esperando esse suporte aparecer em outros serviços desde que o ChatGPT ganhou isso. Especialmente em situações em que você não pode usar as mãos, como ao cozinhar ("leia o próximo passo, minhas mãos estão sujas de carne", "quanto de farinha preciso para fazer roux?", "não tenho limão, o que posso usar no lugar?"). Isso pode ser revolucionário.
- Acima de tudo, parece que isso ajudaria muito no aprendizado de idiomas. Também parece possível rodar localmente. Fico ainda mais animado se os desenvolvedores do unsloth mexerem nisso.
A arquitetura thinker/speaker do Qwen é realmente interessante. Parece próxima de como imagino a cognição multimodal humana: por exemplo, uma foto de maçã, a grafia “apple” e o som todos sendo mapeados para o mesmo conceito sem necessariamente passar por texto no meio.
- Fico curioso se todos os LLMs não funcionam assim.
Gostaria de saber se existe algum bom material para aprender sobre modelos multimodais; não sei muito bem por onde começar.