Olá, gostaríamos de apresentar o Dynin-Omni (https://dynin.ai/omni/), um modelo fundacional omnimodal lançado pelo laboratório AIDAS da Universidade Nacional de Seul (https://aidas.snu.ac.kr/). Trata-se de uma arquitetura unificada que compreende e gera texto, imagem, voz e vídeo em um único modelo.
Hoje em dia, muitos modelos multimodais integrados adotam uma estrutura em que um gerador de imagens ou um modelo TTS é acoplado a um LLM. Mas, na prática, esses pipelines costumam ser complexos, lentos e às vezes sofrem com problemas de orquestração.
Além disso, mesmo quando um modelo oferece suporte nativo a compreensão e geração sem geradores externos, a maioria ainda é baseada em Autoregressive (AR), o que exige gerar tokens em sequência. Como imagens e vídeos, na verdade, não são dados sequenciais, essa abordagem parece um pouco artificial.
Por isso, decidimos mudar completamente a abordagem.
Em vez de gerar tokens um a um, adotamos o método de masked diffusion, no qual se mascara e depois se restaura tudo de uma vez. Assim, toda tarefa passa a ser unificada como “quais tokens mascarar e restaurar”.
Por exemplo:
- Descrever uma imagem → preencher apenas o texto
- Gerar uma imagem a partir de texto → preencher os tokens de imagem
- Gerar voz → preencher os tokens de áudio
É assim que funciona.
Com isso, foi possível tratar compreensão e geração dentro de um único modelo, sem precisar acoplar separadamente um modelo de geração de imagem ou um modelo TTS. O desempenho, considerando um único modelo, é bastante sólido.
A inferência de texto está em um nível comparável ao dos LLMs recentes, e a compreensão de imagem e vídeo compete com modelos de visão como InternVL e Qwen2.5-VL. Já a geração de imagens chegou perto de modelos especializados como o FLUX, e a de voz se aproximou de modelos especializados da linha Qwen-TTS.
Também garantimos eficiência em termos de velocidade. A geração de texto é cerca de 4 a 5 vezes mais rápida que Qwen2.5-Omni e MiniCPM-o4.5, e ainda apresenta aproximadamente 2,5 vezes a velocidade do Qwen3-8B, um modelo de linguagem otimizado no vLLM. No caso da geração de imagens, também alcançamos qualidade semelhante com cerca de metade dos passos em comparação com modelos gerativos especializados existentes.
Enquanto modelos omnimodais recentes baseados em AR e centrados em percepção, como o Qwen3.5-Omni, focam principalmente na compreensão, o Dynin-Omni integra compreensão e geração em uma única arquitetura. Como restaura o conjunto inteiro de uma vez, em vez de gerar tokens sequencialmente, ele pode lidar de forma mais rápida e natural com dados não sequenciais, como imagens e vídeos.
Esse tipo de arquitetura é ainda mais importante em domínios como agentes e robótica, nos quais é preciso compreender simultaneamente diferentes entradas e gerar ações ou resultados reais. Diferentemente da abordagem de combinar vários modelos, um único modelo faz o processamento diretamente, reduzindo a complexidade do sistema e trazendo vantagens em custo e velocidade.
Além disso, como compreensão e geração estão integradas em um único framework, mesmo quando novas modalidades ou tarefas são adicionadas, é possível expandir naturalmente para diferentes domínios dentro da mesma estrutura, sem precisar combinar modelos separados.
Para que essa arquitetura possa ser usada também em ambientes reais de serviço, estamos trabalhando na integração com infraestrutura de serving baseada em vLLM, dInfer e SGLang. Como um único modelo lida tanto com entrada multimodal quanto com geração, uma infraestrutura de inferência eficiente também é um elemento importante.
Além disso, com base neste modelo, também estamos pesquisando o Dynin-Robotics, uma expansão para modelos de physical AI que inclui ambientes de robótica e agentes. O objetivo é uma arquitetura end-to-end capaz de compreender de forma integrada diversas entradas de sensores e conectá-las a ações reais.
Daqui para frente, pretendemos continuar evoluindo com pesquisa e desenvolvimento contínuos, assim como a série GLM da Universidade Tsinghua, na China, e o InternLM do Laboratório de Inteligência Artificial de Xangai. Se tiverem ideias de melhoria depois de ver o projeto, fiquem à vontade para compartilhar 👍
4 comentários
Obrigado. Naturalmente, ele deve funcionar bem em coreano, certo?
Parece que está ocorrendo um erro, talvez seja um problema do huggingface.co. Vou tentar executar localmente.
O suporte ao idioma coreano não está disponível na versão atual. Em breve, planejamos lançar uma versão treinada incluindo o coreano. Obrigado!
Até que ponto há planos de escalar isso?
Os planos concretos de escala ainda estão sendo elaborados internamente pela equipe. Pretendemos continuar desenvolvendo o modelo de forma contínua. Obrigado.