- NVIDIA Cosmos 3 é um único modelo-base aberto para IA física, combinando raciocínio físico, geração de mundo e geração de ações dentro de um só modelo
- A arquitetura Mixture-of-Transformers separa a Reasoner tower e a Generator tower para conectar compreensão de entrada com saídas geradas com percepção física, reduzindo a necessidade de orquestrar vários modelos e pipelines de inferência
- Cosmos 3 Nano tem 16B parâmetros e mira inferência em nível de workstation, enquanto Cosmos 3 Super tem 64B parâmetros e mira implantação em datacenters e geração de dados sintéticos de alta qualidade
- A NVIDIA disponibilizou checkpoints dos modelos, scripts de treinamento, ferramentas de implantação, seis conjuntos de dados sintéticos e microsserviços NIM para dar suporte à adaptação de domínio em robótica, direção autônoma e automação de armazéns
- Em HUE e vários benchmarks públicos, o Cosmos 3 é avaliado por raciocínio de IA física, qualidade de geração e desempenho por domínio, com Super e Nano liderando respectivamente os tiers 32B e 8B do VANTAGE-Bench
Principais mudanças no Cosmos 3
- NVIDIA Cosmos 3 é um modelo-base de fronteira projetado para que sistemas de IA física, como robôs, veículos autônomos e espaços inteligentes, entendam o mundo, prevejam a próxima situação e gerem ações adequadas a ambientes, formatos e tarefas específicos
- As versões anteriores do Cosmos separavam geração de mundo, compreensão física e geração controlada de cenas em modelos e fluxos de trabalho distintos, mas o Cosmos 3 integra tudo isso em um único modelo
- Esta versão oferece checkpoints de modelo no Hugging Face, código no GitHub, conjuntos de dados públicos, scripts de treinamento adicional e microsserviços Cosmos NIM para implantação em GPUs NVIDIA
Estrutura de duas torres
- O Cosmos 3 usa uma arquitetura Mixture-of-Transformers centrada em duas torres
- A Reasoner tower é um modelo visão-linguagem (VLM) que interpreta observações multimodais como imagens, vídeo e texto, usando uma estrutura autorregressiva para interpretar entradas e entender movimento, interação entre objetos e contexto físico
- A Generator tower usa a compreensão da Reasoner tower como condição para gerar vídeos com percepção física e saídas de ação por meio de um processo baseado em difusão
- A Reasoner pode ser chamada de forma independente, mas a Generator sempre ativa as duas torres para geração guiada
- Essa arquitetura executa tarefas de raciocínio e geração em um único modelo, reduzindo a orquestração entre vários modelos e pipelines de inferência
Escolha do tamanho do modelo
- Cosmos 3 Nano é um modelo compacto de 16B parâmetros, otimizado para inferência eficiente
- O Nano foi projetado para executar inferência em tempo real para robótica e aplicações de IA física em computação de nível workstation, como a GPU NVIDIA RTX PRO 6000
- Cosmos 3 Super é um modelo de 64B parâmetros voltado para máxima qualidade e capacidade
- O Super entrega as maiores pontuações em benchmarks e mira implantações em datacenters com GPUs NVIDIA Hopper e NVIDIA Blackwell
- O Super é adequado para geração de dados sintéticos em larga escala e cargas de trabalho avançadas de raciocínio físico
Conjuntos de dados públicos
- Junto com o lançamento do Cosmos 3, a NVIDIA publicou seis conjuntos de dados de geração de dados sintéticos (SDG) no Hugging Face
- Esses conjuntos podem ser usados para treinamento adicional do Cosmos 3 e de outros modelos, cobrindo robótica, simulação física, raciocínio espacial, movimento humano, direção e ambientes de armazém
- Conjuntos de dados públicos:
Framework de avaliação HUE
- O NVIDIA Cosmos Human Evaluation (HUE) avalia a qualidade do Cosmos 3 Generator em tarefas representativas de domínio
- Como os modelos mais recentes de geração de vídeo vêm saturando os leaderboards automáticos existentes, as diferenças de pontuação entre versões muitas vezes deixaram de ser suficientes para comparações significativas
- O HUE troca a avaliação subjetiva por verificação objetiva de fatos, permitindo comparações mais granulares entre os melhores modelos
- O HUE decompõe o vídeo gerado em perguntas factuais únicas de sim/não em quatro dimensões
- alinhamento semântico
- leis da física
- raciocínio geométrico
- integridade visual
- As perguntas cobrem sete domínios de IA física, incluindo robótica, veículos autônomos e física
- As perguntas são geradas por um pipeline de VLM, refinadas por especialistas humanos e publicadas como open source no Hugging Face
Resultados de benchmark
- O Cosmos 3 foi avaliado em várias famílias de benchmarks que cobrem raciocínio de IA física, qualidade de geração e desempenho por domínio
- Nos benchmarks de raciocínio, o Cosmos 3 Super e o Cosmos 3 Nano lideram respectivamente os tiers 32B e 8B do VANTAGE-Bench
- O VANTAGE-Bench é o primeiro benchmark público a avaliar modelos visão-linguagem com imagens reais de câmeras fixas em armazéns, trânsito e espaços inteligentes
- Traffic Anomaly Reasoning (TAR) é um novo leaderboard para detectar e raciocinar sobre eventos anômalos em vídeos de trânsito, além de ser o leaderboard oficial do AI City Challenge 2026 Track 3
- Nos benchmarks de geração, o Cosmos 3 é o SOTA open source nos leaderboards públicos e lidera em PAI-Bench, R-Bench Physics-IQ e RoboLab
- No Artificial Analysis, o Cosmos 3 é avaliado como o principal modelo open source nos leaderboards de Text to Image e Image to Video (no audio)
- O R-Bench avalia modelos de mundo baseados em vídeo para geração de vídeo robótico, usando submétricas como consistência estrutural, plausibilidade física e completude de execução
- O PAI-Bench avalia compreensão e geração de vídeo em domínios como robótica, veículos autônomos e senso comum físico
- O Physics-IQ testa se modelos generativos de vídeo apenas alcançam realismo visual ou realmente entendem princípios físicos
- O RoboLab é um benchmark de simulação para avaliar políticas robóticas com generalização de tarefas
Receitas de treinamento e adaptação de domínio
- O lançamento do Cosmos 3 vai além dos checkpoints de modelo e publica código, configurações e fluxos de trabalho para adaptar o modelo a novos domínios, formatos e conjuntos de dados
- O ajuste fino supervisionado (SFT) permite que desenvolvedores adaptem os modelos Cosmos 3 aos seus próprios dados
- As receitas públicas cobrem treinamento adicional de geração visual para conjuntos de dados de vídeo personalizados e receitas centradas em ação para fluxos de trabalho de robótica e IA física
- Desenvolvedores podem customizar o Cosmos 3 para domínios-alvo como robótica, direção autônoma e automação de armazéns
- Código e configurações de treinamento adicional estão disponíveis no GitHub
- O treinamento adicional de ações ajusta o Cosmos 3 para aplicações de IA física orientadas por ação, como forward dynamics, inverse dynamics e policy generation
- Em robótica, ele dá suporte a fluxos de trabalho que geram observações futuras condicionadas a ações do robô, inferem ações por trás de demonstrações observadas e preveem sequências de ação a partir de observações atuais e prompts de tarefa
Implantação com microsserviços NIM
- Os modelos Cosmos 3 também são oferecidos como NVIDIA NIM microservices para implantação otimizada em produção
- Os microsserviços NIM empacotam o modelo e um runtime de inferência otimizado para entregar alto desempenho sem exigir ajuste manual da infraestrutura de serving
- Em fluxos de trabalho de inferência, os microsserviços NIM são mais fáceis de usar que o repositório GitHub do Cosmos 3, enquanto o repositório GitHub é mais adequado para fluxos de treinamento adicional
- O Cosmos 3 Reasoner NIM atualmente fornece as capacidades de inferência dos modelos Cosmos 3
- O NIM oferece suporte à escolha de checkpoints quantizados em BF16, FP8 e NVFP4
- A quantização NVFP4 reduz a precisão numérica do modelo de BF16 para ponto flutuante de 4 bits, alcançando até 2x de ganho de velocidade de inferência
- A pilha de serving do Cosmos 3 Reasoner NIM é baseada em vLLM, um motor open source de inferência para servir LLMs com eficiência usando técnicas como continuous batching, paged attention e tensor parallelism
- O Cosmos 3 Nano pode ser executado com vLLM-omni e NVIDIA Dynamo
- O Efficient Video Sampling (EVS) acelera o Cosmos Reason NIM ao reduzir o número de tokens de vídeo fornecidos ao VLM durante a inferência
- O EVS preserva os chunks mais distintos em cada frame e elimina o restante, e essa técnica tende a trazer ganhos maiores em GPUs menores
Como executar
- É necessária uma chave de API NVIDIA NGC para obter o contêiner e baixar os modelos Cosmos 3 do NGC
- Um exemplo de execução do Cosmos 3 Nano Reasoner NIM é o seguinte
- Para usar o Cosmos 3 Super Reasoner NIM, especifique
NIM_MODEL_SIZE=super
docker run --gpus=all \
-e NGC_API_KEY=$NGC_API_KEY \
-e NIM_MODEL_SIZE=nano \
-p 8000:8000 \
nvcr.io/nim/nvidia/cosmos3-reasoner:latest
- O uso da API e informações adicionais podem ser consultados na documentação
Recursos para começar
1 comentários
Comentários do Hacker News
É um modelo open source de ponta para geração de imagens e vídeos
Supera outros modelos, mas com 64 bilhões de parâmetros é grande demais para rodar na maioria dos computadores pessoais
Ainda assim, é impressionante considerando que usou um conjunto de dados de treino gerado artificialmente
Vence o Nano Banana 1, mas ainda não está no nível de competir com Nano Banana 2, Seedance2 ou Grok Imagine
Anúncios de produto de empresa muitas vezes não conseguem deixar claro nem o fato básico que deveria estar nas primeiras nove palavras
Mas há uma nuance ausente aqui: este é um world model voltado para ser útil no treinamento de IA para robôs e carros autônomos
Então, em vez de ser um concorrente direto de Nano Banana ou Seedance, ele também pode gerar imagens e vídeos, mas o principal é fornecer dados físicos e harnesses para cenários de treinamento de IA
“Cosmos 3 Nano é uma versão compacta com 16 bilhões de parâmetros, otimizada para inferência eficiente. Foi projetado para executar inferência robótica em tempo real e aplicações de IA física em ambientes de computação de nível workstation, como uma GPU NVIDIA RTX PRO 6000.”
Mal posso esperar pelo dia em que vou testar isso numa GPU de nível workstation acima de US$ 10 mil junto com toda a configuração cara necessária para rodá-lo
Este lançamento integra funcionalidades numa arquitetura Mixture-of-Transformers (MoT) centrada em duas torres
A torre de raciocínio é um vision-language model (VLM), que atua como o “cérebro” e raciocina sobre o mundo antes de a geração acontecer
A torre de geração produz observações futuras e sequências de ações e, condicionada pelo entendimento da torre de raciocínio, cria vídeos e saídas de ações com consciência física por meio de um processo baseado em difusão
Esse tipo de abordagem desperta o instinto do engenheiro de otimizar e equilibrar trade-offs entre arquiteturas de modelo para combinar o melhor dos dois mundos
Mas, pelo que entendi da Bitter Lesson(http://www.incompleteideas.net/IncIdeas/BitterLesson.html), isso está exatamente na direção errada no longo prazo
Estou linkando o texto real da Bitter Lesson porque acho que esse conceito é frequentemente mal interpretado, ou pelo menos não concordo com a forma como ele é usado no debate
O ponto central é a observação histórica de que pesquisadores de IA tentaram embutir conhecimento nos agentes, o que ajuda no curto prazo e dá satisfação aos pesquisadores, mas no longo prazo leva à estagnação e bloqueia o progresso, e no fim a abordagem oposta — escalar computação via busca e aprendizado — produz os avanços
Essa arquitetura me passa a sensação de embutir no agente um conhecimento que ajuda no curto prazo e que provavelmente vai estagnar no longo prazo
Claro, ainda podem sair aprendizados ou resultados interessantes disso, mas não vejo muito espaço para extrair mais do que isso dessa abordagem
A arquitetura MoT parece o ideal implícito pela Bitter Lesson: colocar todos os tipos de dados — áudio, imagem, texto, ação, vídeo — em um único espaço latente compartilhado e deixar o modelo se organizar sozinho
Na prática, está mais para manter apenas o mínimo de estrutura necessário para lidar com requisitos e formatos de saída diferentes, como usar processamento autoregressivo para modelagem e previsão de sequência, e difusão para geração
O objetivo é extrair dados da representação comprimida interna para uma forma utilizável por humanos
Tecnicamente, também é possível raciocinar em codificação no nível de pixels ou caracteres, mas normalmente isso é muito mais caro
Dá para ver a técnica toda como uma forma de fazer o computador rodar mais rápido
Também aparece no Qwen talker e na maioria dos projetores multimodais
Ele também aceita entrada em vídeo, então é ainda mais amplo que os antigos modelos omni
A arquitetura é incomum, mas não parece ter sido ajustada de forma mais extrema do que os modelos abertos que são lançados todos os dias
O exemplo de vídeo de segurança em armazém é realmente engraçado. As pessoas simplesmente não reagem
E a grande sombra do poste de luz atravessando o cruzamento também não faz o menor sentido
O design Mixture-of-Transformers de duas torres, ou seja, um raciocinador autoregressivo alimentando um gerador por difusão, é uma aposta arquitetural interessante
É difícil entender o que isso faz
Dizer que ele “gera observações futuras e sequências de ações” é só uma forma complicada de falar geração de vídeo?
Esse world model é condicionado, por exemplo, por ações de um robô, então permite duas coisas que geração simples de vídeo não consegue
Ele pode prever quadros futuros que virão depois de uma ação específica, e mesmo com o mesmo quadro inicial, futuros diferentes aparecem se você mudar a ação
Também pode ser executado ao contrário para inferir a ação por trás de quadros observados ou produzir as ações necessárias para chegar a um objetivo
Nesse caso, a saída não são quadros de vídeo, mas comandos de motor
Um dos exemplos hospedados faz apenas análise de vídeo existente, enquanto outro prevê vídeo a partir de uma imagem estática, ou seja, faz geração de vídeo
Ao mesmo tempo, ao contrário de uma simulação de engenharia por elementos finitos, isso precisa ser muito mais rápido que em tempo real, e este modelo parece mirar exatamente essa demanda
Dá para simular o mundo em primeira pessoa para criar dados de treinamento sem mandar robôs para dentro das casas das pessoas
A maioria dos exemplos escolhidos não parece muito boa
Parece uma mistura esquisita de um motor de jogo ruim com tralha de IA
É difícil imaginar isso virando bons dados de treinamento para aplicações reais
E é objetivamente verdade que essa tecnologia e tecnologias parecidas são usadas em larga escala por todos os fabricantes líderes de carros autônomos, então, por indução, dá para dizer que são boas o bastante para esse uso
Eu não trabalho no Cosmos, mas hoje trabalho na Nvidia com tecnologia fechada superficialmente parecida, e muitas empresas líderes usam isso
Na minha opinião, a qualidade também é parecida
Parte da pesquisa pública relacionada está aqui
https://github.com/nv-tlabs/3dgrut/
https://github.com/NVIDIA/harmonizer
https://github.com/NVIDIA/instant-nurec
https://github.com/nvidia/ncore
A Nvidia também está integrando Gsplat em pelo menos parte do que eu faço e contribuindo upstream
https://github.com/nerfstudio-project/gsplat
É engraçado que, mesmo com todo esse avanço tecnológico, o site ainda esteja sofrendo com carga alta