1 pontos por GN⁺ 3 시간 전 | 1 comentários | Compartilhar no WhatsApp
  • NVIDIA Cosmos 3 é um único modelo-base aberto para IA física, combinando raciocínio físico, geração de mundo e geração de ações dentro de um só modelo
  • A arquitetura Mixture-of-Transformers separa a Reasoner tower e a Generator tower para conectar compreensão de entrada com saídas geradas com percepção física, reduzindo a necessidade de orquestrar vários modelos e pipelines de inferência
  • Cosmos 3 Nano tem 16B parâmetros e mira inferência em nível de workstation, enquanto Cosmos 3 Super tem 64B parâmetros e mira implantação em datacenters e geração de dados sintéticos de alta qualidade
  • A NVIDIA disponibilizou checkpoints dos modelos, scripts de treinamento, ferramentas de implantação, seis conjuntos de dados sintéticos e microsserviços NIM para dar suporte à adaptação de domínio em robótica, direção autônoma e automação de armazéns
  • Em HUE e vários benchmarks públicos, o Cosmos 3 é avaliado por raciocínio de IA física, qualidade de geração e desempenho por domínio, com Super e Nano liderando respectivamente os tiers 32B e 8B do VANTAGE-Bench

Principais mudanças no Cosmos 3

  • NVIDIA Cosmos 3 é um modelo-base de fronteira projetado para que sistemas de IA física, como robôs, veículos autônomos e espaços inteligentes, entendam o mundo, prevejam a próxima situação e gerem ações adequadas a ambientes, formatos e tarefas específicos
  • As versões anteriores do Cosmos separavam geração de mundo, compreensão física e geração controlada de cenas em modelos e fluxos de trabalho distintos, mas o Cosmos 3 integra tudo isso em um único modelo
  • Esta versão oferece checkpoints de modelo no Hugging Face, código no GitHub, conjuntos de dados públicos, scripts de treinamento adicional e microsserviços Cosmos NIM para implantação em GPUs NVIDIA

Estrutura de duas torres

  • O Cosmos 3 usa uma arquitetura Mixture-of-Transformers centrada em duas torres
  • A Reasoner tower é um modelo visão-linguagem (VLM) que interpreta observações multimodais como imagens, vídeo e texto, usando uma estrutura autorregressiva para interpretar entradas e entender movimento, interação entre objetos e contexto físico
  • A Generator tower usa a compreensão da Reasoner tower como condição para gerar vídeos com percepção física e saídas de ação por meio de um processo baseado em difusão
  • A Reasoner pode ser chamada de forma independente, mas a Generator sempre ativa as duas torres para geração guiada
  • Essa arquitetura executa tarefas de raciocínio e geração em um único modelo, reduzindo a orquestração entre vários modelos e pipelines de inferência

Escolha do tamanho do modelo

  • Cosmos 3 Nano é um modelo compacto de 16B parâmetros, otimizado para inferência eficiente
  • O Nano foi projetado para executar inferência em tempo real para robótica e aplicações de IA física em computação de nível workstation, como a GPU NVIDIA RTX PRO 6000
  • Cosmos 3 Super é um modelo de 64B parâmetros voltado para máxima qualidade e capacidade
  • O Super entrega as maiores pontuações em benchmarks e mira implantações em datacenters com GPUs NVIDIA Hopper e NVIDIA Blackwell
  • O Super é adequado para geração de dados sintéticos em larga escala e cargas de trabalho avançadas de raciocínio físico

Conjuntos de dados públicos

Framework de avaliação HUE

  • O NVIDIA Cosmos Human Evaluation (HUE) avalia a qualidade do Cosmos 3 Generator em tarefas representativas de domínio
  • Como os modelos mais recentes de geração de vídeo vêm saturando os leaderboards automáticos existentes, as diferenças de pontuação entre versões muitas vezes deixaram de ser suficientes para comparações significativas
  • O HUE troca a avaliação subjetiva por verificação objetiva de fatos, permitindo comparações mais granulares entre os melhores modelos
  • O HUE decompõe o vídeo gerado em perguntas factuais únicas de sim/não em quatro dimensões
    • alinhamento semântico
    • leis da física
    • raciocínio geométrico
    • integridade visual
  • As perguntas cobrem sete domínios de IA física, incluindo robótica, veículos autônomos e física
  • As perguntas são geradas por um pipeline de VLM, refinadas por especialistas humanos e publicadas como open source no Hugging Face

Resultados de benchmark

  • O Cosmos 3 foi avaliado em várias famílias de benchmarks que cobrem raciocínio de IA física, qualidade de geração e desempenho por domínio
  • Nos benchmarks de raciocínio, o Cosmos 3 Super e o Cosmos 3 Nano lideram respectivamente os tiers 32B e 8B do VANTAGE-Bench
  • O VANTAGE-Bench é o primeiro benchmark público a avaliar modelos visão-linguagem com imagens reais de câmeras fixas em armazéns, trânsito e espaços inteligentes
  • Traffic Anomaly Reasoning (TAR) é um novo leaderboard para detectar e raciocinar sobre eventos anômalos em vídeos de trânsito, além de ser o leaderboard oficial do AI City Challenge 2026 Track 3
  • Nos benchmarks de geração, o Cosmos 3 é o SOTA open source nos leaderboards públicos e lidera em PAI-Bench, R-Bench Physics-IQ e RoboLab
  • No Artificial Analysis, o Cosmos 3 é avaliado como o principal modelo open source nos leaderboards de Text to Image e Image to Video (no audio)
  • O R-Bench avalia modelos de mundo baseados em vídeo para geração de vídeo robótico, usando submétricas como consistência estrutural, plausibilidade física e completude de execução
  • O PAI-Bench avalia compreensão e geração de vídeo em domínios como robótica, veículos autônomos e senso comum físico
  • O Physics-IQ testa se modelos generativos de vídeo apenas alcançam realismo visual ou realmente entendem princípios físicos
  • O RoboLab é um benchmark de simulação para avaliar políticas robóticas com generalização de tarefas

Receitas de treinamento e adaptação de domínio

  • O lançamento do Cosmos 3 vai além dos checkpoints de modelo e publica código, configurações e fluxos de trabalho para adaptar o modelo a novos domínios, formatos e conjuntos de dados
  • O ajuste fino supervisionado (SFT) permite que desenvolvedores adaptem os modelos Cosmos 3 aos seus próprios dados
  • As receitas públicas cobrem treinamento adicional de geração visual para conjuntos de dados de vídeo personalizados e receitas centradas em ação para fluxos de trabalho de robótica e IA física
  • Desenvolvedores podem customizar o Cosmos 3 para domínios-alvo como robótica, direção autônoma e automação de armazéns
  • Código e configurações de treinamento adicional estão disponíveis no GitHub
  • O treinamento adicional de ações ajusta o Cosmos 3 para aplicações de IA física orientadas por ação, como forward dynamics, inverse dynamics e policy generation
  • Em robótica, ele dá suporte a fluxos de trabalho que geram observações futuras condicionadas a ações do robô, inferem ações por trás de demonstrações observadas e preveem sequências de ação a partir de observações atuais e prompts de tarefa

Implantação com microsserviços NIM

  • Os modelos Cosmos 3 também são oferecidos como NVIDIA NIM microservices para implantação otimizada em produção
  • Os microsserviços NIM empacotam o modelo e um runtime de inferência otimizado para entregar alto desempenho sem exigir ajuste manual da infraestrutura de serving
  • Em fluxos de trabalho de inferência, os microsserviços NIM são mais fáceis de usar que o repositório GitHub do Cosmos 3, enquanto o repositório GitHub é mais adequado para fluxos de treinamento adicional
  • O Cosmos 3 Reasoner NIM atualmente fornece as capacidades de inferência dos modelos Cosmos 3
  • O NIM oferece suporte à escolha de checkpoints quantizados em BF16, FP8 e NVFP4
  • A quantização NVFP4 reduz a precisão numérica do modelo de BF16 para ponto flutuante de 4 bits, alcançando até 2x de ganho de velocidade de inferência
  • A pilha de serving do Cosmos 3 Reasoner NIM é baseada em vLLM, um motor open source de inferência para servir LLMs com eficiência usando técnicas como continuous batching, paged attention e tensor parallelism
  • O Cosmos 3 Nano pode ser executado com vLLM-omni e NVIDIA Dynamo
  • O Efficient Video Sampling (EVS) acelera o Cosmos Reason NIM ao reduzir o número de tokens de vídeo fornecidos ao VLM durante a inferência
  • O EVS preserva os chunks mais distintos em cada frame e elimina o restante, e essa técnica tende a trazer ganhos maiores em GPUs menores

Como executar

  • É necessária uma chave de API NVIDIA NGC para obter o contêiner e baixar os modelos Cosmos 3 do NGC
  • Um exemplo de execução do Cosmos 3 Nano Reasoner NIM é o seguinte
  • Para usar o Cosmos 3 Super Reasoner NIM, especifique NIM_MODEL_SIZE=super
docker run --gpus=all \
  -e NGC_API_KEY=$NGC_API_KEY \
  -e NIM_MODEL_SIZE=nano \
  -p 8000:8000 \
  nvcr.io/nim/nvidia/cosmos3-reasoner:latest
  • O uso da API e informações adicionais podem ser consultados na documentação

Recursos para começar

1 comentários

 
GN⁺ 3 시간 전
Comentários do Hacker News
  • É um modelo open source de ponta para geração de imagens e vídeos
    Supera outros modelos, mas com 64 bilhões de parâmetros é grande demais para rodar na maioria dos computadores pessoais
    Ainda assim, é impressionante considerando que usou um conjunto de dados de treino gerado artificialmente
    Vence o Nano Banana 1, mas ainda não está no nível de competir com Nano Banana 2, Seedance2 ou Grok Imagine

    • É uma ironia meio triste que eu já nem clique mais nesses posts óbvios de anúncio de produto corporativo e vá direto para os comentários
      Anúncios de produto de empresa muitas vezes não conseguem deixar claro nem o fato básico que deveria estar nas primeiras nove palavras
      Mas há uma nuance ausente aqui: este é um world model voltado para ser útil no treinamento de IA para robôs e carros autônomos
      Então, em vez de ser um concorrente direto de Nano Banana ou Seedance, ele também pode gerar imagens e vídeos, mas o principal é fornecer dados físicos e harnesses para cenários de treinamento de IA
    • Modelos de geração de imagem e vídeo são mais fáceis de entender como um teste de realidade para medir o quão perto os modelos locais estão dos modelos de fronteira
  • “Cosmos 3 Nano é uma versão compacta com 16 bilhões de parâmetros, otimizada para inferência eficiente. Foi projetado para executar inferência robótica em tempo real e aplicações de IA física em ambientes de computação de nível workstation, como uma GPU NVIDIA RTX PRO 6000.”
    Mal posso esperar pelo dia em que vou testar isso numa GPU de nível workstation acima de US$ 10 mil junto com toda a configuração cara necessária para rodá-lo

    • Eu tenho a GPU, mas não tenho o robô. De quanto de um robô minimamente funcional eu precisaria para brincar com isso?
    • A boa notícia é que a Nvidia vai ficar feliz em te vender um novo notebook RTX Spark capaz de rodar isso
  • Este lançamento integra funcionalidades numa arquitetura Mixture-of-Transformers (MoT) centrada em duas torres
    A torre de raciocínio é um vision-language model (VLM), que atua como o “cérebro” e raciocina sobre o mundo antes de a geração acontecer
    A torre de geração produz observações futuras e sequências de ações e, condicionada pelo entendimento da torre de raciocínio, cria vídeos e saídas de ações com consciência física por meio de um processo baseado em difusão
    Esse tipo de abordagem desperta o instinto do engenheiro de otimizar e equilibrar trade-offs entre arquiteturas de modelo para combinar o melhor dos dois mundos
    Mas, pelo que entendi da Bitter Lesson(http://www.incompleteideas.net/IncIdeas/BitterLesson.html), isso está exatamente na direção errada no longo prazo
    Estou linkando o texto real da Bitter Lesson porque acho que esse conceito é frequentemente mal interpretado, ou pelo menos não concordo com a forma como ele é usado no debate
    O ponto central é a observação histórica de que pesquisadores de IA tentaram embutir conhecimento nos agentes, o que ajuda no curto prazo e dá satisfação aos pesquisadores, mas no longo prazo leva à estagnação e bloqueia o progresso, e no fim a abordagem oposta — escalar computação via busca e aprendizado — produz os avanços
    Essa arquitetura me passa a sensação de embutir no agente um conhecimento que ajuda no curto prazo e que provavelmente vai estagnar no longo prazo
    Claro, ainda podem sair aprendizados ou resultados interessantes disso, mas não vejo muito espaço para extrair mais do que isso dessa abordagem

    • Para mim parece mais o contrário
      A arquitetura MoT parece o ideal implícito pela Bitter Lesson: colocar todos os tipos de dados — áudio, imagem, texto, ação, vídeo — em um único espaço latente compartilhado e deixar o modelo se organizar sozinho
      Na prática, está mais para manter apenas o mínimo de estrutura necessário para lidar com requisitos e formatos de saída diferentes, como usar processamento autoregressivo para modelagem e previsão de sequência, e difusão para geração
    • Isso é basicamente mais próximo de descompressão e hoje em dia é um método bem padrão
      O objetivo é extrair dados da representação comprimida interna para uma forma utilizável por humanos
      Tecnicamente, também é possível raciocinar em codificação no nível de pixels ou caracteres, mas normalmente isso é muito mais caro
      Dá para ver a técnica toda como uma forma de fazer o computador rodar mais rápido
      Também aparece no Qwen talker e na maioria dos projetores multimodais
    • Mas este modelo tem um escopo de domínio mais amplo do que um LLM de texto
      Ele também aceita entrada em vídeo, então é ainda mais amplo que os antigos modelos omni
      A arquitetura é incomum, mas não parece ter sido ajustada de forma mais extrema do que os modelos abertos que são lançados todos os dias
  • O exemplo de vídeo de segurança em armazém é realmente engraçado. As pessoas simplesmente não reagem

    • O vídeo dos carros também é estranho. A van cruzando claramente passa no sinal vermelho
      E a grande sombra do poste de luz atravessando o cruzamento também não faz o menor sentido
  • O design Mixture-of-Transformers de duas torres, ou seja, um raciocinador autoregressivo alimentando um gerador por difusão, é uma aposta arquitetural interessante

  • É difícil entender o que isso faz
    Dizer que ele “gera observações futuras e sequências de ações” é só uma forma complicada de falar geração de vídeo?

    • Não. A diferença está na parte das ações
      Esse world model é condicionado, por exemplo, por ações de um robô, então permite duas coisas que geração simples de vídeo não consegue
      Ele pode prever quadros futuros que virão depois de uma ação específica, e mesmo com o mesmo quadro inicial, futuros diferentes aparecem se você mudar a ação
      Também pode ser executado ao contrário para inferir a ação por trás de quadros observados ou produzir as ações necessárias para chegar a um objetivo
      Nesse caso, a saída não são quadros de vídeo, mas comandos de motor
    • Pelo que entendi, significa tanto visão computacional quanto geração de vídeo, conectadas em um world model bem robusto
      Um dos exemplos hospedados faz apenas análise de vídeo existente, enquanto outro prevê vídeo a partir de uma imagem estática, ou seja, faz geração de vídeo
    • Se eu imaginar o que isso é e por que foi descrito assim, a área de robótica com IA precisa de um motor de jogo hiperrrealista com física melhor do que a física de corpo rígido não deformável ao estilo Unity ou Unreal
      Ao mesmo tempo, ao contrário de uma simulação de engenharia por elementos finitos, isso precisa ser muito mais rápido que em tempo real, e este modelo parece mirar exatamente essa demanda
    • Basta olhar a tabela de formatos suportados. Ele pode receber imagem, vídeo, texto e ação como entrada, e produzir imagem, vídeo, texto e ação como saída
    • Pode ser usado para gerar dados sintéticos para treinar IA física como robôs, carros e drones
      Dá para simular o mundo em primeira pessoa para criar dados de treinamento sem mandar robôs para dentro das casas das pessoas
  • A maioria dos exemplos escolhidos não parece muito boa
    Parece uma mistura esquisita de um motor de jogo ruim com tralha de IA
    É difícil imaginar isso virando bons dados de treinamento para aplicações reais

  • É engraçado que, mesmo com todo esse avanço tecnológico, o site ainda esteja sofrendo com carga alta