Google SIMA 2 - um agente que joga, raciocina e aprende com você em mundos virtuais 3D

(deepmind.google)

1 pontos por GN⁺ 2025-11-14 | 1 comentários | Compartilhar no WhatsApp

O SIMA 2, que integra o modelo Gemini, evoluiu além de simplesmente seguir comandos de linguagem e se tornou um agente de IA para ambientes virtuais 3D capaz de entender os objetivos do usuário, raciocinar por conta própria e interagir
Diferentemente da versão anterior, que executava mais de 600 ações baseadas em linguagem, ele agora conta com recursos de raciocínio, diálogo e autoaperfeiçoamento, realizando ações orientadas por objetivos até em jogos novos
Mesmo em jogos não usados no treinamento, como MineDojo e ASKA, apresenta alta capacidade de generalização e atinge taxas de execução de tarefas próximas às de jogadores humanos
Por meio de um loop de autoaperfeiçoamento, implementa uma estrutura que acumula experiência por conta própria e melhora o desempenho sem dados humanos
Esses avanços estabelecem a base para aplicações em inteligência incorporada geral (embodied intelligence) e robótica

Visão geral do SIMA 2

O SIMA 2 é um agente de IA baseado no Gemini desenvolvido pelo Google DeepMind, um sistema que joga e aprende junto com humanos em ambientes virtuais 3D
A versão inicial, SIMA, focava em traduzir comandos de linguagem em ações, mas o SIMA 2 adiciona recursos de inferência de objetivos, diálogo e autoaperfeiçoamento
O modelo demonstra progresso rumo à AGI (inteligência artificial geral) e tem implicações importantes para robótica e pesquisa em IA incorporada

Reasoning (capacidade de raciocínio)

O SIMA 1 executava mais de 600 comandos, como “virar à esquerda” e “subir a escada”, mas fazia isso observando a tela e controlando o jogo sem acesso aos mecanismos internos
O SIMA 2 incorpora o modelo Gemini, o que permite ir além da execução de comandos simples para entender objetivos e raciocinar de forma lógica
Os dados de treinamento foram compostos por uma mistura de vídeos de demonstrações humanas e rótulos gerados pelo Gemini, e o agente consegue explicar seu plano de ação e suas etapas
Nos testes, os usuários perceberam a interação com o SIMA 2 como colaboração, e não como comando, com treinamento e avaliação realizados em vários ambientes de jogo
Graças ao mecanismo de raciocínio do Gemini, foi possível implementar uma IA incorporada que integra percepção, compreensão e ação em ambientes 3D complexos

Generalization (capacidade de generalização)

Com a integração do Gemini, melhorou a capacidade de entender e executar comandos complexos e sutis
Mesmo em jogos não usados no treinamento, como ASKA e MineDojo, mostra alta taxa de sucesso e atinge taxas de execução de tarefas próximas ao nível humano
Também adquiriu capacidade de transferência de conceitos, como transferir a ideia de “mining” para “harvesting” em outro jogo
Consegue entender comandos multilíngues e com emoji e processar entradas multimodais (como desenhos)
Quando combinado com o Genie 3, demonstra alta adaptabilidade, mantendo senso de direção e comportamento orientado por objetivos até em mundos virtuais recém-gerados

Self-Improvement (autoaperfeiçoamento)

O SIMA 2 melhora seu desempenho sem intervenção humana por meio de um loop de aprendizado autônomo
- O Gemini fornece estimativas iniciais de tarefas e recompensas
- Com base nisso, o SIMA 2 constrói seu próprio banco de dados de experiências e o utiliza em treinamentos posteriores
Até tarefas em que falhou são reaprendidas repetidamente para melhoria, e ele pode aprender em novos jogos sem demonstrações humanas
Também repete o autoaperfeiçoamento em ambientes do Genie 3, confirmando ganhos de desempenho por meio de aprendizado multigeracional
Essa estrutura indica o potencial de evoluir para uma IA incorporada de autoaprendizado contínuo

Future Directions (direções futuras)

O SIMA 2 funciona como um campo de testes para inteligência geral capaz de realizar raciocínio complexo e aprendizado autônomo em diversos ambientes de jogo
Entre as limitações apontadas estão execução de tarefas de longo prazo, raciocínio em múltiplas etapas, limitações de memória curta e processamento de complexidade visual
Ainda assim, ao combinar dados de múltiplos mundos e a capacidade de raciocínio do Gemini, ele foi validado como um agente geral que integra funções de vários sistemas especializados
As capacidades adquiridas de exploração, uso de ferramentas e execução colaborativa formam uma base essencial para futura expansão para IA robótica física

Responsible Development (desenvolvimento responsável)

O SIMA 2 busca uma interação centrada no ser humano e desenvolve tecnologias centrais, como o autoaperfeiçoamento, de forma responsável
A segurança foi analisada desde o início em colaboração com a equipe de Responsible Development & Innovation do Google DeepMind
No momento, está disponível como uma prévia de pesquisa limitada, com acesso antecipado oferecido apenas a parte da comunidade acadêmica e a alguns desenvolvedores de jogos
Por meio dessa abordagem, a empresa coleta feedback e avaliação de riscos, com o objetivo de promover um avanço tecnológico responsável no futuro

1 comentários

GN⁺ 2025-11-14

Comentários do Hacker News

É legal ver IA jogando videogame, mas o realmente impressionante no SIMA 2 é que ele controla o mouse diretamente e lê a tela a mais de 30 quadros por segundo
Os agentes atuais para operar computadores são lentos demais; isso está em outro nível. Fico curioso para saber como é a arquitetura interna
- O mais legal, no mundo de hoje, é que os humanos ainda conseguem se empolgar com alguma coisa. A IA está substituindo tudo o que fazíamos
- Eu preciso desesperadamente de um agente de IA que opere meu smartphone por mim
  Algo que execute comandos na interface, como “abrir o Chrome”, “ir para xyz.com”, “clicar em login”
- Controla o mouse diretamente?
- Uma máquina não poderia jogar em nível de frame?
- Com o dxcam do Python e recebendo mensagens HID pela Windows Hook API, talvez dê para fazer isso
A lacuna entre controle de alto nível e controle de baixo nível em robôs está diminuindo cada vez mais
Estão treinando robôs para executar tarefas específicas em certos contextos com base em milhares de horas de dados de treinamento por tarefa
A ideia é controlar o robô com comandos de baixo nível como “esvaziar a lava-louças”, “imitar minhas ações” ou “puxar a corda”
Se isso se combinar com agentes de controle de alto nível como o SIMA 2, pode resultar em robôs úteis no mundo real
- Eu pesquiso animação de personagens baseada em física, e não parece que esse problema vá ser resolvido tão cedo só por coletar mais dados
- Não entendo muito bem o que significa “funciona como um videogame”
  Queria entender por que esse tipo de entrada é considerado de baixo nível e como ele interage com um agente de controle de alto nível como o SIMA 2
  A estrutura é algo em que o SIMA 2 converte comandos como “esvaziar a lava-louças” em entradas reais de teclado ou manipulação de interface?
Isso me lembra o conto de Ted Chiang, "The Lifecycle of Software Objects"
Talvez o próximo passo seja colocar essa IA digiente no robô Figure 03
- O Google provavelmente vai treinar uma IA separada só para controle de robôs
  De fato, no experimento Butter Bench, um LLM genérico controlou um robô aspirador e,
  quando a bateria acabou, deixou logs emocionais com algo como “ansiedade de docking” e entrou em colapso. Foi engraçado, mas interessante
É interessante a explicação de que o SIMA 2 passa a realizar tarefas cada vez mais complexas com feedback baseado em Gemini
Como ele usa os próprios dados de experiência para treinar a próxima versão, parece uma estrutura de autoaperfeiçoamento
O SIMA seria uma camada de agente operando sobre o Gemini?
- Para mim também soa assim. Parece uma estrutura em que os dois sistemas estão conectados por uma interface de texto
Fico pensando se essa tecnologia não pode acabar estragando os eSports
Se a IA reage mais rápido que humanos e não se cansa, no fim MMOs ou FPS podem ficar cheios de IA
- Esporte é, no fim das contas, um conjunto de regras. O essencial é impedir trapaça
  Pelo contrário, uma boa IA pode reduzir trabalho repetitivo e abrir um novo gênero de jogos em que o jogador se concentra em decisões estratégicas
- No xadrez, a IA já é melhor que humanos, e ainda assim a diversão continua
  De forma parecida, mesmo que surja uma dinâmica de humano contra IA, a diversão deve permanecer
- No começo, virar notícia porque a IA venceu humanos, mas logo a novidade vai passar
  No fim, o uso de IA será visto socialmente como algo parecido com cheat ou script, um ‘recurso auxiliar’
- Antes, no World of Warcraft, um bot druida feito com aprendizado por reforço venceu todos os humanos em partidas 2v2
  Em FPS isso chamaria atenção demais, mas em jogos como turn-based ou MMORPG, com menos coordenação olho-mão, é difícil distinguir
  Na verdade, cheats sutis como ESP são uma ameaça maior aos eSports
- No fim, MMOs têm grande chance de se deteriorar como o pôquer online
Eu quero jogos mais inteligentes
Algo como jogos de sobrevivência em que você passa da fase inicial de coletar madeira e pedra e, quando a tecnologia avança, muda para automação
Os NPCs extraem recursos, providenciam comida e defesa, e assim você alcança objetivos maiores
O jogador aproveita a fantasia de ser um ‘grande chefe’ que dá ordens a personagens inteligentes
- Existe o framework open source Mindcraft
  É um sistema de bots inteligentes que usa LLMs como GPT-4 ou Gemini para coletar recursos, construir e cooperar dentro do Minecraft
- Fico curioso se o SIMA 2 conseguiria aprender sozinho no Minecraft coisas como farm de ferro ou mercado de trocas
  Será que ele perceberia que ferro é escasso e ficaria motivado por isso?
  Se a meta for simplesmente ‘zerar o jogo’, talvez ele só tente ir direto matar o Ender Dragon
- No fim, isso é parecido com jogar The Sims
  Só que, em vez de ‘decorar a casa’, seria uma versão tipo ‘minerar minério para arma lendária do destino’
Eu queria que o Google voltasse à antiga cultura de pesquisa aberta
Hoje em dia parece haver uma tendência de fazer experimentos em sigilo e publicar só press releases
Seria melhor abrir em open source e fechar apenas quando for realmente necessário
As pesquisas deles são tão impressionantes que dá ainda mais vontade de participar diretamente
- Concordo totalmente. Quero testar eu mesmo
- O Dreamer v3 foi lançado publicamente; será que o v4 sai em breve?
Isso é um projeto de pesquisa, mas fico curioso com o próximo passo
Será que dá para transferir para robôs reais o que foi aprendido em mundos virtuais?
Ou será preciso treinar separadamente no mundo real?
E, para superar a diferença entre a física real e a dos jogos, não seria necessário um mundo de simulação mais sofisticado?
- O objetivo é aplicar ao mundo real a forma de aprendizado em mundos virtuais
  Quando surgirem modelos de mundo de alta precisão, será possível treinar robôs neles e generalizar para a realidade
  Agora estamos na fase de construir essa base
- Isso é chamado de problema sim2real em robótica. Vale a pena pesquisar
No vídeo de demonstração, aos 0:52, aparece um erro gramatical, então fico desconfiado de que as anotações foram editadas depois
Será que o Google exagerou de novo para marketing?
- Provavelmente pegaram a fala do jogo “vá para a casa que parece um tomate maduro!”
  e a transformaram num imperativo como “ir para a casa de tomate”
  Mesmo assim, o eixo Y do gráfico parece muito mais razoável do que em outros benchmarks recentes
- Dá para ver que o usuário digita “ripe tomato” logo antes daquela cena
  Isso foi omitido no resumo, mas pelo contexto essa expressão estava incluída
Seria ótimo se esse tipo de tecnologia rodasse localmente como agente auxiliar para jogos
Se assumisse o trabalho repetitivo, talvez desse para aproveitar o jogo por mais tempo
Mesmo que não fosse perfeito, talvez isso fosse até parte da graça
- Eu penso justamente o contrário: se a IA jogasse por mim, eu poderia usar esse tempo para fazer trabalho de verdade, como limpar a casa ou lavar roupa
  Agora até tarefas chatas como poesia, pintura e jogos poderiam ser terceirizadas
- Se o jogo é chato a ponto de você mandar outra coisa jogar por você, isso é estranho. A essência do jogo é jogar você mesmo
- Algo como “Skeeball → Virtual Skeeball → Virtual Virtual Skeeball”
  Se a IA faz no seu lugar, no fim você perde o interesse. Jogos são projetados em torno do equilíbrio entre esforço e recompensa
- Se você precisa delegar o trabalho repetitivo, então o design do jogo está errado
- Eu mesmo já escrevi um script de mineração automática com AutoHotkey no Terraria
  Fiz ele quebrar blocos com base em coordenadas, mas, se eu não olhasse a tela, ele às vezes caía num buraco com monstros. Era literalmente um ‘bot cego’

Google SIMA 2 - um agente que joga, raciocina e aprende com você em mundos virtuais 3D

Visão geral do SIMA 2

Reasoning (capacidade de raciocínio)

Generalization (capacidade de generalização)

Self-Improvement (autoaperfeiçoamento)

Future Directions (direções futuras)

Responsible Development (desenvolvimento responsável)

Leituras relacionadas

1 comentários

Comentários do Hacker News