- O SIMA 2, que integra o modelo Gemini, evoluiu além de simplesmente seguir comandos de linguagem e se tornou um agente de IA para ambientes virtuais 3D capaz de entender os objetivos do usuário, raciocinar por conta própria e interagir
- Diferentemente da versão anterior, que executava mais de 600 ações baseadas em linguagem, ele agora conta com recursos de raciocínio, diálogo e autoaperfeiçoamento, realizando ações orientadas por objetivos até em jogos novos
- Mesmo em jogos não usados no treinamento, como MineDojo e ASKA, apresenta alta capacidade de generalização e atinge taxas de execução de tarefas próximas às de jogadores humanos
- Por meio de um loop de autoaperfeiçoamento, implementa uma estrutura que acumula experiência por conta própria e melhora o desempenho sem dados humanos
- Esses avanços estabelecem a base para aplicações em inteligência incorporada geral (embodied intelligence) e robótica
Visão geral do SIMA 2
- O SIMA 2 é um agente de IA baseado no Gemini desenvolvido pelo Google DeepMind, um sistema que joga e aprende junto com humanos em ambientes virtuais 3D
- A versão inicial, SIMA, focava em traduzir comandos de linguagem em ações, mas o SIMA 2 adiciona recursos de inferência de objetivos, diálogo e autoaperfeiçoamento
- O modelo demonstra progresso rumo à AGI (inteligência artificial geral) e tem implicações importantes para robótica e pesquisa em IA incorporada
Reasoning (capacidade de raciocínio)
- O SIMA 1 executava mais de 600 comandos, como “virar à esquerda” e “subir a escada”, mas fazia isso observando a tela e controlando o jogo sem acesso aos mecanismos internos
- O SIMA 2 incorpora o modelo Gemini, o que permite ir além da execução de comandos simples para entender objetivos e raciocinar de forma lógica
- Os dados de treinamento foram compostos por uma mistura de vídeos de demonstrações humanas e rótulos gerados pelo Gemini, e o agente consegue explicar seu plano de ação e suas etapas
- Nos testes, os usuários perceberam a interação com o SIMA 2 como colaboração, e não como comando, com treinamento e avaliação realizados em vários ambientes de jogo
- Graças ao mecanismo de raciocínio do Gemini, foi possível implementar uma IA incorporada que integra percepção, compreensão e ação em ambientes 3D complexos
Generalization (capacidade de generalização)
- Com a integração do Gemini, melhorou a capacidade de entender e executar comandos complexos e sutis
- Mesmo em jogos não usados no treinamento, como ASKA e MineDojo, mostra alta taxa de sucesso e atinge taxas de execução de tarefas próximas ao nível humano
- Também adquiriu capacidade de transferência de conceitos, como transferir a ideia de “mining” para “harvesting” em outro jogo
- Consegue entender comandos multilíngues e com emoji e processar entradas multimodais (como desenhos)
- Quando combinado com o Genie 3, demonstra alta adaptabilidade, mantendo senso de direção e comportamento orientado por objetivos até em mundos virtuais recém-gerados
Self-Improvement (autoaperfeiçoamento)
- O SIMA 2 melhora seu desempenho sem intervenção humana por meio de um loop de aprendizado autônomo
- O Gemini fornece estimativas iniciais de tarefas e recompensas
- Com base nisso, o SIMA 2 constrói seu próprio banco de dados de experiências e o utiliza em treinamentos posteriores
- Até tarefas em que falhou são reaprendidas repetidamente para melhoria, e ele pode aprender em novos jogos sem demonstrações humanas
- Também repete o autoaperfeiçoamento em ambientes do Genie 3, confirmando ganhos de desempenho por meio de aprendizado multigeracional
- Essa estrutura indica o potencial de evoluir para uma IA incorporada de autoaprendizado contínuo
Future Directions (direções futuras)
- O SIMA 2 funciona como um campo de testes para inteligência geral capaz de realizar raciocínio complexo e aprendizado autônomo em diversos ambientes de jogo
- Entre as limitações apontadas estão execução de tarefas de longo prazo, raciocínio em múltiplas etapas, limitações de memória curta e processamento de complexidade visual
- Ainda assim, ao combinar dados de múltiplos mundos e a capacidade de raciocínio do Gemini, ele foi validado como um agente geral que integra funções de vários sistemas especializados
- As capacidades adquiridas de exploração, uso de ferramentas e execução colaborativa formam uma base essencial para futura expansão para IA robótica física
Responsible Development (desenvolvimento responsável)
- O SIMA 2 busca uma interação centrada no ser humano e desenvolve tecnologias centrais, como o autoaperfeiçoamento, de forma responsável
- A segurança foi analisada desde o início em colaboração com a equipe de Responsible Development & Innovation do Google DeepMind
- No momento, está disponível como uma prévia de pesquisa limitada, com acesso antecipado oferecido apenas a parte da comunidade acadêmica e a alguns desenvolvedores de jogos
- Por meio dessa abordagem, a empresa coleta feedback e avaliação de riscos, com o objetivo de promover um avanço tecnológico responsável no futuro
1 comentários
Comentários do Hacker News
É legal ver IA jogando videogame, mas o realmente impressionante no SIMA 2 é que ele controla o mouse diretamente e lê a tela a mais de 30 quadros por segundo
Os agentes atuais para operar computadores são lentos demais; isso está em outro nível. Fico curioso para saber como é a arquitetura interna
Algo que execute comandos na interface, como “abrir o Chrome”, “ir para xyz.com”, “clicar em login”
A lacuna entre controle de alto nível e controle de baixo nível em robôs está diminuindo cada vez mais
Estão treinando robôs para executar tarefas específicas em certos contextos com base em milhares de horas de dados de treinamento por tarefa
A ideia é controlar o robô com comandos de baixo nível como “esvaziar a lava-louças”, “imitar minhas ações” ou “puxar a corda”
Se isso se combinar com agentes de controle de alto nível como o SIMA 2, pode resultar em robôs úteis no mundo real
Queria entender por que esse tipo de entrada é considerado de baixo nível e como ele interage com um agente de controle de alto nível como o SIMA 2
A estrutura é algo em que o SIMA 2 converte comandos como “esvaziar a lava-louças” em entradas reais de teclado ou manipulação de interface?
Isso me lembra o conto de Ted Chiang, "The Lifecycle of Software Objects"
Talvez o próximo passo seja colocar essa IA digiente no robô Figure 03
De fato, no experimento Butter Bench, um LLM genérico controlou um robô aspirador e,
quando a bateria acabou, deixou logs emocionais com algo como “ansiedade de docking” e entrou em colapso. Foi engraçado, mas interessante
É interessante a explicação de que o SIMA 2 passa a realizar tarefas cada vez mais complexas com feedback baseado em Gemini
Como ele usa os próprios dados de experiência para treinar a próxima versão, parece uma estrutura de autoaperfeiçoamento
O SIMA seria uma camada de agente operando sobre o Gemini?
Fico pensando se essa tecnologia não pode acabar estragando os eSports
Se a IA reage mais rápido que humanos e não se cansa, no fim MMOs ou FPS podem ficar cheios de IA
Pelo contrário, uma boa IA pode reduzir trabalho repetitivo e abrir um novo gênero de jogos em que o jogador se concentra em decisões estratégicas
De forma parecida, mesmo que surja uma dinâmica de humano contra IA, a diversão deve permanecer
No fim, o uso de IA será visto socialmente como algo parecido com cheat ou script, um ‘recurso auxiliar’
Em FPS isso chamaria atenção demais, mas em jogos como turn-based ou MMORPG, com menos coordenação olho-mão, é difícil distinguir
Na verdade, cheats sutis como ESP são uma ameaça maior aos eSports
Eu quero jogos mais inteligentes
Algo como jogos de sobrevivência em que você passa da fase inicial de coletar madeira e pedra e, quando a tecnologia avança, muda para automação
Os NPCs extraem recursos, providenciam comida e defesa, e assim você alcança objetivos maiores
O jogador aproveita a fantasia de ser um ‘grande chefe’ que dá ordens a personagens inteligentes
É um sistema de bots inteligentes que usa LLMs como GPT-4 ou Gemini para coletar recursos, construir e cooperar dentro do Minecraft
Será que ele perceberia que ferro é escasso e ficaria motivado por isso?
Se a meta for simplesmente ‘zerar o jogo’, talvez ele só tente ir direto matar o Ender Dragon
Só que, em vez de ‘decorar a casa’, seria uma versão tipo ‘minerar minério para arma lendária do destino’
Eu queria que o Google voltasse à antiga cultura de pesquisa aberta
Hoje em dia parece haver uma tendência de fazer experimentos em sigilo e publicar só press releases
Seria melhor abrir em open source e fechar apenas quando for realmente necessário
As pesquisas deles são tão impressionantes que dá ainda mais vontade de participar diretamente
Isso é um projeto de pesquisa, mas fico curioso com o próximo passo
Será que dá para transferir para robôs reais o que foi aprendido em mundos virtuais?
Ou será preciso treinar separadamente no mundo real?
E, para superar a diferença entre a física real e a dos jogos, não seria necessário um mundo de simulação mais sofisticado?
Quando surgirem modelos de mundo de alta precisão, será possível treinar robôs neles e generalizar para a realidade
Agora estamos na fase de construir essa base
No vídeo de demonstração, aos 0:52, aparece um erro gramatical, então fico desconfiado de que as anotações foram editadas depois
Será que o Google exagerou de novo para marketing?
e a transformaram num imperativo como “ir para a casa de tomate”
Mesmo assim, o eixo Y do gráfico parece muito mais razoável do que em outros benchmarks recentes
Isso foi omitido no resumo, mas pelo contexto essa expressão estava incluída
Seria ótimo se esse tipo de tecnologia rodasse localmente como agente auxiliar para jogos
Se assumisse o trabalho repetitivo, talvez desse para aproveitar o jogo por mais tempo
Mesmo que não fosse perfeito, talvez isso fosse até parte da graça
Agora até tarefas chatas como poesia, pintura e jogos poderiam ser terceirizadas
Se a IA faz no seu lugar, no fim você perde o interesse. Jogos são projetados em torno do equilíbrio entre esforço e recompensa
Fiz ele quebrar blocos com base em coordenadas, mas, se eu não olhasse a tela, ele às vezes caía num buraco com monstros. Era literalmente um ‘bot cego’