Google DeepMind apresenta o Gemini Robotics

(deepmind.google)

4 pontos por GN⁺ 2025-03-13 | 1 comentários | Compartilhar no WhatsApp

Introduz o Gemini 2.0 na robótica e apresenta um modelo de visão-linguagem-ação (VLA) e um modelo ER com compreensão espacial
O Google DeepMind vem avançando capacidades de raciocínio multimodal usando texto, imagem, áudio e vídeo para resolver problemas complexos
No entanto, essas capacidades até agora estavam limitadas a ambientes digitais
Para que a IA seja útil no mundo físico, ela precisa entender e reagir ao ambiente como um ser humano e ter a capacidade de "raciocínio incorporado (embodied reasoning)" para executar tarefas com segurança
Com isso, foram anunciados dois novos modelos
- Gemini Robotics: modelo de visão-linguagem-ação (VLA) baseado no Gemini 2.0 que pode controlar robôs diretamente
- Gemini Robotics-ER: modelo que oferece compreensão espacial aprimorada e capacidade de controle de robôs
Em parceria com a Apptronik, está desenvolvendo a próxima geração de robôs humanoides
Está trabalhando com um pequeno grupo de testadores confiáveis para melhorar o desempenho dos modelos

Gemini Robotics: o modelo de visão-linguagem-ação mais avançado

1. Capacidade de generalização (Generality)

Consegue se adaptar a novas situações e executar diversas tarefas
Apresenta ótimo desempenho com novos objetos, comandos e ambientes
Segundo o relatório técnico, o desempenho de generalização melhorou em mais de 2 vezes em comparação com modelos VLA existentes

2. Capacidade de interação (Interactivity)

Consegue entender e responder a comandos em linguagem natural
Dá suporte a vários idiomas e comandos de linguagem cotidiana
Pode reagir em tempo real a mudanças no ambiente e ajustar suas ações
Mesmo que um objeto escorregue da mão ou mude de posição, pode replanejar imediatamente e continuar a tarefa

3. Destreza (Dexterity)

Reforça a capacidade de executar tarefas delicadas
Pode realizar tarefas complexas de múltiplas etapas (ex.: origami, colocar lanches em um saco com zíper etc.)

4. Aplicável a múltiplas formas de robô (Multiple embodiments)

Pode ser aplicado com facilidade a diferentes tipos de robô
Funcionamento confirmado em robôs baseados em ALOHA 2, Franka e no robô humanoide Apollo

Gemini Robotics-ER: capacidade de compreensão espacial reforçada

Reforça significativamente a percepção espacial e o desempenho de detecção 3D do Gemini 2.0
Permite que robôs reconheçam a posição dos objetos e os manipulem da forma adequada
Combina capacidade de geração de código → permitindo que o robô crie na hora novas formas de executar tarefas
A taxa de sucesso melhorou em 2 a 3 vezes em comparação com o Gemini 2.0
Exemplo de demonstração: reconhece a alça de uma caneca de café, se aproxima por uma rota segura e a pega

Estratégia para reforçar a segurança em IA e robótica

Foco em resolver problemas de segurança física dos robôs
Os robôs executam medidas tradicionais de segurança, como prevenção de colisões, limitação da força de contato e manutenção da estabilidade dinâmica
O Gemini Robotics-ER decide se deve executar uma tarefa quando há preocupações de segurança e responde de forma apropriada
Lançamento do novo dataset ASIMOV → com o objetivo de avaliar e melhorar a segurança do comportamento dos robôs
Trabalha com comitês internos de responsabilidade e segurança e com especialistas externos para lidar com questões éticas

Principais parceiros e próximos planos

Está colaborando com a Apptronik no desenvolvimento de robôs humanoides
Agile Robots, Agility Robots, Boston Dynamics e Enchanted Tools estão testando o Gemini Robotics-ER
Planeja continuar impulsionando o avanço das tecnologias de IA e robótica

Links relacionados

1 comentários

GN⁺ 2025-03-13

Opiniões no Hacker News

Há um link para uma playlist completa com 20 vídeos de demonstração no YouTube
Fico pensando se ninguém se lembra de que demos impressionantes do Google Gemini já foram manipuladas antes
Eu achava que as leis da robótica de Asimov eram um elemento interessante de ficção científica, mas distante da computação real
- Pelo visto, Asimov estava à frente do seu tempo escrevendo prompts para LLMs
Se a triagem de lixo ficar mais fácil e rápida, a eficiência da reciclagem pode aumentar 100 vezes
- Já existem lugares fazendo isso, mas há muitas tarefas simples nas quais robôs podem melhorar o mundo
A cena no fim do vídeo principal em que o robô coloca uma correia circular na polia foi impressionante
- Deve haver muitos comportamentos assim nos dados de treinamento, mas isso pareceu mais intuitivo do que dobrar camisas ou classificar objetos
- Parece que a função de reprodução automática/pausa/rolagem dos vídeos na página está com defeito
Quero um dispositivo que funcione como tradutor bidirecional em tempo real
- Seria ótimo poder viver lá sem perder tempo aprendendo alemão ou outro idioma
- Seria incrível conseguir pedir comida e resolver trâmites administrativos só com inglês
Qualquer pessoa vai poder encomendar um braço robótico da China, instalar na garagem e programá-lo com texto como um LLM
- É hora de pensar maior
Não tenho certeza se o vídeo representa o desempenho real ou se é estratégia de marketing, mas é impressionante
- Lembra os braços robóticos de Iron Man 1
Quando os robôs ficarem hábeis o bastante para preparar refeições, isso será um ponto de virada no mercado de trabalho
- O modelo atual ainda não chegou a esse nível, mas vou observar se os grandes investimentos em geração de dados sintéticos nos próximos anos vão aproximá-lo disso
O problema do Google é que o negócio de anúncios gera tanto lucro que os outros produtos acabam não tendo importância
- Eles vão usar o que aprenderem com robôs para aumentar a receita de anúncios

Google DeepMind apresenta o Gemini Robotics

Gemini Robotics: o modelo de visão-linguagem-ação mais avançado

1. Capacidade de generalização (Generality)

2. Capacidade de interação (Interactivity)

3. Destreza (Dexterity)

4. Aplicável a múltiplas formas de robô (Multiple embodiments)

Gemini Robotics-ER: capacidade de compreensão espacial reforçada

Estratégia para reforçar a segurança em IA e robótica

Principais parceiros e próximos planos

Links relacionados

Leituras relacionadas

1 comentários

Opiniões no Hacker News