Como o Google desenvolveu o modelo Gemini Robotics

(blog.google)

6 pontos por GN⁺ 2025-04-04 | 1 comentários | Compartilhar no WhatsApp

O Google DeepMind desenvolveu o Gemini Robotics, um modelo de IA multimodal de próxima geração para robôs capazes de realizar tarefas físicas
O modelo é uma versão do Gemini 2.0 ajustada com dados especializados para robótica, de modo que possa executar não apenas texto, vídeo e áudio, mas também ações reais
O robô realiza diversas tarefas, como preparar salada, jogar jogo da velha, fazer origami e embalar marmitas de almoço

Casos de teste reais e verificação de possibilidades

Foram feitas várias solicitações de tarefas ao robô de pesquisa ALOHA de dois braços
- Ex.: colocar uma caneta dentro de um sapato, fazer uma enterrada com uma bola de basquete
- Mesmo sendo objetos e tarefas que o robô nunca tinha visto antes, ele entendeu os pedidos e os executou com sucesso já na primeira tentativa
Diferentemente dos modelos anteriores, ele consegue entender e executar comandos físicos complexos em linguagem natural

Principais características do Gemini Robotics

Possui alta flexibilidade, capacidade de interação e capacidade de generalização
- Consegue se adaptar a novos objetos, ambientes e instruções sem treinamento adicional
Estabelece a base para implementar IA e robótica como um único agente integrado
Oferece capacidades de percepção, julgamento e ação semelhantes às humanas

Introdução aos modelos que o compõem

Gemini Robotics-ER (Embodied Reasoning):
- Baseado no Gemini 2.0 Flash
- Gera e executa código por meio de reconhecimento de objetos, identificação de posição, previsão de trajetória de movimento e configuração de pegada
- Está sendo disponibilizado para testadores confiáveis e parceiros
Gemini Robotics:
- Modelo integrado de visão-linguagem-ação
- Capaz de entender cenas, interagir com o usuário e executar tarefas em várias etapas
- Registrou desempenho de destreza de nível state-of-the-art mesmo em tarefas que exigem manipulação complexa e raciocínio espacial

Capacidades técnicas específicas

Detecção de objetos em 2D e 3D
Função de apontamento
Busca de pontos correspondentes em várias visualizações
Capacidade de manipulação usando diferentes informações visuais

Abordagem de treinamento e vantagens

Em vez da abordagem industrial tradicional de treinamento repetitivo para uma única tarefa, foi escolhida uma aprendizagem ampla por meio de diversas tarefas
Como resultado, a capacidade de generalização surgiu naturalmente
Pode ser aplicado a diferentes tipos de robôs
- Ex.: ALOHA (pesquisa), Apollo da Apptronik (robô humanoide)

Suporte a diferentes formatos de robô

Diferentes formatos de robô executam várias tarefas, como embalar marmitas, apagar um quadro branco e pegar objetos pequenos
O ponto central é que um único modelo pode se adaptar a vários robôs

Visão para o futuro

Espera-se utilidade em setores industriais que exigem trabalho de precisão ou em ambientes inadequados para humanos
Há potencial para evoluir como robôs úteis também em ambientes centrados no ser humano, como casas
No cotidiano real, os robôs podem se tornar mais uma interface com a IA

1 comentários

GN⁺ 2025-04-04

Comentários no Hacker News

Eles podem fazer isso, mas o Gemini Assistant no celular Pixel ainda falha ao configurar um timer ou adicionar algo à lista de compras. (No Google Assistant isso funcionava bem)
Não há explicação nenhuma sobre o "como", mas se isso funcionar de forma minimamente confiável, terá um impacto umas 100 vezes maior que o ChatGPT
Os avanços em IA e robótica são muito empolgantes. Por causa de sistemas complexos como o Gemini, as empresas provavelmente terão de depender de equipes especializadas para viabilizar esse tipo de inovação
- Ao terceirizar funções específicas, como pesquisa em IA ou engenharia de robótica, as empresas podem trazer talentos de altíssimo nível sem o peso de contratar em tempo integral
- É interessante ver como a terceirização pode complementar P&D em indústrias de ponta como a robótica
- Fico curioso para ver como a indústria vai mudar, especialmente em termos de escalabilidade e velocidade de entrada no mercado
No fim das contas, parece que alguém vai ajudar com as tarefas domésticas
- Ah, ótimo. Só que, por trás disso, o objetivo é todo militar, mas é legal a tentativa de nos fazer pensar que eles vão dobrar nossa roupa
"Pegue a bola de basquete e faça uma enterrada." O caso de uso matador que esperávamos há tanto tempo :)
Mesmo que a tecnologia de robótica do Google (software e hardware) seja de ponta, fico em dúvida se eles de fato vão conseguir transformar isso em produto
- Parece semelhante ao fato de eles terem liderado nos transformers, mas terem perdido toda a vantagem para o ChatGPT
- Parece haver alguma coisa no Google que o impede de fazer a transição de pesquisa para produto de forma eficaz
- Se você acha que a Waymo hoje alcançou product-market fit, isso pode ser um bom contraexemplo, mas não consigo afastar a sensação de que o Google geralmente não consegue lançar no mercado ou, quando lança, desiste antes de ganhar tração
- Fico curioso se alguém tem opiniões fortes ou algum insight sobre os esforços deles em robótica
É assustador pensar na possibilidade de robôs como esses serem usados algum dia na indústria de defesa
- Se um robô entende comandos genéricos como "guarde o apagador", imagine a ordem "elimine todos os inimigos"
Só por curiosidade: o que ele faria se mandassem matar alguém? Seguiria as leis da robótica?
Primeiro de abril!

Como o Google desenvolveu o modelo Gemini Robotics

Casos de teste reais e verificação de possibilidades

Principais características do Gemini Robotics

Introdução aos modelos que o compõem

Capacidades técnicas específicas

Abordagem de treinamento e vantagens

Suporte a diferentes formatos de robô

Visão para o futuro

Leituras relacionadas

1 comentários

Comentários no Hacker News