Como o Google desenvolveu o modelo Gemini Robotics
(blog.google)- O Google DeepMind desenvolveu o Gemini Robotics, um modelo de IA multimodal de próxima geração para robôs capazes de realizar tarefas físicas
- O modelo é uma versão do Gemini 2.0 ajustada com dados especializados para robótica, de modo que possa executar não apenas texto, vídeo e áudio, mas também ações reais
- O robô realiza diversas tarefas, como preparar salada, jogar jogo da velha, fazer origami e embalar marmitas de almoço
Casos de teste reais e verificação de possibilidades
- Foram feitas várias solicitações de tarefas ao robô de pesquisa ALOHA de dois braços
- Ex.: colocar uma caneta dentro de um sapato, fazer uma enterrada com uma bola de basquete
- Mesmo sendo objetos e tarefas que o robô nunca tinha visto antes, ele entendeu os pedidos e os executou com sucesso já na primeira tentativa
- Diferentemente dos modelos anteriores, ele consegue entender e executar comandos físicos complexos em linguagem natural
Principais características do Gemini Robotics
- Possui alta flexibilidade, capacidade de interação e capacidade de generalização
- Consegue se adaptar a novos objetos, ambientes e instruções sem treinamento adicional
- Estabelece a base para implementar IA e robótica como um único agente integrado
- Oferece capacidades de percepção, julgamento e ação semelhantes às humanas
Introdução aos modelos que o compõem
-
Gemini Robotics-ER (Embodied Reasoning):
- Baseado no Gemini 2.0 Flash
- Gera e executa código por meio de reconhecimento de objetos, identificação de posição, previsão de trajetória de movimento e configuração de pegada
- Está sendo disponibilizado para testadores confiáveis e parceiros
-
Gemini Robotics:
- Modelo integrado de visão-linguagem-ação
- Capaz de entender cenas, interagir com o usuário e executar tarefas em várias etapas
- Registrou desempenho de destreza de nível state-of-the-art mesmo em tarefas que exigem manipulação complexa e raciocínio espacial
Capacidades técnicas específicas
- Detecção de objetos em 2D e 3D
- Função de apontamento
- Busca de pontos correspondentes em várias visualizações
- Capacidade de manipulação usando diferentes informações visuais
Abordagem de treinamento e vantagens
- Em vez da abordagem industrial tradicional de treinamento repetitivo para uma única tarefa, foi escolhida uma aprendizagem ampla por meio de diversas tarefas
- Como resultado, a capacidade de generalização surgiu naturalmente
- Pode ser aplicado a diferentes tipos de robôs
- Ex.: ALOHA (pesquisa), Apollo da Apptronik (robô humanoide)
Suporte a diferentes formatos de robô
- Diferentes formatos de robô executam várias tarefas, como embalar marmitas, apagar um quadro branco e pegar objetos pequenos
- O ponto central é que um único modelo pode se adaptar a vários robôs
Visão para o futuro
- Espera-se utilidade em setores industriais que exigem trabalho de precisão ou em ambientes inadequados para humanos
- Há potencial para evoluir como robôs úteis também em ambientes centrados no ser humano, como casas
- No cotidiano real, os robôs podem se tornar mais uma interface com a IA
1 comentários
Comentários no Hacker News