- Introduz o Gemini 2.0 na robótica e apresenta um modelo de visão-linguagem-ação (VLA) e um modelo ER com compreensão espacial
- O Google DeepMind vem avançando capacidades de raciocínio multimodal usando texto, imagem, áudio e vídeo para resolver problemas complexos
- No entanto, essas capacidades até agora estavam limitadas a ambientes digitais
- Para que a IA seja útil no mundo físico, ela precisa entender e reagir ao ambiente como um ser humano e ter a capacidade de "raciocínio incorporado (embodied reasoning)" para executar tarefas com segurança
- Com isso, foram anunciados dois novos modelos
- Gemini Robotics: modelo de visão-linguagem-ação (VLA) baseado no Gemini 2.0 que pode controlar robôs diretamente
- Gemini Robotics-ER: modelo que oferece compreensão espacial aprimorada e capacidade de controle de robôs
- Em parceria com a Apptronik, está desenvolvendo a próxima geração de robôs humanoides
- Está trabalhando com um pequeno grupo de testadores confiáveis para melhorar o desempenho dos modelos
Gemini Robotics: o modelo de visão-linguagem-ação mais avançado
1. Capacidade de generalização (Generality)
- Consegue se adaptar a novas situações e executar diversas tarefas
- Apresenta ótimo desempenho com novos objetos, comandos e ambientes
- Segundo o relatório técnico, o desempenho de generalização melhorou em mais de 2 vezes em comparação com modelos VLA existentes
2. Capacidade de interação (Interactivity)
- Consegue entender e responder a comandos em linguagem natural
- Dá suporte a vários idiomas e comandos de linguagem cotidiana
- Pode reagir em tempo real a mudanças no ambiente e ajustar suas ações
- Mesmo que um objeto escorregue da mão ou mude de posição, pode replanejar imediatamente e continuar a tarefa
3. Destreza (Dexterity)
- Reforça a capacidade de executar tarefas delicadas
- Pode realizar tarefas complexas de múltiplas etapas (ex.: origami, colocar lanches em um saco com zíper etc.)
4. Aplicável a múltiplas formas de robô (Multiple embodiments)
- Pode ser aplicado com facilidade a diferentes tipos de robô
- Funcionamento confirmado em robôs baseados em ALOHA 2, Franka e no robô humanoide Apollo
Gemini Robotics-ER: capacidade de compreensão espacial reforçada
- Reforça significativamente a percepção espacial e o desempenho de detecção 3D do Gemini 2.0
- Permite que robôs reconheçam a posição dos objetos e os manipulem da forma adequada
- Combina capacidade de geração de código → permitindo que o robô crie na hora novas formas de executar tarefas
- A taxa de sucesso melhorou em 2 a 3 vezes em comparação com o Gemini 2.0
- Exemplo de demonstração: reconhece a alça de uma caneca de café, se aproxima por uma rota segura e a pega
Estratégia para reforçar a segurança em IA e robótica
- Foco em resolver problemas de segurança física dos robôs
- Os robôs executam medidas tradicionais de segurança, como prevenção de colisões, limitação da força de contato e manutenção da estabilidade dinâmica
- O Gemini Robotics-ER decide se deve executar uma tarefa quando há preocupações de segurança e responde de forma apropriada
- Lançamento do novo dataset ASIMOV → com o objetivo de avaliar e melhorar a segurança do comportamento dos robôs
- Trabalha com comitês internos de responsabilidade e segurança e com especialistas externos para lidar com questões éticas
Principais parceiros e próximos planos
- Está colaborando com a Apptronik no desenvolvimento de robôs humanoides
- Agile Robots, Agility Robots, Boston Dynamics e Enchanted Tools estão testando o Gemini Robotics-ER
- Planeja continuar impulsionando o avanço das tecnologias de IA e robótica
Links relacionados
1 comentários
Opiniões no Hacker News