4 pontos por GN⁺ 2025-03-13 | 1 comentários | Compartilhar no WhatsApp
  • Introduz o Gemini 2.0 na robótica e apresenta um modelo de visão-linguagem-ação (VLA) e um modelo ER com compreensão espacial
  • O Google DeepMind vem avançando capacidades de raciocínio multimodal usando texto, imagem, áudio e vídeo para resolver problemas complexos
  • No entanto, essas capacidades até agora estavam limitadas a ambientes digitais
  • Para que a IA seja útil no mundo físico, ela precisa entender e reagir ao ambiente como um ser humano e ter a capacidade de "raciocínio incorporado (embodied reasoning)" para executar tarefas com segurança
  • Com isso, foram anunciados dois novos modelos
    • Gemini Robotics: modelo de visão-linguagem-ação (VLA) baseado no Gemini 2.0 que pode controlar robôs diretamente
    • Gemini Robotics-ER: modelo que oferece compreensão espacial aprimorada e capacidade de controle de robôs
  • Em parceria com a Apptronik, está desenvolvendo a próxima geração de robôs humanoides
  • Está trabalhando com um pequeno grupo de testadores confiáveis para melhorar o desempenho dos modelos

Gemini Robotics: o modelo de visão-linguagem-ação mais avançado

1. Capacidade de generalização (Generality)

  • Consegue se adaptar a novas situações e executar diversas tarefas
  • Apresenta ótimo desempenho com novos objetos, comandos e ambientes
  • Segundo o relatório técnico, o desempenho de generalização melhorou em mais de 2 vezes em comparação com modelos VLA existentes

2. Capacidade de interação (Interactivity)

  • Consegue entender e responder a comandos em linguagem natural
  • Dá suporte a vários idiomas e comandos de linguagem cotidiana
  • Pode reagir em tempo real a mudanças no ambiente e ajustar suas ações
  • Mesmo que um objeto escorregue da mão ou mude de posição, pode replanejar imediatamente e continuar a tarefa

3. Destreza (Dexterity)

  • Reforça a capacidade de executar tarefas delicadas
  • Pode realizar tarefas complexas de múltiplas etapas (ex.: origami, colocar lanches em um saco com zíper etc.)

4. Aplicável a múltiplas formas de robô (Multiple embodiments)

  • Pode ser aplicado com facilidade a diferentes tipos de robô
  • Funcionamento confirmado em robôs baseados em ALOHA 2, Franka e no robô humanoide Apollo

Gemini Robotics-ER: capacidade de compreensão espacial reforçada

  • Reforça significativamente a percepção espacial e o desempenho de detecção 3D do Gemini 2.0
  • Permite que robôs reconheçam a posição dos objetos e os manipulem da forma adequada
  • Combina capacidade de geração de código → permitindo que o robô crie na hora novas formas de executar tarefas
  • A taxa de sucesso melhorou em 2 a 3 vezes em comparação com o Gemini 2.0
  • Exemplo de demonstração: reconhece a alça de uma caneca de café, se aproxima por uma rota segura e a pega

Estratégia para reforçar a segurança em IA e robótica

  • Foco em resolver problemas de segurança física dos robôs
  • Os robôs executam medidas tradicionais de segurança, como prevenção de colisões, limitação da força de contato e manutenção da estabilidade dinâmica
  • O Gemini Robotics-ER decide se deve executar uma tarefa quando há preocupações de segurança e responde de forma apropriada
  • Lançamento do novo dataset ASIMOV → com o objetivo de avaliar e melhorar a segurança do comportamento dos robôs
  • Trabalha com comitês internos de responsabilidade e segurança e com especialistas externos para lidar com questões éticas

Principais parceiros e próximos planos

  • Está colaborando com a Apptronik no desenvolvimento de robôs humanoides
  • Agile Robots, Agility Robots, Boston Dynamics e Enchanted Tools estão testando o Gemini Robotics-ER
  • Planeja continuar impulsionando o avanço das tecnologias de IA e robótica

Links relacionados

1 comentários

 
GN⁺ 2025-03-13
Opiniões no Hacker News
  • Há um link para uma playlist completa com 20 vídeos de demonstração no YouTube
  • Fico pensando se ninguém se lembra de que demos impressionantes do Google Gemini já foram manipuladas antes
  • Eu achava que as leis da robótica de Asimov eram um elemento interessante de ficção científica, mas distante da computação real
    • Pelo visto, Asimov estava à frente do seu tempo escrevendo prompts para LLMs
  • Se a triagem de lixo ficar mais fácil e rápida, a eficiência da reciclagem pode aumentar 100 vezes
    • Já existem lugares fazendo isso, mas há muitas tarefas simples nas quais robôs podem melhorar o mundo
  • A cena no fim do vídeo principal em que o robô coloca uma correia circular na polia foi impressionante
    • Deve haver muitos comportamentos assim nos dados de treinamento, mas isso pareceu mais intuitivo do que dobrar camisas ou classificar objetos
    • Parece que a função de reprodução automática/pausa/rolagem dos vídeos na página está com defeito
  • Quero um dispositivo que funcione como tradutor bidirecional em tempo real
    • Seria ótimo poder viver lá sem perder tempo aprendendo alemão ou outro idioma
    • Seria incrível conseguir pedir comida e resolver trâmites administrativos só com inglês
  • Qualquer pessoa vai poder encomendar um braço robótico da China, instalar na garagem e programá-lo com texto como um LLM
    • É hora de pensar maior
  • Não tenho certeza se o vídeo representa o desempenho real ou se é estratégia de marketing, mas é impressionante
    • Lembra os braços robóticos de Iron Man 1
  • Quando os robôs ficarem hábeis o bastante para preparar refeições, isso será um ponto de virada no mercado de trabalho
    • O modelo atual ainda não chegou a esse nível, mas vou observar se os grandes investimentos em geração de dados sintéticos nos próximos anos vão aproximá-lo disso
  • O problema do Google é que o negócio de anúncios gera tanto lucro que os outros produtos acabam não tendo importância
    • Eles vão usar o que aprenderem com robôs para aumentar a receita de anúncios