6 pontos por GN⁺ 2025-04-04 | 1 comentários | Compartilhar no WhatsApp
  • O Google DeepMind desenvolveu o Gemini Robotics, um modelo de IA multimodal de próxima geração para robôs capazes de realizar tarefas físicas
  • O modelo é uma versão do Gemini 2.0 ajustada com dados especializados para robótica, de modo que possa executar não apenas texto, vídeo e áudio, mas também ações reais
  • O robô realiza diversas tarefas, como preparar salada, jogar jogo da velha, fazer origami e embalar marmitas de almoço

Casos de teste reais e verificação de possibilidades

  • Foram feitas várias solicitações de tarefas ao robô de pesquisa ALOHA de dois braços
    • Ex.: colocar uma caneta dentro de um sapato, fazer uma enterrada com uma bola de basquete
    • Mesmo sendo objetos e tarefas que o robô nunca tinha visto antes, ele entendeu os pedidos e os executou com sucesso já na primeira tentativa
  • Diferentemente dos modelos anteriores, ele consegue entender e executar comandos físicos complexos em linguagem natural

Principais características do Gemini Robotics

  • Possui alta flexibilidade, capacidade de interação e capacidade de generalização
    • Consegue se adaptar a novos objetos, ambientes e instruções sem treinamento adicional
  • Estabelece a base para implementar IA e robótica como um único agente integrado
  • Oferece capacidades de percepção, julgamento e ação semelhantes às humanas

Introdução aos modelos que o compõem

  • Gemini Robotics-ER (Embodied Reasoning):

    • Baseado no Gemini 2.0 Flash
    • Gera e executa código por meio de reconhecimento de objetos, identificação de posição, previsão de trajetória de movimento e configuração de pegada
    • Está sendo disponibilizado para testadores confiáveis e parceiros
  • Gemini Robotics:

    • Modelo integrado de visão-linguagem-ação
    • Capaz de entender cenas, interagir com o usuário e executar tarefas em várias etapas
    • Registrou desempenho de destreza de nível state-of-the-art mesmo em tarefas que exigem manipulação complexa e raciocínio espacial

Capacidades técnicas específicas

  • Detecção de objetos em 2D e 3D
  • Função de apontamento
  • Busca de pontos correspondentes em várias visualizações
  • Capacidade de manipulação usando diferentes informações visuais

Abordagem de treinamento e vantagens

  • Em vez da abordagem industrial tradicional de treinamento repetitivo para uma única tarefa, foi escolhida uma aprendizagem ampla por meio de diversas tarefas
  • Como resultado, a capacidade de generalização surgiu naturalmente
  • Pode ser aplicado a diferentes tipos de robôs
    • Ex.: ALOHA (pesquisa), Apollo da Apptronik (robô humanoide)

Suporte a diferentes formatos de robô

  • Diferentes formatos de robô executam várias tarefas, como embalar marmitas, apagar um quadro branco e pegar objetos pequenos
  • O ponto central é que um único modelo pode se adaptar a vários robôs

Visão para o futuro

  • Espera-se utilidade em setores industriais que exigem trabalho de precisão ou em ambientes inadequados para humanos
  • Há potencial para evoluir como robôs úteis também em ambientes centrados no ser humano, como casas
  • No cotidiano real, os robôs podem se tornar mais uma interface com a IA

1 comentários

 
GN⁺ 2025-04-04
Comentários no Hacker News
  • Eles podem fazer isso, mas o Gemini Assistant no celular Pixel ainda falha ao configurar um timer ou adicionar algo à lista de compras. (No Google Assistant isso funcionava bem)
  • Não há explicação nenhuma sobre o "como", mas se isso funcionar de forma minimamente confiável, terá um impacto umas 100 vezes maior que o ChatGPT
  • Os avanços em IA e robótica são muito empolgantes. Por causa de sistemas complexos como o Gemini, as empresas provavelmente terão de depender de equipes especializadas para viabilizar esse tipo de inovação
    • Ao terceirizar funções específicas, como pesquisa em IA ou engenharia de robótica, as empresas podem trazer talentos de altíssimo nível sem o peso de contratar em tempo integral
    • É interessante ver como a terceirização pode complementar P&D em indústrias de ponta como a robótica
    • Fico curioso para ver como a indústria vai mudar, especialmente em termos de escalabilidade e velocidade de entrada no mercado
  • No fim das contas, parece que alguém vai ajudar com as tarefas domésticas

    • Ah, ótimo. Só que, por trás disso, o objetivo é todo militar, mas é legal a tentativa de nos fazer pensar que eles vão dobrar nossa roupa
  • "Pegue a bola de basquete e faça uma enterrada." O caso de uso matador que esperávamos há tanto tempo :)
  • Mesmo que a tecnologia de robótica do Google (software e hardware) seja de ponta, fico em dúvida se eles de fato vão conseguir transformar isso em produto
    • Parece semelhante ao fato de eles terem liderado nos transformers, mas terem perdido toda a vantagem para o ChatGPT
    • Parece haver alguma coisa no Google que o impede de fazer a transição de pesquisa para produto de forma eficaz
    • Se você acha que a Waymo hoje alcançou product-market fit, isso pode ser um bom contraexemplo, mas não consigo afastar a sensação de que o Google geralmente não consegue lançar no mercado ou, quando lança, desiste antes de ganhar tração
    • Fico curioso se alguém tem opiniões fortes ou algum insight sobre os esforços deles em robótica
  • É assustador pensar na possibilidade de robôs como esses serem usados algum dia na indústria de defesa
    • Se um robô entende comandos genéricos como "guarde o apagador", imagine a ordem "elimine todos os inimigos"
  • Só por curiosidade: o que ele faria se mandassem matar alguém? Seguiria as leis da robótica?
  • Primeiro de abril!