Google DeepMind revela o AI "Gemini Robotics On-Device" otimizado para dispositivos robóticos

(deepmind.google)

5 pontos por GN⁺ 2025-06-26 | 1 comentários | Compartilhar no WhatsApp

Modelo VLA (visão-linguagem-ação) de uso geral otimizado para ser embarcado e usado diretamente em robôs
Oferece adaptação rápida a tarefas e destreza de uso geral, operando localmente sem conexão com a internet para garantir baixa latência e robustez
Requer recursos computacionais mínimos e traz manipulação precisa baseada em robôs de dois braços e troca rápida de tarefas
Com o Gemini Robotics SDK, desenvolvedores podem testar rapidamente em seus próprios ambientes e obter adaptação rápida a tarefas com apenas 50 a 100 demonstrações
Apresenta desempenho superior de generalização e adaptação em comparação com outros modelos on-device, executando de forma eficiente instruções complexas e novas tarefas
Aplica princípios de segurança e desenvolvimento responsável, introduzindo minimização de riscos e um sistema de incorporação de feedback para ambientes reais e impactos sociais

We’re introducing an efficient, on-device robotics model with general-purpose dexterity and fast task adaptation

Gemini Robotics On-Device é um modelo VLA (visão-linguagem-ação) de alta eficiência projetado para rodar diretamente em dispositivos robóticos locais
Aplica ao ambiente físico real a capacidade de raciocínio multimodal e a compreensão do mundo real do Gemini Robotics, anunciado em março
Pontos fortes do modelo on-device
- Funciona de forma independente sem rede, o que o torna vantajoso em ambientes que exigem baixa latência ou têm conectividade instável
- É otimizado para ambientes locais, possibilitando execução rápida de tarefas em tempo real
- Possui diversas capacidades de generalização visual, semântica e comportamental
- É capaz de realizar tarefas de manipulação precisa com robôs de dois braços, como abrir zíperes e dobrar roupas
- Consegue compreender instruções em linguagem natural e executar tarefas complexas em múltiplas etapas

O SDK facilita a aplicação e a customização

Por meio do Gemini Robotics SDK, desenvolvedores podem testar o modelo em seus próprios ambientes, usar o simulador físico MuJoCo e aplicá-lo a diversas tarefas
A adaptação rápida a novos domínios é possível com apenas 50 a 100 demonstrações

Model capabilities and performance

Gemini Robotics On-Device foi projetado para robôs bi-arm com recursos computacionais mínimos
É otimizado para experimentação rápida, manipulação baseada em destreza, execução local e inferência de baixa latência
Reconhece comandos em linguagem natural e executa diretamente manipulações avançadas, como abrir zíperes e dobrar roupas
Em comparação com modelos on-device existentes, oferece melhor versatilidade e desempenho de generalização, processando com eficácia instruções complexas de múltiplas etapas
Para cenários que exigem maior desempenho ou menos restrições, o modelo Gemini Robotics baseado em servidor também está disponível

Adaptable to new tasks, generalizable across embodiments

Gemini Robotics On-Device é o primeiro modelo VLA com suporte a fine-tuning
Adapta-se rapidamente a novas tarefas com apenas 50 a 100 demonstrações e mostra desempenho de adaptação superior ao de modelos concorrentes em tarefas de destreza de vários níveis de dificuldade, como fechar zíperes, puxar cartas e servir molho
Embora tenha sido treinado para um robô específico (ALOHA), pode ser expandido para robôs de diferentes formatos, como Franka FR3 e Apollo humanoid, por meio de treinamento adicional
Também consegue lidar com várias instruções, novos objetos e tarefas industriais complexas, como montagem de correias

Responsible development and safety

O modelo foi desenvolvido com base nos AI Principles e em um framework integrado de segurança
Com o [Live API], entre outros recursos, garante segurança semântica e de conteúdo, e reforça a segurança em operações reais ao se integrar com controladores de segurança de baixo nível
Os riscos são avaliados por meio de vários sistemas de avaliação, incluindo Semantic Safety Benchmark e Red-Teaming
Equipes dedicadas (Responsible Development & Innovation, RSC) realizam continuamente avaliação de impacto social e coleta de feedback
O modelo foi disponibilizado antecipadamente a um grupo de testadores confiáveis para coletar avaliações iniciais de usabilidade e segurança

Accelerating innovation in robotics

Gemini Robotics On-Device oferece à comunidade de robótica um modelo de AI versátil e adaptável para ajudar a superar problemas de latência e conectividade
Espera-se que acelere a inovação com aplicação rápida via SDK e recursos de adaptação a tarefas
O acesso ao modelo e ao SDK está disponível por meio do Trusted Tester Program
Amplia a aplicação da AI ao mundo físico e apresenta uma visão para liderar o futuro da robótica

1 comentários

GN⁺ 2025-06-26

Comentários no Hacker News

Tenho uma visão otimista sobre robótica humanoide, mas fico com dúvidas sobre a questão da confiabilidade. Os membros e as mãos humanos são um sistema impressionante, que toca o mundo o tempo todo, sofre desgaste natural e ainda assim se recupera sozinho
- Robôs industriais são extremamente bons em confiabilidade. Muitas vezes o MTBF (tempo médio entre falhas) passa de 100.000 horas. O ponto importante é que robôs industriais são projetados para operar o máximo de tempo possível sem falhar, aumentando a rentabilidade. Empresas alemãs e japonesas dominaram o mercado de robôs industriais ao desenvolver atuadores elétricos com foco em confiabilidade. No passado, os robôs hidráulicos da americana Cincinnati Millicron eram potentes, mas perderam competitividade por serem menos confiáveis. Ainda assim, existe ceticismo de que mãos humanoides consigam atingir o mesmo nível de confiabilidade dos robôs industriais, porque precisam fazer pequenas peças suportarem muita força link relacionado
- Pensando nas possibilidades do futuro próximo, isso parece muito interessante ou até um pouco perturbador. Antes eu achava que eles se concentrariam em objetivos específicos, como um robô só para limpeza, mas na prática parece que, quando estiver pronto, será usado de forma bem geral. Vai precisar de muitos sensores e motores, mas é interessante que, em comparação com carros autônomos, o risco jurídico deve ser menor e os recursos necessários também
- Acho que também seria possível fazer com que outros robôs substituam automaticamente peças consumíveis
- Acho que pesquisas adicionais em ciência dos materiais também podem resolver esse problema. Se combinar isso com servos responsivos, mas com baixo torque, também vejo isso como algo solucionável
- Acho interessante como os robôs vão se tornar "diferentes" individualmente com o tempo. Em ambientes severos, como robôs de mineração, as peças podem ficar muito contaminadas por poeira, se desgastar em vários pontos e até entortar por queda de rochas. Mesmo que outro robô faça um conserto temporário, com o tempo todos eles devem acabar ficando um pouco diferentes uns dos outros. Assim como a manutenção de aeronaves comerciais acaba sendo única em cada caso, dependendo de colisões ou danos, talvez para robôs a reciclagem seja uma solução mais fácil
Tenho curiosidade se é fácil entrar no "trusted tester program" e se também oferecem módulos para usar o SDK com facilidade
- Informam que há um botão de inscrição no fim da matéria
Tenho curiosidade sobre em que hardware o SDK roda e se funciona até mesmo em um Raspberry Pi recente
- Segundo o post no blog, é necessário no mínimo um NVIDIA Jetson Orin com 8GB de RAM, e ele é otimizado para os módulos Jetson AGX Orin (64GB) e Orin NX (16GB)
- Mencionam que um dos contribuidores do projeto postou no X que roda em uma placa de vídeo 4090 link relacionado no X
- Em essência, dá para pensar nesse sistema como um LLM multimodal. Modelos pequenos, como o SmolVLA (0.5B parâmetros), são rápidos e eficientes para tarefas específicas, enquanto o OpenVLA (ajuste fino do Llama2 7B) é um modelo maior usado para tarefas mais gerais. Alguns modelos de propósito especial podem rodar até em Raspberry Pi, e modelos mais gerais já seriam viáveis com hardware de consumo de alto desempenho
O link do MuJoCo na verdade aponta para github.com/google-deepmind/aloha_sim
- O mujoco_menagerie inclui modelos XML MJCF de Mujoco para vários robôs google-deepmind/mujoco_menagerie / modelo aloha
Tenho curiosidade sobre a arquitetura do modelo e imagino que seja bem diferente de um LLM; se houver algum link explicando em detalhes a arquitetura VLA, peço que compartilhem
- Na verdade, acho que a estrutura é bem próxima de um LLM. É um modelo VLA de "Visual Language Action" e se baseia no Gemini 2.0. Como o Gemini 2.0 já dá suporte nativo a linguagem, áudio e vídeo, dá para supor que também possa incluir dados de "action". Parece uma estrutura em que dados de ação foram adicionados na etapa de fine-tuning de saída. Acho que LLMs multimodais nativos como esse logo passarão a fazer o papel de "cérebro"
É certo que essas tecnologias inevitavelmente também serão usadas como máquinas de guerra. A autonomia on-device é perfeita para evitar poder centralizado ou rastreamento de responsabilidade. Ao contrário de operadores de drones, não dá nem para processar um humano por crimes de guerra. Os contratos militares são grandes demais para resistir, e a remoção do trabalho pesado caminha para a remoção total dos humanos. Um futuro de "AI-Powered Automation for Every Decision" se aproxima de forma bem clara, no qual a vida humana rentável desaparece palantir.com
- A Boston Dynamics, empresa originada no MIT e adquirida pelo Google, prometeu que não militarizaria robôs, mas na prática é muito difícil confiar nisso, dado o histórico de investimentos militares como DARPA e Departamento de Defesa dos EUA
- Praticamente toda tecnologia útil tem aplicação militar. Não sei por que isso seria um debate tão acalorado
- Acho muito difícil que esse robô consiga competir com drones no campo de batalha. Provavelmente custaria o equivalente a 1.000 drones autônomos e exigiria mais de 100 vezes mais tempo e recursos. Drones já provaram seu valor em campos de batalha reais, como na Ucrânia, sendo pequenos e poderosos, e por mais ágil que o movimento fique, parece difícil fugir de drones explosivos. Mesmo que um Terminator esteja segurando uma espingarda, seria fácil colocar 5 drones para cada um, e esses drones ainda poderiam ser fabricados por outro robô autônomo
É impressionante o padrão do Google de lançar discretamente produtos inovadores e logo deixá-los cair no esquecimento. Eles só publicam um post no blog, sem grande divulgação, aquilo circula um pouco na comunidade tech e desaparece, e alguns anos depois todo mundo pensa "o que foi que aconteceu com aquilo?". Mas esse produto parece muito legal, e eu adoraria ver alguém criando uma startup interessante com isso
- O principal objetivo de projetos assim no Google é conter reguladores. A intenção não é monetizar esses produtos; eles simplesmente queimam dinheiro de propósito e seguem em frente, e só conseguem fazer isso porque são um monopólio
Vou tomar um café enquanto espero a resposta chegar pela API
Acho que a única forma de impedir que um robô fuja da prisão e vá assaltar um banco seria mover a GPU para uma nuvem privada de GPUs SOTA seguras
Tenho curiosidade se haverá guardrails no estilo das Three Laws of Robotics para impedir que o robô enlouqueça ao executar prompts
- As Três Leis da Robótica foram criadas como estrutura de conflito ficcional, então seria problemático usar isso desse jeito em sistemas reais. Na prática, o design de segurança do Gemini Robotics é multicamadas. O modelo raciocina sobre o que é seguro, o VLA propõe opções de execução e, por fim, entra em ação um controlador de baixo nível com funções centrais de segurança embutidas, como limites de velocidade e força
- O termo geral para esse tipo de pesquisa é Constitutional AI, e isso vem sendo testado/citado em vários VLAs de robótica artigo relacionado
- Acho que os guardrails aplicados hoje se parecem mais com a IEC 61508 (norma internacional de segurança funcional) do que com três leis
- Também dizem que existe o famoso código de desligar da tomada
- Há a opinião de que as Três Leis da Robótica são, na prática, regras sem sentido

Google DeepMind revela o AI "Gemini Robotics On-Device" otimizado para dispositivos robóticos

We’re introducing an efficient, on-device robotics model with general-purpose dexterity and fast task adaptation

Pontos fortes do modelo on-device

O SDK facilita a aplicação e a customização

Model capabilities and performance

Adaptable to new tasks, generalizable across embodiments

Responsible development and safety

Accelerating innovation in robotics

Leituras relacionadas

1 comentários

Comentários no Hacker News