- Modelo VLA (visão-linguagem-ação) de uso geral otimizado para ser embarcado e usado diretamente em robôs
- Oferece adaptação rápida a tarefas e destreza de uso geral, operando localmente sem conexão com a internet para garantir baixa latência e robustez
- Requer recursos computacionais mínimos e traz manipulação precisa baseada em robôs de dois braços e troca rápida de tarefas
- Com o Gemini Robotics SDK, desenvolvedores podem testar rapidamente em seus próprios ambientes e obter adaptação rápida a tarefas com apenas 50 a 100 demonstrações
- Apresenta desempenho superior de generalização e adaptação em comparação com outros modelos on-device, executando de forma eficiente instruções complexas e novas tarefas
- Aplica princípios de segurança e desenvolvimento responsável, introduzindo minimização de riscos e um sistema de incorporação de feedback para ambientes reais e impactos sociais
We’re introducing an efficient, on-device robotics model with general-purpose dexterity and fast task adaptation
- Gemini Robotics On-Device é um modelo VLA (visão-linguagem-ação) de alta eficiência projetado para rodar diretamente em dispositivos robóticos locais
- Aplica ao ambiente físico real a capacidade de raciocínio multimodal e a compreensão do mundo real do Gemini Robotics, anunciado em março
-
Pontos fortes do modelo on-device
- Funciona de forma independente sem rede, o que o torna vantajoso em ambientes que exigem baixa latência ou têm conectividade instável
- É otimizado para ambientes locais, possibilitando execução rápida de tarefas em tempo real
- Possui diversas capacidades de generalização visual, semântica e comportamental
- É capaz de realizar tarefas de manipulação precisa com robôs de dois braços, como abrir zíperes e dobrar roupas
- Consegue compreender instruções em linguagem natural e executar tarefas complexas em múltiplas etapas
O SDK facilita a aplicação e a customização
- Por meio do Gemini Robotics SDK, desenvolvedores podem testar o modelo em seus próprios ambientes, usar o simulador físico MuJoCo e aplicá-lo a diversas tarefas
- A adaptação rápida a novos domínios é possível com apenas 50 a 100 demonstrações
Model capabilities and performance
- Gemini Robotics On-Device foi projetado para robôs bi-arm com recursos computacionais mínimos
- É otimizado para experimentação rápida, manipulação baseada em destreza, execução local e inferência de baixa latência
- Reconhece comandos em linguagem natural e executa diretamente manipulações avançadas, como abrir zíperes e dobrar roupas
- Em comparação com modelos on-device existentes, oferece melhor versatilidade e desempenho de generalização, processando com eficácia instruções complexas de múltiplas etapas
- Para cenários que exigem maior desempenho ou menos restrições, o modelo Gemini Robotics baseado em servidor também está disponível
Adaptable to new tasks, generalizable across embodiments
- Gemini Robotics On-Device é o primeiro modelo VLA com suporte a fine-tuning
- Adapta-se rapidamente a novas tarefas com apenas 50 a 100 demonstrações e mostra desempenho de adaptação superior ao de modelos concorrentes em tarefas de destreza de vários níveis de dificuldade, como fechar zíperes, puxar cartas e servir molho
- Embora tenha sido treinado para um robô específico (ALOHA), pode ser expandido para robôs de diferentes formatos, como Franka FR3 e Apollo humanoid, por meio de treinamento adicional
- Também consegue lidar com várias instruções, novos objetos e tarefas industriais complexas, como montagem de correias
Responsible development and safety
- O modelo foi desenvolvido com base nos AI Principles e em um framework integrado de segurança
- Com o [Live API], entre outros recursos, garante segurança semântica e de conteúdo, e reforça a segurança em operações reais ao se integrar com controladores de segurança de baixo nível
- Os riscos são avaliados por meio de vários sistemas de avaliação, incluindo Semantic Safety Benchmark e Red-Teaming
- Equipes dedicadas (Responsible Development & Innovation, RSC) realizam continuamente avaliação de impacto social e coleta de feedback
- O modelo foi disponibilizado antecipadamente a um grupo de testadores confiáveis para coletar avaliações iniciais de usabilidade e segurança
Accelerating innovation in robotics
- Gemini Robotics On-Device oferece à comunidade de robótica um modelo de AI versátil e adaptável para ajudar a superar problemas de latência e conectividade
- Espera-se que acelere a inovação com aplicação rápida via SDK e recursos de adaptação a tarefas
- O acesso ao modelo e ao SDK está disponível por meio do Trusted Tester Program
- Amplia a aplicação da AI ao mundo físico e apresenta uma visão para liderar o futuro da robótica
1 comentários
Comentários no Hacker News
Tenho uma visão otimista sobre robótica humanoide, mas fico com dúvidas sobre a questão da confiabilidade. Os membros e as mãos humanos são um sistema impressionante, que toca o mundo o tempo todo, sofre desgaste natural e ainda assim se recupera sozinho
Robôs industriais são extremamente bons em confiabilidade. Muitas vezes o MTBF (tempo médio entre falhas) passa de 100.000 horas. O ponto importante é que robôs industriais são projetados para operar o máximo de tempo possível sem falhar, aumentando a rentabilidade. Empresas alemãs e japonesas dominaram o mercado de robôs industriais ao desenvolver atuadores elétricos com foco em confiabilidade. No passado, os robôs hidráulicos da americana Cincinnati Millicron eram potentes, mas perderam competitividade por serem menos confiáveis. Ainda assim, existe ceticismo de que mãos humanoides consigam atingir o mesmo nível de confiabilidade dos robôs industriais, porque precisam fazer pequenas peças suportarem muita força link relacionado
Pensando nas possibilidades do futuro próximo, isso parece muito interessante ou até um pouco perturbador. Antes eu achava que eles se concentrariam em objetivos específicos, como um robô só para limpeza, mas na prática parece que, quando estiver pronto, será usado de forma bem geral. Vai precisar de muitos sensores e motores, mas é interessante que, em comparação com carros autônomos, o risco jurídico deve ser menor e os recursos necessários também
Acho que também seria possível fazer com que outros robôs substituam automaticamente peças consumíveis
Acho que pesquisas adicionais em ciência dos materiais também podem resolver esse problema. Se combinar isso com servos responsivos, mas com baixo torque, também vejo isso como algo solucionável
Acho interessante como os robôs vão se tornar "diferentes" individualmente com o tempo. Em ambientes severos, como robôs de mineração, as peças podem ficar muito contaminadas por poeira, se desgastar em vários pontos e até entortar por queda de rochas. Mesmo que outro robô faça um conserto temporário, com o tempo todos eles devem acabar ficando um pouco diferentes uns dos outros. Assim como a manutenção de aeronaves comerciais acaba sendo única em cada caso, dependendo de colisões ou danos, talvez para robôs a reciclagem seja uma solução mais fácil
Tenho curiosidade se é fácil entrar no "trusted tester program" e se também oferecem módulos para usar o SDK com facilidade
Tenho curiosidade sobre em que hardware o SDK roda e se funciona até mesmo em um Raspberry Pi recente
Segundo o post no blog, é necessário no mínimo um NVIDIA Jetson Orin com 8GB de RAM, e ele é otimizado para os módulos Jetson AGX Orin (64GB) e Orin NX (16GB)
Mencionam que um dos contribuidores do projeto postou no X que roda em uma placa de vídeo 4090 link relacionado no X
Em essência, dá para pensar nesse sistema como um LLM multimodal. Modelos pequenos, como o SmolVLA (0.5B parâmetros), são rápidos e eficientes para tarefas específicas, enquanto o OpenVLA (ajuste fino do Llama2 7B) é um modelo maior usado para tarefas mais gerais. Alguns modelos de propósito especial podem rodar até em Raspberry Pi, e modelos mais gerais já seriam viáveis com hardware de consumo de alto desempenho
O link do MuJoCo na verdade aponta para github.com/google-deepmind/aloha_sim
mujoco_menagerieinclui modelos XML MJCF de Mujoco para vários robôs google-deepmind/mujoco_menagerie / modelo alohaTenho curiosidade sobre a arquitetura do modelo e imagino que seja bem diferente de um LLM; se houver algum link explicando em detalhes a arquitetura VLA, peço que compartilhem
É certo que essas tecnologias inevitavelmente também serão usadas como máquinas de guerra. A autonomia on-device é perfeita para evitar poder centralizado ou rastreamento de responsabilidade. Ao contrário de operadores de drones, não dá nem para processar um humano por crimes de guerra. Os contratos militares são grandes demais para resistir, e a remoção do trabalho pesado caminha para a remoção total dos humanos. Um futuro de "AI-Powered Automation for Every Decision" se aproxima de forma bem clara, no qual a vida humana rentável desaparece palantir.com
A Boston Dynamics, empresa originada no MIT e adquirida pelo Google, prometeu que não militarizaria robôs, mas na prática é muito difícil confiar nisso, dado o histórico de investimentos militares como DARPA e Departamento de Defesa dos EUA
Praticamente toda tecnologia útil tem aplicação militar. Não sei por que isso seria um debate tão acalorado
Acho muito difícil que esse robô consiga competir com drones no campo de batalha. Provavelmente custaria o equivalente a 1.000 drones autônomos e exigiria mais de 100 vezes mais tempo e recursos. Drones já provaram seu valor em campos de batalha reais, como na Ucrânia, sendo pequenos e poderosos, e por mais ágil que o movimento fique, parece difícil fugir de drones explosivos. Mesmo que um Terminator esteja segurando uma espingarda, seria fácil colocar 5 drones para cada um, e esses drones ainda poderiam ser fabricados por outro robô autônomo
É impressionante o padrão do Google de lançar discretamente produtos inovadores e logo deixá-los cair no esquecimento. Eles só publicam um post no blog, sem grande divulgação, aquilo circula um pouco na comunidade tech e desaparece, e alguns anos depois todo mundo pensa "o que foi que aconteceu com aquilo?". Mas esse produto parece muito legal, e eu adoraria ver alguém criando uma startup interessante com isso
Vou tomar um café enquanto espero a resposta chegar pela API
Acho que a única forma de impedir que um robô fuja da prisão e vá assaltar um banco seria mover a GPU para uma nuvem privada de GPUs SOTA seguras
Tenho curiosidade se haverá guardrails no estilo das Three Laws of Robotics para impedir que o robô enlouqueça ao executar prompts
As Três Leis da Robótica foram criadas como estrutura de conflito ficcional, então seria problemático usar isso desse jeito em sistemas reais. Na prática, o design de segurança do Gemini Robotics é multicamadas. O modelo raciocina sobre o que é seguro, o VLA propõe opções de execução e, por fim, entra em ação um controlador de baixo nível com funções centrais de segurança embutidas, como limites de velocidade e força
O termo geral para esse tipo de pesquisa é Constitutional AI, e isso vem sendo testado/citado em vários VLAs de robótica artigo relacionado
Acho que os guardrails aplicados hoje se parecem mais com a IEC 61508 (norma internacional de segurança funcional) do que com três leis
Também dizem que existe o famoso código de desligar da tomada
Há a opinião de que as Três Leis da Robótica são, na prática, regras sem sentido