Gemini Robotics-ER 1.6: raciocínio incorporado aprimorado
(deepmind.google)- Um modelo de raciocínio incorporado (embodied reasoning) aprimorado projetado para que robôs compreendam com precisão o ambiente físico e ajam de forma autônoma, com grandes avanços em raciocínio espacial e capacidade de planejar tarefas
- Executa funções de julgamento de alto nível para robôs, como compreensão visual e espacial, detecção de sucesso e raciocínio multivisão, além de processar diretamente tarefas complexas por meio do Google Search ou de chamadas de funções externas
- Com a função Pointing, realiza diversas lógicas espaciais, como detecção e comparação de objetos e estimativa de trajetórias, reduzindo erros de alucinação e melhorando a precisão de percepção em relação à versão anterior
- Introduz a nova função de Instrument Reading, permitindo que o robô Spot, da Boston Dynamics, interprete com precisão termômetros, manômetros e outros instrumentos em instalações industriais
- Destaca-se por aumentar a conformidade com políticas de segurança e a autonomia e confiabilidade em ambientes reais por meio de colaboração com a comunidade
Visão geral do Gemini Robotics-ER 1.6
- Gemini Robotics-ER 1.6 é um modelo aprimorado de raciocínio incorporado projetado para que robôs compreendam com precisão o ambiente físico e ajam de forma autônoma
- Reforça capacidades de raciocínio de alto nível essenciais para robôs, como raciocínio espacial, compreensão multivisão, planejamento de tarefas e detecção de sucesso
- Pode chamar diretamente diversas ferramentas para executar tarefas, como Google Search, modelos Vision-Language-Action (VLA) e funções externas personalizadas do usuário
- Apresenta melhorias significativas em raciocínio espacial e físico (Pointing, contagem, detecção de sucesso) em comparação com Gemini Robotics-ER 1.5 e Gemini 3.0 Flash
- Adiciona a nova função de instrument reading, desenvolvida em colaboração com a Boston Dynamics
Principais recursos e melhorias de desempenho
- O Gemini Robotics-ER 1.6 é disponibilizado para desenvolvedores por meio da Gemini API e do Google AI Studio
- Exemplos em Colab no GitHub mostram como configurar o modelo e estruturar prompts para tarefas de raciocínio incorporado
- O modelo atua como um mecanismo de raciocínio superior responsável por julgamentos de alto nível do robô, como compreensão visual e espacial, planejamento de tarefas e detecção de sucesso
- Usa agentic vision para combinar raciocínio visual e execução de código, alcançando alta precisão mesmo em ambientes físicos complexos
Pointing: a base do raciocínio espacial
- Pointing é uma função central do modelo de raciocínio incorporado, usada em várias lógicas espaciais, como detecção e comparação de objetos e estimativa de trajetórias
- Raciocínio espacial: detecção precisa de objetos e contagem
- Lógica relacional: identificação do menor item em um conjunto, definição de relações como “mova X para a posição de Y”
- Raciocínio de movimento: mapeamento de trajetórias e identificação do ponto ideal de preensão
- Conformidade com restrições: processamento de comandos complexos como “aponte todos os objetos pequenos o suficiente para caber dentro do copo azul”
- O Gemini Robotics-ER 1.6 usa Pointing como etapa intermediária para resolver tarefas complexas passo a passo
- Ex.: contar objetos em uma imagem, identificar pontos-chave para cálculos matemáticos
- Em experimentos, a versão 1.6 identificou com precisão vários objetos, como martelo, tesoura, pincel e alicate, e não apontou objetos inexistentes (ex.: carrinho de mão, furadeira)
- A 1.5 reconheceu incorretamente alguns objetos ou apresentou alucinações de objetos inexistentes
- O 3.0 Flash mostrou desempenho próximo, mas com menor precisão no reconhecimento de alicates
Detecção de sucesso: o motor central da autonomia
- A capacidade de um robô reconhecer quando uma tarefa foi concluída é um elemento central da autonomia
- O Gemini Robotics-ER 1.6 aprimora o raciocínio multivisão para entender relações entre vários feeds de câmera
- Permite interpretação consistente da cena mesmo em ambientes complexos, com oclusões, problemas de iluminação ou instruções ambíguas
- Exemplo: determinar com precisão, a partir de vídeos de vários ângulos, o momento em que a tarefa “colocar a caneta azul no suporte de canetas preto” foi concluída
Instrument Reading: raciocínio visual no mundo real
- Função para interpretar instrumentos em instalações industriais, como termômetros, manômetros e visores de nível
- O robô Spot, da Boston Dynamics, fotografa os instrumentos na instalação, e o Gemini Robotics-ER 1.6 os interpreta
- Suporta leitura de vários formatos de instrumentos, incluindo manômetros circulares, indicadores verticais de nível e instrumentos digitais
- O processo de leitura interpreta de forma integrada elementos visuais complexos, como nível do líquido sedimentado, escalas, texto de unidades e múltiplos ponteiros
- No caso do visor de nível, estima a altura do líquido levando em conta a distorção da câmera
- Por meio de agentic vision, executa zoom, Pointing e execução de código em etapas para alcançar leituras de alta precisão em nível sub-tick
- Marco da Silva, vice-presidente da Boston Dynamics, afirmou que esse recurso permite ao Spot reconhecer e responder de forma totalmente autônoma a problemas no mundo real
Melhorias de segurança
- O Gemini Robotics-ER 1.6 é avaliado como o modelo de robótica mais seguro
- A taxa de conformidade com as políticas de segurança do Gemini é maior do que nas gerações anteriores
- Reforço da capacidade de cumprir restrições de segurança física
- Ex.: restrições como “não manuseie líquidos” e “não levante objetos acima de 20 kg” são refletidas já na etapa de saída espacial (Pointing)
- Em testes de reconhecimento de cenários de segurança em texto e vídeo baseados em relatórios reais de lesões
- Melhora de +6% em texto e +10% em vídeo em relação ao Gemini 3.0 Flash
- Na avaliação Safety Instruction Following, houve grande melhora em relação à 1.5, assim como na precisão de Pointing
Colaboração com a comunidade de robótica
- O Google DeepMind está promovendo colaboração com a comunidade de robótica para continuar aprimorando os recursos do Gemini Robotics-ER
- Quando houver limitações em áreas de aplicação específicas, solicita o compartilhamento de casos de falha por meio do envio de 10 a 50 imagens rotuladas
- Com isso, pretende fortalecer a robustez dos recursos de raciocínio em versões futuras
- O Gemini Robotics-ER 1.6 já pode ser testado no Google AI Studio
1 comentários
Comentários no Hacker News
Parece que estamos ficando cada vez mais próximos de imitar o comportamento humano ou animal
Se for possível colocar, sobre um modelo generativo, um padrão de orquestração que funcione como um cérebro, e se a velocidade de raciocínio for rápida o bastante, acho que daria para fazer muito mais coisa
Por exemplo, hoje ainda é lento gerar e executar um script em Python para ler um medidor, mas se isso ficar 100x~1000x mais rápido, talvez o modelo possa tirar fotos, simular o futuro e criar um loop para tomar decisões por conta própria
Porém, como o modelo usado é um Llama antigo, a qualidade é baixa; ainda assim, se houver potencial de escalabilidade, seria algo realmente impressionante
No fim, acho que é só uma questão de tempo
Humanos são um produto evolutivo da caça e da fabricação de ferramentas, mas a automação industrial real evoluiu não em forma humanoide, e sim em formatos práticos como o R2D2
Acho que os robôs domésticos também ficarão mais próximos disso
Fico imaginando como seria preparar um terreno, pernas e braços robóticos, bateria, GPU e painéis solares,
e então dar o prompt: “cuide desta terra e cultive vegetais”
Havia métodos próprios em cada região, como o satoyama no Japão, a rotação de culturas na África e a agricultura em curvas de nível na Rússia
No fim, o ponto é que a forma de cuidar da terra varia conforme o contexto local e os objetivos
Google e Boston Dynamics estão colaborando no desenvolvimento do modelo,
e atualmente a Hyundai, que adquiriu a Boston Dynamics, quer colocar robôs na automação de fábricas
Pensei que seria bom ter um software que tirasse foto de um manômetro com uma câmera e registrasse isso em gráfico
Fico curioso se existe algo assim para consumidores
Tenho dúvidas se fazer um robô ler instrumentos analógicos é mesmo a abordagem certa
Não seria melhor simplesmente trocar por sensores digitais?
Não dá para comparar de forma simples, e é fácil subestimar a complexidade desse tipo de mudança
Vale a regra de “se não está quebrado, não mexa”
Acho que isso ficaria perfeito conectado ao meu sistema “LLMs can control robots over MCP”
Como LLMs escrevem código bem, quero aproveitar essa capacidade
Pretendo testar com um robô grande que comprei recentemente
Post relacionado
Era uma arquitetura que combinava um modelo de controle robótico com um LLM por meio de uma attention layer
O ponto que mais me deixou curioso foi a latência
Em algumas tarefas de percepção ele é melhor que modelos de visão de ponta, mas para robótica o importante é o desempenho em Hz
Imagino que deva ser lento
Ele “pensa” por apenas alguns segundos e entrega o resultado
Em tarefas como contar o número de pernas de animais ou ler relógios analógicos, a eficiência em relação ao desempenho do modelo foi muito alta
A expressão “o modelo de robô mais seguro” chama atenção
O Gemini Robotics-ER 1.6 tem maior taxa de conformidade com políticas de segurança do que a geração anterior,
mas ainda não está em estágio totalmente comercial, e parece realista tratar segurança como objetivo
A IA para robôs pode até ter modelos internos no nível de GPT-2 ou GPT-3,
mas acho difícil divulgar isso porque falhas em ambientes cotidianos seriam críticas
Por exemplo, quebrar um único prato na lava-louças já seria visto como um grande problema
Foi um bom filme para rever neste momento
Os primeiros Roomba também faziam bastante bagunça, mas o mercado aceitou, e no fim evoluíram
Acho importante entrar no mercado primeiro e coletar dados, mesmo sem perfeição
Não existe sistema perfeito
Se o robô fizer melhor que isso, já seria uma melhora
Então dizer que já existe um modelo em nível GPT me parece pouco honesto
Estou pensando se devo continuar usando o modelo atual
até que o Google lance oficialmente o Gemini Flash 3.1