Gemini Robotics-ER 1.6: raciocínio incorporado aprimorado

(deepmind.google)

1 pontos por GN⁺ 14 일 전 | 1 comentários | Compartilhar no WhatsApp

Um modelo de raciocínio incorporado (embodied reasoning) aprimorado projetado para que robôs compreendam com precisão o ambiente físico e ajam de forma autônoma, com grandes avanços em raciocínio espacial e capacidade de planejar tarefas
Executa funções de julgamento de alto nível para robôs, como compreensão visual e espacial, detecção de sucesso e raciocínio multivisão, além de processar diretamente tarefas complexas por meio do Google Search ou de chamadas de funções externas
Com a função Pointing, realiza diversas lógicas espaciais, como detecção e comparação de objetos e estimativa de trajetórias, reduzindo erros de alucinação e melhorando a precisão de percepção em relação à versão anterior
Introduz a nova função de Instrument Reading, permitindo que o robô Spot, da Boston Dynamics, interprete com precisão termômetros, manômetros e outros instrumentos em instalações industriais
Destaca-se por aumentar a conformidade com políticas de segurança e a autonomia e confiabilidade em ambientes reais por meio de colaboração com a comunidade

Visão geral do Gemini Robotics-ER 1.6

Gemini Robotics-ER 1.6 é um modelo aprimorado de raciocínio incorporado projetado para que robôs compreendam com precisão o ambiente físico e ajam de forma autônoma
Reforça capacidades de raciocínio de alto nível essenciais para robôs, como raciocínio espacial, compreensão multivisão, planejamento de tarefas e detecção de sucesso
Pode chamar diretamente diversas ferramentas para executar tarefas, como Google Search, modelos Vision-Language-Action (VLA) e funções externas personalizadas do usuário
Apresenta melhorias significativas em raciocínio espacial e físico (Pointing, contagem, detecção de sucesso) em comparação com Gemini Robotics-ER 1.5 e Gemini 3.0 Flash
Adiciona a nova função de instrument reading, desenvolvida em colaboração com a Boston Dynamics

Principais recursos e melhorias de desempenho

O Gemini Robotics-ER 1.6 é disponibilizado para desenvolvedores por meio da Gemini API e do Google AI Studio
- Exemplos em Colab no GitHub mostram como configurar o modelo e estruturar prompts para tarefas de raciocínio incorporado
O modelo atua como um mecanismo de raciocínio superior responsável por julgamentos de alto nível do robô, como compreensão visual e espacial, planejamento de tarefas e detecção de sucesso
Usa agentic vision para combinar raciocínio visual e execução de código, alcançando alta precisão mesmo em ambientes físicos complexos

Pointing: a base do raciocínio espacial

Pointing é uma função central do modelo de raciocínio incorporado, usada em várias lógicas espaciais, como detecção e comparação de objetos e estimativa de trajetórias
- Raciocínio espacial: detecção precisa de objetos e contagem
- Lógica relacional: identificação do menor item em um conjunto, definição de relações como “mova X para a posição de Y”
- Raciocínio de movimento: mapeamento de trajetórias e identificação do ponto ideal de preensão
- Conformidade com restrições: processamento de comandos complexos como “aponte todos os objetos pequenos o suficiente para caber dentro do copo azul”
O Gemini Robotics-ER 1.6 usa Pointing como etapa intermediária para resolver tarefas complexas passo a passo
- Ex.: contar objetos em uma imagem, identificar pontos-chave para cálculos matemáticos
Em experimentos, a versão 1.6 identificou com precisão vários objetos, como martelo, tesoura, pincel e alicate, e não apontou objetos inexistentes (ex.: carrinho de mão, furadeira)
- A 1.5 reconheceu incorretamente alguns objetos ou apresentou alucinações de objetos inexistentes
- O 3.0 Flash mostrou desempenho próximo, mas com menor precisão no reconhecimento de alicates

Detecção de sucesso: o motor central da autonomia

A capacidade de um robô reconhecer quando uma tarefa foi concluída é um elemento central da autonomia
O Gemini Robotics-ER 1.6 aprimora o raciocínio multivisão para entender relações entre vários feeds de câmera
- Permite interpretação consistente da cena mesmo em ambientes complexos, com oclusões, problemas de iluminação ou instruções ambíguas
- Exemplo: determinar com precisão, a partir de vídeos de vários ângulos, o momento em que a tarefa “colocar a caneta azul no suporte de canetas preto” foi concluída

Instrument Reading: raciocínio visual no mundo real

Função para interpretar instrumentos em instalações industriais, como termômetros, manômetros e visores de nível
- O robô Spot, da Boston Dynamics, fotografa os instrumentos na instalação, e o Gemini Robotics-ER 1.6 os interpreta
Suporta leitura de vários formatos de instrumentos, incluindo manômetros circulares, indicadores verticais de nível e instrumentos digitais
O processo de leitura interpreta de forma integrada elementos visuais complexos, como nível do líquido sedimentado, escalas, texto de unidades e múltiplos ponteiros
- No caso do visor de nível, estima a altura do líquido levando em conta a distorção da câmera
Por meio de agentic vision, executa zoom, Pointing e execução de código em etapas para alcançar leituras de alta precisão em nível sub-tick
Marco da Silva, vice-presidente da Boston Dynamics, afirmou que esse recurso permite ao Spot reconhecer e responder de forma totalmente autônoma a problemas no mundo real

Melhorias de segurança

O Gemini Robotics-ER 1.6 é avaliado como o modelo de robótica mais seguro
- A taxa de conformidade com as políticas de segurança do Gemini é maior do que nas gerações anteriores
Reforço da capacidade de cumprir restrições de segurança física
- Ex.: restrições como “não manuseie líquidos” e “não levante objetos acima de 20 kg” são refletidas já na etapa de saída espacial (Pointing)
Em testes de reconhecimento de cenários de segurança em texto e vídeo baseados em relatórios reais de lesões
- Melhora de +6% em texto e +10% em vídeo em relação ao Gemini 3.0 Flash
Na avaliação Safety Instruction Following, houve grande melhora em relação à 1.5, assim como na precisão de Pointing

Colaboração com a comunidade de robótica

O Google DeepMind está promovendo colaboração com a comunidade de robótica para continuar aprimorando os recursos do Gemini Robotics-ER
- Quando houver limitações em áreas de aplicação específicas, solicita o compartilhamento de casos de falha por meio do envio de 10 a 50 imagens rotuladas
- Com isso, pretende fortalecer a robustez dos recursos de raciocínio em versões futuras
O Gemini Robotics-ER 1.6 já pode ser testado no Google AI Studio

1 comentários

GN⁺ 14 일 전

Comentários no Hacker News

Parece que estamos ficando cada vez mais próximos de imitar o comportamento humano ou animal
Se for possível colocar, sobre um modelo generativo, um padrão de orquestração que funcione como um cérebro, e se a velocidade de raciocínio for rápida o bastante, acho que daria para fazer muito mais coisa
Por exemplo, hoje ainda é lento gerar e executar um script em Python para ler um medidor, mas se isso ficar 100x~1000x mais rápido, talvez o modelo possa tirar fotos, simular o futuro e criar um loop para tomar decisões por conta própria
- A Taalas está fazendo experimentos para implementar inferência ultrarrápida embutindo o modelo diretamente no chip
  Porém, como o modelo usado é um Llama antigo, a qualidade é baixa; ainda assim, se houver potencial de escalabilidade, seria algo realmente impressionante
- A Taalas mostrou que consegue converter um LLM em ASIC para gerar rapidamente mais de 10 mil tokens
  No fim, acho que é só uma questão de tempo
- Tenho dúvidas se imitar o comportamento humano é mesmo um objetivo valioso
  Humanos são um produto evolutivo da caça e da fabricação de ferramentas, mas a automação industrial real evoluiu não em forma humanoide, e sim em formatos práticos como o R2D2
  Acho que os robôs domésticos também ficarão mais próximos disso
- É uma piada sobre o que aconteceria se colocássemos uma “imagem slop” numa “máquina slop” e saísse “slop²”
Fico imaginando como seria preparar um terreno, pernas e braços robóticos, bateria, GPU e painéis solares,
e então dar o prompt: “cuide desta terra e cultive vegetais”
- O resultado ainda é incerto, mas o prompt tradicional era “crescei e multiplicai-vos”
- “Cuidar desta terra” também pode significar a gestão de pequenas queimadas que povos indígenas da Califórnia praticaram por milhares de anos
  Havia métodos próprios em cada região, como o satoyama no Japão, a rotação de culturas na África e a agricultura em curvas de nível na Rússia
  No fim, o ponto é que a forma de cuidar da terra varia conforme o contexto local e os objetivos
- Tenho curiosidade sobre como experimentos como o Proof of Corn estão indo na prática
- É uma piada do tipo: “acabou! agora o planeta inteiro virou uma horta”
Google e Boston Dynamics estão colaborando no desenvolvimento do modelo,
e atualmente a Hyundai, que adquiriu a Boston Dynamics, quer colocar robôs na automação de fábricas
Pensei que seria bom ter um software que tirasse foto de um manômetro com uma câmera e registrasse isso em gráfico
Fico curioso se existe algo assim para consumidores
- Se pedir ao Claude, ele consegue fazer isso de uma vez, inclusive com dashboard do Home Assistant
- Fico curioso sobre qual seria a reação dos órgãos públicos se colocassem câmeras nos medidores ao redor de casa
- Basta dar uma olhada no OpenCV
- Também dá para fazer com Frigate ou Openclaw, mas o primeiro é exagerado e o segundo é um pouco menos exagerado
Tenho dúvidas se fazer um robô ler instrumentos analógicos é mesmo a abordagem certa
Não seria melhor simplesmente trocar por sensores digitais?
- Mas, na prática, para substituir isso de verdade é preciso aprovação de engenharia, parada de fábrica, fiação, integração com SCADA etc., então os custos e procedimentos são enormes
  Não dá para comparar de forma simples, e é fácil subestimar a complexidade desse tipo de mudança
- Em vez de parar o equipamento e substituir tudo, instalar uma câmera IoT pode ser muito mais barato e confiável
  Vale a regra de “se não está quebrado, não mexa”
Acho que isso ficaria perfeito conectado ao meu sistema “LLMs can control robots over MCP”
Como LLMs escrevem código bem, quero aproveitar essa capacidade
Pretendo testar com um robô grande que comprei recentemente
Post relacionado
- Isso me lembrou um vídeo sobre o Google PaLM-E que vi umas duas semanas atrás
  Era uma arquitetura que combinava um modelo de controle robótico com um LLM por meio de uma attention layer
O ponto que mais me deixou curioso foi a latência
Em algumas tarefas de percepção ele é melhor que modelos de visão de ponta, mas para robótica o importante é o desempenho em Hz
Imagino que deva ser lento
- Testando no AI Studio, parece ter desempenho de percepção no nível do 3.1 Pro, mas muito mais rápido
  Ele “pensa” por apenas alguns segundos e entrega o resultado
  Em tarefas como contar o número de pernas de animais ou ler relógios analógicos, a eficiência em relação ao desempenho do modelo foi muito alta
A expressão “o modelo de robô mais seguro” chama atenção
O Gemini Robotics-ER 1.6 tem maior taxa de conformidade com políticas de segurança do que a geração anterior,
mas ainda não está em estágio totalmente comercial, e parece realista tratar segurança como objetivo
A IA para robôs pode até ter modelos internos no nível de GPT-2 ou GPT-3,
mas acho difícil divulgar isso porque falhas em ambientes cotidianos seriam críticas
Por exemplo, quebrar um único prato na lava-louças já seria visto como um grande problema
- Assisti a Bicentennial Man (1999) no fim de semana, e a cena da lava-louças foi marcante
  Foi um bom filme para rever neste momento
- Talvez quebrar um prato não seja um problema tão grande assim
  Os primeiros Roomba também faziam bastante bagunça, mas o mercado aceitou, e no fim evoluíram
  Acho importante entrar no mercado primeiro e coletar dados, mesmo sem perfeição
- Eu também já quebrei muitos pratos na lava-louças
  Não existe sistema perfeito
- Eu, como humano, também quebro pratos duas vezes por mês
  Se o robô fizer melhor que isso, já seria uma melhora
- A robótica ainda não tem dados em escala de internet
  Então dizer que já existe um modelo em nível GPT me parece pouco honesto
Estou pensando se devo continuar usando o modelo atual
até que o Google lance oficialmente o Gemini Flash 3.1

Gemini Robotics-ER 1.6: raciocínio incorporado aprimorado

Visão geral do Gemini Robotics-ER 1.6

Principais recursos e melhorias de desempenho

Pointing: a base do raciocínio espacial

Detecção de sucesso: o motor central da autonomia

Instrument Reading: raciocínio visual no mundo real

Melhorias de segurança

Colaboração com a comunidade de robótica

Leituras relacionadas

1 comentários

Comentários no Hacker News