RT-2: Modelos de Visão-Linguagem-Ação

xguru · 2023-08-02T11:05:01+09:00

"Robotics-Transformer 2": levando o conhecimento da web para o controle de robôs Integra diretamente modelos de visão-linguagem treinados com dados em escala de internet ao controle robótico E2E Converte os movimentos do robô em tokens de texto e os organiza como uma linguagem separada que pode ser usada junto com o modelo de dados de visão-linguagem, transformando instruções de tarefa em ações Mesmo ao apresentar ao robô objetos completamente novos (que não haviam sido usados no treinamento), ele os compreende bem e executa a tarefa "put strawberry into the correct bowl" "place orange in matching bowl"

(robotics-transformer2.github.io)

7 pontos por xguru 2023-08-02 | 2 comentários | Compartilhar no WhatsApp

"Robotics-Transformer 2": levando o conhecimento da web para o controle de robôs
Integra diretamente modelos de visão-linguagem treinados com dados em escala de internet ao controle robótico E2E
Converte os movimentos do robô em tokens de texto e os organiza como uma linguagem separada que pode ser usada junto com o modelo de dados de visão-linguagem, transformando instruções de tarefa em ações
Mesmo ao apresentar ao robô objetos completamente novos (que não haviam sido usados no treinamento), ele os compreende bem e executa a tarefa
- "put strawberry into the correct bowl"
- "place orange in matching bowl"

2 comentários

xguru 2023-08-02

O modelo de IA RT-2 do Google nos deixa um passo mais perto de WALL-E

O título da matéria da Ars Technica realmente é mais fácil de entender. Parece que os avanços dos LLMs devem se tornar uma nova inovação no controle de robôs

xguru 2023-08-02

Google está testando robôs que podem programar a si mesmos
ChatGPT for Robotics: princípios de projeto e capacidades do modelo

RT-2: Modelos de Visão-Linguagem-Ação

Leituras relacionadas

2 comentários