- "Robotics-Transformer 2": levando o conhecimento da web para o controle de robôs
- Integra diretamente modelos de visão-linguagem treinados com dados em escala de internet ao controle robótico E2E
- Converte os movimentos do robô em tokens de texto e os organiza como uma linguagem separada que pode ser usada junto com o modelo de dados de visão-linguagem, transformando instruções de tarefa em ações
- Mesmo ao apresentar ao robô objetos completamente novos (que não haviam sido usados no treinamento), ele os compreende bem e executa a tarefa
- "put strawberry into the correct bowl"
- "place orange in matching bowl"
2 comentários
O modelo de IA RT-2 do Google nos deixa um passo mais perto de WALL-E
O título da matéria da Ars Technica realmente é mais fácil de entender. Parece que os avanços dos LLMs devem se tornar uma nova inovação no controle de robôs
Google está testando robôs que podem programar a si mesmos
ChatGPT for Robotics: princípios de projeto e capacidades do modelo