Instituto de Pesquisa da Toyota afirma ter alcançado avanço ao ensinar novos comportamentos a robôs

(tri.global)

2 pontos por GN⁺ 2023-09-21 | 1 comentários | Compartilhar no WhatsApp

Para ampliar rapidamente tarefas de manipulação sofisticada, o Toyota Research Institute revelou uma abordagem para treinar comportamentos de robôs com IA generativa baseada em Diffusion Policy
Esse método é um passo rumo a Large Behavior Models para robôs, aplicando ao aprendizado de comportamentos robóticos um papel semelhante ao que os LLMs tiveram na IA conversacional
A TRI afirma ter ensinado mais de 60 habilidades, como servir líquidos, usar ferramentas e manipular objetos deformáveis, fornecendo apenas novos dados sem escrever novo código
O ponto central é combinar demonstrações táteis de um instrutor com descrições em linguagem dos objetivos, permitindo criar comportamentos prontos para implantação autônoma com apenas algumas dezenas de demonstrações
A meta é chegar a centenas até o fim de 2023 e a 1.000 habilidades até o fim de 2024, com garantias de segurança projetadas em conjunto com o Drake e uma pilha de controle personalizada

Acelerando o aprendizado de comportamentos robóticos com Diffusion Policy

O Toyota Research Institute anunciou uma abordagem de IA generativa para ensinar rapidamente e com confiabilidade novas habilidades sofisticadas a robôs
Essa abordagem é um passo em direção à construção de Large Behavior Models (LBMs) para robôs, em analogia ao papel que os Large Language Models (LLMs) tiveram na IA conversacional
Os métodos mais avançados existentes tinham várias limitações para ensinar novos comportamentos
- o aprendizado era lento e inconsistente
- a eficiência era baixa e muitas vezes ficava restrita a tarefas estreitas em ambientes altamente limitados
- engenheiros de robótica precisavam escrever código complexo por muitas horas ou passar por muito tentativa e erro

Mais de 60 habilidades aprendidas sem novo código

O modelo de comportamento robótico da TRI usa em conjunto demonstrações táteis de um instrutor e uma descrição em linguagem do objetivo
Depois, aprende a habilidade demonstrada com a Diffusion Policy, baseada em IA
- novos comportamentos podem ser implantados de forma autônoma com apenas algumas dezenas de demonstrações
- o resultado do treinamento foca em criar rapidamente comportamentos consistentes, repetíveis e de alto desempenho
A TRI já ensinou mais de 60 habilidades sofisticadas a seus robôs
- exemplos incluem servir líquidos, usar ferramentas e manipular objetos deformáveis
- isso foi alcançado fornecendo apenas novos dados sem escrever novo código
A meta é chegar a centenas até o fim de 2023 e a 1.000 habilidades até o fim de 2024
As novas habilidades vão além do simples “pick and place” e incluem comportamentos que interagem com o mundo de várias formas
- no longo prazo, isso pode ser usado em robôs que ajudam pessoas em ambientes cotidianos, imprevisíveis e em constante mudança

Plataforma personalizada e projeto de segurança baseado em Drake

A TRI e o grupo do professor Song, da Columbia University, desenvolveram a Diffusion Policy, uma abordagem de IA generativa para aprendizado de comportamentos
- a Diffusion Policy foi apresentada na conferência Robotics Science and Systems de 2023
A plataforma robótica da TRI foi construída sob medida para tarefas sofisticadas de manipulação bimanual
- com foco em possibilitar feedback tátil e sensoriamento tátil
A TRI usa o Drake como ferramenta de projeto baseado em modelos e plataforma de simulação para robótica
- sua pilha robótica interna foi construída com base na estrutura de sistemas e na otimização do Drake
- o Drake é disponibilizado como open source para impulsionar o trabalho de toda a comunidade de robótica
A segurança é um elemento central do projeto nas pesquisas robóticas da TRI
- o sistema inclui proteções acionadas pelo Drake e por uma pilha personalizada de controle robótico
- ele foi projetado para manter garantias de segurança, evitando que o robô colida consigo mesmo ou com o ambiente

1 comentários

GN⁺ 2023-09-21

Opiniões no Hacker News

Como alguém que fez parte da comunidade de aprendizado de robôs na pós-graduação e na indústria, entendo perfeitamente que a TRI receba a maior parte dos elogios aqui, mas também gostaria de destacar corretamente o crédito principal
No centro desse avanço está a Diffusion Policy [1], desenvolvida e pioneirada pelo laboratório da professora Shuran Song, da Columbia. O site original do projeto [2] também vale muito a pena ver, e contém muitos experimentos difíceis no mundo real
Na conferência R:SS deste ano [3], foi uma forte candidata popular da comunidade ao Best Paper Award, e nosso laboratório, assim como outros laboratórios de aprendizado do departamento de robótica, destrinchou esse artigo a fundo. Conheço pessoas que abandonaram projetos de clonagem de comportamento/aprendizado por imitação e mudaram completamente de direção para essa abordagem, que lida de forma muito mais natural com espaços de ação multimodais
A professora Song é uma pesquisadora realmente excepcional em robótica hoje e apresentou várias abordagens excelentes que se expandem elegantemente para o mundo real, como o IRP [4]. O IRP recebeu o Best Paper da R:SS 2022, e FlingBot [5] e Scaling Up Distilling Down [6] também valem ser vistos
[1] - https://arxiv.org/abs/2303.04137
[2] - https://diffusion-policy.cs.columbia.edu/
[3] - https://roboticsconference.org/program/awards/
[4] - https://irp.cs.columbia.edu/
[5] - https://flingbot.cs.columbia.edu/
[6] - https://www.cs.columbia.edu/~huy/scalingup/
- Para ser justo, a TRI também dá crédito à professora Song e ao artigo linkado. Nesse artigo, a TRI aparece como instituição colaboradora
  “Diffusion Policy: colaboradores da TRI e do grupo da professora Song, da Columbia University, desenvolveram uma abordagem nova e poderosa de IA generativa para aprendizado de comportamentos. Essa abordagem, chamada Diffusion Policy, permite ensinar comportamentos de forma fácil e rápida por meio de demonstrações”
- Tanto a Diffusion Policy quanto o IRP parecem ter sido trabalhos conjuntos com a TRI
- Alguém consegue explicar difusão (diffusion) de forma simples? Pode ser pensando em alguém que entende autoencoders, transformers e redes neurais convolucionais
  Estou curioso para saber por que ela funciona tão melhor do que as alternativas mencionadas acima
- Parece que alguns pesquisadores do laboratório da professora Song também trabalharam com a Toyota
Para quem tiver interesse, há o canal do Russ Tedrake no YouTube: https://www.youtube.com/@underactuated5171
Lá estão disponíveis as aulas 6.4210 (2023) Robotics Manipulation e 6.8210 (2023) Underactuated Robotics
Fico feliz em ver trabalhos recentes do Russ Tedrake. Seu curso online Underactuated Robotics é excelente para entender a complexidade da robótica
A maior parte dos trabalhos de aprendizado de robôs muito recomendados no HN costuma estar no nível de “é só encaixar um LLM no robô de qualquer jeito”, então é bom ver alguém com conhecimento muito mais profundo sendo destacado. Para criar agentes corporificados de verdade no mundo real caótico, não basta resolver apenas o aprendizado de linguagem
O site não carrega, mas encontrei o vídeo no YouTube da Toyota Research: https://www.youtube.com/watch?v=w-CGSQAO5-Q
- Por volta de 2:40 no vídeo, eles descrevem isso como um “jardim de infância para robôs”, o que é uma perspectiva interessante
  Fico imaginando se, com um protocolo padrão de técnicas de aprendizado, seria possível fazer crowdsourcing do aprendizado de novas tarefas. Algo como dar lances para as tarefas desejadas, quem resolver recebe uma recompensa, e todos se beneficiam. A cauda longa de tarefas é tão longa que parece difícil para um único laboratório central dar conta de tudo
O Google fez algo parecido cerca de um mês atrás, e isso também apareceu no HN [1]
Fico curioso para saber quanto feedback de força eles usam. Aquele objeto grande, redondo e macio no vídeo é tipo um dedo grande cheio de sensores de pressão? Sensores de pressão em superfície são fabricados desde os anos 1980, mas na época não se sabia como usar tantos dados. Hoje, ter dados demais de sensores é um problema bem menor
Antigamente tentei atacar esse problema colocando uma chave de boca na ponta de um braço robótico. A ideia era tatear até encontrar a cabeça do parafuso, encaixar a chave e então girar. Um sensor de força de 6 graus de liberdade teria sido suficiente, mas era antes do deep learning, então não fomos muito longe. Ainda assim, construímos o dispositivo robótico com a chave
[1] https://news.ycombinator.com/item?id=37167698
- Aquele objeto macio é, na prática, um balão inflado com uma câmera por dentro, e a câmera observa a deformação do balão: https://punyo.tech
Realmente impressionante. Parece até muito mais convincente do que as demonstrações da Boston Dynamics
Virar panquecas é muito difícil porque cada panqueca é diferente. Sei que esse tipo de vídeo é feito com cenas selecionadas, mas treinar um robô apenas por demonstrações para fazê-lo parece um salto enorme
- Virar panquecas já tinha sido feito em 2010. Coisas que parecem impressionantes para humanos podem ser fáceis para robôs, e o contrário também vale: https://youtu.be/W_gxLKSsSIE?si=HDyNXe1Ys_eFXiVU
  Outro exemplo: malabarismo com robôs já existia nos anos 1990, mas até hoje não há um robô que abra de forma confiável qualquer porta como um humano. É meio parecido com o paradoxo de Moravec
- Em termos leigos, o jeito mais eficiente de treinar esse tipo de robô seria alimentá-lo com bilhões de vídeos mostrando como executar as tarefas?
- Eu achava que empregos de trabalho braçal estariam seguros por muito tempo, mas talvez não estejam. Espero que quem faz políticas públicas esteja pensando seriamente em como será um mundo em que as pessoas não tenham o que fazer
Soa parecido com algo como o PaLM-E que o Google fez: https://blog.research.google/2023/03/palm-e-embodied-multimodal-language.html
É uma época realmente interessante para a robótica
- Isto parece muito melhor do que o PaLM-E. O robô usado é mais capaz, e as tarefas são muito mais complexas
  Além disso, ele executa as ações na mesma velocidade em que a pessoa as demonstra controlando o robô. As demonstrações do PaLM-E eram, na prática, dolorosamente lentas, então mostravam tudo em vídeos acelerados
Acho que o caminho até robôs humanoides de uso geral será bem parecido com isso
Por exemplo, imagine um robô humanoide no estilo Boston Dynamics em um canteiro de obras; digamos que ele seja pedreiro. Fora do canteiro, em um espaço aberto, há um piso de esteira omnidirecional, câmeras e sensores de profundidade ao redor, e uma pessoa usa uma roupa de captura de movimento no estilo Hollywood e um headset de VR para ver a visão das câmeras do robô
Essa pessoa caminha até uma pilha de tijolos, pega e coloca os tijolos como faria no canteiro. O robô se move em tempo real no local, imitando os movimentos da pessoa. Não sei se, para fazer isso direito, seriam necessários objetos cenográficos, ou se anos de memória muscular de obra bastariam
Todos os dados são registrados, e alguém assiste ao stream de vídeo rotulando cada ação executada. Depois, tudo é colocado em um algoritmo de aprendizado de máquina, até chegar ao ponto em que você possa simplesmente enviar as plantas da construção para o robô e dizer “construa esta parede”
- Os primeiros 3/4 disso são quase exatamente iguais ao filme Sleep Dealer, de 2008, então achei que fosse uma referência a ele
- Mas, até onde sei, ainda não existe uma implementação madura disso nem mesmo em equipamentos com movimentos muito mais grosseiros, mapeados fisicamente de forma frouxa aos movimentos de um operador humano. Por exemplo, equipamentos como escavadeiras controladas por dois joysticks
- No curto prazo, talvez seja assim, mas no longo prazo acho que não
  Provavelmente enviarão uma equipe para digitalizar o canteiro de obras e criar um gêmeo digital. O arquiteto mapeará tudo nesse gêmeo, e o sistema computacional simulará as etapas da construção. Depois, os robôs serão colocados no local e, se necessário, receberão um modelo ajustado para construir automaticamente
- Já li antes um romance ou conto com esse conceito. O robô era controlado no canteiro para aprender e, depois, era solto para agir por conta própria. Não lembro do restante da trama nem do autor
- Sim, isso se chama aprendizado por reforço
Entendo que se use a expressão “modelo de linguagem de grande escala” porque, graças à enorme quantidade de textos vindos de toda a web, da Library of Congress etc., os LLMs têm um conjunto de dados gigantesco para treinar. É isso que “grande escala” significa aqui
Mas, quando neste vídeo falam em “modelo de ação de grande escala”, onde está a grande escala? De onde vem uma quantidade igualmente gigantesca de dados de entrada de ações? Parece haver dezenas de pessoas em um grande laboratório demonstrando ações, o que é ótimo, mas não parece que esse número de pessoas consiga produzir tantos dados quanto todo o conteúdo textual digital
Parece bem legal, mas não sei bem como alguém pode ser professor em tempo integral no MIT e, ao mesmo tempo, vice-presidente em tempo integral no TRI
Já vi esse tipo de acúmulo de dois empregos antes, mas é difícil entender como isso é viável na prática, a menos que a pessoa trabalhe mais de 70 horas por semana
- Talvez, mesmo trabalhando 40 horas por semana ou menos, a pessoa seja tão especialista na área que 10 horas de trabalho dela não possam ser substituídas pelo tempo integral de outra pessoa
  Fazendo uma analogia com engenharia de software, eu ficaria feliz em oferecer um bom salário e cargo ao John Carmack mesmo que ele trabalhasse no projeto só 6 ou 7 dias por mês. Porque ele é John Carmack

Instituto de Pesquisa da Toyota afirma ter alcançado avanço ao ensinar novos comportamentos a robôs

Acelerando o aprendizado de comportamentos robóticos com Diffusion Policy

Mais de 60 habilidades aprendidas sem novo código

Plataforma personalizada e projeto de segurança baseado em Drake

Leituras relacionadas

1 comentários

Opiniões no Hacker News