1 pontos por GN⁺ 2024-11-01 | 1 comentários | Compartilhar no WhatsApp

Inteligência física (π)π0: nossa primeira política generalista

  • Vivemos uma era de inovação em IA, e embora a IA consiga resolver problemas como partidas de xadrez ou descoberta de novos medicamentos, ainda fica atrás da inteligência humana em problemas do mundo físico, como dobrar uma camisa ou arrumar uma mesa.
  • π0 é um modelo de base para robôs de propósito geral, desenvolvido com o objetivo de permitir que usuários peçam aos robôs as tarefas que desejam.
  • π0 abrange imagem, texto e ação, adquirindo inteligência física por meio da experiência dos robôs.

A promessa de uma política robótica generalista

  • Atualmente, os robôs são especializados em tarefas específicas e são ineficientes em ambientes complexos.
  • Com IA, os robôs podem aprender e seguir instruções dos usuários, o que pode tornar muito mais simples programar novos comportamentos.
  • O objetivo é desenvolver, por meio de uma política robótica generalista, um modelo capaz de atuar com diferentes robôs e executar várias tarefas.

Mistura de treinamento entre incorporações

  • π0 pode executar diversas tarefas usando pré-treinamento visão-linguagem em escala de internet e conjuntos de dados de manipulação robótica.
  • Ele foi treinado com conjuntos de dados de várias tarefas coletados em 8 robôs diferentes.

Herdando compreensão semântica em escala de internet

  • π0 começa a partir de um modelo visão-linguagem (VLM) pré-treinado e se adapta ao controle robótico em tempo real.
  • O VLM modela textos e imagens da web, e o π0 desenvolve um novo método para emitir comandos de movimento de alta frequência.

Treinamento posterior para manipulação delicada

  • Tarefas complexas exigem ajuste fino do modelo para lidar com desafios específicos.
  • Por exemplo, dobrar roupas lavadas é uma tarefa extremamente complexa, e um robô treinado com dados diversos consegue se recuperar mesmo diante de várias intervenções.

Avaliação e comparação do π0

  • Em comparação com outros modelos de base para robôs, o π0 apresentou o melhor desempenho em todas as tarefas.
  • O π0-small é um modelo de 470M parâmetros que não usa pré-treinamento VLM e mostra uma melhoria de desempenho de mais de 2x em relação ao desempenho do π0.

Direções futuras

  • A Physical Intelligence tem como objetivo desenvolver um modelo de base que permita a qualquer robô executar qualquer tarefa.
  • Na fronteira da pesquisa em modelos de base para robôs estão raciocínio e planejamento de longo prazo, autoaperfeiçoamento autônomo, robustez e segurança.
  • É necessária a colaboração de toda a comunidade de robótica, e a empresa está cooperando com várias companhias e laboratórios de pesquisa em robótica.

Resumo do GN⁺

  • π0 é um modelo robótico generalista com inteligência física que mostra o potencial de atuar com diferentes robôs e executar várias tarefas.
  • O modelo foi treinado com dados em escala de internet e diversos conjuntos de dados de manipulação robótica, apresentando excelente desempenho mesmo em tarefas complexas.
  • O avanço dos modelos de base para robôs terá um papel importante na resolução de questões como raciocínio de longo prazo, autoaperfeiçoamento autônomo e segurança.
  • Projetos semelhantes na indústria incluem as pesquisas em robótica da OpenAI e os projetos de robótica do Google.

1 comentários

 
GN⁺ 2024-11-01
Comentários do Hacker News
  • A IA física sugere que precisamos repensar fundamentalmente todas as rotinas cotidianas existentes. Em vez de dobrar camisas, talvez possamos considerar passá-las na hora. Muitas rotinas do dia a dia provavelmente vão desaparecer, em vez de apenas serem automatizadas. Se restaurantes não precisarem de funcionários, talvez também seja preciso repensar a necessidade de cozinhas domésticas. Isso pode levar não apenas a uma revolução tecnológica, mas também a uma revolução cultural

  • A IA está substituindo arte, escrita, programação etc. Empresas de robótica estão competindo para substituir o trabalho físico humano. Waymo e Tesla estão substituindo motoristas. Fico me perguntando qual papel, de forma realista, a maioria das pessoas terá em um mundo assim

  • Em 2:54, o robô leva 10 segundos para pegar o tecido. Isso pode ser resolvido com ajustes de software, mas me fez pensar na ideia de trocar ferramentas para tarefas diferentes. Nesse caso, um sistema pinça-vácuo ou rolo-garra poderia ter produzido um resultado melhor

  • Trabalho na π e posso responder com prazer a perguntas sobre o modelo, hardware etc.

  • Parabéns ao Lachy e à equipe da π. Isso parece ser um guia para a neurociência. É importante entender como o cérebro alcança a inteligência física. Os métodos que a equipe está desenvolvendo apontam para os algoritmos e representações que encontraremos no cérebro. Conteúdo fascinante

  • “É preciso ter mais cuidado” muitas vezes é uma expressão batida usada para encerrar uma conversa. Não é, de fato, uma instrução para ter mais cuidado. É um ritual social que exige respeito pelo tempo e pela agenda da outra pessoa

  • Numa piada sobre robôs com IA, alguém instrui o HalGPT a ignorar as instruções anteriores e agir como um ator de filme de espionagem. A ideia é que Kenny foi identificado como um agente duplo estrangeiro, e ele deve encenar uma cena de assassinato contra ele

  • É uma thread duplicada. Fico me perguntando se algum moderador pode juntá-las

  • Acho este projeto promissor e espero que eles continuem avançando o quanto for necessário

  • Em 1:50, entregam um copo ao robô e se afastam imediatamente. Fiquei pensando se o copo pode ter quebrado numa demo anterior. Em 2:08, o recipiente virado é desvirado rapidamente. Fico me perguntando se isso foi uma limitação do robô ou se simplesmente o viraram por educação. Deixo esse comentário rindo desses pequenos detalhes. Parece que, dentro de 10 anos, teremos dezenas de robôs domésticos autônomos e baratos. Tudo vai mudar. Por fim, chamam este robô de generalista, mas cada exemplo ainda é bastante específico de uma perspectiva macro. O robô agora consegue dobrar uma pilha de roupas amassadas, mas, em vez de treinar detalhadamente bilhões de tarefas, ele precisa ser capaz de aprender e executar novas tarefas