Primeira política robótica geral π0, da Physical Intelligence, é demonstrada até dobrando roupa

(physicalintelligence.company)

1 pontos por GN⁺ 2024-11-12 | 1 comentários | Compartilhar no WhatsApp

A Physical Intelligence revelou o π0 (pi-zero), um modelo fundacional geral para robôs que recebe instruções em texto e executa diversas tarefas físicas
O π0 foi treinado combinando pré-treinamento visão-linguagem em escala de internet, o Open X Embodiment Dataset e dados de tarefas de destreza coletados em 8 tipos de robôs
O modelo processa imagem, texto e ação em conjunto e, com saída contínua de ações baseada em flow matching, gera comandos de motor para o robô em até 50 vezes por segundo
Após pós-treinamento, ele consegue executar até tarefas complexas de manipulação com estados que mudam a cada vez, como dobrar roupa, organizar mesas e montar caixas
Em 5 tarefas de avaliação, o π0 mostrou desempenho médio superior ao OpenVLA, Octo e π0-small, mas raciocínio e planejamento de longo prazo, autoaperfeiçoamento, robustez e segurança continuam sendo desafios em aberto

A política robótica geral que o π0 busca

A Physical Intelligence desenvolveu, nos últimos 8 meses, o π0 (pi-zero), um modelo fundacional geral para robôs
O objetivo é que, assim como um usuário faz um pedido a um LLM ou chatbot, também possa dizer ao robô a tarefa desejada, para que ele a execute no mundo físico
Assim como um LLM, o π0 é treinado com dados amplos e diversos e segue instruções em texto, mas, diferente de um LLM, ele lida com imagem, texto e ação ao mesmo tempo
O modelo aprende inteligência física a partir da experiência incorporada do robô e, com uma nova arquitetura, produz diretamente comandos de motor de baixo nível
Ele pode controlar vários robôs, receber tarefas desejadas por prompt e ser ajustado com fine-tuning para cenários de aplicação difíceis

Por que ir além da automação limitada

Hoje, os robôs ainda permanecem em áreas especializadas e restritas
- Robôs industriais são programados para movimentos repetitivos, como soldar o mesmo ponto em uma linha de montagem ou colocar o mesmo objeto na mesma caixa
- Mesmo essas ações simples exigem muita engenharia manual
- Executar comportamentos mais complexos em ambientes reais desorganizados, como uma casa, é muito mais difícil
Para que robôs aprendam e sigam instruções do usuário, são necessários dados em grande escala
- Modelos de linguagem e outros modelos fundacionais usam grandes volumes de dados textuais da web
- Não existe, para dados de robôs, um grande repositório equivalente
- Para ensinar uma nova habilidade, é preciso coletar muitos dados adaptados a um robô específico e a uma aplicação específica
Se uma única política robótica geral puder lidar com várias habilidades e vários robôs, será possível reduzir a quantidade de dados necessária para cada robô e aplicação
Assim como modelos de linguagem substituíram sistemas especializados de processamento de linguagem com base em pré-treinamento amplo, uma política robótica geral passa a cumprir o papel de modelo fundacional para inteligência física

Dados de treinamento e configuração dos robôs

O π0 é a primeira política robótica geral protótipo treinada com o maior conjunto de dados de interação robótica até agora
A mistura completa de treinamento inclui dados open source e dados de tarefas de destreza coletados pela Physical Intelligence em 8 tipos de robôs
Composição dos dados de treinamento
- Open X Embodiment Dataset
- Pré-treinamento em escala de internet
- π Dataset, composto por vários robôs de destreza
- As configurações de robôs incluem UR5e, Bimanual UR5e, Franka, Bimanual Trossen, Bimanual Arx, Mobile Trossen, Mobile Fibocom e outros
Tipos de tarefas incluídas
- Recolher pratos
- Colocar objetos em envelopes
- Dobrar roupas
- Roteamento de cabos
- Montagem de caixas
- Conectar plugues de energia
- Colocar comida em caixas de takeout
- Pegar e jogar fora lixo
- O objetivo da seleção de tarefas não é resolver uma única aplicação específica, mas dar ao modelo uma compreensão geral da interação física

Compreensão semântica em escala de internet e saída contínua de ações

O π0 é treinado com dados de vários robôs e, ao mesmo tempo, herda conhecimento semântico e compreensão visual de um modelo visão-linguagem (VLM) pré-treinado
VLMs são treinados para modelar texto e imagens da web, e GPT-4V e Gemini são exemplos amplamente usados
O π0 usa como ponto de partida um VLM menor de 3 bilhões de parâmetros e o ajusta para controle em tempo real de robôs de destreza
Um VLM pode transmitir conhecimento semântico obtido na web, mas originalmente produz apenas tokens de linguagem discretos
A manipulação robótica com destreza exige saída de comandos de motor em alta frequência
- O π0 precisa emitir comandos de motor em até 50 vezes por segundo
- Para isso, adiciona saída contínua de ações ao VLM pré-treinado com flow matching, uma variação de modelos de diffusion
O modelo final é um modelo visão-linguagem-ação com flow matching e depois passa por pós-treinamento com dados robóticos de alta qualidade para resolver várias tarefas downstream

Tarefas de destreza tratadas com pós-treinamento

Tarefas mais complexas e que exigem mais destreza podem requerer fine-tuning do modelo para tarefas downstream
O processo de ajustar com dados de alta qualidade para tarefas difíceis é semelhante ao pós-treinamento usado no design de LLMs
O pré-treinamento ensina o mundo físico ao modelo, e o fine-tuning o faz executar bem tarefas específicas
Dobrar roupa
- O π0 foi ajustado com fine-tuning para a tarefa de dobrar roupa usando um robô móvel ou um robô fixo de dois braços
- O objetivo é transformar as roupas em uma pilha organizada
- Uma camiseta colocada plana sobre a mesa às vezes pode ser dobrada repetindo uma sequência predefinida de movimentos
- Já uma pilha de roupa embolada aparece amassada de formas diferentes a cada vez, então repetir os mesmos movimentos do braço não basta
- Após o pós-treinamento, o robô consegue tirar roupas da secadora, levá-las até a mesa e dobrá-las em pilha
- O vídeo mostra uma cena sem edição em que uma única política opera de forma totalmente autônoma
- Como foi treinado com dados diversos, o robô conseguia se recuperar mesmo quando uma pessoa tentava interferir de várias maneiras
- Até onde a Physical Intelligence sabe, sistemas robóticos anteriores não haviam executado essa tarefa com esse nível de complexidade
Organizar a mesa
- O π0 também recebeu fine-tuning para recolher pratos e lixo sobre a mesa
- Pratos, talheres e copos são colocados em um bussing bin, e o lixo vai para a lixeira
- Essa tarefa exige lidar com uma grande variedade de objetos
- Como resultado do treinamento com dados amplos e diversos, surgem várias estratégias
- Em vez de pegar os objetos um a um, ele pode empilhar vários pratos e colocá-los juntos
- Também pode sacudir o lixo que está sobre o prato para dentro da lixeira antes de colocar o prato no bussing bin
Montagem de caixas
- É preciso dobrar uma caixa de papelão plana para erguê-la, dobrar as laterais e depois encaixar a aba de fechamento
- Cada etapa de dobra e encaixe pode falhar de forma inesperada, então o robô precisa ajustar seus movimentos observando o andamento
- Para evitar que uma caixa parcialmente dobrada se desfaça, ele precisa apoiar a caixa usando os dois braços e a mesa

Comparação de avaliação com OpenVLA e Octo

O π0 foi comparado com OpenVLA e Octo, modelos fundacionais para robôs propostos na academia
O OpenVLA é um modelo VLA de 7 bilhões de parâmetros e usa ações discretizadas
O Octo é um modelo de 93 milhões de parâmetros e usa saída por diffusion
As tarefas de avaliação foram configuradas de forma mais complexa do que experimentos acadêmicos típicos
- Nas avaliações do OpenVLA, as tarefas costumam ser ações de etapa única, como “colocar a berinjela na panela”
- Mesmo a tarefa mais simples de organizar a mesa na avaliação do π0 exige classificar vários objetos entre lixeira e bussing bin
- Tarefas mais complexas exigem múltiplas etapas, manipulação de objetos deformáveis e escolha entre várias estratégias conforme o estado do ambiente
A avaliação usa uma rubrica que dá 1,0 ponto para sucesso completo e pontuação parcial para execução parcialmente correta
- Por exemplo, remover metade dos objetos rende 0,5 ponto
Resultados em 5 tarefas de avaliação
- Bussing Easy (UR5e)
  - π0: 0.971
  - π0-small: 0.443
  - OpenVLA: 0
  - OpenVLA (somente UR5e): 0.343
  - Octo: 0.043
- Bussing Hard (UR5e)
  - π0: 0.875
  - π0-small: 0.333
  - OpenVLA: 0
  - OpenVLA (somente UR5e): 0
  - Octo: 0
- Shirt Folding (Bi-ARX)
  - π0: 1.000
  - π0-small: 0.500
  - OpenVLA: 0
  - OpenVLA (somente UR5e): 0
  - Octo: 0
- Grocery Bagging (UR5e)
  - π0: 0.786
  - π0-small: 0.271
  - OpenVLA: 0
  - OpenVLA (somente UR5e): 0
  - Octo: 0
- Toast out of Toaster (Bi-Trossen)
  - π0: 0.750
  - π0-small: 0
  - OpenVLA: 0
  - OpenVLA (somente UR5e): 0
  - Octo: 0
- O π0-small é um modelo de 470 milhões de parâmetros que não usa pré-treinamento VLM
- OpenVLA e Octo só tiveram desempenho diferente de zero na tarefa mais fácil, “Bussing Easy”, e, no conjunto das tarefas, o π0 apresentou o melhor desempenho
- Ao usar a arquitetura em tamanho completo e pré-treinamento VLM, o desempenho do π0 melhora em mais de 2 vezes em relação ao π0-small

Desafios restantes e direção de colaboração

O objetivo da Physical Intelligence é desenvolver um modelo fundacional capaz de controlar qualquer robô para executar qualquer tarefa
Os experimentos atuais mostram que ele consegue controlar vários robôs e realizar tarefas que sistemas anteriores de aprendizado robótico não conseguiam completar com sucesso, como dobrar roupas de um cesto de lavanderia ou montar caixas de papelão
A política robótica geral ainda está em estágio inicial, e ainda existem frentes de pesquisa pela frente
- Raciocínio e planejamento de longo prazo
  - Autoaperfeiçoamento autônomo
  - Robustez
  - Segurança
  - A Physical Intelligence está colaborando com várias empresas e laboratórios de pesquisa em robótica
  - Está melhorando o design de hardware para teleoperação e autonomia
  - Pretende oferecer acesso a modelos ajustados para plataformas específicas, integrando dados de parceiros ao modelo pré-treinado
  - Também tem interesse em colaborar com empresas que estejam ampliando a coleta de dados com robôs implantados em aplicações reais

1 comentários

GN⁺ 2024-11-12

Opiniões no Hacker News

O objetivo implícito parece ser substituir a lavanderia e outros trabalhos domésticos. A satisfação humana, no fim das contas, pode ser resolvida nesse tipo de coisa
A economia e os indicadores de valor, no fim, dizem respeito à felicidade/satisfação humana, e o dinheiro também ganha valor porque as pessoas o querem. Quando as pessoas ficam suficientemente ricas, terceirizam as tarefas domésticas contratando uma empregada ou cozinheiro, ou comprando refeições prontas
Nos últimos 50 anos, as empresas ocidentais receberam um impulso gratuito com a entrada das mulheres no mercado de trabalho; antes pagavam a uma pessoa o custo de manter uma casa, agora dividem o mesmo custo de manutenção da casa entre duas pessoas e, na prática, obtêm o dobro de trabalhadores
Por isso, a maioria das famílias perdeu 35 horas por semana, mas a carga de tarefas domésticas continuou a mesma. Não dá para dar uma empregada doméstica a todo mundo, mas talvez dê para dar uma empregada robô
Como tijolos, calefação e eletricidade, a maior parte das inovações e tecnologias acaba entrando em casa e tornando a vida mais confortável. Eu achava que uma empregada robô de verdade viria por meio de mudanças sociais como alterações no design das máquinas de lavar, fazer refeições todos os dias na casa de outras pessoas ou superfícies antipoeira, mas esse robô parece bem interessante
Sei que essa perspectiva é centrada na classe média ocidental, mas fico pensando: o que mais os 6 bilhões de pessoas teriam como objetivo, no fim das contas?
- Não sei de onde a economia tirou esse impulso quando as mulheres entraram no mercado de trabalho. O milagre econômico do pós-guerra na Alemanha aconteceu em grande parte sem mulheres
  Quando mais mulheres entraram no mercado de trabalho no início dos anos 1970, as condições macroeconômicas estavam ruins por causa da crise do petróleo, então é difícil separar os efeitos
  Ainda assim, quando há mais trabalhadores, os salários caem e mais empregos inúteis são criados. É claro que os homens também criam e ocupam empregos inúteis
  Agora são necessários dois salários para sustentar uma casa e uma família. Um grande progresso
  No supermercado, boicoto os caixas de autoatendimento mesmo quando as filas estão longas, para que as simpáticas operadoras de caixa possam continuar trabalhando
- Talvez o objetivo realmente mais básico seja fazer sexo com robôs. Assim como diziam que a internet seria um portal para todo o conhecimento, mas no fim virou algo usado para pornografia
- Se a demanda por trabalho for fixa, quando a oferta de trabalho de homens + mulheres em uma família dobra, em princípio os salários podem cair. Só que a demanda não precisa ser fixa
  Eu chamaria isso de teoria das cadeiras musicais do emprego. Se a população em idade ativa em 2024 for o dobro da de 1954, isso significa que cada pessoa passa a ganhar menos? Se entram imigrantes, isso significa que, para cada imigrante, um nativo perde o emprego?
  As evidências dizem que não, e na economia também há outras mudanças que aumentam a demanda por trabalho. A literatura sobre os efeitos da imigração no desemprego e nos salários, especialmente em choques grandes de curto prazo, é bastante clara
  Não conheço bem estudos sobre os efeitos do aumento do emprego feminino. Acho que é muito mais difícil de estudar porque foi um fenômeno que ocorreu lentamente ao longo de décadas. E isso não aconteceu só no Ocidente, mas em várias partes do mundo
- A equipe da Physical Intelligence é muito boa, mas acho que não conseguirá levantar dinheiro suficiente para atingir o objetivo. O problema é dizer que desenvolver essa tecnologia custa US$ 30 milhões, quando na realidade será no mínimo US$ 1 bilhão, talvez perto de US$ 5 bilhões
Em fábricas ou ambientes fechados, isso está melhorando rapidamente, mas no restante do mundo real não há robôs ou IA práticos sem supervisão humana. Fiquei convencido disso trabalhando com automação de coisas físicas
A primeira coisa que esse robô poderia fazer seria ligar uma secadora com um bebê dentro, por não ter percepção suficiente do mundo
Isso acabaria com os robôs domésticos de uso geral. Ou ele poderia derrubar uma vela, ou estragar alguma tarefa que parece trivial, mas que no contexto é terrivelmente perigosa
Eu também sonho com máquinas de uso geral, mas acho que pode ser impossível; e, mesmo que seja possível, ainda está muito longe
- Lembro de ter visto muitos comentários no HN prevendo com confiança que, no momento em que um carro autônomo causasse um acidente matando alguém, os carros autônomos estariam acabados
  De fato houve acidentes, seguidos de processos e investigações de órgãos reguladores, mas eles não acabaram. Espero que, no próximo governo dos EUA, as barreiras legais e regulatórias à expansão de robôs e automação sejam muito menores
- Mesmo que seja necessária supervisão, é melhor observar o robô pendurando a roupa para secar do que fazer isso pessoalmente
  Como diz o velho ditado: “Adoro trabalhar. Posso passar o dia inteiro olhando”
- Que tal, no começo, colocar uma câmera e fazer alguém no exterior verificar o entorno antes da tarefa? Poderia tornar tudo mais barato e mais seguro
- Concordo. Até agora, nunca vi um robô realizar em nível de produção nem mesmo tarefas agrícolas relativamente simples, como colher tomates em estufas e cuidar das plantas
  Tudo isso é feito por mão de obra estrangeira barata. Se até esse nível é difícil de automatizar, ainda é difícil ter grandes expectativas para robôs domésticos de uso geral
  Ainda assim, os vídeos deste artigo parecem bastante promissores, e quero ver como essa tecnologia funcionaria em estufas
- Seria exatamente como as montanhas-russas, que foram proibidas assim que uma quebrou uma vez e algumas pessoas morreram
O problema difícil de um robô de lavanderia não é dobrar roupas, mas entrar na lavanderia
Se você mora em uma cidade europeia, o espaço é a maior restrição. Em Paris, o aluguel é de 30 euros por m² por mês
A lavanderia é pequena, e esse robô é largo demais para passar pela porta da minha lavanderia. Há um motivo para a tábua de passar ser dobrável: é porque é preciso montá-la toda vez. Esse robô nem consegue fazer isso, e também não consegue lidar com uma garrafa de amaciante para a máquina de lavar
Ter uma mesa vazia de 1 m² só para dobrar roupa é uma ilusão para a maioria das pessoas. Lavanderias coletivas existem justamente porque algumas casas nem têm espaço para uma máquina de lavar
A lavanderia é um cômodo separado por causa da umidade e da ventilação, e em projetos de casas geralmente com mais de 30 anos é bem provável que tenha sido posicionada para ser a menor possível do ponto de vista funcional, não para acessibilidade de robôs
Mesmo pessoas que moram em casas, não apartamentos, muitas vezes têm a lavanderia no porão, acessível apenas por escadas ou desníveis
Com robôs bípedes ainda bem longe, não acho que arquitetos e normas de acessibilidade na construção vão mudar rápido o suficiente. O espaço extra necessário para robôs domésticos entrarem em cena já foi consumido várias vezes por causa do alto custo do espaço
- Se você rolar para baixo, verá que este é um robô de uso geral. Ele consegue se deslocar e limpar uma mesa de jantar ou dobrar caixas de papelão
  É difícil ter certeza de que ele não conseguiria lidar com amaciante, e é bem possível que a V2 também consiga montar uma tábua de passar
  Em termos de tamanho, hoje ele é menor que uma geladeira, uma máquina de lavar, uma lava-louças e vários eletrodomésticos que economizam tempo. Claro que talvez não se encaixe bem em cidades históricas com muitas casas de centenas de anos, mas esses são eletrodomésticos comuns na maioria das casas
  Ainda nem houve esforço para reduzir o tamanho. Quando sair da fase de protótipo de pesquisa, talvez dê para torná-lo muito menor com engenharia inteligente
  Outra pergunta é o custo. Robôs assim costumam custar cerca de US$ 100 mil, e há motivos para isso. Dá para baixar esse valor? Espero que sim
- Lavanderias coletivas são bem irritantes porque você precisa ficar por perto por quase 2 horas para fazer 5 minutos de trabalho que a máquina não faz por você
  Por outro lado, mandar lavar e dobrar é um luxo caro. Se uma lavanderia coletiva conseguisse automatizar todo o processo, o preço de lavar e dobrar cairia, e menos pessoas talvez quisessem ter em casa uma máquina que usam por algumas horas por semana
  Ou então poderiam anexar a lavanderia a um café ou bar e transformar a tarefa doméstica em uma oportunidade de descanso e socialização. Mas a maior parte do mundo ainda não está pronta para esse nível de civilização
- Não sei por que você acha que pessoas que não têm dinheiro para um apartamento confortável e sua própria máquina de lavar usariam um robô de lavanderia
  No fim, acho que isso pode acabar integrado à máquina de lavar, virando um único aparelho em que você coloca roupas sujas e tira roupas limpas e dobradas. A máquina de lavar atual em si não é feita de componentes tão caros a ponto de precisar necessariamente manter sua forma separada atual
- 30 euros por m² por mês em Paris só vale para apartamentos suficientemente grandes
  Um apartamento de 20 m² não sai por menos de 850 euros, então dá cerca de 42 euros por m². Claro que um lugar desses é pequeno demais até para colocar uma máquina de lavar, quanto mais um robô que dobra roupas
Com só um pouco mais de precisão, isso vira uma excelente ferramenta de automação de laboratório. Laboratórios no mundo todo estariam dispostos a pagar US$ 1 milhão por um robô que execute trabalho experimental manual
Tarefas de laboratório também não são tão difíceis assim. Muitas operações se baseiam em protocolos estabelecidos, com etapas bem definidas. Um robô que consiga pegar objetos e fazer trabalho com tubos de ensaio sem programação separada seria um produto explosivo
- Concordo. Minha namorada tem diploma em bioquímica e trabalha em um laboratório desses. O trabalho inclui coleta de amostras, preparação, entrada de dados, manutenção básica de equipamentos, algumas análises e tarefas administrativas/de secretariado, como inserir resultados no sistema ou ligar para médicos
  A meu ver, tudo isso pode ser automatizado
  Mas depende muito da região. Nos EUA isso faria sentido bem rápido, mas minha namorada mora em um pequeno país da UE onde os salários não são altos, e esse trabalho é uma posição júnior bastante procurada por estudantes. Essa vaga custa cerca de US$ 25 mil por ano
  Investir US$ 1 milhão para substituir um fluxo de caixa de US$ 25 mil por ano dá valor presente líquido negativo com uma taxa de desconto normal. Faz sentido quando você consegue substituir um salário de US$ 120 mil por um robô de US$ 1 milhão
  Acho que também continuariam existindo empregos de supervisão dos robôs. Em grandes unidades de produção centralizadas, uma pessoa pode supervisionar vários robôs, então faz sentido; em unidades pequenas e distribuídas, não necessariamente. Acho que muitos laboratórios precisam estar espalhados, próximos dos clientes, por causa da sensibilidade temporal do trabalho. Claro, isso pode mudar
- É melhor não criar expectativa demais. Para um robô de uso geral, até apertar uma porca em um parafuso é um grande problema
  No fim, será necessário um laboratório amigável a robôs, onde tudo possa ser feito com mãos robóticas primitivas. As outras opções são criar mãos mais capazes ou construir laboratórios especializados totalmente robotizados
  A primeira é a mais interessante e é o caminho a seguir. Quando isso se tornar possível, muitas oportunidades se abrirão, como veículos de “autorreparo” ou bases planetárias. Bastaria ter um robô “técnico” onboard
- Produtos de automação de laboratório assim já existem, e algumas startups dessa área estão enfrentando o mesmo vento contra que todos enfrentam quando o ponto principal pelo qual as pessoas pagam é software, mas é preciso vender hardware
  Laboratórios acadêmicos não compram equipamentos experimentais de startup de US$ 1 milhão. Um core compartilhado para 30 grupos de pesquisa talvez compre algo, mas seria um equipamento que leve diretamente à publicação de artigos, ou seja, um equipamento com histórico
  Por isso o produto de que você falou não entra nos laboratórios mesmo já existindo
- Muitas substâncias em laboratórios de química são tóxicas e podem até ser letais para humanos. Se robôs puderem manipulá-las no lugar das pessoas, isso é um grande ganho
- Com certeza é possível. Tenho um amigo que trabalha nessa área, isto é, automação de laboratório com IA, e ele espera que a concorrência fique intensa nos próximos anos
Comparado a um robô humanoide, este robô é bem simples, então o custo deve ser muito menor. Só não entendo bem por que o foco é dobrar roupas. Tem tanta gente que lava roupa mais de uma vez por semana?
Seria muito mais útil se ele conseguisse fazer comida, algo que se faz pelo menos uma vez por dia
Em vez disso, eu queria ver uma nova inovação em máquinas de lavar. A tecnologia atual é muito básica: aquecer água e ficar girando. Por que não algo parecido com uma grande impressora de papel: você coloca uma camisa, ela passa por rolos, recebe um mínimo de água em alta pressão, é aquecida e, 30 minutos depois, volta perfeitamente passada?
- Lavar/dobrar roupa é uma demonstração quase perfeita para mostrar um sistema avançado de planejamento de movimentos. Tecidos são praticamente impossíveis de lidar nos paradigmas clássicos de planejamento de movimento
  São extremamente não rígidos, então prever seu comportamento é território de simuladores de dinâmica especializados e caros, e perguntar ao contrário quais movimentos são necessários para produzir o resultado desejado também é quase impossível. Mesmo que fosse previsível, é algo muito contínuo e resistente à discretização
  Também não dá para usar suposições comuns ao raciocinar sobre origami, como “a largura da dobra é zero”
  Roupas são um caso extremo entre tecidos. Além de serem muito irregulares, também são frágeis: cada camisa é uma estrutura topológica molenga coberta por texturas estranhas e propriedades locais complexas e imprevisíveis. Um pequeno erro no manuseio e os fios arrebentam. Babados, zíperes, bolsos, cordões... não acaba nunca
  Além disso, lavar/dobrar roupa é algo que todo mundo faz, então é fácil se identificar, fácil de configurar em laboratório, e humanos conseguem avaliar intuitivamente o desempenho de relance
  Em quase 70 anos de pesquisa, ninguém mostrou um desempenho convincente, então é uma tarefa mais difícil do que dar backflip, arremessar uma bola de basquete ou carregar um caminhão. Por isso, quando surge um novo algoritmo capaz de lidar com algo além de blocos sobre uma mesa, quase sempre ele é aplicado a roupas
- Dobrar roupa não é o objetivo final. Isso foi escolhido porque, para um robô, é uma tarefa muito difícil, que exige destreza, planejamento, reação a entradas sensoriais etc.
  Em outras palavras, se um robô consegue lidar com roupa, é bem provável que também seja possível ensiná-lo a fazer quase qualquer outra tarefa doméstica
- Se você tiver pelo menos uma criança, lavar roupa deixa de ser uma tarefa com começo e fim definidos e vira um processo contínuo
  Cozinhar é uma atividade que muitas pessoas consideram profundamente gratificante e humana. Eu não, mas sei que sou a exceção. Já encontrar alguém que ache valioso gastar seu tempo limitado na Terra lavando roupa seria difícil
- Muita gente lava roupa 3 ou 4 vezes por semana. Também há pessoas que nunca cozinham em casa. O mundo tem 8 bilhões de pessoas
- Porque as pessoas que vivem na Axiom vão precisar de macacões limpos?
  Falando sério, dobrar roupa é uma tarefa complexa do ponto de vista de um robô, exigindo bastante destreza e manipulação refinada de objetos, mas, ao contrário de cozinhar, tem risco relativamente baixo
  Se o robô fizer besteira, é pouco provável que cause grande dano ao próprio robô, ao ambiente ao redor ou a humanos próximos. Por isso é um tema de pesquisa bem bom e, se for resolvido, também deve parecer impressionante em demos de eventos
Dobrar roupa é uma tarefa doméstica pequena; o verdadeiro santo graal é um braço robótico capaz de cozinhar 24 horas por dia
Se braços robóticos entrarem em todas as lanchonetes de fast-food, restaurantes, hotéis, hospitais, bases militares, cruzeiros e em qualquer lugar que prepare comida, o mercado de trabalho não vai se recuperar
O maior vencedor talvez sejam supermercados que usem seus próprios produtos agrícolas para preparar refeições quentes e entregá-las por drone às casas próximas. Claro, isso pode ser otimismo demais
- Bastaria enviar sua receita favorita para um chef robô por perto para receber exatamente o prato que você quer, sempre
  Nesse ponto, restaurantes com cardápio fixo ainda fariam sentido?
Também apareceu no HN há 9 dias
https://news.ycombinator.com/item?id=42011770
Trabalho interessante
Eu nunca tinha pensado no que seria possível fazer em tarefas que não são sensíveis ao tempo se, em vez de tentar fazer o robô processar tudo em tempo real, simplesmente desacelerássemos até a latência que os modelos Transformer atuais conseguem suportar em hardware real
- Em Theory of self-reproducing automata (1966), de von Neumann, p.72, “Role of High Complication”, há a seguinte passagem
  “Um autômato não pode ser separado do ambiente ao qual reage”
  “Nas condições atuais da superfície da Terra, as características de sobrevivência do ser humano são bem definidas, mas, para a maioria dos tipos humanos, é preciso especificar um pouco mais a situação. Não faz sentido discutir como um ser humano sobreviveria debaixo do mar ou a 1000 graus Celsius. Da mesma forma, perguntar quão rápida ou lenta é uma máquina de computação não faz sentido sem especificar que tipo de problema será dado a ela”
Conheço pouquíssimas pessoas com menos de 40 anos que dobram e passam roupa, e nem sei se conheço alguém com menos de 30 que tenha uma tábua de passar e um ferro. Se tiver, imagino que esteja quebrado; e, se não estiver quebrado, deve estar perdido
Acho que “lavar roupa” está ficando obsoleto ainda mais rápido do que o ato de lavar roupa em si. É parecido com as pessoas que não passaram a entregar roupas rasgadas a robôs para consertar; em vez disso, jogaram fora as roupas velhas, trocaram por fast fashion e abandonaram a costura
Se este produto mira o público de alta renda, mesmo que o preço caia de US$ 100 mil para US$ 1 mil, por esse motivo não vejo muita chance de dar certo
- Roupas de fast fashion estão cada vez mais frequentemente impossíveis de passar. Ao mesmo tempo, também está ficando cada vez mais difícil comprar roupas de boa qualidade
  Por causa do impacto do fast fashion, até marcas de grife muito caras estão lançando coisas como casacos sem forro ou suéteres finos
  Um dos motivos é que a cadeia de fornecimento de roupas de boa qualidade encolheu bastante. Mesmo que um designer tente conseguir um bom tecido, precisa pagar muito mais caro do que antes
Talvez alguém no HN saiba: por que esses robôs se movem tão devagar? É por segurança, ou a dificuldade aumenta muito quando a velocidade sobe?
- Acho que velocidade não é a primeira preocupação deles
- Eles estão gerando movimentos do robô token por token com um modelo visão-linguagem. A inferência do VLM é o gargalo

Primeira política robótica geral π0, da Physical Intelligence, é demonstrada até dobrando roupa

A política robótica geral que o π0 busca

Por que ir além da automação limitada

Dados de treinamento e configuração dos robôs

Composição dos dados de treinamento

Tipos de tarefas incluídas

Compreensão semântica em escala de internet e saída contínua de ações

Tarefas de destreza tratadas com pós-treinamento

Dobrar roupa

Organizar a mesa

Montagem de caixas

Comparação de avaliação com OpenVLA e Octo

Resultados em 5 tarefas de avaliação

Desafios restantes e direção de colaboração

Raciocínio e planejamento de longo prazo

Leituras relacionadas

1 comentários

Opiniões no Hacker News