Figure apresenta demo de robô integrado ao OpenAI

xguru · 2024-03-14T09:53:36+09:00

O robô Figure 01 agora consegue conversar plenamente com pessoas O modelo da OpenAI fornece inteligência visual e de linguagem de alto nível A rede neural da Figure permite movimentos robóticos ágeis, rápidos e de baixo nível Ele descreve o que vê, pega uma maçã e a entrega quando pedem algo para comer, e também avalia a situação para organizar copos e a mesa, entre outras ações

(twitter.com/figure_robot)

4 pontos por xguru 2024-03-14 | 2 comentários | Compartilhar no WhatsApp

O robô Figure 01 agora consegue conversar plenamente com pessoas
O modelo da OpenAI fornece inteligência visual e de linguagem de alto nível
A rede neural da Figure permite movimentos robóticos ágeis, rápidos e de baixo nível
Ele descreve o que vê, pega uma maçã e a entrega quando pedem algo para comer, e também avalia a situação para organizar copos e a mesa, entre outras ações

2 comentários

erados 2024-03-14

Agora tem mais um modo de saída.

xguru 2024-03-14

Opiniões no Hacker News

Fiquei impressionado com a destreza do robô, mas para quem já experimentou o GPT-4, as capacidades de voz e raciocínio do robô talvez não sejam tão surpreendentes. O recurso de chamada de funções é impressionante, mas o 'mundo' com o qual ele interage é muito simples. Ver o robô interagindo com o mundo real é interessante. O que atualmente limita o avanço da IA é o custo e a velocidade da inferência. Se encontrarmos uma forma de processar milhares de tokens por segundo a baixo custo, poderemos resolver muitos problemas difíceis e realmente ver aplicações surpreendentes.
Escolher um dos movimentos pré-treinados por voz é legal, mas não é revolucionário. Usar GPT-4V para descrever a cena também é relativamente simples. O mais impressionante é a velocidade com que ele pega o lixo e passa objetos de uma mão para a outra com flexibilidade. Não está claro o quão gerais são essas políticas de movimento. Ao ver a pessoa parada perfeitamente imóvel, parece que tudo falharia se não estivesse configurado com precisão. Gostaria de ver uma demonstração com mais variações. Ainda assim, acho que esta demo é excelente e quero ver mais.
A inferência de baixa latência da Groq mostra utilidade real. Pode não parecer impressionante por haver atraso na resposta, mas ainda assim é muito impressionante.
É questionável que o robô coloque no escorredor um prato sujo com lixo e uma maçã em cima. O prato deveria ser lavado antes.
A capacidade de converter texto em movimentos de servomotor é surpreendente, e parece que GPT-4 Vision e Whisper foram bastante usados. O termo 'raciocínio' também está sendo usado de uma forma nova. Dá para chamar isso de uma empresa wrapper de IA. Claro que o meio é diferente de apps. Mesmo que o desenvolvimento de IA pare hoje, já existem muitas aplicações de IA impressionantes.
A forma humanoide e a voz passam uma sensação diferente de uma versão puramente de chat. Se adicionarem contato visual, causará uma impressão ainda mais profunda. Fico imaginando demonstrar isso ao público em geral.
Converter voz em movimentos de servomotor é impressionante. A velocidade com que ele executa tarefas que exigem destreza é surpreendente, e esta é a primeira demo de robô manipulando objetos que parece 'natural' sem que o vídeo tenha sido acelerado.
Queria ser uma criança de 5 anos que não sabe o quão irreal e inútil tudo isso é, só para conseguir pensar positivamente sobre o futuro uma vez. Mas as pessoas não entendem que não dá para sustentar 'números imaginários subindo' abaixo das necessidades básicas de moradia, e não há como tornar essa tecnologia útil, barata, confiável e boa.
A parte mais impressionante desta demo é o robô 'ver' e pegar objetos com apêndices parecidos com os de um humano. Talvez eu tenha deixado algo passar, mas eu achava que isso era muito difícil. Sei que cinemática inversa é difícil; será que resolveram isso com redes neurais?
Link do mesmo vídeo no YouTube: Figure Status Update - OpenAI Speech-to-Speech Reasoning

Figure apresenta demo de robô integrado ao OpenAI

Leituras relacionadas

2 comentários

Opiniões no Hacker News