4 pontos por xguru 2024-03-14 | 2 comentários | Compartilhar no WhatsApp
  • O robô Figure 01 agora consegue conversar plenamente com pessoas
  • O modelo da OpenAI fornece inteligência visual e de linguagem de alto nível
  • A rede neural da Figure permite movimentos robóticos ágeis, rápidos e de baixo nível
  • Ele descreve o que vê, pega uma maçã e a entrega quando pedem algo para comer, e também avalia a situação para organizar copos e a mesa, entre outras ações

2 comentários

 
erados 2024-03-14

Agora tem mais um modo de saída.

 
xguru 2024-03-14

Opiniões no Hacker News

  • Fiquei impressionado com a destreza do robô, mas para quem já experimentou o GPT-4, as capacidades de voz e raciocínio do robô talvez não sejam tão surpreendentes. O recurso de chamada de funções é impressionante, mas o 'mundo' com o qual ele interage é muito simples. Ver o robô interagindo com o mundo real é interessante. O que atualmente limita o avanço da IA é o custo e a velocidade da inferência. Se encontrarmos uma forma de processar milhares de tokens por segundo a baixo custo, poderemos resolver muitos problemas difíceis e realmente ver aplicações surpreendentes.
  • Escolher um dos movimentos pré-treinados por voz é legal, mas não é revolucionário. Usar GPT-4V para descrever a cena também é relativamente simples. O mais impressionante é a velocidade com que ele pega o lixo e passa objetos de uma mão para a outra com flexibilidade. Não está claro o quão gerais são essas políticas de movimento. Ao ver a pessoa parada perfeitamente imóvel, parece que tudo falharia se não estivesse configurado com precisão. Gostaria de ver uma demonstração com mais variações. Ainda assim, acho que esta demo é excelente e quero ver mais.
  • A inferência de baixa latência da Groq mostra utilidade real. Pode não parecer impressionante por haver atraso na resposta, mas ainda assim é muito impressionante.
  • É questionável que o robô coloque no escorredor um prato sujo com lixo e uma maçã em cima. O prato deveria ser lavado antes.
  • A capacidade de converter texto em movimentos de servomotor é surpreendente, e parece que GPT-4 Vision e Whisper foram bastante usados. O termo 'raciocínio' também está sendo usado de uma forma nova. Dá para chamar isso de uma empresa wrapper de IA. Claro que o meio é diferente de apps. Mesmo que o desenvolvimento de IA pare hoje, já existem muitas aplicações de IA impressionantes.
  • A forma humanoide e a voz passam uma sensação diferente de uma versão puramente de chat. Se adicionarem contato visual, causará uma impressão ainda mais profunda. Fico imaginando demonstrar isso ao público em geral.
  • Converter voz em movimentos de servomotor é impressionante. A velocidade com que ele executa tarefas que exigem destreza é surpreendente, e esta é a primeira demo de robô manipulando objetos que parece 'natural' sem que o vídeo tenha sido acelerado.
  • Queria ser uma criança de 5 anos que não sabe o quão irreal e inútil tudo isso é, só para conseguir pensar positivamente sobre o futuro uma vez. Mas as pessoas não entendem que não dá para sustentar 'números imaginários subindo' abaixo das necessidades básicas de moradia, e não há como tornar essa tecnologia útil, barata, confiável e boa.
  • A parte mais impressionante desta demo é o robô 'ver' e pegar objetos com apêndices parecidos com os de um humano. Talvez eu tenha deixado algo passar, mas eu achava que isso era muito difícil. Sei que cinemática inversa é difícil; será que resolveram isso com redes neurais?
  • Link do mesmo vídeo no YouTube: Figure Status Update - OpenAI Speech-to-Speech Reasoning