- Modelos de linguagem de grande escala conseguem executar tarefas complexas, mas, para possibilitar raciocínio geral no mundo real em problemas como os de robótica, é necessário fundamentá-los no ambiente real
- É proposto um EMLM para integrar diretamente ao modelo de linguagem modalidades sensoriais contínuas do mundo real, criando uma conexão entre palavras e percepções (Percepts)
- Processa como entrada sentenças multimodais que combinam visão, estimativa contínua de estado e codificação de entrada de texto
- "Pegue uns chips de arroz na gaveta": é capaz de se mover, abrir a gaveta, procurar, pegar, fechar a gaveta e trazer o item; mesmo que uma pessoa interfira discretamente no meio do processo, ele tenta novamente
- O maior modelo de linguagem, o PaLM-E 562B + OK-VQA (dataset para visual question answering)
1 comentários
O que é Embodied AI?