PaLM-E: Modelo de Linguagem Multimodal Incorporado

xguru · 2023-03-08T12:11:57+09:00

Modelos de linguagem de grande escala conseguem executar tarefas complexas, mas, para possibilitar raciocínio geral no mundo real em problemas como os de robótica, é necessário fundamentá-los no ambiente real É proposto um EMLM para integrar diretamente ao modelo de linguagem modalidades sensoriais contínuas do mundo real, criando uma conexão entre palavras e percepções (Percepts) Processa como entrada sentenças multimodais que combinam visão, estimativa contínua de estado e codificação de entrada de texto "Pegue uns chips de arroz na gaveta": é capaz de se mover, abrir a gaveta, procurar, pegar, fechar a gaveta e trazer o item; mesmo que uma pessoa interfira discretamente no meio do processo, ele tenta novamente O maior modelo de linguagem, o PaLM-E 562B + OK-VQA (dataset para visual question answering)

(palm-e.github.io)

15 pontos por xguru 2023-03-08 | 1 comentários | Compartilhar no WhatsApp

Modelos de linguagem de grande escala conseguem executar tarefas complexas, mas, para possibilitar raciocínio geral no mundo real em problemas como os de robótica, é necessário fundamentá-los no ambiente real
É proposto um EMLM para integrar diretamente ao modelo de linguagem modalidades sensoriais contínuas do mundo real, criando uma conexão entre palavras e percepções (Percepts)
Processa como entrada sentenças multimodais que combinam visão, estimativa contínua de estado e codificação de entrada de texto
- "Pegue uns chips de arroz na gaveta": é capaz de se mover, abrir a gaveta, procurar, pegar, fechar a gaveta e trazer o item; mesmo que uma pessoa interfira discretamente no meio do processo, ele tenta novamente
O maior modelo de linguagem, o PaLM-E 562B + OK-VQA (dataset para visual question answering)

1 comentários

xguru 2023-03-08

O que é Embodied AI?

É uma área em que se cria um agente em um ambiente virtual 3D chamado simulador (Simulator), treinando-o para executar várias tarefas (Task), e depois se transfere esse aprendizado para máquinas do mundo real, como robôs (Sim2Real), para que também consigam realizar bem determinadas tarefas na realidade.

PaLM-E: Modelo de Linguagem Multimodal Incorporado

Leituras relacionadas

1 comentários