- Traduz manuais visuais de montagem de Lego, compostos por imagens 2D, para um formato interpretável por máquinas
- Trata o problema como uma tarefa de predição sequencial, em que o modelo lê o manual passo a passo, encontra o componente a ser adicionado à forma atual e então infere a forma 3D
- Exige tarefas como o problema de correspondência 2D-3D entre as imagens 2D do manual e o objeto 3D real, além da inferência de forma para objetos 3D nunca vistos (
Unseen)
- Apresenta o MEPNet (Manual-to-Executable-Plan Network), um framework baseado em aprendizado para resolver isso
- As ideias centrais são um módulo de detecção de keypoints 2D, um algoritmo de projeção 2D-3D para predições de alta precisão e uma forte generalização para componentes
Unseen
1 comentários
Lembra uma startup chamada brickit, que tira uma foto de um monte de peças de Lego e usa inteligência artificial para classificar as peças e sugerir quais modelos de Lego podem ser montados.