5 pontos por xguru 2022-07-29 | 1 comentários | Compartilhar no WhatsApp
  • Traduz manuais visuais de montagem de Lego, compostos por imagens 2D, para um formato interpretável por máquinas
  • Trata o problema como uma tarefa de predição sequencial, em que o modelo lê o manual passo a passo, encontra o componente a ser adicionado à forma atual e então infere a forma 3D
  • Exige tarefas como o problema de correspondência 2D-3D entre as imagens 2D do manual e o objeto 3D real, além da inferência de forma para objetos 3D nunca vistos (Unseen)
  • Apresenta o MEPNet (Manual-to-Executable-Plan Network), um framework baseado em aprendizado para resolver isso
  • As ideias centrais são um módulo de detecção de keypoints 2D, um algoritmo de projeção 2D-3D para predições de alta precisão e uma forte generalização para componentes Unseen