LegoGPT - geração automática de designs de LEGO realmente montáveis a partir de texto
(avalovelace1.github.io)- LegoGPT é um projeto inovador que gera estruturas de LEGO estáveis e realmente montáveis apenas com entrada de texto
- O dataset StableText2Lego foi construído para oferecer mais de 47.000 estruturas de LEGO fisicamente estáveis e descrições detalhadas
- O algoritmo aplica validação rápida e rollback baseado em física para remover automaticamente estruturas irreais
- Os designs de LEGO gerados podem ser montados na prática tanto por humanos quanto por robôs e ainda suportam a expressão de diversas cores e texturas
- O sistema abre novas possibilidades em várias áreas, como prototipagem criativa de design, educação e aplicações em robótica
Introdução ao projeto
- LegoGPT é a primeira abordagem que, com base em prompts de texto fornecidos pelo usuário, gera de forma totalmente automatizada estruturas de LEGO realmente montáveis e fisicamente estáveis
- O projeto foi construído com um grande dataset de estruturas de LEGO e descrições detalhadas, gerando resultados que mantêm estabilidade, diversidade e qualidade estética mesmo no processo de montagem real
- Foi verificado experimentalmente que os resultados de geração de estruturas de LEGO podem de fato ser montados manualmente por pessoas ou automaticamente por um braço robótico
Dataset StableText2Lego
- O dataset StableText2Lego voxeliza formas a partir de malhas 3D do ShapeNetCore e aplica diversos métodos de posicionamento de bricks, adotando apenas estruturas que passaram na verificação de estabilidade física
- Durante o processo de geração dos dados, cada estrutura é renderizada em 24 ângulos, e com base nisso o GPT-4o gera automaticamente descrições detalhadas
- O dataset assim construído inclui mais de 47.000 estruturas de LEGO com formas, estruturas e texturas variadas, além de mais de 28.000 objetos 3D únicos
Pipeline do LegoGPT
- As estruturas de LEGO são tokenizadas em sequências de texto de baixo para cima, em modo raster-scan
- Ao parear cada sequência de bricks com descrições em linguagem natural, é feito o fine-tuning de um modelo baseado em LLaMA-3.2-Instruct-1B para aprender o mapeamento entre descrição e sequência de bricks
- Na etapa de inferência, o LegoGPT gera a estrutura de LEGO gradualmente, prevendo e adicionando bricks um a um a partir do prompt de texto
- Sempre que um brick é adicionado, são feitas validações de formato, existência na biblioteca de bricks e colisões e, após a geração da estrutura completa, a estabilidade física é verificada novamente
- Se a estrutura final estiver instável, o sistema remove o brick instável e todos os bricks adicionados depois dele, fazendo rollback até um estado estável para regenerar
Exemplo de geração de estruturas de LEGO passo a passo
- "barco esguio com casco longo e estreito"
- "estante com prateleiras horizontais"
- "banco com braços e sem encosto"
- Cada exemplo é gerado passo a passo a partir de um prompt de texto, resultando em uma estrutura de LEGO que reflete claramente as características visuais
Montagem automática com robôs
- O modelo de LEGO gerado foi aplicado à montagem real com um braço robótico e demonstrado em vídeo acelerado em 8x
- Exemplos como "barco esguio com casco longo e estreito" e "guitarra assimétrica de 6 cordas" mostram a viabilidade prática da montagem robótica
Modelos de LEGO gerados com textura e cor
- O sistema oferece designs de LEGO capazes de expressar textura, material e efeitos estéticos específicos em prompts de linguagem natural como "banco coberto de musgo", "material cyberpunk com gradiente neon" e "prateleira de escritório vitoriano"
- Também é possível gerar projetos de LEGO que refletem apenas pelo texto cores variadas e efeitos metálicos, como em "Sunburst Les Paul with amber finish"
Citação e apoio à pesquisa
- São informados os dados do artigo, os autores e as instituições que apoiaram a pesquisa, como a Packard Foundation e o Amazon Faculty Award
- O projeto foi conduzido com diversos apoios acadêmicos e industriais, incluindo a Microsoft Research PhD Fellowship de um dos principais pesquisadores
Referências do projeto e template
- O template do site foi aproveitado com base no layout dos projetos Custom Diffusion e DreamFusion
1 comentários
Comentários do Hacker News
playsinlinena tagvideohttps://developer.mozilla.org/en-US/docs/…. É uma pena que o padrão no iOS seja assim