- O LL3M usa vários grandes modelos de linguagem para escrever código Python automaticamente e criar e editar assets 3D no Blender
- Seguindo instruções de texto do usuário, ele cria diretamente formas criativas e precisas e implementa manipulações geométricas complexas em código
- Diferentemente das ferramentas existentes de geração de modelos 3D, ele oferece geração de assets sem restrições e interações detalhadas
- O código Blender gerado é claro e tem alta transparência de parâmetros, permitindo que usuários ou agentes o modifiquem facilmente ou o aprimorem de forma iterativa
- Ele demonstra amplas possibilidades de processamento de assets 3D, como estilização consistente, edição de materiais e implementação de estruturas hierárquicas
Visão geral do LL3M
- O LL3M é um framework inovador em que vários agentes de grandes modelos de linguagem (LLM) escrevem código Python para criar e editar assets 3D no Blender
- Quando o usuário fornece instruções em texto, o LL3M automatiza a geração de formas criativas e manipulações geométricas precisas, usando código de alto nível como forma de representação 3D para possibilitar melhorias iterativas e trabalho colaborativo
- O código é explicado de forma clara, com vários parâmetros e estruturas expostos de maneira transparente, o que facilita edições adicionais e o feedback contínuo do usuário
Visão geral do pipeline
- O pipeline é composto por três etapas principais (geração inicial, aprimoramento automático e aprimoramento baseado no feedback do usuário)
- Na etapa de geração inicial, além de criar formas básicas, o LL3M detecta e melhora automaticamente estruturas logicamente inadequadas ou elementos geométricos simples
- A segunda etapa realiza correções automáticas mais refinadas, refletindo também formas ou relações complexas
- A etapa final aceita solicitações adicionais de edição do usuário, tornando possível a geração de assets 3D interativa e iterativa
- Cada etapa implementa um método de melhoria iterativa e gradual com base na divisão de papéis entre os agentes
Galeria e desempenho
- Geração de formas diversas: implementa em código arranjos complexos e detalhes minuciosos, como moinhos de vento, pianos e baterias
- Aplicação de estilo consistente: aplica a mesma instrução "steampunk" a várias malhas (chapéus), gerando resultados variados enquanto mantém um estilo comum
- Suporte à edição de materiais: por exemplo, é possível alterar o material definindo apenas a parte da lâmina com nós de shader separados
Interpretabilidade do código
- O código gerado inclui lógica estrutural, nomes de variáveis claros e comentários, facilitando a compreensão e a modificação
- Ex.: é possível alterar diretamente a lógica do padrão do teclado ou variáveis de largura das teclas
- Como os nós e parâmetros do Blender ficam expostos como estão, atributos visuais como cor e padrão podem ser ajustados de forma intuitiva
Reutilização e generalidade do código
- Mesmo em formas diferentes, padrões de código de nível superior como loops, modificadores e configurações de nós são reutilizados
- Isso permite gerar código modular e editável a partir de diversos prompts
Cena e estrutura hierárquica
- Cria vários objetos e posiciona automaticamente relações espaciais com instancing e parenting
- Ex.: ao criar um objeto composto como uma luminária, ele reflete uma estrutura de relação pai-filho para que as transformações sejam propagadas hierarquicamente
- Cada parte recebe nomes semânticos significativos, permitindo gerenciamento eficiente no scene graph do Blender
Ainda não há comentários.