11 pontos por GN⁺ 2025-08-18 | 1 comentários | Compartilhar no WhatsApp
  • O LL3M usa vários grandes modelos de linguagem para escrever código Python automaticamente e criar e editar assets 3D no Blender
  • Seguindo instruções de texto do usuário, ele cria diretamente formas criativas e precisas e implementa manipulações geométricas complexas em código
  • Diferentemente das ferramentas existentes de geração de modelos 3D, ele oferece geração de assets sem restrições e interações detalhadas
  • O código Blender gerado é claro e tem alta transparência de parâmetros, permitindo que usuários ou agentes o modifiquem facilmente ou o aprimorem de forma iterativa
  • Ele demonstra amplas possibilidades de processamento de assets 3D, como estilização consistente, edição de materiais e implementação de estruturas hierárquicas

Visão geral do LL3M

  • O LL3M é um framework inovador em que vários agentes de grandes modelos de linguagem (LLM) escrevem código Python para criar e editar assets 3D no Blender
  • Quando o usuário fornece instruções em texto, o LL3M automatiza a geração de formas criativas e manipulações geométricas precisas, usando código de alto nível como forma de representação 3D para possibilitar melhorias iterativas e trabalho colaborativo
  • O código é explicado de forma clara, com vários parâmetros e estruturas expostos de maneira transparente, o que facilita edições adicionais e o feedback contínuo do usuário

Visão geral do pipeline

  • O pipeline é composto por três etapas principais (geração inicial, aprimoramento automático e aprimoramento baseado no feedback do usuário)
    • Na etapa de geração inicial, além de criar formas básicas, o LL3M detecta e melhora automaticamente estruturas logicamente inadequadas ou elementos geométricos simples
    • A segunda etapa realiza correções automáticas mais refinadas, refletindo também formas ou relações complexas
    • A etapa final aceita solicitações adicionais de edição do usuário, tornando possível a geração de assets 3D interativa e iterativa
  • Cada etapa implementa um método de melhoria iterativa e gradual com base na divisão de papéis entre os agentes

Galeria e desempenho

  • Geração de formas diversas: implementa em código arranjos complexos e detalhes minuciosos, como moinhos de vento, pianos e baterias
  • Aplicação de estilo consistente: aplica a mesma instrução "steampunk" a várias malhas (chapéus), gerando resultados variados enquanto mantém um estilo comum
  • Suporte à edição de materiais: por exemplo, é possível alterar o material definindo apenas a parte da lâmina com nós de shader separados

Interpretabilidade do código

  • O código gerado inclui lógica estrutural, nomes de variáveis claros e comentários, facilitando a compreensão e a modificação
  • Ex.: é possível alterar diretamente a lógica do padrão do teclado ou variáveis de largura das teclas
  • Como os nós e parâmetros do Blender ficam expostos como estão, atributos visuais como cor e padrão podem ser ajustados de forma intuitiva

Reutilização e generalidade do código

  • Mesmo em formas diferentes, padrões de código de nível superior como loops, modificadores e configurações de nós são reutilizados
  • Isso permite gerar código modular e editável a partir de diversos prompts

Cena e estrutura hierárquica

  • Cria vários objetos e posiciona automaticamente relações espaciais com instancing e parenting
  • Ex.: ao criar um objeto composto como uma luminária, ele reflete uma estrutura de relação pai-filho para que as transformações sejam propagadas hierarquicamente
  • Cada parte recebe nomes semânticos significativos, permitindo gerenciamento eficiente no scene graph do Blender

1 comentários

 
GN⁺ 2025-08-18
Opiniões do Hacker News
  • Tive um sucesso inesperado usando o meshy.ai para transformar imagens que meus amigos queriam em bons modelos 3D. Meu fluxo de trabalho é: 1) usar um modelo de imagem como GPT-5 ou Midjourney para converter a imagem original em algo com aparência de malha renderizada de forma suave, removendo detalhes desnecessários e efeitos transparentes ou volumétricos. 2) Colocar essa imagem limpa no modo image to 3D do meshy.ai e, se eu não gostar do resultado, voltar para a etapa 1 para mudar o estilo da imagem e escolher outra. 3) Por fim, levar para o Blender e editar a malha como eu quiser, ajustando partes específicas, adicionando assimetria etc., e então fazer modelagem adicional. A estrutura da malha é bem estável, e parece que algo como marching cubes ou dual contouring está sendo usado sobre um gerador da família NeRF. Sou muito rápido com CAD mecânico, mas meu nível no Blender é mediano, então é muito eficiente deixar a IA criar a estrutura geral do modelo e eu só corrigir e complementar manualmente. Por exemplo, se um amigo pede para modificar uma escultura de uma pessoa real, antes isso me consumia tempo demais, mas com a combinação IA + Blender sinto um grande ganho de produtividade: gasto 5 minutos para criar o modelo e cerca de 1 hora no Blender para refinar
    • Você mencionou na etapa 1 converter a imagem para algo com aparência de malha renderizada em matte; queria entender melhor que tipo de imagem é essa. Entendo tornar superfícies transparentes em opacas, mas queria pedir se você poderia compartilhar um exemplo da imagem final ou os prompts usados nesse processo
    • GPT-5 é um modelo só de texto. O ChatGPT ainda usa o 4o para lidar com imagens
  • Uso Blender há mais de 7 anos e deixei mais de 1.000 respostas no Blender Stack Exchange, com algo em torno de 48.000 pontos. Talvez essa ferramenta de Blender baseada em IA sirva para aprender Python, especialmente o básico da Blender Python API, mas na prática não vejo muita necessidade. Os trabalhos mostrados como exemplo são coisas realmente fáceis de fazer no Blender, e usando esse tipo de ferramenta você só obtém resultados sem graça, ajustados ao prompt de entrada. Modelagem básica é algo que dá para aprender em um dia de tutorial e fazer por conta própria, com a vantagem de que os modelos refletem sua própria criatividade. Depois de mais ou menos uma semana, você consegue fazer isso manualmente mais rápido do que com prompts de IA, e ainda vai melhorando sua habilidade. Não se aprende muita coisa com IA. O meshy.ai é aceitável para converter fotos ou renders em malha e aplicar texturas de forma razoável, mas depois disso parece mais adequado para quem não é muito forte em sculpt. Aliás, organizei meus testes com o meshy.ai aqui
    • Mesmo seguindo tutoriais de Blender por alguns dias, eu não consigo chegar no nível dos exemplos mostrados. Acho que você está projetando demais sua própria habilidade. Não sou artista de modelos 3D, sou apenas alguém que precisava de um modelo 3D, e esse tipo de tecnologia é realmente útil
    • Eu também sou um usuário que curte Houdini como hobby, e até consigo fazer um modelo parametrizado isolado em poucos dias, mas para criar um vídeo curto ou uma cena inteira são necessários centenas ou milhares de modelos, texturas, rigging, animação e até simulação. Até uma animação de 2 minutos é quase impossível para um artista solo. A maioria compra pacotes de assets e combina tudo, mas aí sua arte fica subordinada àquele estilo. Ferramentas de IA como essa aliviam muito uma ou duas dessas etapas e ampliam o escopo do que uma pessoa consegue fazer sozinha
    • Como desenvolvedor e designer de ferramentas de suporte ao cliente com IA, sinto que preciso explicar constantemente à empresa que LLMs não são bons em condução de diálogo nem em criatividade. Eu gostaria que o foco fosse menos em funções isoladas e mais em integrar IA às ferramentas para acelerar tarefas repetitivas. Por exemplo, recursos como a automação de restrições por IA no Fusion360 realmente aumentam a produtividade. Para Blender, algo nessa linha, como conexão automática de materiais, parece muito mais interessante
    • Se o usuário não quer passar semanas aprendendo Blender, então o mais eficiente é simplesmente obter um resultado suficientemente útil investindo só algumas horas
    • Vale lembrar que este é o pior momento que essa ferramenta jamais terá. Ela só vai melhorar daqui para frente, então a aplicação de LLMs nessa área está apenas começando
  • Essa é a direção que venho enfatizando para meus amigos há tempos. No futuro, softwares criativos centrados em API vão vencer. After Effects oferece uma API em JS razoável, e o Da Vinci Resolve pode ser automatizado com vários scripts em Python, Lua etc. O processo de scripting também oferece bom suporte a rollback de transações. A necessidade de um MCP genérico para ambientes de scripting de aplicativos desktop só vai crescer. Captura de tela integrada com entrada multimodal também será exigida
  • Recentemente escrevi com o Claude um script de automação em Lua para gerar personagens proceduralmente no Aseprite, um editor de pixel art. Era possível reproduzir o resultado com um valor de seed, e saíram formas humanas aproximadas, mas a qualidade ainda estava longe do ideal. Ainda assim, foi muito acessível e divertido de usar.
    • Se esse assunto te interessa, o pixellab.ai também pode valer a pena. Eles estão criando um plugin para Aseprite que gera sprites bem decentes só com prompts
    • Eu também sigo procurando uma boa IA para pixel art. A maioria das ferramentas que testei é apenas aceitável, nada realmente impressionante. Se alguém teve uma boa experiência, adoraria receber links de recomendação
  • Antes de menosprezar a qualidade dos modelos 3D, vale lembrar do Dancing Baby de antigamente e das primeiras animações da Pixar; o avanço é realmente impressionante. Estou ansioso pelo dia em que poderei só dar um prompt a um LLM e receber um modelo 3D quase pronto, precisando apenas fazer textura, baking e export
    • Eu também mal posso esperar pela época em que os dados experimentais acumulados pela humanidade ao longo de trilhões de horas serão agregados em modelos estatísticos e monetizados por empresas sem pagar um centavo às pessoas que de fato tornaram isso possível
    • LLM é um modelo de linguagem, e dados de malha não são linguagem. Em teoria, talvez ele gere uma malha simples em Python, mas ninguém vai criar arte 3D realmente bonita desse jeito. Assim como não fazemos arte vetorial escrevendo código SVG à mão, é difícil produzir arte visual só com o próprio LLM. Um LLM pode servir como interface para outros modelos, mas por si só não consegue criar tudo
  • É animador ver o quanto a inteligência espacial dos LLMs melhorou recentemente. Há um ano, bastava pedir uma história envolvendo posições como em cima/embaixo, esquerda/direita ou frente/trás para eles se confundirem completamente. Perguntei ao GPT qual software CAD era melhor para scripting, e ele respondeu Freecad. Blender deve ser classificado mais como modelador do que como CAD, já que não tem medições de precisão, por exemplo. A API do Freecad é menos organizada estruturalmente, então o GPT não consegue memorizar ou encontrar bem as funções relacionadas. O Blender funciona muito melhor porque tem mais usuários e muito mais código compartilhado
    • Fico curioso sobre o OpenSCAD
    • Será que também dá para escrever scripts para automatizar medições em CAD?
  • Já tentei usar Blender várias vezes e sempre desisti. Hoje em dia só o uso no Openshot para criar títulos animados. Qualquer forma de facilitar o uso de ferramentas avançadas é bem-vinda
  • Acho que veremos surgir grandes modelos baseados em tokens para todo tipo de coisa, porque todos os dados do mundo podem ser tokenizados. Não é obrigatório passar pela linguagem, e a IA vai gradualmente se tornar fluente também em dados geométricos
    • A rejeição a dados gerados por IA em geral vem das limitações do domínio da linguagem. Por causa disso, entradas realmente criativas acabam não sendo refletidas
    • Assim como o antigo word2vec trouxe uma grande inovação, modelos 3D também podiam ser representados fundamentalmente em um espaço vetorial
  • O ponto importante aqui é o fluxo de trabalho com agentes. À medida que a compreensão de mundos 3D pelos LLMs continua melhorando, isso vai ajudar em várias situações. Pode ser útil para checagem de bugs por especialistas, recomendações, ajuda em pop-ups e até para rodar em segundo plano encontrando problemas sem intervenção humana. A capacidade de controlar isso programaticamente também vai se tornar cada vez mais valiosa
  • Não sou modelador, mas já tentei algumas vezes no processo de desenvolver sozinho um jogo 3D. Para mim, modelagem sempre foi uma dor necessária. Se eu tivesse uma ferramenta dessas, usaria para criar rapidamente modelos-base de baixíssimo polígono em projetos indie e depois refinaria tudo manualmente a partir daí. Do meu ponto de vista, economizar tempo vale mais do que qualidade altíssima