Moebius: desempenho de nível 10B com um modelo de inpainting de imagens de 0,2B

(hustvl.github.io)

5 pontos por GN⁺ 4 시간 전 | 1 comentários | Compartilhar no WhatsApp

Modelo especialista leve que entrega inpainting de imagens de alta qualidade, antes dominado por modelos fundacionais industriais de 10B, comprimindo os parâmetros para menos de 2% e ainda mantendo qualidade equivalente ou superior
Opera com 0,22B (226M) de parâmetros e alcança velocidade de inferência mais de 15 vezes maior que o FLUX.1-Fill-Dev de 11,9B
Usa o bloco Local-λ Mix Interaction(LλMI), que reconstrói o backbone de diffusion para comprimir contexto espacial e informação semântica global em matrizes lineares de tamanho fixo
Estratégia de distillation adaptativa de múltiplas granularidades que atua apenas no latent space para transferir a capacidade de representação de um grande modelo teacher para o modelo leve
Abordagem de especialista específico para tarefa que mostra que, em vez de simplesmente aumentar a escala, é possível ter modelos mais inteligentes, leves e rápidos quando a tarefa é claramente definida

Contexto e definição do problema

Modelos fundacionais industriais na escala de 10B elevaram o limite do inpainting de imagens, mas o enorme custo computacional restringe bastante sua implantação real
Construir modelos especialistas focados na tarefa é uma alternativa promissora, mas a compressão estrutural extrema causa um grave gargalo de representação (representation bottleneck)
Para superar isso, foi proposto o framework eficiente e leve de inpainting Moebius

Método — pipeline completo

Adota uma arquitetura que combina o framework Latent Diffusion Model(LDM) com Latent Categories Guidance(LCG)
Reestrutura sistematicamente o U-Net de denoising com o bloco LλMI proposto, garantindo eficiência extrema de arquitetura
Na etapa de treinamento, aplica uma estratégia de distillation adaptativa de múltiplas granularidades, alinhando o especialista leve com um teacher de grande porte para reduzir a perda de capacidade causada pela compressão estrutural extrema

Principais resultados (Highlights)

Eficiência extrema de parâmetros (< 2%)
- Funciona com apenas 0,22B (226M) de parâmetros, menos de 2% do tamanho do grande modelo FLUX.1-Fill-Dev (11,9B)
- Rompe a noção de que computação pesada é indispensável e torna possível fazer inpainting de alta qualidade até em dispositivos de consumo e edge
Inferência 15 vezes mais rápida (26ms/step)
- Alcança uma latência de inferência muito baixa de 26,01ms por step em uma única GPU
- Combinado com etapas de sampling otimizadas, acelera o runtime total em mais de 15 vezes em relação a modelos de classe 10B
Qualidade de inpainting de nível 10B
- Demonstra que redução de escala não significa perda de capacidade de representação
- Com a sinergia otimizada entre arquitetura e distillation, supera em alguns cenários — como texturas complexas e naturalidade facial — modelos SOTA de classe 10B (FLUX.1-Fill-Dev, SD3.5 Large-Inpainting)
- Validado em 6 benchmarks que abrangem cenas naturais (Places2) e retratos (CelebA-HQ, FFHQ)
Inovação central baseada em sinergia
- Projeto de arquitetura (bloco LλMI): reconstrói self-attention e cross-attention para comprimir contexto espacial e informação semântica global em matrizes lineares de tamanho fixo, evitando o custo computacional quadrático
- Distillation adaptativa de múltiplas granularidades: transfere a capacidade de representação do modelo teacher PixelHacker apenas dentro do latent space, evitando o caro decoding em pixel-space
  - Alinha supervisão em múltiplas granularidades, de características intermediárias microscópicas a trajetórias macroscópicas de diffusion, e equilibra dinamicamente o treinamento com um mecanismo adaptativo de ponderação de perdas baseado na norma do gradiente
- Equilíbrio ótimo de sinergia: explora sistematicamente as restrições mútuas e os limites superiores entre a estrutura comprimida e a distillation
  - Mapeia a fronteira de sinergia entre arquitetura e distillation para garantir que o Moebius 0,22B (student) absorva ao máximo a capacidade de inferência semântica do PixelHacker (teacher) sem saturação de representação
Especialista focado na tarefa em vez de um modelo geral inflado
- Responde à pergunta fundamental: "quando a tarefa é claramente definida, o modelo pode ser mais inteligente, leve e rápido?"
- Atua como um especialista altamente otimizado que liberta o inpainting de imagens real e a remoção de objetos por IA da inflação de parâmetros

Avaliação e comparação

Foram realizados experimentos extensivos tanto em cenas naturais (Places2) quanto em retratos (CelebA-HQ, FFHQ)
Em qualidade de geração, confirmou resultados equivalentes ou superiores ao modelo industrial geral de classe 10B FLUX.1-Fill-Dev
Com menos de 2% dos parâmetros (0,22B vs 11,9B) e aceleração de mais de 15 vezes no tempo de inferência, propõe um novo padrão de eficiência para inpainting de alta fidelidade

1 comentários

GN⁺ 4 시간 전

Comentários do Hacker News

Fizeram funcionar com ONNX (graças ao Claude Opus 4.8), e agora existe uma demo interativa em que o modelo roda inteiramente no navegador. O download tem cerca de 1,3 GB: https://simonw.github.io/moebius-web/
O código está aqui: https://github.com/simonw/moebius-web
Registro do Claude Code: https://gisthost.github.io/?58039ba5c1ca3ed177e8659168996ee4
Tem uma explicação mais detalhada no blog: https://simonwillison.net/2026/Jun/22/porting-moebius/
- Eu também tentei fazer exatamente a mesma coisa (usando gpt 5.5 + code), mas não consegui chegar até rodar o modelo em ONNX
- Bom trabalho. Os pesos do unet estão em fp32; queria saber se você chegou a testar precisão mais baixa, como fp16
Usei um pouco e, para um modelo de 0.2B, é muito impressionante, mas acho difícil me convencer de que ele compete de igual para igual com modelos de 10B
Em imagens naturais ele funcionou bem até, mas a área preenchida ficava visivelmente mais lisa que o entorno, e ele foi muito fraco ao adicionar objetos novos. A saída também fica limitada a 512x512, o que reduz a utilidade prática
- Fico curioso se você considera que os exemplos fornecidos representam bem o desempenho real, ou se parecem mais cherry-picked
Alguns anos atrás fiz um projeto de inpainting para cliente. A ideia era fazer inpainting de anúncios em banner para promotores de shows, de modo que fosse fácil criar anúncios em vários tamanhos de mídia, e trabalhei em peças natalinas de alguns cantores famosos
A parte mais estranha foi quando a ferramenta de inpainting começou a adicionar pessoas esquisitas na imagem. O cantor estava decorado com enfeites brilhantes e vermelho, e o modelo acrescentou um velho mal-humorado de cartola. Não me lembro de ter apertado o botão “adicionar velho assustador”
Na época o backend era Stable Diffusion, e passamos por vários serviços de hospedagem de modelos, incluindo Amazon, mas os requisitos de imagem de entrada eram todos diferentes, então ficou muito complicado. Alguns nem conseguiam lidar com proporções como um banner 200x60, outros exigiam redimensionar antes da entrada, então você já começava com uma imagem de baixa resolução. Entra lixo, sai lixo
No fim, exigia muito trabalho de pré-produção, e o cliente acabou não usando de verdade o que eu fiz
- Se o cantor estava coberto de brilho e vermelho e o modelo adicionou um velho mal-humorado de cartola, isso lembra A Christmas Carol, de Dickens
  No Reino Unido claramente deve existir alguma lei exigindo deixar uma figura tipo Scrooge ao fundo nos eventos de Natal para evitar que as pessoas fiquem animadas demais
- Naquela época, os modelos feitos pela comunidade, modelos mesclados ou ajustados com fine-tuning, eram todos supertreinados e otimizados para retratos e tomadas frontais. Eles tentavam transformar tudo em gente
  Mesmo inpainting de rosto já era algo apenas aceitável e exigia pular entre várias ferramentas; fazer inpainting de qualquer outra coisa era quase impossível. Esses modelos também eram especialmente ruins em encaixar objetos de forma natural dentro de uma cena. Até um colar ou cinto tosco às vezes dava para fazer, mas no momento em que você tentava inserir um objeto novo na cena, eles falhavam de infinitas maneiras
  A resolução também funcionava muito melhor em 512x512, e quanto mais você fugia disso, mais problemas apareciam
  Se você tentou fazer inpainting de banner publicitário, provavelmente ficou bem distorcido. Esses modelos não sabiam lidar com tipografia e eram fracos em transcrição precisa em nível de pixel. Na época, o método realisticamente viável provavelmente seria colocar o banner manualmente e usar a IA só para corrigir as bordas. Claro, isso ainda exigiria algum senso artístico
  Se a ideia era só jogar duas imagens e esperar que o modelo resolvesse tudo sozinho, a tentativa foi ousada, mas era uma tarefa impossível
- Isso acontece porque modelos pequenos como o SD foram treinados em uma resolução muito específica. Modelos mais avançados são treinados com qualidade maior ou com um conjunto mais variado de resoluções
  Quando você gera imagens de baixa resolução com um modelo de alta qualidade, na prática parece que ele está recortando uma parte de uma imagem muito maior. Essa é a sensação depois de várias horas experimentando, e mesmo quando tento colocar algum objeto no centro com modelos grandes, ele nem sempre aparece bem no centro. Minha GPU também tem seus limites
Existem algumas spaces de demo usando isso. Esta aqui pareceu a melhor e permite pintar a máscara manualmente, mas falhou em todas as imagens que tentei: https://huggingface.co/spaces/multimodalart/Moebius
- Fuçando aqui e ali consegui fazer funcionar, mas a qualidade ficou meio ruim. Ainda estou experimentando com as configurações expostas, e dá para ver aqui: https://huggingface.co/spaces/jonatei/MoebiusDemo
  Estou mexendo ativamente nisso agora, então pode quebrar de vez em quando :)
  Está rodando em CPU gratuita, então leva cerca de 80 segundos por imagem
Fiz um pequeno app que roda tudo no navegador e permite testar todos os modelos fine-tuned: https://inpaintlab.com/
Não sei o que é inpainting. Nos comentários todo mundo parece conhecer o termo, mas não vi explicação na página linkada
- Se você clicar nas imagens de visualização, dá para ver o funcionamento real. A área roxa é a parte que o usuário marcou para o sistema fazer o inpainting, e ao clicar na imagem você vê o resultado
  Basicamente, o modelo olha o contexto da área que não é roxa e decide o que se encaixa melhor na área roxa, redesenhando essa parte da imagem. Costuma ser usado para remover objetos, mas como os exemplos mostram, também serve para outras tarefas
Não é muito bom. A área preenchida, como sempre acontece com inpainting, fica lisa demais em comparação com as texturas naturais, detalhadas e de alta frequência das fotos reais
No máximo serve para apagar alguma coisa de miniaturas
- Isso aqui e os exemplos também são cherry-picked. O exemplo de remover linhas de alta tensão de uma foto natural é particularmente ruim. A faixa no lugar apagado continua claramente visível
  Alguns anos atrás a ferramenta básica de restauração do Photoshop já conseguia algo parecido
Eu queria um modelo assim para tradução de mangá. Hoje parece que o modelo leve de inpainting padrão de fato para anime e mangá é o LaMa, mas já é um modelo de alguns anos atrás, então parece haver espaço para melhoria
- Estou trabalhando em outpainting de um programa infantil para meu filho (Leapfrog Letter Factory, se alguém estiver curioso) e depois fazendo upscale, mas tem sido bem difícil fazer isso localmente
  Fico me perguntando se daria para treinar esse modelo de novo ou ajustá-lo com fine-tuning. Falam em criar “especialistas”, então talvez esse especialista pudesse entender melhor vários tipos de tradução de personagens
Esse tipo de coisa é IA útil. Tem muita aplicação que isso pode viabilizar
- Sim, e é por isso que é frustrante. Existem muitos casos de uso em que um modelo rodando localmente, voltado para um objetivo específico e que faz bem uma única tarefa de forma confiável realmente faria diferença
  Mas ninguém vai investir 1 bilhão de dólares para ter uma remoção de poeira incrível ou uma segmentação de cena perfeita
  Em vez disso, a estrutura vira fazer upload para a nuvem e então pedir educadamente a um grande modelo multimodal de fronteira que faça só a tarefa que eu quero
- Fico me perguntando quantas vezes você editou fotos tiradas no celular nos últimos 7 dias
Não entendi. Onde dá para testar isso? Ou é só propaganda?
- Parece bom, mas não faço ideia de como usar
  Edit: acho que encontrei
  https://huggingface.co/hustvl/Moebius

Moebius: desempenho de nível 10B com um modelo de inpainting de imagens de 0,2B

Contexto e definição do problema

Método — pipeline completo

Principais resultados (Highlights)

Eficiência extrema de parâmetros (< 2%)

Inferência 15 vezes mais rápida (26ms/step)

Qualidade de inpainting de nível 10B

Inovação central baseada em sinergia

Especialista focado na tarefa em vez de um modelo geral inflado

Avaliação e comparação

Leituras relacionadas

1 comentários

Comentários do Hacker News