- Modelo especialista leve que entrega inpainting de imagens de alta qualidade, antes dominado por modelos fundacionais industriais de 10B, comprimindo os parâmetros para menos de 2% e ainda mantendo qualidade equivalente ou superior
- Opera com 0,22B (226M) de parâmetros e alcança velocidade de inferência mais de 15 vezes maior que o FLUX.1-Fill-Dev de 11,9B
- Usa o bloco Local-λ Mix Interaction(LλMI), que reconstrói o backbone de diffusion para comprimir contexto espacial e informação semântica global em matrizes lineares de tamanho fixo
- Estratégia de distillation adaptativa de múltiplas granularidades que atua apenas no latent space para transferir a capacidade de representação de um grande modelo teacher para o modelo leve
- Abordagem de especialista específico para tarefa que mostra que, em vez de simplesmente aumentar a escala, é possível ter modelos mais inteligentes, leves e rápidos quando a tarefa é claramente definida
Contexto e definição do problema
- Modelos fundacionais industriais na escala de 10B elevaram o limite do inpainting de imagens, mas o enorme custo computacional restringe bastante sua implantação real
- Construir modelos especialistas focados na tarefa é uma alternativa promissora, mas a compressão estrutural extrema causa um grave gargalo de representação (representation bottleneck)
- Para superar isso, foi proposto o framework eficiente e leve de inpainting Moebius
Método — pipeline completo
- Adota uma arquitetura que combina o framework Latent Diffusion Model(LDM) com Latent Categories Guidance(LCG)
- Reestrutura sistematicamente o U-Net de denoising com o bloco LλMI proposto, garantindo eficiência extrema de arquitetura
- Na etapa de treinamento, aplica uma estratégia de distillation adaptativa de múltiplas granularidades, alinhando o especialista leve com um teacher de grande porte para reduzir a perda de capacidade causada pela compressão estrutural extrema
Principais resultados (Highlights)
-
Eficiência extrema de parâmetros (< 2%)
- Funciona com apenas 0,22B (226M) de parâmetros, menos de 2% do tamanho do grande modelo FLUX.1-Fill-Dev (11,9B)
- Rompe a noção de que computação pesada é indispensável e torna possível fazer inpainting de alta qualidade até em dispositivos de consumo e edge
-
Inferência 15 vezes mais rápida (26ms/step)
- Alcança uma latência de inferência muito baixa de 26,01ms por step em uma única GPU
- Combinado com etapas de sampling otimizadas, acelera o runtime total em mais de 15 vezes em relação a modelos de classe 10B
-
Qualidade de inpainting de nível 10B
- Demonstra que redução de escala não significa perda de capacidade de representação
- Com a sinergia otimizada entre arquitetura e distillation, supera em alguns cenários — como texturas complexas e naturalidade facial — modelos SOTA de classe 10B (FLUX.1-Fill-Dev, SD3.5 Large-Inpainting)
- Validado em 6 benchmarks que abrangem cenas naturais (Places2) e retratos (CelebA-HQ, FFHQ)
-
Inovação central baseada em sinergia
- Projeto de arquitetura (bloco LλMI): reconstrói self-attention e cross-attention para comprimir contexto espacial e informação semântica global em matrizes lineares de tamanho fixo, evitando o custo computacional quadrático
- Distillation adaptativa de múltiplas granularidades: transfere a capacidade de representação do modelo teacher PixelHacker apenas dentro do latent space, evitando o caro decoding em pixel-space
- Alinha supervisão em múltiplas granularidades, de características intermediárias microscópicas a trajetórias macroscópicas de diffusion, e equilibra dinamicamente o treinamento com um mecanismo adaptativo de ponderação de perdas baseado na norma do gradiente
- Equilíbrio ótimo de sinergia: explora sistematicamente as restrições mútuas e os limites superiores entre a estrutura comprimida e a distillation
- Mapeia a fronteira de sinergia entre arquitetura e distillation para garantir que o Moebius 0,22B (student) absorva ao máximo a capacidade de inferência semântica do PixelHacker (teacher) sem saturação de representação
-
Especialista focado na tarefa em vez de um modelo geral inflado
- Responde à pergunta fundamental: "quando a tarefa é claramente definida, o modelo pode ser mais inteligente, leve e rápido?"
- Atua como um especialista altamente otimizado que liberta o inpainting de imagens real e a remoção de objetos por IA da inflação de parâmetros
Avaliação e comparação
- Foram realizados experimentos extensivos tanto em cenas naturais (Places2) quanto em retratos (CelebA-HQ, FFHQ)
- Em qualidade de geração, confirmou resultados equivalentes ou superiores ao modelo industrial geral de classe 10B FLUX.1-Fill-Dev
- Com menos de 2% dos parâmetros (0,22B vs 11,9B) e aceleração de mais de 15 vezes no tempo de inferência, propõe um novo padrão de eficiência para inpainting de alta fidelidade
1 comentários
Comentários do Hacker News
Fizeram funcionar com ONNX (graças ao Claude Opus 4.8), e agora existe uma demo interativa em que o modelo roda inteiramente no navegador. O download tem cerca de 1,3 GB: https://simonw.github.io/moebius-web/
O código está aqui: https://github.com/simonw/moebius-web
Registro do Claude Code: https://gisthost.github.io/?58039ba5c1ca3ed177e8659168996ee4
Tem uma explicação mais detalhada no blog: https://simonwillison.net/2026/Jun/22/porting-moebius/
Usei um pouco e, para um modelo de 0.2B, é muito impressionante, mas acho difícil me convencer de que ele compete de igual para igual com modelos de 10B
Em imagens naturais ele funcionou bem até, mas a área preenchida ficava visivelmente mais lisa que o entorno, e ele foi muito fraco ao adicionar objetos novos. A saída também fica limitada a 512x512, o que reduz a utilidade prática
Alguns anos atrás fiz um projeto de inpainting para cliente. A ideia era fazer inpainting de anúncios em banner para promotores de shows, de modo que fosse fácil criar anúncios em vários tamanhos de mídia, e trabalhei em peças natalinas de alguns cantores famosos
A parte mais estranha foi quando a ferramenta de inpainting começou a adicionar pessoas esquisitas na imagem. O cantor estava decorado com enfeites brilhantes e vermelho, e o modelo acrescentou um velho mal-humorado de cartola. Não me lembro de ter apertado o botão “adicionar velho assustador”
Na época o backend era Stable Diffusion, e passamos por vários serviços de hospedagem de modelos, incluindo Amazon, mas os requisitos de imagem de entrada eram todos diferentes, então ficou muito complicado. Alguns nem conseguiam lidar com proporções como um banner 200x60, outros exigiam redimensionar antes da entrada, então você já começava com uma imagem de baixa resolução. Entra lixo, sai lixo
No fim, exigia muito trabalho de pré-produção, e o cliente acabou não usando de verdade o que eu fiz
No Reino Unido claramente deve existir alguma lei exigindo deixar uma figura tipo Scrooge ao fundo nos eventos de Natal para evitar que as pessoas fiquem animadas demais
Mesmo inpainting de rosto já era algo apenas aceitável e exigia pular entre várias ferramentas; fazer inpainting de qualquer outra coisa era quase impossível. Esses modelos também eram especialmente ruins em encaixar objetos de forma natural dentro de uma cena. Até um colar ou cinto tosco às vezes dava para fazer, mas no momento em que você tentava inserir um objeto novo na cena, eles falhavam de infinitas maneiras
A resolução também funcionava muito melhor em 512x512, e quanto mais você fugia disso, mais problemas apareciam
Se você tentou fazer inpainting de banner publicitário, provavelmente ficou bem distorcido. Esses modelos não sabiam lidar com tipografia e eram fracos em transcrição precisa em nível de pixel. Na época, o método realisticamente viável provavelmente seria colocar o banner manualmente e usar a IA só para corrigir as bordas. Claro, isso ainda exigiria algum senso artístico
Se a ideia era só jogar duas imagens e esperar que o modelo resolvesse tudo sozinho, a tentativa foi ousada, mas era uma tarefa impossível
Quando você gera imagens de baixa resolução com um modelo de alta qualidade, na prática parece que ele está recortando uma parte de uma imagem muito maior. Essa é a sensação depois de várias horas experimentando, e mesmo quando tento colocar algum objeto no centro com modelos grandes, ele nem sempre aparece bem no centro. Minha GPU também tem seus limites
Existem algumas spaces de demo usando isso. Esta aqui pareceu a melhor e permite pintar a máscara manualmente, mas falhou em todas as imagens que tentei: https://huggingface.co/spaces/multimodalart/Moebius
Estou mexendo ativamente nisso agora, então pode quebrar de vez em quando :)
Está rodando em CPU gratuita, então leva cerca de 80 segundos por imagem
Fiz um pequeno app que roda tudo no navegador e permite testar todos os modelos fine-tuned: https://inpaintlab.com/
Não sei o que é inpainting. Nos comentários todo mundo parece conhecer o termo, mas não vi explicação na página linkada
Basicamente, o modelo olha o contexto da área que não é roxa e decide o que se encaixa melhor na área roxa, redesenhando essa parte da imagem. Costuma ser usado para remover objetos, mas como os exemplos mostram, também serve para outras tarefas
Não é muito bom. A área preenchida, como sempre acontece com inpainting, fica lisa demais em comparação com as texturas naturais, detalhadas e de alta frequência das fotos reais
No máximo serve para apagar alguma coisa de miniaturas
Alguns anos atrás a ferramenta básica de restauração do Photoshop já conseguia algo parecido
Eu queria um modelo assim para tradução de mangá. Hoje parece que o modelo leve de inpainting padrão de fato para anime e mangá é o LaMa, mas já é um modelo de alguns anos atrás, então parece haver espaço para melhoria
Fico me perguntando se daria para treinar esse modelo de novo ou ajustá-lo com fine-tuning. Falam em criar “especialistas”, então talvez esse especialista pudesse entender melhor vários tipos de tradução de personagens
Esse tipo de coisa é IA útil. Tem muita aplicação que isso pode viabilizar
Mas ninguém vai investir 1 bilhão de dólares para ter uma remoção de poeira incrível ou uma segmentação de cena perfeita
Em vez disso, a estrutura vira fazer upload para a nuvem e então pedir educadamente a um grande modelo multimodal de fronteira que faça só a tarefa que eu quero
Não entendi. Onde dá para testar isso? Ou é só propaganda?
Edit: acho que encontrei
https://huggingface.co/hustvl/Moebius