- O primeiro modelo de imagem do Krea 1 foi divulgado como a versão de pesos abertos chamada FLUX.1 Krea
- Diferente de modelos de geração de imagem existentes, foi projetado para focar em preferências estéticas claras e fotorrealismo, com o objetivo de criar imagens que não pareçam de IA
- Foram analisados os problemas em que benchmarks e métricas de avaliação existentes se afastam do sentido estético real desejado pelos usuários; para resolver isso, foram aplicados dados de curadoria própria e viés estético orientado por opinião
- Separam-se os processos de pré-treinamento (pre-training) e pós-treinamento (post-training), operando de forma sistemática uma fase que garante diversidade e outra que converge para um estilo mais definido
- No futuro, pretendem fortalecer pesquisas de personalização/ajuste de gosto, além de ampliar domínios visuais e recursos de suporte a criadores
Lançamento open source do FLUX.1 Krea
- Krea 1 é o primeiro modelo de geração de imagem treinado em parceria com a Black Forest Labs, com foco em excelente controle estético e qualidade de imagem
- FLUX.1 Krea [dev] é divulgado com pesos abertos e é totalmente compatível com o ecossistema FLUX.1-dev existente
- Este modelo maximiza fotorrealismo e elementos estéticos, com orientação para opinionated aesthetics, projetado para refletir preferências estéticas específicas
Fenômeno e limitações do "AI Look"
- Imagens geradas por IA existentes costumam apresentar o chamado fenômeno "AI look", como fundo excessivamente desfocado, pele com aspecto de cera e composição monótona
- O foco em otimização de benchmarks e métricas técnicas sacrifica textura realista, diversidade de estilo e resultados criativos
- Limitações dos modelos de avaliação existentes por não refletirem as preferências de usuários reais
- Na etapa de pré-treinamento, Fréchet Inception Distance (FID) e CLIP Score são úteis para medir o desempenho geral do modelo
- Na academia e indústria, DPG, GenEval, T2I-Compbench, GenAI-Bench etc. são usados como benchmarks, mas avaliam principalmente conformidade com prompt, relações espaciais e combinação de atributos
- Há modelos de avaliação estética como LAION-Aesthetics, Pickscore, ImageReward, HPSv2, porém a maioria é baseada em CLIP, com limitações de resolução e número de parâmetros
- Por exemplo, LAION-Aesthetics apresenta viés para imagens de mulheres, fundos desfocados e cores vibrantes; ao filtrar dados com esse critério, pode-se impor preconceitos implícitos ao modelo
- Métricas e filtros estéticos são úteis para remover imagens ruins, mas o risco é de um viés ficar gravado no próprio modelo quando se depende demais da seleção de dados para treinamento
- Embora tenham surgido métricas baseadas em modelos visuais e de linguagem, a preferência estética ainda é subjetiva e difícil de reduzir a um único número
Estrutura de pré-treinamento (Pre-training) e pós-treinamento (Post-training)
-
Pré-treinamento (Pre-training)
- No pré-treinamento, o modelo aprende amplamente sobre o mundo visual (estilo, objetos, pessoas, lugares), maximizando cobertura de modos (mode coverage)
- Incluem-se também dados "ruins" para que o modelo aprenda características indesejadas (por exemplo, dedos estranhos, borrão etc.)
- O pré-treinamento define o limite máximo de qualidade e a diversidade de estilos do modelo
-
Pós-treinamento (Post-training)
- No pós-treinamento, o modelo converte sua distribuição para estilos preferidos (mode collapsing), convergindo para uma direção estética clara em vez de "AI look"
- É conduzido em 2 etapas: Supervised Finetuning (SFT) e RLHF (Reinforcement Learning from Human Feedback)
- SFT: uso de conjunto de dados de alta qualidade com curadoria própria e de imagens sintéticas do Krea-1
- RLHF: otimizações repetidas com base em dados internos de preferência para ajustar com precisão estética e estilo
- Foi confirmado que a qualidade dos dados é decisiva, em vez de apenas a quantidade (menos de 1M de dados de alta qualidade é suficiente)
- Foram aplicados rótulos de preferência estética com uma abordagem opinionated, evitando que o uso exclusivo de dados de preferência públicos leve o modelo a voltar a resultados monótonos e com AI look
Pipeline do modelo e insights experimentais
- É usado um modelo base flux-dev-raw de 12B parâmetros, com guidance-distilled, diferenciando-se de open models excessivamente finetuned
- Na etapa de RLHF, aplica-se a técnica TPO (preference optimization) para reforçar a percepção estética e características de estilização
- Dados internos de preferência de alta qualidade (com filtragem rigorosa) são usados várias vezes para calibrar com precisão a saída do modelo
-
Principais descobertas
- 1. A qualidade dos dados é mais importante que a quantidade. Com menos de 1M de dados é possível fazer um pós-treinamento significativo. A diversidade quantitativa ajuda a reduzir vieses e dar estabilidade, mas o mais importante são dados curados e de alta qualidade
- 2. É necessária uma coleta de dados com foco em preferências claras. Conjuntos de dados públicos populares tendem a gerar vieses indesejados, regressão ao AI look e vieses de composição/cores simplistas
- Para metas objetivas como renderização de texto, anatomia e estrutura, a diversidade de dados ajuda, mas para metas subjetivas como senso estético, dados especializados são mais eficientes do que misturados
- Ao misturar múltiplas distribuições de senso estético, costuma-se obter resultado que não agrada a ninguém, levando muitos usuários a depender de métodos de pós-processamento como LoRA
Direções futuras e encerramento
- Krea 1 é um primeiro passo para criadores que valorizam critérios estéticos e qualidade, com expectativa de expandir a comunidade de código aberto
- No futuro, pretendem reforçar competências centrais, ampliar o suporte a domínios visuais mais diversos e pesquisar personalização/controlabilidade para oferecer modelos alinhados aos gostos estéticos dos usuários
- Consulte o GitHub ( https://github.com/krea-ai/flux-krea )
Ainda não há comentários.