4 pontos por GN⁺ 2025-08-02 | 1 comentários | Compartilhar no WhatsApp
  • O primeiro modelo de imagem do Krea 1 foi divulgado como a versão de pesos abertos chamada FLUX.1 Krea
  • Diferente de modelos de geração de imagem existentes, foi projetado para focar em preferências estéticas claras e fotorrealismo, com o objetivo de criar imagens que não pareçam de IA
  • Foram analisados os problemas em que benchmarks e métricas de avaliação existentes se afastam do sentido estético real desejado pelos usuários; para resolver isso, foram aplicados dados de curadoria própria e viés estético orientado por opinião
  • Separam-se os processos de pré-treinamento (pre-training) e pós-treinamento (post-training), operando de forma sistemática uma fase que garante diversidade e outra que converge para um estilo mais definido
  • No futuro, pretendem fortalecer pesquisas de personalização/ajuste de gosto, além de ampliar domínios visuais e recursos de suporte a criadores

Lançamento open source do FLUX.1 Krea

  • Krea 1 é o primeiro modelo de geração de imagem treinado em parceria com a Black Forest Labs, com foco em excelente controle estético e qualidade de imagem
  • FLUX.1 Krea [dev] é divulgado com pesos abertos e é totalmente compatível com o ecossistema FLUX.1-dev existente
  • Este modelo maximiza fotorrealismo e elementos estéticos, com orientação para opinionated aesthetics, projetado para refletir preferências estéticas específicas

Fenômeno e limitações do "AI Look"

  • Imagens geradas por IA existentes costumam apresentar o chamado fenômeno "AI look", como fundo excessivamente desfocado, pele com aspecto de cera e composição monótona
  • O foco em otimização de benchmarks e métricas técnicas sacrifica textura realista, diversidade de estilo e resultados criativos
  • Limitações dos modelos de avaliação existentes por não refletirem as preferências de usuários reais
    • Na etapa de pré-treinamento, Fréchet Inception Distance (FID) e CLIP Score são úteis para medir o desempenho geral do modelo
    • Na academia e indústria, DPG, GenEval, T2I-Compbench, GenAI-Bench etc. são usados como benchmarks, mas avaliam principalmente conformidade com prompt, relações espaciais e combinação de atributos
    • Há modelos de avaliação estética como LAION-Aesthetics, Pickscore, ImageReward, HPSv2, porém a maioria é baseada em CLIP, com limitações de resolução e número de parâmetros
    • Por exemplo, LAION-Aesthetics apresenta viés para imagens de mulheres, fundos desfocados e cores vibrantes; ao filtrar dados com esse critério, pode-se impor preconceitos implícitos ao modelo
  • Métricas e filtros estéticos são úteis para remover imagens ruins, mas o risco é de um viés ficar gravado no próprio modelo quando se depende demais da seleção de dados para treinamento
  • Embora tenham surgido métricas baseadas em modelos visuais e de linguagem, a preferência estética ainda é subjetiva e difícil de reduzir a um único número
Publicidade

Estrutura de pré-treinamento (Pre-training) e pós-treinamento (Post-training)

  • Pré-treinamento (Pre-training)

    • No pré-treinamento, o modelo aprende amplamente sobre o mundo visual (estilo, objetos, pessoas, lugares), maximizando cobertura de modos (mode coverage)
    • Incluem-se também dados "ruins" para que o modelo aprenda características indesejadas (por exemplo, dedos estranhos, borrão etc.)
    • O pré-treinamento define o limite máximo de qualidade e a diversidade de estilos do modelo
  • Pós-treinamento (Post-training)

    • No pós-treinamento, o modelo converte sua distribuição para estilos preferidos (mode collapsing), convergindo para uma direção estética clara em vez de "AI look"
    • É conduzido em 2 etapas: Supervised Finetuning (SFT) e RLHF (Reinforcement Learning from Human Feedback)
      • SFT: uso de conjunto de dados de alta qualidade com curadoria própria e de imagens sintéticas do Krea-1
      • RLHF: otimizações repetidas com base em dados internos de preferência para ajustar com precisão estética e estilo
    • Foi confirmado que a qualidade dos dados é decisiva, em vez de apenas a quantidade (menos de 1M de dados de alta qualidade é suficiente)
    • Foram aplicados rótulos de preferência estética com uma abordagem opinionated, evitando que o uso exclusivo de dados de preferência públicos leve o modelo a voltar a resultados monótonos e com AI look
Publicidade

Pipeline do modelo e insights experimentais

  • É usado um modelo base flux-dev-raw de 12B parâmetros, com guidance-distilled, diferenciando-se de open models excessivamente finetuned
  • Na etapa de RLHF, aplica-se a técnica TPO (preference optimization) para reforçar a percepção estética e características de estilização
  • Dados internos de preferência de alta qualidade (com filtragem rigorosa) são usados várias vezes para calibrar com precisão a saída do modelo
  • Principais descobertas

    • 1. A qualidade dos dados é mais importante que a quantidade. Com menos de 1M de dados é possível fazer um pós-treinamento significativo. A diversidade quantitativa ajuda a reduzir vieses e dar estabilidade, mas o mais importante são dados curados e de alta qualidade
    • 2. É necessária uma coleta de dados com foco em preferências claras. Conjuntos de dados públicos populares tendem a gerar vieses indesejados, regressão ao AI look e vieses de composição/cores simplistas
      • Para metas objetivas como renderização de texto, anatomia e estrutura, a diversidade de dados ajuda, mas para metas subjetivas como senso estético, dados especializados são mais eficientes do que misturados
      • Ao misturar múltiplas distribuições de senso estético, costuma-se obter resultado que não agrada a ninguém, levando muitos usuários a depender de métodos de pós-processamento como LoRA

Direções futuras e encerramento

  • Krea 1 é um primeiro passo para criadores que valorizam critérios estéticos e qualidade, com expectativa de expandir a comunidade de código aberto
  • No futuro, pretendem reforçar competências centrais, ampliar o suporte a domínios visuais mais diversos e pesquisar personalização/controlabilidade para oferecer modelos alinhados aos gostos estéticos dos usuários
  • Consulte o GitHub ( https://github.com/krea-ai/flux-krea )

1 comentários

 
GN⁺ 2025-08-02
Comentários no Hacker News
  • Olá, pessoal, prazer em vê-los. Sou cofundador e CTO da Krea. Há muito tempo queríamos abrir os pesos do nosso modelo e compartilhá-los com a comunidade do HN. Vou tentar ficar online o máximo possível ao longo de hoje e responder perguntas, se houver
    • Queria saber se há planos para dar suporte à versão Flux "Kontext", ou seja, ao modelo de edição. O potencial de uso da edição de imagens baseada em prompt parece enorme. Ainda não vi a qualidade da versão open-weights, mas a demo foi muito impressionante. Pelo que sei, esse modelo também tem 12B
    • Queria entender qual é o objetivo dessa abertura. Existe alguma meta de negócio por trás disso, ou é realmente uma contribuição em espírito mais puro?
    • Precisamos de um modelo que suporte idiomas além do inglês
    • Fiquei curioso sobre como vocês decidem isso na prática no exemplo P(.|photo) vs P(.|minimal). Na minha visão, fotorrealismo deveria ser o padrão. Por exemplo, se o usuário escreve "um gato lendo um livro", o correto seria sair um gato real lendo um livro, não um estilo de IA ou uma ilustração. Sem contexto adicional, parece natural interpretar "gato" como um gato real. Se o usuário quiser outro estilo, como ilustração, não faria sentido exigir que ele deixe isso explícito no prompt? Queria saber se estou deixando passar alguma nuance
  • Ótimo lançamento. Fiz alguns testes simples com o modelo Krea 12b Txt2Img. O ponto mais forte é a velocidade (e provavelmente também o realismo). Mas, como era de se esperar, ele não teve pontuação maior que o modelo Flux.1D padrão em termos de <i>aderência ao prompt</i>. Os resultados podem ser vistos em https://genai-showdown.specr.net. Ao mesmo tempo, parece que o Wan 2.2+ pode ter um papel importante em T2I daqui para frente, mas talvez sejam necessárias muitas LoRAs para compensar a falta de diversidade de imagem
    • Você poderia compartilhar a URL onde dá para ver os resultados do teste? E, só como contexto, este modelo foi mais focado em <i>estética</i> do que em perseguir apenas precisão de prompt. Não é uma desculpa para amostras fracas; quero enfatizar que isso era um dos objetivos da pesquisa. É um trade-off inevitável se você quiser remover o estilo característico conhecido como "flux look". E também vi gente gerando a imagem base com Wan 2.2 e refinando com o Krea, o que é uma abordagem bem interessante
  • Olá! Sou o pesquisador principal do Krea-1 FLUX.1. O Krea é um Rectified Flow Model de 12B destilado a partir do Krea-1 e projetado para ser compatível com a arquitetura FLUX. Se houver perguntas técnicas, posso responder
    • Venho de produção tradicional de mídia. Dividir mídia em várias camadas e compô-las é essencial para controle de custos e de qualidade. Mas as formas atuais de gerar imagem, vídeo e áudio com IA não dão suporte a isso. O ForgeUI chegou a oferecer algo assim por um tempo, mas foi descontinuado. Acho que isso acontece porque não entendem as necessidades reais de produção de mídia em escala. Queria saber se há alguém na equipe com experiência real em VFX para cinema, publicidade animada ou produções de milhões de dólares. Se vocês quiserem ter sucesso, precisam dar suporte ao modo tradicional de produção de mídia. As ferramentas de IA atuais não são adotadas no campo porque não se integram em nada com ferramentas ou expectativas de produção existentes
    • A qualidade do modelo é realmente excelente. Em especial, achei interessante a parte que diz que "como o flux-dev-raw é um guidance distilled model, criamos uma função de perda personalizada e fizemos fine-tuning direto na distribuição guided sem classifier-free guidance". Se puderem explicar isso em mais detalhe e dar dicas de fine-tuning, eu gostaria muito de ouvir. Na comunidade open source de arte com IA, o fine-tuning do flux-dev distilled original é conhecido por ser bem difícil
    • Muito obrigado por esse esforço. Você poderia explicar o que significa "projetado para ser compatível com a arquitetura FLUX" e por que isso é importante?
  • Não estou entendendo muito bem um arquivo safetensor de 23,8GB para um modelo de 12B parâmetros. Eu achava que 1B de parâmetros exigia 1GB de VRAM, então queria saber se este modelo usa 24GB de VRAM ou 12GB, ou se meu entendimento está errado
    • Em bfloat16, a conta é 1B x 16bit = 2GB, então para 12B dá quase 24GB mesmo. Eles fizeram upload em bfloat16 porque, em comparação com float32, quase não há perda de desempenho
    • O tamanho do float varia por parâmetro. Muitos modelos são distribuídos em FP8 (8bit/parâmetro), mas este está em FP16 (16bit). Muitas vezes treinam em FP16 e depois quantizam para FP8 ou FP4 para distribuição
    • Um modelo quantizado para 8bit pode ser pensado como 1B = 1GB, mas 16bit e 32bit exigem de 2 a 4 vezes isso
  • Obtive um resultado curioso com um prompt simples: "Octopus DJ spinning the turntables at a rave." As mãos humanas que aparecem no DJ chamam atenção. Não consegui remover essas mãos independentemente do prompt. Como mencionado no artigo, ele realmente parece bem opinionated
    • Quando usei o prompt "Octopus DJ with no fingers", as mãos sumiram, mas ao mesmo tempo todas as características humanas do polvo também desapareceram, e sobrou só um polvo puro mexendo nos toca-discos
  • A imagem que eu sempre quero é um Galton board. Bolinhas caindo de dois orifícios separados no topo, uma azul e uma vermelha. Embaixo, a distribuição combinada das duas cores mostra que as colunas formam uma distribuição normal dupla. Imagem de referência: https://imgur.com/a/DiAOTzJ (dois bicos no topo). Tentativas reais: https://imgur.com/undefined, https://imgur.com/a/uecXDzI
    • Você já construiu um desses no mundo real? Não consegui encontrar um vídeo de um double Galton board
  • hey hn! Sou cofundador da Krea. Temos um post no blog explicando como treinamos o FLUX Krea, então, se quiser saber mais detalhes, veja: https://www.krea.ai/blog/flux-krea-open-source-release
    • Pergunta fora do assunto, mas vocês realmente esconderam a barra de rolagem no site? Não entendo por que fariam isso.
      .scrollbar-hide {
        -ms-overflow-style: none;
        scrollbar-width: none;
      }
      
  • Queria saber se existe uma versão otimizada para NVIDIA, como o FLUX.1 Kontext com aceleração RTX: https://blogs.nvidia.com/blog/rtx-ai-garage-flux-kontext-nim-tensorrt/
    • Não foi feita uma versão específica com aceleração RTX para o FLUX.1 Krea. Mas o modelo é totalmente compatível com o codebase existente do FLUX.1 dev. Também não parece haver export ONNX separado. Um bom trabalho futuro seria disponibilizar checkpoints quantizados em 4~8bit com SVDQuant para deixá-los mais amigáveis para hardware mais comum
  • Links de referência:
  • Recomendo oferecer um caminho bem documentado para que empresas possam licenciar com clareza o uso comercial quando obtiverem os resultados que desejam (vocês vão descobrir isso em breve!)