5 pontos por GN⁺ 2026-01-19 | 2 comentários | Compartilhar no WhatsApp
  • FLUX.2 [klein] é uma família de modelos visuais ultrarrápidos que integra geração e edição de imagens, oferecendo velocidade de inferência abaixo de 1 segundo e compatibilidade com GPUs de consumo
  • Suporta texto-para-imagem, edição de imagens e geração com múltiplas referências em uma arquitetura única, mantendo qualidade em nível de modelos grandes
  • O modelo 9B é disponibilizado sob a licença FLUX NCL, e o modelo 4B sob a licença Apache 2.0, facilitando o acesso de desenvolvedores e a customização
  • As versões quantizadas FP8·NVFP4 foram criadas em colaboração com a NVIDIA, reduzindo o uso de VRAM em até 55% e aumentando a velocidade em até 2,7x
  • Como um passo em direção à visão de “inteligência visual interativa”, voltada para geração em tempo real e interação, pode ser aplicado a ferramentas de design e criação de conteúdo em tempo real

Visão geral do FLUX.2 [klein]

  • FLUX.2 [klein] é a família de modelos de geração de imagens mais rápida lançada pela Black Forest Labs, unificando geração e edição em uma única estrutura
    • A velocidade de inferência end-to-end é de menos de 1 segundo, gerando imagens de alta qualidade em tempo real
    • Pode rodar com apenas 13 GB de VRAM, o que permite execução em GPUs como RTX 3090/4070
  • O nome do modelo, “klein”, significa “pequeno” em alemão, indicando uma estrutura compacta e baixa latência
    • Ainda assim, o desempenho é comparável ao de modelos grandes, com suporte a geração texto-para-imagem, edição e geração com múltiplas referências

Principais características

  • Geração ou edição de imagens com inferência abaixo de 0,5 segundo
  • Oferece realismo em nível fotográfico e alta diversidade
  • Arquitetura de modelo unificada para executar tarefas de texto-para-imagem, imagem-para-imagem e múltiplas referências em um único modelo
  • Compatibilidade com GPUs de consumo: o modelo 4B opera com cerca de 13 GB de VRAM
  • Mais amigável para desenvolvedores: o modelo 4B é lançado sob Apache 2.0, e o modelo 9B sob FLUX NCL
  • Com API e pesos abertos, permite tanto execução local quanto implantação em produção

Composição dos modelos

FLUX.2 [klein] 9B

  • Modelo principal, que define o equilíbrio entre qualidade e latência
    • Em texto-para-imagem, edição com referência única e geração com múltiplas referências, entrega desempenho equivalente ou superior a modelos 5 vezes maiores
    • Velocidade de inferência de menos de 0,5 segundo
    • Baseado em um modelo de fluxo 9B e no text embedder Qwen3 8B
    • Estrutura de inferência em 4 etapas (step-distilled) para maximizar a eficiência
  • Licença: FLUX NCL

FLUX.2 [klein] 4B

  • Modelo totalmente aberto sob licença Apache 2.0
    • Pode ser executado em GPUs de consumo como RTX 3090/4070
    • Suporta texto-para-imagem (T2I), imagem-para-imagem (I2I) e geração com múltiplas referências
    • Embora compacto, oferece alta qualidade em relação ao tamanho
    • Adequado para desenvolvimento local e implantação na edge

FLUX.2 [klein] Base 9B / 4B

  • Versões não destiladas (full-capacity), que preservam totalmente os sinais de treinamento
    • Adequadas para fine-tuning, treinamento com LoRA e pipelines de pesquisa
    • Têm maior diversidade de saída do que os modelos destilados
  • Licença: Base 4B sob Apache 2.0, Base 9B sob FLUX NCL

Versões quantizadas

  • Lançadas em colaboração com a NVIDIA nas versões FP8 e NVFP4
    • FP8: até 1,6x mais rápido e 40% menos VRAM
    • NVFP4: até 2,7x mais rápido e 55% menos VRAM
    • Benchmark T2I em 1024×1024 realizado com RTX 5080/5090
  • Mantêm a mesma estrutura de licenciamento: 4B sob Apache 2.0, 9B sob FLUX NCL

Análise de desempenho

  • FLUX.2 [klein] alcança qualidade equivalente ou superior ao Qwen, com menor latência e menor uso de VRAM
  • Supera o Z-Image e oferece suporte a texto-para-imagem e edição com múltiplas referências em um único modelo
  • A versão Base é um pouco mais lenta, mas oferece maior potencial de customização e adequação para pesquisa
  • As medições de velocidade foram realizadas em ambiente GB200 (bf16)

Visão de inteligência visual interativa

  • FLUX.2 [klein] vai além de um simples aumento de velocidade e representa um avanço rumo à inteligência visual interativa em tempo real
  • Busca um sistema em que a IA possa ver, criar e iterar
  • Isso abre possibilidades para novas aplicações, como ferramentas de design em tempo real, raciocínio visual e criação interativa de conteúdo

Recursos e formas de acesso


2 comentários

 
yangeok 2026-01-19

Ah, então no Mac não vai dar. Diz No GPU or XPU found haha,,

 
GN⁺ 2026-01-19
Comentários do Hacker News
  • Ainda não consegui adicionar o Klein ao meu site GenAI Showdown
    Mas, se for parecido com o Z-Image Turbo, o desempenho deve ser excelente
    Para referência, o Z-Image Turbo recebeu 4 pontos de 15, e isso é bem impressionante considerando que um modelo muito maior, o Flux.2 (32b), marcou apenas 1 ponto a mais
    Os resultados da comparação de modelos locais podem ser vistos aqui

    • No celular, há um problema em que, ao tocar no balão de informação, ele desaparece imediatamente. Pedi uma correção
    • Acho que há um problema com a metodologia de teste. Modelos grandes têm uma capacidade de aprendizado muito mais sofisticada e melhor compreensão de renderização CGI
      Testes baseados em dados estruturados podem gerar falsa confiança. Agora, simples text-to-image já não é um bom benchmark
  • É surpreendente ver os modelos ficando cada vez menores, mas com qualidade e eficiência maiores
    O Z-Image Turbo é realmente incrível, e quero testar este modelo logo
    Um tópico anterior relacionado pode ser visto aqui

    • Parece que até os modelos pequenos têm um momento em que atingem uma massa crítica
      Um modelo de 100 GB é difícil de baixar e executar, mas um modelo de 4 GB pode ser testado imediatamente pela maioria dos desenvolvedores
    • A qualidade está melhorando, mas os modelos pequenos ainda têm menos conhecimento acumulado do que os grandes modelos (Qwen Image, Flux 2 Full)
      A diferença é especialmente grande na representação de pessoas, artistas e objetos específicos
    • Fico curioso se existe um número mínimo de parâmetros necessário para uma determinada qualidade de saída
      Depois do GPT 3.5, o Deepseek foi treinado com custo muito menor, e agora já existem modelos rodando em notebook que superam o 3.5. Fico me perguntando até onde isso pode ser reduzido
  • Este modelo não consegue criar uma imagem de pogo stick
    Tentei gerar uma imagem de “um tigre pulando em um pogo stick”, mas ele nem conseguiu gerar o próprio pogo stick

    • Mesmo dando a imagem de uma taça de vinho vazia e pedindo para enchê-la com vinho, ele falha
      Esse tipo de manipulação física ainda está além dos modelos, então profissões relacionadas devem continuar seguras por enquanto
    • É um teste difícil para modelos locais. gpt-image e NB não tiveram problema, mas só o Qwen-Image chegou perto
      Amostras de vários modelos podem ser vistas aqui
      Modelos pequenos precisam de prompt adicional para representar um objeto específico como “pogo stick”
    • Mesmo fornecendo uma imagem de referência, ele ainda falha.
      Se o modelo tivesse capacidade de raciocínio suficiente, poderia complementar o conhecimento por meio de imagens de referência externas, mas ainda não chegou lá
    • É um bom prompt de benchmark. O Z-Image Turbo também não desenha bem um pogo stick
      Exemplo do tigre, isso não é um pogo stick, exemplo do Nano Banana Pro
  • Dizem que o FLUX.2 [klein] 4B é a versão mais rápida da família Klein, projetada para pré-visualização em tempo real ou ambientes de produção sensíveis à latência
    Fico curioso sobre que tipo de situação seria esse tipo de ambiente

    • Ao usar modelos locais, ninguém quer esperar 10 minutos para gerar uma única imagem
      Especialmente em tarefas de edição de imagem, velocidade é importante
    • Provavelmente deve servir bem para edição rápida de imagens
  • No começo achei que fosse sobre o app F.lux, que deixa a tela alaranjada à noite
    Hoje em dia todos os sistemas operacionais já incluem isso por padrão, então ele não é mais necessário

  • Se enxergarmos modelos de GenAI como implementações compactadas, texto é bem compactado, mas imagens e vídeos não
    Mesmo assim, os modelos mais recentes de text-to-image e text-to-video são muito menores do que LLMs como o Llama-3
    Isso pode ser porque só treinamos uma faixa estreita e centrada no humano do mundo visual. Ainda existe muito espaço inexplorado de combinações visuais

    • Texto permite compactação sem perdas, mas imagem e vídeo têm muito ruído, então a comparação direta é injusta
      Se considerarmos compactação com perdas imperceptíveis para humanos, talvez imagem seja até mais eficiente
    • Na prática, imagem e vídeo são compactados muito melhor do que texto
      Texto fica na faixa de 4:1 a 6:1, mas imagens podem passar de 10:1 mantendo perda visual imperceptível, e vídeo é ainda mais eficiente graças à consistência temporal
    • Acho que os LLMs ainda têm muito espaço para ganhos de eficiência
      Ao mesmo tempo, não devemos subestimar a quantidade de meta-conhecimento implicitamente contida neles
  • Fico curioso se alguém aqui já usou o Flux 2 Klein
    Eu já parei de correr atrás de modelos novos e estou construindo meu app inteiro só com o Nano Banana Pro
    O resultado está bom o suficiente
    picxstudio.com

  • Eu me diverti muito com o Flux 1 e agora estou brincando com o Z-Image Turbo
    Quando o Flux2 Klein for adicionado ao Invoke, vou testar

    • Concordo. A experiência de usar ZIT no Invoke foi excelente
  • Fico curioso sobre como é a capacidade de interação dele em comparação com a versão do GPT

  • Gosto do fato de que, mesmo sendo uma versão pequena, ele foi lançado como código aberto
    Isso cria muitas oportunidades, porque dá para rodar sem um orçamento gigantesco
    O ganho de velocidade também é bem impressionante