FLUX.2 [klein]: rumo à inteligência visual interativa

(bfl.ai)

5 pontos por GN⁺ 2026-01-19 | 2 comentários | Compartilhar no WhatsApp

FLUX.2 [klein] é uma família de modelos visuais ultrarrápidos que integra geração e edição de imagens, oferecendo velocidade de inferência abaixo de 1 segundo e compatibilidade com GPUs de consumo
Suporta texto-para-imagem, edição de imagens e geração com múltiplas referências em uma arquitetura única, mantendo qualidade em nível de modelos grandes
O modelo 9B é disponibilizado sob a licença FLUX NCL, e o modelo 4B sob a licença Apache 2.0, facilitando o acesso de desenvolvedores e a customização
As versões quantizadas FP8·NVFP4 foram criadas em colaboração com a NVIDIA, reduzindo o uso de VRAM em até 55% e aumentando a velocidade em até 2,7x
Como um passo em direção à visão de “inteligência visual interativa”, voltada para geração em tempo real e interação, pode ser aplicado a ferramentas de design e criação de conteúdo em tempo real

Visão geral do FLUX.2 [klein]

FLUX.2 [klein] é a família de modelos de geração de imagens mais rápida lançada pela Black Forest Labs, unificando geração e edição em uma única estrutura
- A velocidade de inferência end-to-end é de menos de 1 segundo, gerando imagens de alta qualidade em tempo real
- Pode rodar com apenas 13 GB de VRAM, o que permite execução em GPUs como RTX 3090/4070
O nome do modelo, “klein”, significa “pequeno” em alemão, indicando uma estrutura compacta e baixa latência
- Ainda assim, o desempenho é comparável ao de modelos grandes, com suporte a geração texto-para-imagem, edição e geração com múltiplas referências

Principais características

Geração ou edição de imagens com inferência abaixo de 0,5 segundo
Oferece realismo em nível fotográfico e alta diversidade
Arquitetura de modelo unificada para executar tarefas de texto-para-imagem, imagem-para-imagem e múltiplas referências em um único modelo
Compatibilidade com GPUs de consumo: o modelo 4B opera com cerca de 13 GB de VRAM
Mais amigável para desenvolvedores: o modelo 4B é lançado sob Apache 2.0, e o modelo 9B sob FLUX NCL
Com API e pesos abertos, permite tanto execução local quanto implantação em produção

Composição dos modelos

FLUX.2 [klein] 9B

Modelo principal, que define o equilíbrio entre qualidade e latência
- Em texto-para-imagem, edição com referência única e geração com múltiplas referências, entrega desempenho equivalente ou superior a modelos 5 vezes maiores
- Velocidade de inferência de menos de 0,5 segundo
- Baseado em um modelo de fluxo 9B e no text embedder Qwen3 8B
- Estrutura de inferência em 4 etapas (step-distilled) para maximizar a eficiência
Licença: FLUX NCL

FLUX.2 [klein] 4B

Modelo totalmente aberto sob licença Apache 2.0
- Pode ser executado em GPUs de consumo como RTX 3090/4070
- Suporta texto-para-imagem (T2I), imagem-para-imagem (I2I) e geração com múltiplas referências
- Embora compacto, oferece alta qualidade em relação ao tamanho
- Adequado para desenvolvimento local e implantação na edge

FLUX.2 [klein] Base 9B / 4B

Versões não destiladas (full-capacity), que preservam totalmente os sinais de treinamento
- Adequadas para fine-tuning, treinamento com LoRA e pipelines de pesquisa
- Têm maior diversidade de saída do que os modelos destilados
Licença: Base 4B sob Apache 2.0, Base 9B sob FLUX NCL

Versões quantizadas

Lançadas em colaboração com a NVIDIA nas versões FP8 e NVFP4
- FP8: até 1,6x mais rápido e 40% menos VRAM
- NVFP4: até 2,7x mais rápido e 55% menos VRAM
- Benchmark T2I em 1024×1024 realizado com RTX 5080/5090
Mantêm a mesma estrutura de licenciamento: 4B sob Apache 2.0, 9B sob FLUX NCL

Análise de desempenho

FLUX.2 [klein] alcança qualidade equivalente ou superior ao Qwen, com menor latência e menor uso de VRAM
Supera o Z-Image e oferece suporte a texto-para-imagem e edição com múltiplas referências em um único modelo
A versão Base é um pouco mais lenta, mas oferece maior potencial de customização e adequação para pesquisa
As medições de velocidade foram realizadas em ambiente GB200 (bf16)

Visão de inteligência visual interativa

FLUX.2 [klein] vai além de um simples aumento de velocidade e representa um avanço rumo à inteligência visual interativa em tempo real
Busca um sistema em que a IA possa ver, criar e iterar
Isso abre possibilidades para novas aplicações, como ferramentas de design em tempo real, raciocínio visual e criação interativa de conteúdo

Recursos e formas de acesso

Teste: Demo, Playground
Hugging Face Space: klein 9B, klein 4B
Materiais para desenvolvimento: documentação, GitHub, pesos do modelo
Informações adicionais: página oficial do modelo

2 comentários

yangeok 2026-01-19

Ah, então no Mac não vai dar. Diz No GPU or XPU found haha,,

GN⁺ 2026-01-19

Comentários do Hacker News

Ainda não consegui adicionar o Klein ao meu site GenAI Showdown
Mas, se for parecido com o Z-Image Turbo, o desempenho deve ser excelente
Para referência, o Z-Image Turbo recebeu 4 pontos de 15, e isso é bem impressionante considerando que um modelo muito maior, o Flux.2 (32b), marcou apenas 1 ponto a mais
Os resultados da comparação de modelos locais podem ser vistos aqui
- No celular, há um problema em que, ao tocar no balão de informação, ele desaparece imediatamente. Pedi uma correção
- Acho que há um problema com a metodologia de teste. Modelos grandes têm uma capacidade de aprendizado muito mais sofisticada e melhor compreensão de renderização CGI
  Testes baseados em dados estruturados podem gerar falsa confiança. Agora, simples text-to-image já não é um bom benchmark
É surpreendente ver os modelos ficando cada vez menores, mas com qualidade e eficiência maiores
O Z-Image Turbo é realmente incrível, e quero testar este modelo logo
Um tópico anterior relacionado pode ser visto aqui
- Parece que até os modelos pequenos têm um momento em que atingem uma massa crítica
  Um modelo de 100 GB é difícil de baixar e executar, mas um modelo de 4 GB pode ser testado imediatamente pela maioria dos desenvolvedores
- A qualidade está melhorando, mas os modelos pequenos ainda têm menos conhecimento acumulado do que os grandes modelos (Qwen Image, Flux 2 Full)
  A diferença é especialmente grande na representação de pessoas, artistas e objetos específicos
- Fico curioso se existe um número mínimo de parâmetros necessário para uma determinada qualidade de saída
  Depois do GPT 3.5, o Deepseek foi treinado com custo muito menor, e agora já existem modelos rodando em notebook que superam o 3.5. Fico me perguntando até onde isso pode ser reduzido
Este modelo não consegue criar uma imagem de pogo stick
Tentei gerar uma imagem de “um tigre pulando em um pogo stick”, mas ele nem conseguiu gerar o próprio pogo stick
- Mesmo dando a imagem de uma taça de vinho vazia e pedindo para enchê-la com vinho, ele falha
  Esse tipo de manipulação física ainda está além dos modelos, então profissões relacionadas devem continuar seguras por enquanto
- É um teste difícil para modelos locais. gpt-image e NB não tiveram problema, mas só o Qwen-Image chegou perto
  Amostras de vários modelos podem ser vistas aqui
  Modelos pequenos precisam de prompt adicional para representar um objeto específico como “pogo stick”
- Mesmo fornecendo uma imagem de referência, ele ainda falha.
  Se o modelo tivesse capacidade de raciocínio suficiente, poderia complementar o conhecimento por meio de imagens de referência externas, mas ainda não chegou lá
- É um bom prompt de benchmark. O Z-Image Turbo também não desenha bem um pogo stick
  Exemplo do tigre, isso não é um pogo stick, exemplo do Nano Banana Pro
Dizem que o FLUX.2 [klein] 4B é a versão mais rápida da família Klein, projetada para pré-visualização em tempo real ou ambientes de produção sensíveis à latência
Fico curioso sobre que tipo de situação seria esse tipo de ambiente
- Ao usar modelos locais, ninguém quer esperar 10 minutos para gerar uma única imagem
  Especialmente em tarefas de edição de imagem, velocidade é importante
- Provavelmente deve servir bem para edição rápida de imagens
No começo achei que fosse sobre o app F.lux, que deixa a tela alaranjada à noite
Hoje em dia todos os sistemas operacionais já incluem isso por padrão, então ele não é mais necessário
Se enxergarmos modelos de GenAI como implementações compactadas, texto é bem compactado, mas imagens e vídeos não
Mesmo assim, os modelos mais recentes de text-to-image e text-to-video são muito menores do que LLMs como o Llama-3
Isso pode ser porque só treinamos uma faixa estreita e centrada no humano do mundo visual. Ainda existe muito espaço inexplorado de combinações visuais
- Texto permite compactação sem perdas, mas imagem e vídeo têm muito ruído, então a comparação direta é injusta
  Se considerarmos compactação com perdas imperceptíveis para humanos, talvez imagem seja até mais eficiente
- Na prática, imagem e vídeo são compactados muito melhor do que texto
  Texto fica na faixa de 4:1 a 6:1, mas imagens podem passar de 10:1 mantendo perda visual imperceptível, e vídeo é ainda mais eficiente graças à consistência temporal
- Acho que os LLMs ainda têm muito espaço para ganhos de eficiência
  Ao mesmo tempo, não devemos subestimar a quantidade de meta-conhecimento implicitamente contida neles
Fico curioso se alguém aqui já usou o Flux 2 Klein
Eu já parei de correr atrás de modelos novos e estou construindo meu app inteiro só com o Nano Banana Pro
O resultado está bom o suficiente
picxstudio.com
Eu me diverti muito com o Flux 1 e agora estou brincando com o Z-Image Turbo
Quando o Flux2 Klein for adicionado ao Invoke, vou testar
- Concordo. A experiência de usar ZIT no Invoke foi excelente
Fico curioso sobre como é a capacidade de interação dele em comparação com a versão do GPT
Gosto do fato de que, mesmo sendo uma versão pequena, ele foi lançado como código aberto
Isso cria muitas oportunidades, porque dá para rodar sem um orçamento gigantesco
O ganho de velocidade também é bem impressionante

FLUX.2 [klein]: rumo à inteligência visual interativa

Visão geral do FLUX.2 [klein]

Principais características

Composição dos modelos

FLUX.2 [klein] 9B

FLUX.2 [klein] 4B

FLUX.2 [klein] Base 9B / 4B

Versões quantizadas

Análise de desempenho

Visão de inteligência visual interativa

Recursos e formas de acesso

Leituras relacionadas

2 comentários

Comentários do Hacker News