- FLUX.2 [klein] é uma família de modelos visuais ultrarrápidos que integra geração e edição de imagens, oferecendo velocidade de inferência abaixo de 1 segundo e compatibilidade com GPUs de consumo
- Suporta texto-para-imagem, edição de imagens e geração com múltiplas referências em uma arquitetura única, mantendo qualidade em nível de modelos grandes
- O modelo 9B é disponibilizado sob a licença FLUX NCL, e o modelo 4B sob a licença Apache 2.0, facilitando o acesso de desenvolvedores e a customização
- As versões quantizadas FP8·NVFP4 foram criadas em colaboração com a NVIDIA, reduzindo o uso de VRAM em até 55% e aumentando a velocidade em até 2,7x
- Como um passo em direção à visão de “inteligência visual interativa”, voltada para geração em tempo real e interação, pode ser aplicado a ferramentas de design e criação de conteúdo em tempo real
Visão geral do FLUX.2 [klein]
- FLUX.2 [klein] é a família de modelos de geração de imagens mais rápida lançada pela Black Forest Labs, unificando geração e edição em uma única estrutura
- A velocidade de inferência end-to-end é de menos de 1 segundo, gerando imagens de alta qualidade em tempo real
- Pode rodar com apenas 13 GB de VRAM, o que permite execução em GPUs como RTX 3090/4070
- O nome do modelo, “klein”, significa “pequeno” em alemão, indicando uma estrutura compacta e baixa latência
- Ainda assim, o desempenho é comparável ao de modelos grandes, com suporte a geração texto-para-imagem, edição e geração com múltiplas referências
Principais características
- Geração ou edição de imagens com inferência abaixo de 0,5 segundo
- Oferece realismo em nível fotográfico e alta diversidade
- Arquitetura de modelo unificada para executar tarefas de texto-para-imagem, imagem-para-imagem e múltiplas referências em um único modelo
- Compatibilidade com GPUs de consumo: o modelo 4B opera com cerca de 13 GB de VRAM
- Mais amigável para desenvolvedores: o modelo 4B é lançado sob Apache 2.0, e o modelo 9B sob FLUX NCL
- Com API e pesos abertos, permite tanto execução local quanto implantação em produção
Composição dos modelos
FLUX.2 [klein] 9B
- Modelo principal, que define o equilíbrio entre qualidade e latência
- Em texto-para-imagem, edição com referência única e geração com múltiplas referências, entrega desempenho equivalente ou superior a modelos 5 vezes maiores
- Velocidade de inferência de menos de 0,5 segundo
- Baseado em um modelo de fluxo 9B e no text embedder Qwen3 8B
- Estrutura de inferência em 4 etapas (step-distilled) para maximizar a eficiência
- Licença: FLUX NCL
FLUX.2 [klein] 4B
- Modelo totalmente aberto sob licença Apache 2.0
- Pode ser executado em GPUs de consumo como RTX 3090/4070
- Suporta texto-para-imagem (T2I), imagem-para-imagem (I2I) e geração com múltiplas referências
- Embora compacto, oferece alta qualidade em relação ao tamanho
- Adequado para desenvolvimento local e implantação na edge
FLUX.2 [klein] Base 9B / 4B
- Versões não destiladas (full-capacity), que preservam totalmente os sinais de treinamento
- Adequadas para fine-tuning, treinamento com LoRA e pipelines de pesquisa
- Têm maior diversidade de saída do que os modelos destilados
- Licença: Base 4B sob Apache 2.0, Base 9B sob FLUX NCL
Versões quantizadas
- Lançadas em colaboração com a NVIDIA nas versões FP8 e NVFP4
- FP8: até 1,6x mais rápido e 40% menos VRAM
- NVFP4: até 2,7x mais rápido e 55% menos VRAM
- Benchmark T2I em 1024×1024 realizado com RTX 5080/5090
- Mantêm a mesma estrutura de licenciamento: 4B sob Apache 2.0, 9B sob FLUX NCL
Análise de desempenho
- FLUX.2 [klein] alcança qualidade equivalente ou superior ao Qwen, com menor latência e menor uso de VRAM
- Supera o Z-Image e oferece suporte a texto-para-imagem e edição com múltiplas referências em um único modelo
- A versão Base é um pouco mais lenta, mas oferece maior potencial de customização e adequação para pesquisa
- As medições de velocidade foram realizadas em ambiente GB200 (bf16)
Visão de inteligência visual interativa
- FLUX.2 [klein] vai além de um simples aumento de velocidade e representa um avanço rumo à inteligência visual interativa em tempo real
- Busca um sistema em que a IA possa ver, criar e iterar
- Isso abre possibilidades para novas aplicações, como ferramentas de design em tempo real, raciocínio visual e criação interativa de conteúdo
Recursos e formas de acesso
2 comentários
Ah, então no Mac não vai dar. Diz
No GPU or XPU foundhaha,,Comentários do Hacker News
Ainda não consegui adicionar o Klein ao meu site GenAI Showdown
Mas, se for parecido com o Z-Image Turbo, o desempenho deve ser excelente
Para referência, o Z-Image Turbo recebeu 4 pontos de 15, e isso é bem impressionante considerando que um modelo muito maior, o Flux.2 (32b), marcou apenas 1 ponto a mais
Os resultados da comparação de modelos locais podem ser vistos aqui
Testes baseados em dados estruturados podem gerar falsa confiança. Agora, simples text-to-image já não é um bom benchmark
É surpreendente ver os modelos ficando cada vez menores, mas com qualidade e eficiência maiores
O Z-Image Turbo é realmente incrível, e quero testar este modelo logo
Um tópico anterior relacionado pode ser visto aqui
Um modelo de 100 GB é difícil de baixar e executar, mas um modelo de 4 GB pode ser testado imediatamente pela maioria dos desenvolvedores
A diferença é especialmente grande na representação de pessoas, artistas e objetos específicos
Depois do GPT 3.5, o Deepseek foi treinado com custo muito menor, e agora já existem modelos rodando em notebook que superam o 3.5. Fico me perguntando até onde isso pode ser reduzido
Este modelo não consegue criar uma imagem de pogo stick
Tentei gerar uma imagem de “um tigre pulando em um pogo stick”, mas ele nem conseguiu gerar o próprio pogo stick
Esse tipo de manipulação física ainda está além dos modelos, então profissões relacionadas devem continuar seguras por enquanto
Amostras de vários modelos podem ser vistas aqui
Modelos pequenos precisam de prompt adicional para representar um objeto específico como “pogo stick”
Se o modelo tivesse capacidade de raciocínio suficiente, poderia complementar o conhecimento por meio de imagens de referência externas, mas ainda não chegou lá
Exemplo do tigre, isso não é um pogo stick, exemplo do Nano Banana Pro
Dizem que o FLUX.2 [klein] 4B é a versão mais rápida da família Klein, projetada para pré-visualização em tempo real ou ambientes de produção sensíveis à latência
Fico curioso sobre que tipo de situação seria esse tipo de ambiente
Especialmente em tarefas de edição de imagem, velocidade é importante
No começo achei que fosse sobre o app F.lux, que deixa a tela alaranjada à noite
Hoje em dia todos os sistemas operacionais já incluem isso por padrão, então ele não é mais necessário
Se enxergarmos modelos de GenAI como implementações compactadas, texto é bem compactado, mas imagens e vídeos não
Mesmo assim, os modelos mais recentes de text-to-image e text-to-video são muito menores do que LLMs como o Llama-3
Isso pode ser porque só treinamos uma faixa estreita e centrada no humano do mundo visual. Ainda existe muito espaço inexplorado de combinações visuais
Se considerarmos compactação com perdas imperceptíveis para humanos, talvez imagem seja até mais eficiente
Texto fica na faixa de 4:1 a 6:1, mas imagens podem passar de 10:1 mantendo perda visual imperceptível, e vídeo é ainda mais eficiente graças à consistência temporal
Ao mesmo tempo, não devemos subestimar a quantidade de meta-conhecimento implicitamente contida neles
Fico curioso se alguém aqui já usou o Flux 2 Klein
Eu já parei de correr atrás de modelos novos e estou construindo meu app inteiro só com o Nano Banana Pro
O resultado está bom o suficiente
picxstudio.com
Eu me diverti muito com o Flux 1 e agora estou brincando com o Z-Image Turbo
Quando o Flux2 Klein for adicionado ao Invoke, vou testar
Fico curioso sobre como é a capacidade de interação dele em comparação com a versão do GPT
Gosto do fato de que, mesmo sendo uma versão pequena, ele foi lançado como código aberto
Isso cria muitas oportunidades, porque dá para rodar sem um orçamento gigantesco
O ganho de velocidade também é bem impressionante