- FLUX.2 é um modelo de geração de imagens de alta qualidade para fluxos de trabalho criativos reais, com suporte à consistência de personagens e estilo entre múltiplas imagens de referência, além de processamento de texto e conformidade com diretrizes de marca
- Permite edição detalhada de imagens em até 4 megapixels de resolução, com controle estável de elementos visuais como iluminação, layout e logotipos
- Por meio de uma estratégia open-core, oferece ao mesmo tempo modelos com pesos abertos e APIs de nível de produção, elevando para a etapa FLUX.2 o ecossistema aberto construído com o FLUX.1
- Novos recursos principais incluem suporte a múltiplas referências, renderização tipográfica refinada, processamento de prompts aprimorado e incorporação de conhecimento baseado no mundo real
- A família de modelos é composta por pro, flex, dev, klein e VAE, com oferta tanto de open weights quanto de API comercial
- A Black Forest Labs busca o avanço aberto da inteligência visual ao combinar pesquisa aberta com infraestrutura comercial
Visão geral do FLUX.2
- O FLUX.2 é um modelo de geração de imagens pensado para ambientes reais de produção, não apenas para demos
- Mantém consistência de personagens e estilo com base em várias imagens de referência
- Segue prompts estruturados e consegue ler e escrever textos complexos
- Lida de forma estável com diretrizes de marca, iluminação, layout e logotipos
- Suporta edição de imagens com detalhamento e consistência preservados em até 4MP de resolução
A filosofia open-core da Black Forest Labs
- Defende o princípio de que a inteligência visual deve evoluir com a participação conjunta de pesquisadores, criadores e desenvolvedores
- Fornece em paralelo modelos com pesos abertos e endpoints de API de nível comercial
- Os modelos abertos incentivam experimentação, redução de custos e maior transparência
- Desde sua fundação em 2024, construiu uma base de inovação aberta com FLUX.1 [dev] e FLUX.1 Kontext [pro]
- O FLUX.1 [dev] é citado como o modelo aberto de imagem mais popular do mundo
- O FLUX.1 Kontext [pro] é usado por equipes importantes como Adobe e Meta
Do FLUX.1 ao FLUX.2
- Se o FLUX.1 mostrou o potencial como ferramenta criativa, o FLUX.2 foca em inovar os fluxos de trabalho de produção
- Reforça precisão, eficiência, controle e realismo, melhorando de forma significativa a viabilidade econômica da geração de imagens
- Como resultado, tende a se consolidar como componente central da infraestrutura criativa
Principais recursos (What’s New)
- Suporte a múltiplas referências: consulta até 10 imagens ao mesmo tempo para manter consistência de personagens, produtos e estilo
- Detalhes finos e realismo: adequado para fotografia de produto, visualização e resultados em nível fotográfico
- Melhor renderização de texto: maior legibilidade em tipografia complexa, infográficos, mockups de UI e mais
- Processamento de prompts reforçado: reflete com precisão prompts com múltiplas estruturas e restrições de composição
- Expansão do conhecimento baseado no mundo real: composição de cenas consistente com base em lógica de iluminação e espacialidade
- Edição em alta resolução: suporte a proporções flexíveis de entrada e saída em até 4MP de resolução
Família FLUX.2
- FLUX.2 [pro]
- Oferece qualidade de imagem, aderência a prompts e fidelidade visual que competem com os melhores modelos fechados
- Destaca-se pela geração rápida e baixo custo, com disponibilidade no BFL Playground, API e plataformas parceiras
- FLUX.2 [flex]
- Modelo em que é possível ajustar diretamente parâmetros como número de steps e guidance scale para otimizar qualidade, velocidade e renderização de texto
- Especialmente forte em representação tipográfica precisa
- FLUX.2 [dev]
- Modelo open weight de 32B, o mais poderoso modelo público atual a oferecer texto→imagem e edição de imagem com múltiplas entradas em um único checkpoint
- Pesos disponíveis no Hugging Face, incluindo implementação otimizada em FP8 em colaboração com NVIDIA e ComfyUI
- Pode ser usado via API em FAL, Replicate, Runware, Verda, TogetherAI, Cloudflare e DeepInfra
- FLUX.2 [klein] (em breve)
- Modelo open source sob Apache 2.0, previsto para ser oferecido como versão leve e de alto desempenho por destilação de tamanho a partir da base FLUX.2
- FLUX.2 – VAE
- Novo VAE que otimiza de forma equilibrada facilidade de treinamento, qualidade e taxa de compressão, sendo um componente central do backbone do FLUX.2
- Disponível no Hugging Face sob licença Apache 2.0
Desempenho e valor
- A família FLUX.2 oferece qualidade de geração de imagem de última geração a preços competitivos
- Entre os modelos com pesos abertos, o FLUX.2 [dev] registrou desempenho superior a todas as alternativas abertas em geração texto-imagem e edição com referência única ou múltipla
- Todos os modelos são gerenciados antes e depois do lançamento segundo princípios de desenvolvimento responsável
Estrutura técnica (How It Works)
- Baseado na arquitetura de latent flow matching, que integra geração e edição de imagens em uma única estrutura
- Combina o modelo visão-linguagem Mistral-3 24B com o Rectified Flow Transformer
- O VLM fornece conhecimento do mundo real e compreensão de contexto
- O transformer lida com relações espaciais, propriedades de materiais e lógica de composição
- É possível combinar até 10 imagens de referência para gerar novos resultados
- O espaço latente do modelo foi reaprendido para melhorar o trilema entre treinabilidade, qualidade e taxa de compressão
Materiais adicionais
Direção futura (Into the New)
- O FLUX.2 é uma etapa rumo a modelos multimodais que integram percepção, geração, memória e raciocínio
- Como tecnologia fundamental da infraestrutura de inteligência visual, busca transformar a forma como percebemos e entendemos o mundo
- No momento, há contratações em andamento em Freiburg e San Francisco
1 comentários
Opiniões no Hacker News
Estão saindo tantos modelos novos com tanta frequência que atualizar o site de comparação de GenAI está quase parecendo uma tarefa de Sísifo
Ainda assim, publiquei os resultados do novo modelo Flux 2 Pro Editing
Dá para conferir na página de resultados
Esse modelo ficou ligeiramente acima do Kontext da BFL e marcou 6 pontos, bem no meio entre os 12 modelos no total
Em breve pretendo adicionar métricas numéricas para uma avaliação mais detalhada
Se quiser comparar apenas Flux 2 Pro, Nano Banana Pro e Kontext, veja este link
Aliás, a BFL aparentemente oferece suporte a uma estrutura JSON para edições mais sofisticadas, então fico curioso se isso pode aumentar ainda mais a precisão
Flux e Gemini Pro 3 receberem a mesma nota piora a qualidade do benchmark
Os modelos da OpenAI têm um toque próprio forte demais, então são fracos em correspondência de estilo, e o Flux varia de desempenho conforme o estilo
O Flux tentou evitar treinamento que fizesse média entre vários estilos, mas isso entra em conflito com o objetivo de gerar imagens visualmente atraentes
No fim, o problema de consistência de estilo parece que vai continuar por um tempo
O Seedream também é impressionante, então na próxima versão parece que deve competir com o Google
A geração de imagens parece quase um problema resolvido
Os novos modelos ficam só no nível intermediário, e o open source também não é tão aberto quanto os modelos chineses
A qualidade de imagem do Flux ainda parece de pele plástica e textura artificial
Mesmo que tecnicamente passe, não acho que eu escolheria Flux em um fluxo de trabalho real
Pode ser um problema de uma equipe de dados sem senso estético
A BFL está numa posição difícil, espremida entre o Google e o ecossistema chinês
Outras empresas de modelos de mídia como RunwayML, PikaLabs e LumaLabs também estão passando por dificuldades semelhantes
A BFL recebeu um grande investimento recentemente, mas ainda assim competir com hiperescaladores continua parecendo pesado demais
Fiquei feliz que o novo modelo também tenha sido lançado em uma versão com pesos abertos
Mas fico curioso sobre o modelo de vídeo SOTA que eles tinham anunciado antes
Ele também foi mencionado no vídeo do YouTube, mas a página relacionada (bfl.ai/up-next) foi removida
Modelos de imagem têm mais casos de uso, e os datasets também são muito mais ricos
Imagens são a base do vídeo e têm muito mais elementos controláveis
Modelos de imagem oferecem feedback rápido e produtividade, e ainda há muito chão pela frente em controle de estilo, pose e consistência
O Midjourney domina na estética, mas carece de controle
O Flux parece plástico, o Imagen tem cara de desenho, e a OpenAI passa uma sensação de tecnologia antiga
No fim, é preciso competir em estética, controle e reprodutibilidade ao mesmo tempo
Vídeo só atrapalha esse trabalho
Testei o Flux 2 Pro diretamente (link do Replicate)
Em comparação com o Nano Banana, não há grande diferença, e frente ao Flux 1.1 Pro é só uma melhoria incremental
Se o Google aumentar preços ou mudar a API, não há alternativa, mas a BFL oferece a opção de execução local
Ele adiciona detalhes desnecessários, como um upscale com ESRGAN (link do teste)
O FLUX.1 Pro Kontext ainda se destaca em expressão artística e capacidade de entender instruções
Isso também pode ser visto no blog de comparação com o Nano Banana
O FLUX.2 [dev] pode ser executado localmente em GPU RTX com versão otimizada em fp8
É bom que mantenham os pesos abertos, mas o tamanho do modelo aumentou de 12B para 32B, o que torna o uso local pesado
Estou esperando uma versão distill
o encoder de texto ocupa 48GB, o modelo de geração 64GB, totalizando mais de 100GB
Isso representa uma grande barreira de entrada para usuários locais
Nesta versão, o encoder de texto é o Mistral-Small-3.2-24B-Instruct-2506, melhor que a combinação anterior de CLIP/T5, mas grande demais
Se tivessem esperado lançar um modelo distillado sob Apache 2.0, teria sido mais fácil diferenciá-lo do Nano Banana
A estrutura de preços também é peculiar — entrada a US$ 0,015 por MP, saída a US$ 0,03 no primeiro MP e depois US$ 0,015 por MP
É bom ver que surgiu um concorrente para o Nano Banana Pro
Isso ajuda a manter a concorrência de preços
Google, OpenAI e Claude não permitem assinatura
Só para constar, a versão open source do FLUX.2-DEV não permite uso comercial
Texto completo da licença
Comparei Nano Banana Pro e Flux 2 Pro com o prompt “family guy cyberpunk 2077”,
e o modelo do Google combinou melhor com a cena de jogo, enquanto o Flux ficou realista demais
O Flux 2 Pro mostrou uma tendência parecida
Mas, com o ecossistema de LoRA e tempo investido em tuning, o Flux 1 Dev ainda é forte em estilização criativa
Há uma versão 18GB 4bit quant disponível em diffusers, então dá para rodar mesmo em ambientes com pouca VRAM