FLUX.2: modelo de próxima geração para geração e edição visual

(bfl.ai)

2 pontos por GN⁺ 2025-11-27 | 1 comentários | Compartilhar no WhatsApp

FLUX.2 é um modelo de geração de imagens de alta qualidade para fluxos de trabalho criativos reais, com suporte à consistência de personagens e estilo entre múltiplas imagens de referência, além de processamento de texto e conformidade com diretrizes de marca
Permite edição detalhada de imagens em até 4 megapixels de resolução, com controle estável de elementos visuais como iluminação, layout e logotipos
Por meio de uma estratégia open-core, oferece ao mesmo tempo modelos com pesos abertos e APIs de nível de produção, elevando para a etapa FLUX.2 o ecossistema aberto construído com o FLUX.1
Novos recursos principais incluem suporte a múltiplas referências, renderização tipográfica refinada, processamento de prompts aprimorado e incorporação de conhecimento baseado no mundo real
A família de modelos é composta por pro, flex, dev, klein e VAE, com oferta tanto de open weights quanto de API comercial
A Black Forest Labs busca o avanço aberto da inteligência visual ao combinar pesquisa aberta com infraestrutura comercial

Visão geral do FLUX.2

O FLUX.2 é um modelo de geração de imagens pensado para ambientes reais de produção, não apenas para demos
- Mantém consistência de personagens e estilo com base em várias imagens de referência
- Segue prompts estruturados e consegue ler e escrever textos complexos
- Lida de forma estável com diretrizes de marca, iluminação, layout e logotipos
Suporta edição de imagens com detalhamento e consistência preservados em até 4MP de resolução

A filosofia open-core da Black Forest Labs

Defende o princípio de que a inteligência visual deve evoluir com a participação conjunta de pesquisadores, criadores e desenvolvedores
Fornece em paralelo modelos com pesos abertos e endpoints de API de nível comercial
- Os modelos abertos incentivam experimentação, redução de custos e maior transparência
Desde sua fundação em 2024, construiu uma base de inovação aberta com FLUX.1 [dev] e FLUX.1 Kontext [pro]
- O FLUX.1 [dev] é citado como o modelo aberto de imagem mais popular do mundo
- O FLUX.1 Kontext [pro] é usado por equipes importantes como Adobe e Meta

Do FLUX.1 ao FLUX.2

Se o FLUX.1 mostrou o potencial como ferramenta criativa, o FLUX.2 foca em inovar os fluxos de trabalho de produção
Reforça precisão, eficiência, controle e realismo, melhorando de forma significativa a viabilidade econômica da geração de imagens
Como resultado, tende a se consolidar como componente central da infraestrutura criativa

Principais recursos (What’s New)

Suporte a múltiplas referências: consulta até 10 imagens ao mesmo tempo para manter consistência de personagens, produtos e estilo
Detalhes finos e realismo: adequado para fotografia de produto, visualização e resultados em nível fotográfico
Melhor renderização de texto: maior legibilidade em tipografia complexa, infográficos, mockups de UI e mais
Processamento de prompts reforçado: reflete com precisão prompts com múltiplas estruturas e restrições de composição
Expansão do conhecimento baseado no mundo real: composição de cenas consistente com base em lógica de iluminação e espacialidade
Edição em alta resolução: suporte a proporções flexíveis de entrada e saída em até 4MP de resolução

Família FLUX.2

FLUX.2 [pro]
- Oferece qualidade de imagem, aderência a prompts e fidelidade visual que competem com os melhores modelos fechados
- Destaca-se pela geração rápida e baixo custo, com disponibilidade no BFL Playground, API e plataformas parceiras
FLUX.2 [flex]
- Modelo em que é possível ajustar diretamente parâmetros como número de steps e guidance scale para otimizar qualidade, velocidade e renderização de texto
- Especialmente forte em representação tipográfica precisa
FLUX.2 [dev]
- Modelo open weight de 32B, o mais poderoso modelo público atual a oferecer texto→imagem e edição de imagem com múltiplas entradas em um único checkpoint
- Pesos disponíveis no Hugging Face, incluindo implementação otimizada em FP8 em colaboração com NVIDIA e ComfyUI
- Pode ser usado via API em FAL, Replicate, Runware, Verda, TogetherAI, Cloudflare e DeepInfra
FLUX.2 [klein] (em breve)
- Modelo open source sob Apache 2.0, previsto para ser oferecido como versão leve e de alto desempenho por destilação de tamanho a partir da base FLUX.2
FLUX.2 – VAE
- Novo VAE que otimiza de forma equilibrada facilidade de treinamento, qualidade e taxa de compressão, sendo um componente central do backbone do FLUX.2
- Disponível no Hugging Face sob licença Apache 2.0

Desempenho e valor

A família FLUX.2 oferece qualidade de geração de imagem de última geração a preços competitivos
Entre os modelos com pesos abertos, o FLUX.2 [dev] registrou desempenho superior a todas as alternativas abertas em geração texto-imagem e edição com referência única ou múltipla
Todos os modelos são gerenciados antes e depois do lançamento segundo princípios de desenvolvimento responsável

Estrutura técnica (How It Works)

Baseado na arquitetura de latent flow matching, que integra geração e edição de imagens em uma única estrutura
Combina o modelo visão-linguagem Mistral-3 24B com o Rectified Flow Transformer
- O VLM fornece conhecimento do mundo real e compreensão de contexto
- O transformer lida com relações espaciais, propriedades de materiais e lógica de composição
É possível combinar até 10 imagens de referência para gerar novos resultados
O espaço latente do modelo foi reaprendido para melhorar o trilema entre treinabilidade, qualidade e taxa de compressão

Materiais adicionais

Direção futura (Into the New)

O FLUX.2 é uma etapa rumo a modelos multimodais que integram percepção, geração, memória e raciocínio
Como tecnologia fundamental da infraestrutura de inteligência visual, busca transformar a forma como percebemos e entendemos o mundo
No momento, há contratações em andamento em Freiburg e San Francisco

1 comentários

GN⁺ 2025-11-27

Opiniões no Hacker News

Estão saindo tantos modelos novos com tanta frequência que atualizar o site de comparação de GenAI está quase parecendo uma tarefa de Sísifo
Ainda assim, publiquei os resultados do novo modelo Flux 2 Pro Editing
Dá para conferir na página de resultados
Esse modelo ficou ligeiramente acima do Kontext da BFL e marcou 6 pontos, bem no meio entre os 12 modelos no total
Em breve pretendo adicionar métricas numéricas para uma avaliação mais detalhada
Se quiser comparar apenas Flux 2 Pro, Nano Banana Pro e Kontext, veja este link
Aliás, a BFL aparentemente oferece suporte a uma estrutura JSON para edições mais sofisticadas, então fico curioso se isso pode aumentar ainda mais a precisão
- Seria bom se o sistema de pontuação mudasse de simples aprovação/reprovação para uma escala de 0 a 10
  Flux e Gemini Pro 3 receberem a mesma nota piora a qualidade do benchmark
- A comparação é útil, mas falta diversidade de estilos
  Os modelos da OpenAI têm um toque próprio forte demais, então são fracos em correspondência de estilo, e o Flux varia de desempenho conforme o estilo
  O Flux tentou evitar treinamento que fizesse média entre vários estilos, mas isso entra em conflito com o objetivo de gerar imagens visualmente atraentes
  No fim, o problema de consistência de estilo parece que vai continuar por um tempo
- No momento, o Google está claramente na frente
  O Seedream também é impressionante, então na próxima versão parece que deve competir com o Google
  A geração de imagens parece quase um problema resolvido
- Há um erro de digitação no site: precisa corrigir s/sttae/state/g
- Fico em dúvida se a BFL ainda tem fôlego para continuar competindo com gigantes como Google e ByteDance (SeeDream)
  Os novos modelos ficam só no nível intermediário, e o open source também não é tão aberto quanto os modelos chineses
  A qualidade de imagem do Flux ainda parece de pele plástica e textura artificial
  Mesmo que tecnicamente passe, não acho que eu escolheria Flux em um fluxo de trabalho real
  Pode ser um problema de uma equipe de dados sem senso estético
  A BFL está numa posição difícil, espremida entre o Google e o ecossistema chinês
  Outras empresas de modelos de mídia como RunwayML, PikaLabs e LumaLabs também estão passando por dificuldades semelhantes
  A BFL recebeu um grande investimento recentemente, mas ainda assim competir com hiperescaladores continua parecendo pesado demais
Fiquei feliz que o novo modelo também tenha sido lançado em uma versão com pesos abertos
Mas fico curioso sobre o modelo de vídeo SOTA que eles tinham anunciado antes
Ele também foi mencionado no vídeo do YouTube, mas a página relacionada (bfl.ai/up-next) foi removida
- Como startup, decidiram pivotar para focar em modelos de imagem em vez de vídeo
  Modelos de imagem têm mais casos de uso, e os datasets também são muito mais ricos
- Pelo que ouvi dizer, o treinamento do modelo de vídeo terminou em um grande fracasso, e o projeto foi cancelado
- Modelos de imagem continuam sendo um eixo central da tecnologia
  Imagens são a base do vídeo e têm muito mais elementos controláveis
  Modelos de imagem oferecem feedback rápido e produtividade, e ainda há muito chão pela frente em controle de estilo, pose e consistência
  O Midjourney domina na estética, mas carece de controle
  O Flux parece plástico, o Imagen tem cara de desenho, e a OpenAI passa uma sensação de tecnologia antiga
  No fim, é preciso competir em estética, controle e reprodutibilidade ao mesmo tempo
  Vídeo só atrapalha esse trabalho
Testei o Flux 2 Pro diretamente (link do Replicate)
Em comparação com o Nano Banana, não há grande diferença, e frente ao Flux 1.1 Pro é só uma melhoria incremental
- A consistência com o prompt melhorou, mas a qualidade da imagem parece mais artificial
- O guia de prompts do Flux 2 recomenda por padrão prompts em JSON e especificação de cores em HEX
- Ao ativar o prompt upsampling, a capacidade de inferência melhora, mas quando está desativado saem resultados sem sentido
- A API do Flux 2 tem alta sensibilidade a questões de IP, e há casos que só passam com o upsampling ligado (exemplo)
- Custo e velocidade são parecidos com os do Nano Banana, mas ao usar entrada de imagem o Flux 2 Pro sai mais caro
- Entre Flux 1.1 e 2, não há superioridade objetiva nos resultados
- A simples possibilidade de rodar o Flux localmente já é uma vantagem
  Se o Google aumentar preços ou mudar a API, não há alternativa, mas a BFL oferece a opção de execução local
- A saída em alta resolução (4K) do Flux 2 Pro às vezes acaba causando problemas
  Ele adiciona detalhes desnecessários, como um upscale com ESRGAN (link do teste)
- A versão Flux 2 Dev não tem censura de IP
O FLUX.1 Pro Kontext ainda se destaca em expressão artística e capacidade de entender instruções
Isso também pode ser visto no blog de comparação com o Nano Banana
O FLUX.2 [dev] pode ser executado localmente em GPU RTX com versão otimizada em fp8
É bom que mantenham os pesos abertos, mas o tamanho do modelo aumentou de 12B para 32B, o que torna o uso local pesado
Estou esperando uma versão distill
- Pela página no Hugging Face,
  o encoder de texto ocupa 48GB, o modelo de geração 64GB, totalizando mais de 100GB
  Isso representa uma grande barreira de entrada para usuários locais
Nesta versão, o encoder de texto é o Mistral-Small-3.2-24B-Instruct-2506, melhor que a combinação anterior de CLIP/T5, mas grande demais
Se tivessem esperado lançar um modelo distillado sob Apache 2.0, teria sido mais fácil diferenciá-lo do Nano Banana
A estrutura de preços também é peculiar — entrada a US$ 0,015 por MP, saída a US$ 0,03 no primeiro MP e depois US$ 0,015 por MP
- O Qwen-Image-Edit-2511 deve sair na próxima semana sob Apache 2.0, então parece que a BFL se apressou para lançar o seu
- O CLIP foi, na prática, uma escolha sem sentido. Mesmo zerando os pesos, o resultado quase não mudava
- A combinação CLIP+T5 era usada por muitos modelos de geração de imagem na época. Não era uma escolha estranha
- Ao tentar cuidar da estratégia de GTM, parece que o mercado europeu saiu perdendo
É bom ver que surgiu um concorrente para o Nano Banana Pro
Isso ajuda a manter a concorrência de preços
- Em regiões como Hong Kong, onde o uso de modelos americanos é restrito, esse tipo de alternativa é especialmente importante
  Google, OpenAI e Claude não permitem assinatura
- Também é bom ver uma empresa europeia se destacando
Só para constar, a versão open source do FLUX.2-DEV não permite uso comercial
Texto completo da licença
Comparei Nano Banana Pro e Flux 2 Pro com o prompt “family guy cyberpunk 2077”,
e o modelo do Google combinou melhor com a cena de jogo, enquanto o Flux ficou realista demais
- O Flux foi ajustado para um dataset centrado em fotos, por isso é fraco em estilos artísticos
  O Flux 2 Pro mostrou uma tendência parecida
  Mas, com o ecossistema de LoRA e tempo investido em tuning, o Flux 1 Dev ainda é forte em estilização criativa
Há uma versão 18GB 4bit quant disponível em diffusers, então dá para rodar mesmo em ambientes com pouca VRAM

FLUX.2: modelo de próxima geração para geração e edição visual

Visão geral do FLUX.2

A filosofia open-core da Black Forest Labs

Do FLUX.1 ao FLUX.2

Principais recursos (What’s New)

Família FLUX.2

Desempenho e valor

Estrutura técnica (How It Works)

Materiais adicionais

Direção futura (Into the New)

Leituras relacionadas

1 comentários

Opiniões no Hacker News