2 pontos por GN⁺ 2025-11-27 | 1 comentários | Compartilhar no WhatsApp
  • FLUX.2 é um modelo de geração de imagens de alta qualidade para fluxos de trabalho criativos reais, com suporte à consistência de personagens e estilo entre múltiplas imagens de referência, além de processamento de texto e conformidade com diretrizes de marca
  • Permite edição detalhada de imagens em até 4 megapixels de resolução, com controle estável de elementos visuais como iluminação, layout e logotipos
  • Por meio de uma estratégia open-core, oferece ao mesmo tempo modelos com pesos abertos e APIs de nível de produção, elevando para a etapa FLUX.2 o ecossistema aberto construído com o FLUX.1
  • Novos recursos principais incluem suporte a múltiplas referências, renderização tipográfica refinada, processamento de prompts aprimorado e incorporação de conhecimento baseado no mundo real
  • A família de modelos é composta por pro, flex, dev, klein e VAE, com oferta tanto de open weights quanto de API comercial
  • A Black Forest Labs busca o avanço aberto da inteligência visual ao combinar pesquisa aberta com infraestrutura comercial

Visão geral do FLUX.2

  • O FLUX.2 é um modelo de geração de imagens pensado para ambientes reais de produção, não apenas para demos
    • Mantém consistência de personagens e estilo com base em várias imagens de referência
    • Segue prompts estruturados e consegue ler e escrever textos complexos
    • Lida de forma estável com diretrizes de marca, iluminação, layout e logotipos
  • Suporta edição de imagens com detalhamento e consistência preservados em até 4MP de resolução

A filosofia open-core da Black Forest Labs

  • Defende o princípio de que a inteligência visual deve evoluir com a participação conjunta de pesquisadores, criadores e desenvolvedores
  • Fornece em paralelo modelos com pesos abertos e endpoints de API de nível comercial
    • Os modelos abertos incentivam experimentação, redução de custos e maior transparência
  • Desde sua fundação em 2024, construiu uma base de inovação aberta com FLUX.1 [dev] e FLUX.1 Kontext [pro]
    • O FLUX.1 [dev] é citado como o modelo aberto de imagem mais popular do mundo
    • O FLUX.1 Kontext [pro] é usado por equipes importantes como Adobe e Meta

Do FLUX.1 ao FLUX.2

  • Se o FLUX.1 mostrou o potencial como ferramenta criativa, o FLUX.2 foca em inovar os fluxos de trabalho de produção
  • Reforça precisão, eficiência, controle e realismo, melhorando de forma significativa a viabilidade econômica da geração de imagens
  • Como resultado, tende a se consolidar como componente central da infraestrutura criativa

Principais recursos (What’s New)

  • Suporte a múltiplas referências: consulta até 10 imagens ao mesmo tempo para manter consistência de personagens, produtos e estilo
  • Detalhes finos e realismo: adequado para fotografia de produto, visualização e resultados em nível fotográfico
  • Melhor renderização de texto: maior legibilidade em tipografia complexa, infográficos, mockups de UI e mais
  • Processamento de prompts reforçado: reflete com precisão prompts com múltiplas estruturas e restrições de composição
  • Expansão do conhecimento baseado no mundo real: composição de cenas consistente com base em lógica de iluminação e espacialidade
  • Edição em alta resolução: suporte a proporções flexíveis de entrada e saída em até 4MP de resolução

Família FLUX.2

  • FLUX.2 [pro]
    • Oferece qualidade de imagem, aderência a prompts e fidelidade visual que competem com os melhores modelos fechados
    • Destaca-se pela geração rápida e baixo custo, com disponibilidade no BFL Playground, API e plataformas parceiras
  • FLUX.2 [flex]
    • Modelo em que é possível ajustar diretamente parâmetros como número de steps e guidance scale para otimizar qualidade, velocidade e renderização de texto
    • Especialmente forte em representação tipográfica precisa
  • FLUX.2 [dev]
    • Modelo open weight de 32B, o mais poderoso modelo público atual a oferecer texto→imagem e edição de imagem com múltiplas entradas em um único checkpoint
    • Pesos disponíveis no Hugging Face, incluindo implementação otimizada em FP8 em colaboração com NVIDIA e ComfyUI
    • Pode ser usado via API em FAL, Replicate, Runware, Verda, TogetherAI, Cloudflare e DeepInfra
  • FLUX.2 [klein] (em breve)
    • Modelo open source sob Apache 2.0, previsto para ser oferecido como versão leve e de alto desempenho por destilação de tamanho a partir da base FLUX.2
  • FLUX.2 – VAE
    • Novo VAE que otimiza de forma equilibrada facilidade de treinamento, qualidade e taxa de compressão, sendo um componente central do backbone do FLUX.2
    • Disponível no Hugging Face sob licença Apache 2.0

Desempenho e valor

  • A família FLUX.2 oferece qualidade de geração de imagem de última geração a preços competitivos
  • Entre os modelos com pesos abertos, o FLUX.2 [dev] registrou desempenho superior a todas as alternativas abertas em geração texto-imagem e edição com referência única ou múltipla
  • Todos os modelos são gerenciados antes e depois do lançamento segundo princípios de desenvolvimento responsável

Estrutura técnica (How It Works)

  • Baseado na arquitetura de latent flow matching, que integra geração e edição de imagens em uma única estrutura
  • Combina o modelo visão-linguagem Mistral-3 24B com o Rectified Flow Transformer
    • O VLM fornece conhecimento do mundo real e compreensão de contexto
    • O transformer lida com relações espaciais, propriedades de materiais e lógica de composição
  • É possível combinar até 10 imagens de referência para gerar novos resultados
  • O espaço latente do modelo foi reaprendido para melhorar o trilema entre treinabilidade, qualidade e taxa de compressão

Materiais adicionais

Direção futura (Into the New)

  • O FLUX.2 é uma etapa rumo a modelos multimodais que integram percepção, geração, memória e raciocínio
  • Como tecnologia fundamental da infraestrutura de inteligência visual, busca transformar a forma como percebemos e entendemos o mundo
  • No momento, há contratações em andamento em Freiburg e San Francisco

1 comentários

 
GN⁺ 2025-11-27
Opiniões no Hacker News
  • Estão saindo tantos modelos novos com tanta frequência que atualizar o site de comparação de GenAI está quase parecendo uma tarefa de Sísifo
    Ainda assim, publiquei os resultados do novo modelo Flux 2 Pro Editing
    Dá para conferir na página de resultados
    Esse modelo ficou ligeiramente acima do Kontext da BFL e marcou 6 pontos, bem no meio entre os 12 modelos no total
    Em breve pretendo adicionar métricas numéricas para uma avaliação mais detalhada
    Se quiser comparar apenas Flux 2 Pro, Nano Banana Pro e Kontext, veja este link
    Aliás, a BFL aparentemente oferece suporte a uma estrutura JSON para edições mais sofisticadas, então fico curioso se isso pode aumentar ainda mais a precisão

    • Seria bom se o sistema de pontuação mudasse de simples aprovação/reprovação para uma escala de 0 a 10
      Flux e Gemini Pro 3 receberem a mesma nota piora a qualidade do benchmark
    • A comparação é útil, mas falta diversidade de estilos
      Os modelos da OpenAI têm um toque próprio forte demais, então são fracos em correspondência de estilo, e o Flux varia de desempenho conforme o estilo
      O Flux tentou evitar treinamento que fizesse média entre vários estilos, mas isso entra em conflito com o objetivo de gerar imagens visualmente atraentes
      No fim, o problema de consistência de estilo parece que vai continuar por um tempo
    • No momento, o Google está claramente na frente
      O Seedream também é impressionante, então na próxima versão parece que deve competir com o Google
      A geração de imagens parece quase um problema resolvido
    • Há um erro de digitação no site: precisa corrigir s/sttae/state/g
    • Fico em dúvida se a BFL ainda tem fôlego para continuar competindo com gigantes como Google e ByteDance (SeeDream)
      Os novos modelos ficam só no nível intermediário, e o open source também não é tão aberto quanto os modelos chineses
      A qualidade de imagem do Flux ainda parece de pele plástica e textura artificial
      Mesmo que tecnicamente passe, não acho que eu escolheria Flux em um fluxo de trabalho real
      Pode ser um problema de uma equipe de dados sem senso estético
      A BFL está numa posição difícil, espremida entre o Google e o ecossistema chinês
      Outras empresas de modelos de mídia como RunwayML, PikaLabs e LumaLabs também estão passando por dificuldades semelhantes
      A BFL recebeu um grande investimento recentemente, mas ainda assim competir com hiperescaladores continua parecendo pesado demais
  • Fiquei feliz que o novo modelo também tenha sido lançado em uma versão com pesos abertos
    Mas fico curioso sobre o modelo de vídeo SOTA que eles tinham anunciado antes
    Ele também foi mencionado no vídeo do YouTube, mas a página relacionada (bfl.ai/up-next) foi removida

    • Como startup, decidiram pivotar para focar em modelos de imagem em vez de vídeo
      Modelos de imagem têm mais casos de uso, e os datasets também são muito mais ricos
    • Pelo que ouvi dizer, o treinamento do modelo de vídeo terminou em um grande fracasso, e o projeto foi cancelado
    • Modelos de imagem continuam sendo um eixo central da tecnologia
      Imagens são a base do vídeo e têm muito mais elementos controláveis
      Modelos de imagem oferecem feedback rápido e produtividade, e ainda há muito chão pela frente em controle de estilo, pose e consistência
      O Midjourney domina na estética, mas carece de controle
      O Flux parece plástico, o Imagen tem cara de desenho, e a OpenAI passa uma sensação de tecnologia antiga
      No fim, é preciso competir em estética, controle e reprodutibilidade ao mesmo tempo
      Vídeo só atrapalha esse trabalho
  • Testei o Flux 2 Pro diretamente (link do Replicate)
    Em comparação com o Nano Banana, não há grande diferença, e frente ao Flux 1.1 Pro é só uma melhoria incremental

    • A consistência com o prompt melhorou, mas a qualidade da imagem parece mais artificial
    • O guia de prompts do Flux 2 recomenda por padrão prompts em JSON e especificação de cores em HEX
    • Ao ativar o prompt upsampling, a capacidade de inferência melhora, mas quando está desativado saem resultados sem sentido
    • A API do Flux 2 tem alta sensibilidade a questões de IP, e há casos que só passam com o upsampling ligado (exemplo)
    • Custo e velocidade são parecidos com os do Nano Banana, mas ao usar entrada de imagem o Flux 2 Pro sai mais caro
    • Entre Flux 1.1 e 2, não há superioridade objetiva nos resultados
    • A simples possibilidade de rodar o Flux localmente já é uma vantagem
      Se o Google aumentar preços ou mudar a API, não há alternativa, mas a BFL oferece a opção de execução local
    • A saída em alta resolução (4K) do Flux 2 Pro às vezes acaba causando problemas
      Ele adiciona detalhes desnecessários, como um upscale com ESRGAN (link do teste)
    • A versão Flux 2 Dev não tem censura de IP
  • O FLUX.1 Pro Kontext ainda se destaca em expressão artística e capacidade de entender instruções
    Isso também pode ser visto no blog de comparação com o Nano Banana

  • O FLUX.2 [dev] pode ser executado localmente em GPU RTX com versão otimizada em fp8
    É bom que mantenham os pesos abertos, mas o tamanho do modelo aumentou de 12B para 32B, o que torna o uso local pesado
    Estou esperando uma versão distill

    • Pela página no Hugging Face,
      o encoder de texto ocupa 48GB, o modelo de geração 64GB, totalizando mais de 100GB
      Isso representa uma grande barreira de entrada para usuários locais
  • Nesta versão, o encoder de texto é o Mistral-Small-3.2-24B-Instruct-2506, melhor que a combinação anterior de CLIP/T5, mas grande demais
    Se tivessem esperado lançar um modelo distillado sob Apache 2.0, teria sido mais fácil diferenciá-lo do Nano Banana
    A estrutura de preços também é peculiar — entrada a US$ 0,015 por MP, saída a US$ 0,03 no primeiro MP e depois US$ 0,015 por MP

    • O Qwen-Image-Edit-2511 deve sair na próxima semana sob Apache 2.0, então parece que a BFL se apressou para lançar o seu
    • O CLIP foi, na prática, uma escolha sem sentido. Mesmo zerando os pesos, o resultado quase não mudava
    • A combinação CLIP+T5 era usada por muitos modelos de geração de imagem na época. Não era uma escolha estranha
    • Ao tentar cuidar da estratégia de GTM, parece que o mercado europeu saiu perdendo
  • É bom ver que surgiu um concorrente para o Nano Banana Pro
    Isso ajuda a manter a concorrência de preços

    • Em regiões como Hong Kong, onde o uso de modelos americanos é restrito, esse tipo de alternativa é especialmente importante
      Google, OpenAI e Claude não permitem assinatura
    • Também é bom ver uma empresa europeia se destacando
  • Só para constar, a versão open source do FLUX.2-DEV não permite uso comercial
    Texto completo da licença

  • Comparei Nano Banana Pro e Flux 2 Pro com o prompt “family guy cyberpunk 2077”,
    e o modelo do Google combinou melhor com a cena de jogo, enquanto o Flux ficou realista demais

    • O Flux foi ajustado para um dataset centrado em fotos, por isso é fraco em estilos artísticos
      O Flux 2 Pro mostrou uma tendência parecida
      Mas, com o ecossistema de LoRA e tempo investido em tuning, o Flux 1 Dev ainda é forte em estilização criativa
  • Há uma versão 18GB 4bit quant disponível em diffusers, então dá para rodar mesmo em ambientes com pouca VRAM