FLUX.1 Kontext - modelo de IA para geração e edição em tempo real combinando texto e imagens

(bfl.ai)

3 pontos por GN⁺ 2025-05-30 | 1 comentários | Compartilhar no WhatsApp

O FLUX.1 Kontext, da Black Forest Labs, é um modelo generativo de IA de última geração que recebe texto e imagens ao mesmo tempo, entende o contexto e permite editar e gerar instantaneamente preservando características e estilo de imagens existentes
Em comparação com algoritmos tradicionais de geração texto-imagem, apresenta desempenho superior em consistência de texto e objetos, edição local, referência de estilo e resposta em alta velocidade
Os usuários podem inserir apenas texto ou combinar imagem e texto para alterar somente áreas específicas, aplicar apenas o estilo, realizar edições em múltiplas etapas e outros tipos de trabalho interativo com imagens
O FLUX.1 Kontext [pro] mantém a consistência da imagem mesmo após várias edições e opera com velocidade líder do setor
A versão open source [dev] é um transformer de difusão leve de 12B, disponibilizado em beta privado para pesquisa e customização

Introdução ao FLUX.1 Kontext

O FLUX.1 Kontext vai além das limitações dos modelos anteriores que geravam imagens apenas com texto, sendo um modelo generativo de flow matching capaz de geração e edição de imagens com base em contexto ao receber texto e imagens em conjunto
Usando simultaneamente prompts de texto e imagens, é possível remover/adicionar/alterar elementos específicos da imagem e gerar novas cenas mantendo estilo ou características

Principais recursos

Consistência de personagens: a mesma pessoa, objeto ou estilo é mantido de forma consistente em diferentes cenas e ambientes
Edição local: é possível modificar apenas partes específicas da imagem com comandos de texto (ex.: remover apenas um elemento específico do rosto, alterar apenas as letras etc.)
Referência de estilo: permite aplicar o estilo distinto de uma imagem de referência a uma nova cena
Velocidade interativa: oferece suporte a edição e geração em tempo real com inferência até 8 vezes mais rápida que modelos anteriores

Integração entre edição texto-imagem e imagem-imagem

O FLUX.1 Kontext mantém a qualidade e as características da imagem não só em uma única edição, mas também diante de instruções iterativas em múltiplas etapas
Aproveitando continuamente o prompt e os resultados de imagens anteriores, é possível chegar ao resultado desejado passo a passo

Linha de modelos FLUX.1 Kontext

FLUX.1 Kontext [pro]
- Modelo flagship especializado em edição e geração rápida e iterativa
- Recebe simultaneamente texto e imagens de referência para realizar edição de áreas-alvo e transformações complexas de cena com rapidez e consistência
FLUX.1 Kontext [max]
- Modelo experimental de especificação máxima, com melhor compreensão de prompts, tipografia e capacidade de edição consistente em alta velocidade
FLUX.1 Kontext [dev]
- Modelo leve (12B) para pesquisa e customização, disponibilizado em beta privado
- Quando lançado, deverá ser oferecido por grandes parceiros de infraestrutura de IA como FAL, Replicate, Runware, DataCrunch, TogetherAI e HuggingFace

Suporte e acesso

A série FLUX.1 Kontext pode ser usada em vários serviços como KreaAI, Freepik, Lightricks, OpenArt e LeonardoAI, além de infraestruturas como FAL, Replicate, Runware, DataCrunch, TogetherAI e ComfyOrg
Por meio do FLUX Playground (https://playground.bfl.ai/), voltado para testes e demos em tempo real, é possível verificar facilmente o desempenho do modelo e conferir os resultados sem necessidade de integração adicional

Avaliação de desempenho

No benchmark próprio KontextBench, foi comparado com modelos SOTA em 6 tarefas de geração e edição de imagens
Registrou pontuações de nível líder da indústria nas áreas de edição de texto e preservação de personagens
A velocidade de inferência também alcançou latência esmagadoramente menor em relação aos modelos de melhor desempenho anteriores
Também demonstrou competitividade em vários critérios, como acabamento estético, compreensão de prompts, tipografia e realismo

Limitações e próximos desafios

Em edições iterativas de múltiplas etapas (mais de 6 vezes), podem surgir ruídos visuais (artifacts), reduzindo a qualidade da imagem
Ocasionalmente, pode haver casos em que o modelo não segue com precisão instruções detalhadas de determinados prompts
Há limitações em conhecimento de mundo e compreensão de contexto, o que pode levar à geração de imagens contextualmente imprecisas
No processo de compactação do modelo e distillation, a qualidade da imagem pode cair

Qualquer pessoa pode testar o modelo em tempo real no FLUX Playground e validar os recursos antes de adotar a API
Ver o relatório técnico completo (PDF)

1 comentários

GN⁺ 2025-05-30

Opiniões no Hacker News

Testei pessoalmente e vivi um fenômeno divertido de “deslizamento de contexto” imagem relacionada. Criei, com um prompt de geração, uma imagem de uma nave espacial pousando em um planeta isolado e pedi a edição: “deixe a nave mais colorida e mostre-a maior na imagem”. Aí a nave espacial virou um navio porta-contêineres. Como o histórico do chat estava lá, o modelo deveria ter entendido que eu queria uma nave espacial, mas perdeu um contexto importante e acabou gerando um resultado nada a ver.
Estou testando diretamente pelo endpoint FLUX Kontext Pro da Replicate. Também existe um app da Replicate que mostra vários usos de edição de imagem do FLUX Kontext: FLUX Kontext Apps. A qualidade de imagem, em geração simples de image-to-image, fica em um nível parecido com a geração de imagens do GPT-4o. A velocidade também é rápida, cerca de 4 segundos. O prompt engineering parece um pouco complicado fora dos exemplos, mas acho que vai melhorar com o tempo. Mudanças de estilo ou pedidos detalhados até são aplicados, mas quanto mais específicas as instruções, maior a tendência de ele ignorar os requisitos mais detalhados.
- Em termos de preservação dos atributos originais, o modelo FLUX parece mais preciso que o 4o. Se você pede para mudar só a iluminação de um personagem animal 3D já existente, o 4o costuma estragar o rosto do personagem e mexer no corpo ou em outros detalhes, enquanto o FLUX mantém a forma visível quase perfeitamente idêntica, mesmo com mudanças grandes de pose ou iluminação.
- Em experimentos de image-to-image, ele impressiona mais que o GPT-4o. O 4o tem uma fixação forte por tons sépia e, em edições repetidas, fica ainda mais evidente que a imagem foi gerada por ele. Já a versão FLUX.1 Kontext Max trabalha com uma gama de cores bem mais ampla e variada, além de captar pequenos detalhes que o 4o deixaria passar. Ainda não testei gerar imagens novas só por prompt. Mas, para editar imagens existentes via prompt, o FLUX parece muito superior.
- Gosto muito do fato de a Replicate quase sempre disponibilizar os modelos mais recentes imediatamente. Nesta era de IA em rápida evolução, é incrível ver novas versões de pesquisa sendo publicadas como API na hora e podendo ser usadas em produção em escala. Distribuidores como a Replicate parecem multiplicar várias vezes o impacto do lançamento desses modelos.
- Fiquei curioso sobre essa marca de cerca de 4 segundos: em qual GPU e quantidade de VRAM isso foi medido? Você está falando da UI do Hugging Face por acaso?
Algumas amostras parecem mostrar só os resultados bons demais para ser verdade. Alguém aqui usou o app de headshots profissionais do “Kontext Apps”? link do Kontext Apps. Coloquei várias fotos minhas e, em todas, eu virava uma pessoa completamente diferente. O resultado final do headshot com certeza parece profissional.
- No playground do flux, testei um prompt de headshot usando uma selfie cansada na academia, e ele manteve a maior parte da minha aparência — mesma expressão, suor, tom de pele etc. Parecia quase só uma troca de fundo. Quando expandi o pedido para “transforme isso em um bom headshot para redes sociais, com sorriso, boa postura e roupa adequada, pele limpa sem suor etc.”, ele só trocou a roupa e adicionou um sorriso estranho. Isso bate com o tipo de resultado que normalmente sai dessas imagens.
- Fiquei curioso se a proporção entre a imagem de entrada e a de saída era a mesma. Parece que, quando a proporção é forçada a mudar, surgem essas bizarrices.
- Preservação de identidade, especialmente do rosto, é um problema que ninguém resolveu perfeitamente. Mãos também. É um desafio científico.
Estou pensando se adiciono os modelos FLUX Kontext ao meu site de comparação de imagens GenAI. A versão Max pontua quase o dobro em fidelidade ao prompt, mas ainda assim fica bem atrás do gpt-image-1 da OpenAI (desconsiderando qualidade de imagem). O gpt-image-1 está em 1º no ranking. Continuo mantendo o Flux 1.D como baseline para capacidade local de GenAI. site de comparação. Também adicionei recentemente o modelo Image 2.0 da Hunyuan, mas, como é um modelo em tempo real, a pontuação ficou baixa. Pelo que vejo, esse modelo da Black Forest Labs parece ser mais focado em edição e refinamento iterativo de imagens existentes do que em texto-para-imagem.
- Queria pedir que você adicionasse também o “Flux 1.1 Pro Ultra” ao site. Dizem que ele é o mais forte dessa linha e muito melhor em fidelidade ao prompt do que o Flux Dev. Parece um dos melhores modelos open source, então daria para compará-lo de forma justa. O site em si também é divertido, e os prompts são interessantes.
- Minha sugestão: prompts de cena como este nunca foram implementados direito por nenhum modelo antigo. Acho que os modelos recentes devem ter melhorado bastante nisso…
```
A knight with a sword in hand stands with his back to us, facing down an army. He holds his shield above his head to protect himself from the rain of arrows shot by archers visible in the rear.
```
  É curioso como o resultado ainda sai tão ruim apesar de haver dados suficientes. É uma cena bem icônica.
- Pedi para adicionar ao site, estou acompanhando com interesse.
Fiquei curioso se a imagem de entrada é limitada a apenas uma. Queria testar prompts compostos com várias imagens, algo como “coloque o item da imagem A dentro da imagem B” ou “insira o personagem A no cenário B”.
- No modo experimental “multi”, dá para usar várias imagens de entrada.
- Dá para testar a interface multi-imagem no Fal, e talvez a Replicate também tenha isso (não verifiquei). O desempenho desse modelo é impressionante. Ainda fica abaixo do gpt-image-1, mas está realmente perto. Acho que a barreira monopolista em imagem e vídeo está desaparecendo. Havia preocupação de que Google ou OpenAI dominassem o mercado criativo, mas agora qualquer um pode criar diretamente.
Para quem queria ver o artigo técnico, compartilho o relatório oficial.
- A implementação parece simples, parecida com a de outros modelos abertos (HiDream-E1, ICEdit, DreamO etc.). O verdadeiro diferencial parece estar na curadoria de dados, e isso só é explicado brevemente no artigo.
- A maioria nem se interessa pelo artigo em si; quer mesmo baixar um modelo open-weights e rodar por conta própria. Quase todo mundo só pega e usa, contribuições são raras.
Quanta especialização seria necessária para modificar ou treinar isso localmente? Tenho uma RTX 4090 no Windows e passei dois dias tentando fazer ajuste fino de LoRA por conta própria com o Flux 1 dev, sem muito sucesso. Queria entender até onde preciso me aprofundar, se a barreira de entrada é baixa ou não, se um iniciante consegue ou se isso é mais para gente experiente.
- O modelo open source ainda não foi lançado, e dificilmente será mais fácil do que treinar LoRA no Flux 1 Dev.
- Recomendo usar os scripts do SimpleTuner. Consegui fazer meu próprio ajuste fino de LoRA sem precisar conhecer bibliotecas Python a fundo.
- Normalmente dá para achar versões já configuradas no comfyui com facilidade. No caso de youtubers, às vezes eles distribuem isso como recompensa de apoio no Patreon.
- Se não está funcionando com RTX 4090 + Windows, o problema pode ser justamente o Windows. O desempenho de verdade aparece no Linux.
Não entendi muito bem o exemplo de remove from face. Se não há outra foto do rosto, no fim ele não usa uma imagem estereotipada?
- Ele não está restaurando algo real; é só uma imagem gerada do começo ao fim. Não existe um rosto real ali.
- Se você olhar o exemplo com atenção, quando um objeto específico cobre parcialmente o rosto, o modelo pode inferir e reconstruir essa parte.
- Isso depende do estágio em que o modelo-base está; alguns modelos de identidade conseguem interpolar rostos com bastante precisão mesmo a partir de geometria parcial.
- Acho que o slideshow do primeiro exemplo está com bug. Um floco de neve cobre quase o rosto inteiro.
- Quando usam fotos reais, o modelo muitas vezes altera o rosto, então talvez tenham usado de propósito um exemplo em que o rosto nem aparece.
Pergunta se ele consegue gerar imagens de xadrez. link para previsão sobre IA de xadrez
Comentário especulando quando deve sair uma versão aberta para desenvolvedores: dentro de uma semana, ou talvez só daqui a um ou dois meses?

FLUX.1 Kontext - modelo de IA para geração e edição em tempo real combinando texto e imagens

Introdução ao FLUX.1 Kontext

Principais recursos

Integração entre edição texto-imagem e imagem-imagem

Linha de modelos FLUX.1 Kontext

Suporte e acesso

Avaliação de desempenho

Limitações e próximos desafios

Leituras relacionadas

1 comentários

Opiniões no Hacker News