- O FLUX.1 Kontext, da Black Forest Labs, é um modelo generativo de IA de última geração que recebe texto e imagens ao mesmo tempo, entende o contexto e permite editar e gerar instantaneamente preservando características e estilo de imagens existentes
- Em comparação com algoritmos tradicionais de geração texto-imagem, apresenta desempenho superior em consistência de texto e objetos, edição local, referência de estilo e resposta em alta velocidade
- Os usuários podem inserir apenas texto ou combinar imagem e texto para alterar somente áreas específicas, aplicar apenas o estilo, realizar edições em múltiplas etapas e outros tipos de trabalho interativo com imagens
- O FLUX.1 Kontext [pro] mantém a consistência da imagem mesmo após várias edições e opera com velocidade líder do setor
- A versão open source [dev] é um transformer de difusão leve de 12B, disponibilizado em beta privado para pesquisa e customização
Introdução ao FLUX.1 Kontext
- O FLUX.1 Kontext vai além das limitações dos modelos anteriores que geravam imagens apenas com texto, sendo um modelo generativo de flow matching capaz de geração e edição de imagens com base em contexto ao receber texto e imagens em conjunto
- Usando simultaneamente prompts de texto e imagens, é possível remover/adicionar/alterar elementos específicos da imagem e gerar novas cenas mantendo estilo ou características
Principais recursos
- Consistência de personagens: a mesma pessoa, objeto ou estilo é mantido de forma consistente em diferentes cenas e ambientes
- Edição local: é possível modificar apenas partes específicas da imagem com comandos de texto (ex.: remover apenas um elemento específico do rosto, alterar apenas as letras etc.)
- Referência de estilo: permite aplicar o estilo distinto de uma imagem de referência a uma nova cena
- Velocidade interativa: oferece suporte a edição e geração em tempo real com inferência até 8 vezes mais rápida que modelos anteriores
Integração entre edição texto-imagem e imagem-imagem
- O FLUX.1 Kontext mantém a qualidade e as características da imagem não só em uma única edição, mas também diante de instruções iterativas em múltiplas etapas
- Aproveitando continuamente o prompt e os resultados de imagens anteriores, é possível chegar ao resultado desejado passo a passo
Linha de modelos FLUX.1 Kontext
- FLUX.1 Kontext [pro]
- Modelo flagship especializado em edição e geração rápida e iterativa
- Recebe simultaneamente texto e imagens de referência para realizar edição de áreas-alvo e transformações complexas de cena com rapidez e consistência
- FLUX.1 Kontext [max]
- Modelo experimental de especificação máxima, com melhor compreensão de prompts, tipografia e capacidade de edição consistente em alta velocidade
- FLUX.1 Kontext [dev]
- Modelo leve (12B) para pesquisa e customização, disponibilizado em beta privado
- Quando lançado, deverá ser oferecido por grandes parceiros de infraestrutura de IA como FAL, Replicate, Runware, DataCrunch, TogetherAI e HuggingFace
Suporte e acesso
- A série FLUX.1 Kontext pode ser usada em vários serviços como KreaAI, Freepik, Lightricks, OpenArt e LeonardoAI, além de infraestruturas como FAL, Replicate, Runware, DataCrunch, TogetherAI e ComfyOrg
- Por meio do FLUX Playground (https://playground.bfl.ai/), voltado para testes e demos em tempo real, é possível verificar facilmente o desempenho do modelo e conferir os resultados sem necessidade de integração adicional
Avaliação de desempenho
- No benchmark próprio KontextBench, foi comparado com modelos SOTA em 6 tarefas de geração e edição de imagens
- Registrou pontuações de nível líder da indústria nas áreas de edição de texto e preservação de personagens
- A velocidade de inferência também alcançou latência esmagadoramente menor em relação aos modelos de melhor desempenho anteriores
- Também demonstrou competitividade em vários critérios, como acabamento estético, compreensão de prompts, tipografia e realismo
Limitações e próximos desafios
- Em edições iterativas de múltiplas etapas (mais de 6 vezes), podem surgir ruídos visuais (artifacts), reduzindo a qualidade da imagem
- Ocasionalmente, pode haver casos em que o modelo não segue com precisão instruções detalhadas de determinados prompts
- Há limitações em conhecimento de mundo e compreensão de contexto, o que pode levar à geração de imagens contextualmente imprecisas
- No processo de compactação do modelo e distillation, a qualidade da imagem pode cair
1 comentários
Opiniões no Hacker News
Testei pessoalmente e vivi um fenômeno divertido de “deslizamento de contexto” imagem relacionada. Criei, com um prompt de geração, uma imagem de uma nave espacial pousando em um planeta isolado e pedi a edição: “deixe a nave mais colorida e mostre-a maior na imagem”. Aí a nave espacial virou um navio porta-contêineres. Como o histórico do chat estava lá, o modelo deveria ter entendido que eu queria uma nave espacial, mas perdeu um contexto importante e acabou gerando um resultado nada a ver.
Estou testando diretamente pelo endpoint FLUX Kontext Pro da Replicate. Também existe um app da Replicate que mostra vários usos de edição de imagem do FLUX Kontext: FLUX Kontext Apps. A qualidade de imagem, em geração simples de image-to-image, fica em um nível parecido com a geração de imagens do GPT-4o. A velocidade também é rápida, cerca de 4 segundos. O prompt engineering parece um pouco complicado fora dos exemplos, mas acho que vai melhorar com o tempo. Mudanças de estilo ou pedidos detalhados até são aplicados, mas quanto mais específicas as instruções, maior a tendência de ele ignorar os requisitos mais detalhados.
Algumas amostras parecem mostrar só os resultados bons demais para ser verdade. Alguém aqui usou o app de headshots profissionais do “Kontext Apps”? link do Kontext Apps. Coloquei várias fotos minhas e, em todas, eu virava uma pessoa completamente diferente. O resultado final do headshot com certeza parece profissional.
Estou pensando se adiciono os modelos FLUX Kontext ao meu site de comparação de imagens GenAI. A versão Max pontua quase o dobro em fidelidade ao prompt, mas ainda assim fica bem atrás do gpt-image-1 da OpenAI (desconsiderando qualidade de imagem). O gpt-image-1 está em 1º no ranking. Continuo mantendo o Flux 1.D como baseline para capacidade local de GenAI. site de comparação. Também adicionei recentemente o modelo Image 2.0 da Hunyuan, mas, como é um modelo em tempo real, a pontuação ficou baixa. Pelo que vejo, esse modelo da Black Forest Labs parece ser mais focado em edição e refinamento iterativo de imagens existentes do que em texto-para-imagem.
Fiquei curioso se a imagem de entrada é limitada a apenas uma. Queria testar prompts compostos com várias imagens, algo como “coloque o item da imagem A dentro da imagem B” ou “insira o personagem A no cenário B”.
Para quem queria ver o artigo técnico, compartilho o relatório oficial.
Quanta especialização seria necessária para modificar ou treinar isso localmente? Tenho uma RTX 4090 no Windows e passei dois dias tentando fazer ajuste fino de LoRA por conta própria com o Flux 1 dev, sem muito sucesso. Queria entender até onde preciso me aprofundar, se a barreira de entrada é baixa ou não, se um iniciante consegue ou se isso é mais para gente experiente.
Não entendi muito bem o exemplo de remove from face. Se não há outra foto do rosto, no fim ele não usa uma imagem estereotipada?
Pergunta se ele consegue gerar imagens de xadrez. link para previsão sobre IA de xadrez
Comentário especulando quando deve sair uma versão aberta para desenvolvedores: dentro de uma semana, ou talvez só daqui a um ou dois meses?