Gemini 2.5 Flash Image

(developers.googleblog.com)

1 pontos por GN⁺ 2025-08-27 | 1 comentários | Compartilhar no WhatsApp

O Google apresentou o Gemini 2.5 Flash Image, um modelo de última geração para geração e edição de imagens
Os usuários podem combinar várias imagens em uma só, manter a consistência de personagens e usar transformação de imagens-alvo com base em linguagem natural
O modelo está disponível para desenvolvedores e empresas por meio do Google AI Studio, Gemini API e Vertex AI
Há vários exemplos de uso, como composição de imagens, geração baseada em templates e edição programável
Imagens criadas por IA recebem a marca d’água digital invisível SynthID, permitindo identificar que foram geradas/editadas

Apresentando o Gemini 2.5 Flash Image

O Google apresentou o Gemini 2.5 Flash Image (codinome nano-banana). O modelo oferece recursos como geração e edição de imagens, composição com múltiplas imagens, manutenção da consistência de personagens e edição abrangente de imagens baseada em comandos em linguagem natural. Além disso, usa o conhecimento de mundo do Gemini para entregar qualidade de geração e edição mais profunda do que modelos anteriores de geração de imagens

A versão anterior do Gemini 2.0 Flash tinha como pontos fortes a baixa latência, eficiência de custo e facilidade de uso, mas, em resposta às demandas da comunidade, ganhou reforços em qualidade superior e controle criativo

O modelo já está disponível em prévia por meio da Gemini API, Google AI Studio e Vertex AI. O preço é de US$ 30,00 por 1 milhão de tokens de saída, com cobrança de 1290 tokens (US$ 0,039) por imagem. As demais modalidades de entrada e saída seguem a política de preços do Gemini 2.5 Flash

Casos de uso reais

O Google AI Studio reformulou o build mode, permitindo testar e desenvolver com facilidade recursos do Gemini 2.5 Flash Image em apps de IA personalizados. É possível criar apps diretamente com prompts ou remixar livremente templates fornecidos previamente. Os apps finalizados podem ser publicados diretamente no AI Studio ou ter seu código salvo no GitHub

Exemplo de prompt: “Crie um app de edição de imagens em que o usuário faça upload de uma imagem e aplique vários filtros”

Manutenção da consistência de personagens

Agora é possível manter com eficiência a consistência visual de personagens ou objetos, um dos principais desafios na geração de imagens. Dá para posicionar a mesma pessoa naturalmente em vários ambientes, produzir um mesmo produto sob diferentes ângulos e configurações e gerar ativos de marca com consistência

A demonstração de consistência de personagens pode ser feita com um app de template personalizado no Google AI Studio, e o código pode ser customizado a partir dele

Além disso, o modelo também se destaca na geração de imagens com base em templates visuais. Cartões imobiliários, crachás de funcionários e mockups de produtos para catálogos podem ser gerados em massa a partir de um único template de design

Edição de imagens baseada em prompt

Comandos em linguagem natural já permitem transformações parciais e edição local precisa. Por exemplo, é possível fazer desfoque de fundo, remover manchas de roupa, apagar pessoas de fotos, alterar a pose de um sujeito ou colorizar fotos em preto e branco com um único prompt

Para experimentar isso diretamente, também há um app de template de edição de fotos com interface e prompts

Conhecimento de mundo nativo

Modelos anteriores de geração de imagens costumavam criar imagens esteticamente boas, mas tinham pouca compreensão semântica e profunda do mundo real. O Gemini 2.5 Flash Image aplica conhecimento de mundo, o que amplia seus pontos fortes em novos usos

Por exemplo, ele pode ler e entender diagramas desenhados à mão, responder perguntas sobre o mundo real e executar comandos complexos de edição. Essas características podem ser experimentadas diretamente em um app tutor educacional interativo para o AI Studio

Composição com múltiplas imagens

Ele consegue interpretar e fundir várias imagens de entrada para criar uma imagem composta. É possível posicionar objetos em outra cena, restilizar um ambiente com novas cores e texturas ou fundir imagens com um único prompt

Para isso, o AI Studio também oferece um app de template para arrastar imagens de produtos e compô-las rapidamente em uma nova cena

Como começar a desenvolver

Os desenvolvedores podem começar imediatamente pela documentação oficial, e o recurso está disponível atualmente em prévia. Todos os apps de demonstração apresentados no texto foram criados no Google AI Studio com vibe code, podendo ser remixados e customizados apenas com prompts

Em parceria com a OpenRouter.ai, o modelo poderá ser usado por mais de 3 milhões de desenvolvedores no mundo todo, e atualmente é o primeiro modelo com suporte a geração de imagens no OpenRouter. Com a parceria com a fal.ai, o uso também deve se expandir para uma comunidade mais ampla de desenvolvedores de mídia generativa

Todas as imagens geradas ou editadas com o Gemini 2.5 Flash Image incluem a marca d’água digital invisível SynthID, permitindo identificá-las como imagens geradas por IA

Exemplo de código em Python

from google import genai
from PIL import Image
from io import BytesIO

client = genai.Client()

prompt = "Create a picture of my cat eating a nano-banana in a fancy restaurant under the gemini constellation"

image = Image.open('/path/to/image.png')

response = client.models.generate_content(
    model="gemini-2.5-flash-image-preview",
    contents=[prompt, image],
)

for part in response.candidates[0].content.parts:
  if part.text is not None:
    print(part.text)
  elif part.inline_data is not None:
    image = Image.open(BytesIO(part.inline_data.data))   
    image.save("generated_image.png")

O código acima mostra um exemplo de geração de resultado no Gemini 2.5 Flash Image usando um prompt e uma imagem como entrada

Feedback de desenvolvedores e próximos passos

O Google continuará focando em renderização de textos longos, aprimoramento da consistência de personagens e melhoria de realismo e detalhes. O feedback pode ser enviado pelo fórum de desenvolvedores e pelo X (antigo Twitter), e a empresa espera ver usos diversos por parte dos desenvolvedores

1 comentários

GN⁺ 2025-08-27

Comentários do Hacker News

Parece aquele momento de gpt-4 para o campo dos modelos de edição de imagem
O Gemini 2.5 Flash, chamado de Nano Banana, é inacreditavelmente bom
Registrou um aumento de nada menos que 171 pontos de ELO no lmarena
Se você buscar por nano banana no Twitter, vai ver resultados impressionantes
Como exemplo, veja este tweet
- Testei por conta própria durante algumas semanas
  Às vezes saem resultados realmente impressionantes, mas para obter a imagem desejada é preciso repetir o prompt várias vezes
  Não é uma solução universal, mas com certeza é um avanço enorme e está no nível mais alto que existe hoje
- No terceiro exemplo, as mãos ficaram estranhas
  Parece que o modelo não consegue decidir em que direção colocá-las
  Mas isso não é um problema criado pelo Gemini, e sim algo que já existia na imagem original
- Parece que todas as combinações relacionadas a "nano banana" foram registradas como domínios com interfaces próprias
  Fico pensando se não há atravessadores tentando lucrar com arbitragem de créditos em cima de nomes de modelos populares
- Antes da chegada da IA, muita gente criticava o Google por usar talentos de engenharia de nível mundial apenas para vender anúncios
  Mas agora, na era da IA, esses talentos podem ser usados para product placement em protótipos
  Realmente chegamos longe
- Outra decepção é que o casaco acolchoado rosa editado ficou sutilmente diferente da imagem de referência
  Se alguém usar esse modelo para promoção de produtos ou for sensível a detalhes, isso pode incomodar
Atualizei meu site de comparação de imagens GenAI
O site é rigidamente focado em aderência de prompts em texto-para-imagem
O novo modelo Google Gemini 2.5 Flash (nano-banana) também foi incluído
O modelo acertou exatamente 8 dos 12 prompts e chegou bem perto dos líderes, Imagen e gpt-image-1
É um grande upgrade em relação ao Gemini Flash 2.0 anterior
O primeiro lugar, gpt-image-1, só ficou levemente à frente no labirinto e na estrela de 9 pontas
O mais impressionante é que o gpt-image-1 está na liderança há quase 6 meses (nesta área, 6 meses é praticamente uma eternidade)
Porém, como "editor", o gpt-image-1 é quase inútil, porque altera a imagem inteira, em vez de fazer inpainting (editar só partes), como Kontext, Qwen e Nano-Banana
Link de comparação entre OpenAI_4O, Imagen_4, Gemini Flash 2, Nano-Banana etc.
- Sinto que é necessário um benchmark separado para edição de frases
- gpt-image-1 é inútil como "editor"
  Entrei na thread procurando exatamente esse comentário
  Acho uma abordagem muito boa para comparar a aderência de prompt entre modelos
  Como prompts no estilo inpainting estão ganhando força, fico curioso se há planos para adicionar também a capacidade de edição
- Não entendo por que Hunyuan, OpenAI 4o e Gwen passam no teste do polvo
  Eles não cobriram "cada tentáculo"
  O Midjourney vestiu o fantoche de meia em 9 dos 8 braços
- Acho interessante que os resultados de imagem do Imagen 4 e do Gemini 2.5 Flash parecem parecidos demais em alguns casos de teste
  Talvez o Gemini 2.5 Flash primeiro gere uma imagem base com o Imagen (modelo de difusão) em segundo plano, e depois o lado Gemini faça edições por cima para melhorar a aderência ao prompt
- Gostei muito do site
  Você por acaso conhece algum site que compare também o quão bem diferentes modelos seguem guias de estilo, como ilustrações desenhadas no mesmo estilo?
  Pessoalmente, eu adoraria ver esse recurso adicionado ao site
  Por exemplo, gostaria de fornecer várias imagens no estilo de um artista e comparar se o modelo consegue criar ilustrações no mesmo estilo
  Isso seria muito útil em casos como ilustrações de livros, onde consistência de estilo é importante
O Gemini 2.5 Flash Image é o único que consegue lidar com várias imagens de uma vez, sem truques estranhos
Por exemplo, no Flux Kontext, para "compor a primeira imagem dentro da segunda", antes é preciso combinar as imagens manualmente
Mas este modelo permite usar isso sem essa inconveniência, e ainda dá para inserir mais de duas imagens ao mesmo tempo (embora imagens demais possam confundir)
Nos meus testes rápidos, ele parece obedecer bem mesmo com prompts longos, e expressões sintáticas parecem funcionar melhor
Acho que ainda existem mais formas de controle que não foram descobertas, então continuo experimentando
O preço também é parecido com o dos concorrentes, então espero que isso provoque uma grande mudança no mercado
- Esse recurso é muito divertido
  O vizinho está de férias e estou alimentando os peixes dele
  Tiro uma foto do aquário e peço ao Gemini algo como "colocar o aquário em um ponto turístico da cidade"
  Mando uma imagem por dia, e o vizinho adora
  Esse tipo de brincadeira pequena traz mais risos para o dia a dia
Infelizmente, como acontece com outros produtos de IA, o problema é a aplicação excessivamente rígida das políticas de segurança
Metade dos prompts é recusada
Se não for possível editar humanos, como manter consistência de personagem?
Eu geralmente tento editar fotos com pessoas, mas isso é impossível com esse modelo
Entendo que o Google esteja preocupado com deepfakes, mas de qualquer forma não dá para impedir essa direção e, no fim, a sociedade vai ter que se adaptar
É frustrante ver ferramentas restringindo cada vez mais os usuários
No fim, acho que vai ser necessário um novo movimento OSS para recuperar a liberdade
- Tenho uma foto de um casal tirada quando eram crianças, com roupas de Natal, junto com a prima dela
  As duas pessoas viveram separadas por muito tempo, então hoje isso é uma lembrança preciosa
  Além de a foto em si estar em mau estado, a qualidade também é baixa
  Mas até agora nenhum modelo de IA conseguiu restaurá-la
- Há dois dias tentei usar o Veo gratuitamente para fazer um vídeo
  Apaguei até palavras totalmente inocentes, mas mesmo assim continuou recusando
  Acho que o problema era eu tentar gerar "a mim mesmo", então acabei desistindo
Digitalizei fotos de família, mas elas têm muitos danos difíceis de restaurar, como desvio de cor, manchas, marcas de dedos e marcas de filme
Como é difícil corrigir centenas delas manualmente, eu estava esperando a geração de imagens por IA evoluir o suficiente para restaurar em massa sem alterar detalhes, especialmente os rostos
Esse modelo parece bem bom em preservar os detalhes e restaurar apenas as partes perdidas, então talvez tenha chegado a hora de tentar
- Todos os danos mencionados acima podem ser corrigidos automaticamente com scanners de filme com recurso ICE e software de restauração automática, como o Vuescan
  Na minha opinião, não faz sentido enviar centenas ou milhares de fotos para uma IA em nuvem experimental e proprietária para receber resultados inferiores, misturados com compressão estranha e artefatos
- Não entendo muito bem o propósito desse tipo de uso
  Não bastaria apenas imaginar a foto sem danos?
  O mesmo vale para upscaling por IA em câmeras de celular
  Se quiser ver algo distante, basta imaginar
  No fim, acho que o nível desejável é quando a ferramenta de IA automatiza o que um especialista em Photoshop faria manualmente com ferramentas
  Gerar detalhes novos de forma arbitrária parece uma perda de tempo
- Alguém conhece algum software que restaure ou melhore arquivos de vídeo?
  Estou digitalizando vídeos dos anos 2000 e fitas VHS da minha mãe
  A configuração de digitalização já está pronta, mas quero melhorar mais a qualidade dos vídeos
- Espero que seja bem utilizado
  Pelos resultados do prompt de "restauração de foto" nos exemplos, o rosto da mulher mostra características de IA com muita força
  Claro, espero que isso melhore com o tempo
- Acho que o Flux Kontext (https://bfl.ai/models/flux-kontext) já tinha chegado a esse estágio há alguns meses
Todas as imagens geradas/editadas no Gemini 2.5 Flash Image recebem um watermark digital invisível chamado SynthID para indicar que foram geradas/editadas por IA
Entendo o propósito e a boa intenção, mas é frustrante viver num cenário em que adultos não assumem responsabilidade por si mesmos e grandes empresas passam a decidir o que se pode ou não fazer
Dá uma sensação de vigilância
- Dá vontade de responder perguntando se os humanos algum dia foram de fato adultos responsáveis ao usar tecnologia
  Deepfakes já têm potencial para piorar ainda mais a insegurança sobre o que é real
  Haverá muitas pessoas enganadas por falsificações, e outras que deixarão de acreditar em qualquer coisa
  Políticos vão dizer que vídeos inconvenientes para eles são "falsos"
  Já vivemos até certo ponto numa era pós-fato, mas a situação vai piorar ainda mais daqui para frente
- Na prática, é difícil dizer que a imagem foi realmente feita pelo usuário
  Por exemplo, quando um artista coloca watermark em um trabalho encomendado, isso apenas indica que a obra é dele; não dá para chamar isso de "dedo-duro"
  Talvez essa não tenha sido a intenção do comentário, mas vale refletir sobre isso
- Não concordo com a lógica de "se você não tem nada a esconder, não tem nada a temer", mas fico curioso por que watermarks em imagens geradas/editadas por IA seriam um problema
  Pessoalmente, acho que imagens de IA deveriam ter watermark obrigatoriamente
- Como ninguém é obrigado a usar esse modelo, pessoalmente não vejo isso como um problema
- É uma corrida armamentista tecnológica
  Veja removemysynthid.com
Como a maioria dos geradores de imagem, ele falha no teste das teclas de piano (as teclas pretas ficam erradas)
Exemplo do teste
- Fico curioso sobre o que é o teste das teclas de piano
  O link pede permissão de acesso ao Google Drive no AI Studio, então é difícil usar
- Fico pensando se existe algum modelo que inclua ideias no espaço conceitual, como repetição de 8 notas
  Ao representar um piano, parece que só palavras próximas de "piano" não bastam para expressar um conceito fixo, como oitavas repetidas, e esse ponto parece faltar
  Dá a impressão de que, só com palavras, é difícil conectar imagem e significado de forma consistente
- A verdadeira força desse modelo parece estar menos na qualidade da geração em si e mais na "consistência entre gerações"
  Link de exemplo
- Interessante
  Assim como nos testes de renderização de texto, ele gera algo que "por fora" parece certo, mas na prática está errado, a ponto de qualquer pessoa que já tenha visto um piano real notar imediatamente o problema
  Num prompt comum, provavelmente muita gente aceitaria de boa algo como pegar o primeiro resultado do Google Imagens e dizer "aqui está uma foto de um teclado de piano"
- Ele também falhou no meu teste de texto horizontal
Tentei reproduzir diretamente os exemplos de garfo/espaguete e bolha de moda, mas ficaram bem diferentes dos resultados oficiais
Os resultados gerados também são consistentes
Usei imagens copiadas da página de publicidade, então a resolução pode ser diferente, mas os prompts foram os mesmos
Parece mesmo que estou usando o novo modelo, e comparado ao anterior, é um avanço enorme
- A consistência dos resultados é interessante
  Rodei várias gerações para o meu teste padrão de modelos de imagem (até hoje nunca vi um modelo desenhar corretamente oitavas de piano), e o Gemini 2.5 Flash Image também não é exceção
  Quando você roda várias vezes e compara os resultados, não há mudança nenhuma
  O ChatGPT, ao receber prompts de edição, muitas vezes alterava partes além da mudança desejada, mas aqui isso simplesmente não acontece
  Exemplo de imagem
- Os resultados reais parecem muito mais comuns ou ambíguos do que o que aparece na publicidade
  No exemplo, a geração do sujeito de bolhas apenas cria formas vagas de bolha dentro do sujeito
  No exemplo do garfo, ele só adiciona um garfo em cima do macarrão
  Nos dois casos, dá até para dizer que na prática ele segue melhor o prompt, mas visualmente o resultado impressiona menos
Ainda bem que não virei especialista em Photoshop
Em algum momento achei isso atraente, mas hoje fico feliz por não ter seguido esse caminho
Agora basta um nano-banana
Tenho certeza de que os outros modelos logo vão alcançar também
A comunidade r/photoshopbattles já era
- Retoque é uma arte
  Para profissionais, IAs como essa são apenas mais uma ferramenta para ganhar eficiência
  Não basta saber usar Photoshop; o importante é ter bom julgamento
  Claro, se a quantidade de trabalho não aumentar, é possível que menos retocadores façam o mesmo serviço
  Se o preço cair, todo mundo vai retocar mais? Não tenho tanta certeza
- Ponto de vista interessante
  Sou programador, mas no começo dos anos 2000 também aprendi Photoshop e gostava muito de editar imagens
  Os modelos generativos de hoje realmente produzem coisas muito melhores do que eu fazia naquela época, mas não acho que essa experiência e habilidade tenham se tornado inúteis
  Na prática, o Photoshop (ou hoje em dia Affinity Designer/Photo) continua extremamente útil para refinar resultados de IA
  Nunca me arrependi
- Se eu tivesse escrito esse comentário 10 anos atrás, teria dito que pelo menos o programa e a habilidade eram meus, e continuariam meus mesmo se o Google aumentasse a assinatura ou encerrasse o serviço
  Agora até o PS é por assinatura, e só resta esperar por um modelo aberto decente
- O Photoshop ainda é útil
  Imagens de IA são excelentes, mas eu ainda quero montar a composição base manualmente, e habilidades manuais continuam indispensáveis para limpar artefatos dos resultados de IA ou combinar várias camadas geradas por IA
- No fim, outras áreas como programação também estão condenadas a cair na automação
  Só vai demorar um pouco mais (5 a 10 anos?)
  Engenharia pode levar mais tempo por causa de erros e dívida técnica
  Se uma imagem sai ruim, basta gerar outra; se um programa sai ruim, ele vira imediatamente um amontoado de código impossível de manter
  Mas em algum momento essa onda também vai chegar à nossa área
Quando peço geração de imagens ao Gemini, metade das vezes ele responde que não pode
Dá a sensação de que é difícil demais realmente usar os recursos do Google
Algumas coisas estão em um produto, outras em outro, e ainda fica confuso até onde acessar tudo isso
- Exato
  No site aparece a mensagem "Experimente no Gemini", mas quando seleciono o Gemini 2.5 Flash, nem tenho certeza se estou usando isso corretamente
- No app ou no site do Gemini, esse modelo nem existe
  É preciso usar por outros caminhos, como o AI Studio
  A UI/UX do Google como um todo é realmente muito confusa