Gemini 2.5 Flash Image
(developers.googleblog.com)- O Google apresentou o Gemini 2.5 Flash Image, um modelo de última geração para geração e edição de imagens
- Os usuários podem combinar várias imagens em uma só, manter a consistência de personagens e usar transformação de imagens-alvo com base em linguagem natural
- O modelo está disponível para desenvolvedores e empresas por meio do Google AI Studio, Gemini API e Vertex AI
- Há vários exemplos de uso, como composição de imagens, geração baseada em templates e edição programável
- Imagens criadas por IA recebem a marca d’água digital invisível SynthID, permitindo identificar que foram geradas/editadas
Apresentando o Gemini 2.5 Flash Image
O Google apresentou o Gemini 2.5 Flash Image (codinome nano-banana). O modelo oferece recursos como geração e edição de imagens, composição com múltiplas imagens, manutenção da consistência de personagens e edição abrangente de imagens baseada em comandos em linguagem natural. Além disso, usa o conhecimento de mundo do Gemini para entregar qualidade de geração e edição mais profunda do que modelos anteriores de geração de imagens
A versão anterior do Gemini 2.0 Flash tinha como pontos fortes a baixa latência, eficiência de custo e facilidade de uso, mas, em resposta às demandas da comunidade, ganhou reforços em qualidade superior e controle criativo
O modelo já está disponível em prévia por meio da Gemini API, Google AI Studio e Vertex AI. O preço é de US$ 30,00 por 1 milhão de tokens de saída, com cobrança de 1290 tokens (US$ 0,039) por imagem. As demais modalidades de entrada e saída seguem a política de preços do Gemini 2.5 Flash
Casos de uso reais
O Google AI Studio reformulou o build mode, permitindo testar e desenvolver com facilidade recursos do Gemini 2.5 Flash Image em apps de IA personalizados. É possível criar apps diretamente com prompts ou remixar livremente templates fornecidos previamente. Os apps finalizados podem ser publicados diretamente no AI Studio ou ter seu código salvo no GitHub
Exemplo de prompt: “Crie um app de edição de imagens em que o usuário faça upload de uma imagem e aplique vários filtros”
Manutenção da consistência de personagens
Agora é possível manter com eficiência a consistência visual de personagens ou objetos, um dos principais desafios na geração de imagens. Dá para posicionar a mesma pessoa naturalmente em vários ambientes, produzir um mesmo produto sob diferentes ângulos e configurações e gerar ativos de marca com consistência
A demonstração de consistência de personagens pode ser feita com um app de template personalizado no Google AI Studio, e o código pode ser customizado a partir dele
Além disso, o modelo também se destaca na geração de imagens com base em templates visuais. Cartões imobiliários, crachás de funcionários e mockups de produtos para catálogos podem ser gerados em massa a partir de um único template de design
Edição de imagens baseada em prompt
Comandos em linguagem natural já permitem transformações parciais e edição local precisa. Por exemplo, é possível fazer desfoque de fundo, remover manchas de roupa, apagar pessoas de fotos, alterar a pose de um sujeito ou colorizar fotos em preto e branco com um único prompt
Para experimentar isso diretamente, também há um app de template de edição de fotos com interface e prompts
Conhecimento de mundo nativo
Modelos anteriores de geração de imagens costumavam criar imagens esteticamente boas, mas tinham pouca compreensão semântica e profunda do mundo real. O Gemini 2.5 Flash Image aplica conhecimento de mundo, o que amplia seus pontos fortes em novos usos
Por exemplo, ele pode ler e entender diagramas desenhados à mão, responder perguntas sobre o mundo real e executar comandos complexos de edição. Essas características podem ser experimentadas diretamente em um app tutor educacional interativo para o AI Studio
Composição com múltiplas imagens
Ele consegue interpretar e fundir várias imagens de entrada para criar uma imagem composta. É possível posicionar objetos em outra cena, restilizar um ambiente com novas cores e texturas ou fundir imagens com um único prompt
Para isso, o AI Studio também oferece um app de template para arrastar imagens de produtos e compô-las rapidamente em uma nova cena
Como começar a desenvolver
Os desenvolvedores podem começar imediatamente pela documentação oficial, e o recurso está disponível atualmente em prévia. Todos os apps de demonstração apresentados no texto foram criados no Google AI Studio com vibe code, podendo ser remixados e customizados apenas com prompts
Em parceria com a OpenRouter.ai, o modelo poderá ser usado por mais de 3 milhões de desenvolvedores no mundo todo, e atualmente é o primeiro modelo com suporte a geração de imagens no OpenRouter. Com a parceria com a fal.ai, o uso também deve se expandir para uma comunidade mais ampla de desenvolvedores de mídia generativa
Todas as imagens geradas ou editadas com o Gemini 2.5 Flash Image incluem a marca d’água digital invisível SynthID, permitindo identificá-las como imagens geradas por IA
Exemplo de código em Python
from google import genai
from PIL import Image
from io import BytesIO
client = genai.Client()
prompt = "Create a picture of my cat eating a nano-banana in a fancy restaurant under the gemini constellation"
image = Image.open('/path/to/image.png')
response = client.models.generate_content(
model="gemini-2.5-flash-image-preview",
contents=[prompt, image],
)
for part in response.candidates[0].content.parts:
if part.text is not None:
print(part.text)
elif part.inline_data is not None:
image = Image.open(BytesIO(part.inline_data.data))
image.save("generated_image.png")
O código acima mostra um exemplo de geração de resultado no Gemini 2.5 Flash Image usando um prompt e uma imagem como entrada
Feedback de desenvolvedores e próximos passos
O Google continuará focando em renderização de textos longos, aprimoramento da consistência de personagens e melhoria de realismo e detalhes. O feedback pode ser enviado pelo fórum de desenvolvedores e pelo X (antigo Twitter), e a empresa espera ver usos diversos por parte dos desenvolvedores
1 comentários
Comentários do Hacker News
Parece aquele momento de
gpt-4para o campo dos modelos de edição de imagemO Gemini 2.5 Flash, chamado de Nano Banana, é inacreditavelmente bom
Registrou um aumento de nada menos que 171 pontos de ELO no lmarena
Se você buscar por nano banana no Twitter, vai ver resultados impressionantes
Como exemplo, veja este tweet
Testei por conta própria durante algumas semanas
Às vezes saem resultados realmente impressionantes, mas para obter a imagem desejada é preciso repetir o prompt várias vezes
Não é uma solução universal, mas com certeza é um avanço enorme e está no nível mais alto que existe hoje
No terceiro exemplo, as mãos ficaram estranhas
Parece que o modelo não consegue decidir em que direção colocá-las
Mas isso não é um problema criado pelo Gemini, e sim algo que já existia na imagem original
Parece que todas as combinações relacionadas a "nano banana" foram registradas como domínios com interfaces próprias
Fico pensando se não há atravessadores tentando lucrar com arbitragem de créditos em cima de nomes de modelos populares
Antes da chegada da IA, muita gente criticava o Google por usar talentos de engenharia de nível mundial apenas para vender anúncios
Mas agora, na era da IA, esses talentos podem ser usados para product placement em protótipos
Realmente chegamos longe
Outra decepção é que o casaco acolchoado rosa editado ficou sutilmente diferente da imagem de referência
Se alguém usar esse modelo para promoção de produtos ou for sensível a detalhes, isso pode incomodar
Atualizei meu site de comparação de imagens GenAI
O site é rigidamente focado em aderência de prompts em texto-para-imagem
O novo modelo Google Gemini 2.5 Flash (nano-banana) também foi incluído
O modelo acertou exatamente 8 dos 12 prompts e chegou bem perto dos líderes, Imagen e gpt-image-1
É um grande upgrade em relação ao Gemini Flash 2.0 anterior
O primeiro lugar, gpt-image-1, só ficou levemente à frente no labirinto e na estrela de 9 pontas
O mais impressionante é que o gpt-image-1 está na liderança há quase 6 meses (nesta área, 6 meses é praticamente uma eternidade)
Porém, como "editor", o gpt-image-1 é quase inútil, porque altera a imagem inteira, em vez de fazer inpainting (editar só partes), como Kontext, Qwen e Nano-Banana
Link de comparação entre OpenAI_4O, Imagen_4, Gemini Flash 2, Nano-Banana etc.
Sinto que é necessário um benchmark separado para edição de frases
Não entendo por que Hunyuan, OpenAI 4o e Gwen passam no teste do polvo
Eles não cobriram "cada tentáculo"
O Midjourney vestiu o fantoche de meia em 9 dos 8 braços
Acho interessante que os resultados de imagem do Imagen 4 e do Gemini 2.5 Flash parecem parecidos demais em alguns casos de teste
Talvez o Gemini 2.5 Flash primeiro gere uma imagem base com o Imagen (modelo de difusão) em segundo plano, e depois o lado Gemini faça edições por cima para melhorar a aderência ao prompt
Gostei muito do site
Você por acaso conhece algum site que compare também o quão bem diferentes modelos seguem guias de estilo, como ilustrações desenhadas no mesmo estilo?
Pessoalmente, eu adoraria ver esse recurso adicionado ao site
Por exemplo, gostaria de fornecer várias imagens no estilo de um artista e comparar se o modelo consegue criar ilustrações no mesmo estilo
Isso seria muito útil em casos como ilustrações de livros, onde consistência de estilo é importante
O Gemini 2.5 Flash Image é o único que consegue lidar com várias imagens de uma vez, sem truques estranhos
Por exemplo, no Flux Kontext, para "compor a primeira imagem dentro da segunda", antes é preciso combinar as imagens manualmente
Mas este modelo permite usar isso sem essa inconveniência, e ainda dá para inserir mais de duas imagens ao mesmo tempo (embora imagens demais possam confundir)
Nos meus testes rápidos, ele parece obedecer bem mesmo com prompts longos, e expressões sintáticas parecem funcionar melhor
Acho que ainda existem mais formas de controle que não foram descobertas, então continuo experimentando
O preço também é parecido com o dos concorrentes, então espero que isso provoque uma grande mudança no mercado
O vizinho está de férias e estou alimentando os peixes dele
Tiro uma foto do aquário e peço ao Gemini algo como "colocar o aquário em um ponto turístico da cidade"
Mando uma imagem por dia, e o vizinho adora
Esse tipo de brincadeira pequena traz mais risos para o dia a dia
Infelizmente, como acontece com outros produtos de IA, o problema é a aplicação excessivamente rígida das políticas de segurança
Metade dos prompts é recusada
Se não for possível editar humanos, como manter consistência de personagem?
Eu geralmente tento editar fotos com pessoas, mas isso é impossível com esse modelo
Entendo que o Google esteja preocupado com deepfakes, mas de qualquer forma não dá para impedir essa direção e, no fim, a sociedade vai ter que se adaptar
É frustrante ver ferramentas restringindo cada vez mais os usuários
No fim, acho que vai ser necessário um novo movimento OSS para recuperar a liberdade
Tenho uma foto de um casal tirada quando eram crianças, com roupas de Natal, junto com a prima dela
As duas pessoas viveram separadas por muito tempo, então hoje isso é uma lembrança preciosa
Além de a foto em si estar em mau estado, a qualidade também é baixa
Mas até agora nenhum modelo de IA conseguiu restaurá-la
Há dois dias tentei usar o Veo gratuitamente para fazer um vídeo
Apaguei até palavras totalmente inocentes, mas mesmo assim continuou recusando
Acho que o problema era eu tentar gerar "a mim mesmo", então acabei desistindo
Digitalizei fotos de família, mas elas têm muitos danos difíceis de restaurar, como desvio de cor, manchas, marcas de dedos e marcas de filme
Como é difícil corrigir centenas delas manualmente, eu estava esperando a geração de imagens por IA evoluir o suficiente para restaurar em massa sem alterar detalhes, especialmente os rostos
Esse modelo parece bem bom em preservar os detalhes e restaurar apenas as partes perdidas, então talvez tenha chegado a hora de tentar
Todos os danos mencionados acima podem ser corrigidos automaticamente com scanners de filme com recurso ICE e software de restauração automática, como o Vuescan
Na minha opinião, não faz sentido enviar centenas ou milhares de fotos para uma IA em nuvem experimental e proprietária para receber resultados inferiores, misturados com compressão estranha e artefatos
Não entendo muito bem o propósito desse tipo de uso
Não bastaria apenas imaginar a foto sem danos?
O mesmo vale para upscaling por IA em câmeras de celular
Se quiser ver algo distante, basta imaginar
No fim, acho que o nível desejável é quando a ferramenta de IA automatiza o que um especialista em Photoshop faria manualmente com ferramentas
Gerar detalhes novos de forma arbitrária parece uma perda de tempo
Alguém conhece algum software que restaure ou melhore arquivos de vídeo?
Estou digitalizando vídeos dos anos 2000 e fitas VHS da minha mãe
A configuração de digitalização já está pronta, mas quero melhorar mais a qualidade dos vídeos
Espero que seja bem utilizado
Pelos resultados do prompt de "restauração de foto" nos exemplos, o rosto da mulher mostra características de IA com muita força
Claro, espero que isso melhore com o tempo
Acho que o Flux Kontext (https://bfl.ai/models/flux-kontext) já tinha chegado a esse estágio há alguns meses
Todas as imagens geradas/editadas no Gemini 2.5 Flash Image recebem um watermark digital invisível chamado SynthID para indicar que foram geradas/editadas por IA
Entendo o propósito e a boa intenção, mas é frustrante viver num cenário em que adultos não assumem responsabilidade por si mesmos e grandes empresas passam a decidir o que se pode ou não fazer
Dá uma sensação de vigilância
Dá vontade de responder perguntando se os humanos algum dia foram de fato adultos responsáveis ao usar tecnologia
Deepfakes já têm potencial para piorar ainda mais a insegurança sobre o que é real
Haverá muitas pessoas enganadas por falsificações, e outras que deixarão de acreditar em qualquer coisa
Políticos vão dizer que vídeos inconvenientes para eles são "falsos"
Já vivemos até certo ponto numa era pós-fato, mas a situação vai piorar ainda mais daqui para frente
Na prática, é difícil dizer que a imagem foi realmente feita pelo usuário
Por exemplo, quando um artista coloca watermark em um trabalho encomendado, isso apenas indica que a obra é dele; não dá para chamar isso de "dedo-duro"
Talvez essa não tenha sido a intenção do comentário, mas vale refletir sobre isso
Não concordo com a lógica de "se você não tem nada a esconder, não tem nada a temer", mas fico curioso por que watermarks em imagens geradas/editadas por IA seriam um problema
Pessoalmente, acho que imagens de IA deveriam ter watermark obrigatoriamente
Como ninguém é obrigado a usar esse modelo, pessoalmente não vejo isso como um problema
É uma corrida armamentista tecnológica
Veja removemysynthid.com
Como a maioria dos geradores de imagem, ele falha no teste das teclas de piano (as teclas pretas ficam erradas)
Exemplo do teste
Fico curioso sobre o que é o teste das teclas de piano
O link pede permissão de acesso ao Google Drive no AI Studio, então é difícil usar
Fico pensando se existe algum modelo que inclua ideias no espaço conceitual, como repetição de 8 notas
Ao representar um piano, parece que só palavras próximas de "piano" não bastam para expressar um conceito fixo, como oitavas repetidas, e esse ponto parece faltar
Dá a impressão de que, só com palavras, é difícil conectar imagem e significado de forma consistente
A verdadeira força desse modelo parece estar menos na qualidade da geração em si e mais na "consistência entre gerações"
Link de exemplo
Interessante
Assim como nos testes de renderização de texto, ele gera algo que "por fora" parece certo, mas na prática está errado, a ponto de qualquer pessoa que já tenha visto um piano real notar imediatamente o problema
Num prompt comum, provavelmente muita gente aceitaria de boa algo como pegar o primeiro resultado do Google Imagens e dizer "aqui está uma foto de um teclado de piano"
Ele também falhou no meu teste de texto horizontal
Tentei reproduzir diretamente os exemplos de garfo/espaguete e bolha de moda, mas ficaram bem diferentes dos resultados oficiais
Os resultados gerados também são consistentes
Usei imagens copiadas da página de publicidade, então a resolução pode ser diferente, mas os prompts foram os mesmos
Parece mesmo que estou usando o novo modelo, e comparado ao anterior, é um avanço enorme
A consistência dos resultados é interessante
Rodei várias gerações para o meu teste padrão de modelos de imagem (até hoje nunca vi um modelo desenhar corretamente oitavas de piano), e o Gemini 2.5 Flash Image também não é exceção
Quando você roda várias vezes e compara os resultados, não há mudança nenhuma
O ChatGPT, ao receber prompts de edição, muitas vezes alterava partes além da mudança desejada, mas aqui isso simplesmente não acontece
Exemplo de imagem
Os resultados reais parecem muito mais comuns ou ambíguos do que o que aparece na publicidade
No exemplo, a geração do sujeito de bolhas apenas cria formas vagas de bolha dentro do sujeito
No exemplo do garfo, ele só adiciona um garfo em cima do macarrão
Nos dois casos, dá até para dizer que na prática ele segue melhor o prompt, mas visualmente o resultado impressiona menos
Ainda bem que não virei especialista em Photoshop
Em algum momento achei isso atraente, mas hoje fico feliz por não ter seguido esse caminho
Agora basta um nano-banana
Tenho certeza de que os outros modelos logo vão alcançar também
A comunidade
r/photoshopbattlesjá eraRetoque é uma arte
Para profissionais, IAs como essa são apenas mais uma ferramenta para ganhar eficiência
Não basta saber usar Photoshop; o importante é ter bom julgamento
Claro, se a quantidade de trabalho não aumentar, é possível que menos retocadores façam o mesmo serviço
Se o preço cair, todo mundo vai retocar mais? Não tenho tanta certeza
Ponto de vista interessante
Sou programador, mas no começo dos anos 2000 também aprendi Photoshop e gostava muito de editar imagens
Os modelos generativos de hoje realmente produzem coisas muito melhores do que eu fazia naquela época, mas não acho que essa experiência e habilidade tenham se tornado inúteis
Na prática, o Photoshop (ou hoje em dia Affinity Designer/Photo) continua extremamente útil para refinar resultados de IA
Nunca me arrependi
Se eu tivesse escrito esse comentário 10 anos atrás, teria dito que pelo menos o programa e a habilidade eram meus, e continuariam meus mesmo se o Google aumentasse a assinatura ou encerrasse o serviço
Agora até o PS é por assinatura, e só resta esperar por um modelo aberto decente
O Photoshop ainda é útil
Imagens de IA são excelentes, mas eu ainda quero montar a composição base manualmente, e habilidades manuais continuam indispensáveis para limpar artefatos dos resultados de IA ou combinar várias camadas geradas por IA
No fim, outras áreas como programação também estão condenadas a cair na automação
Só vai demorar um pouco mais (5 a 10 anos?)
Engenharia pode levar mais tempo por causa de erros e dívida técnica
Se uma imagem sai ruim, basta gerar outra; se um programa sai ruim, ele vira imediatamente um amontoado de código impossível de manter
Mas em algum momento essa onda também vai chegar à nossa área
Quando peço geração de imagens ao Gemini, metade das vezes ele responde que não pode
Dá a sensação de que é difícil demais realmente usar os recursos do Google
Algumas coisas estão em um produto, outras em outro, e ainda fica confuso até onde acessar tudo isso
Exato
No site aparece a mensagem "Experimente no Gemini", mas quando seleciono o Gemini 2.5 Flash, nem tenho certeza se estou usando isso corretamente
No app ou no site do Gemini, esse modelo nem existe
É preciso usar por outros caminhos, como o AI Studio
A UI/UX do Google como um todo é realmente muito confusa