Gemini 2.5 Flash Image - Google revela seu mais recente modelo de geração e edição de imagens

(developers.googleblog.com)

10 pontos por GN⁺ 2025-08-27 | 2 comentários | Compartilhar no WhatsApp

O Google revelou o Gemini 2.5 Flash Image, conhecido como Nano-Banana, com capacidades de geração e edição de imagens ainda mais avançadas
Oferece suporte a consistência de personagens, edição parcial baseada em linguagem natural, uso de conhecimento de mundo e combinação de múltiplas imagens
Os desenvolvedores podem usar o modelo imediatamente via Gemini API, Google AI Studio, Vertex AI, OpenRouter, fal.ai e outros
O preço é de US$ 30 por 1 milhão de tokens de saída, cerca de US$ 0,039 por imagem
Todos os resultados incluem uma marca-d'água digital SynthID invisível

Introdução ao Gemini 2.5 Flash Image

O Google anunciou o Gemini 2.5 Flash Image (codinome nano-banana), seu modelo de nova geração para geração e edição de imagens
Com esta atualização, tornou-se possível combinar várias imagens em uma só, manter a consistência de uma pessoa ou objeto específico, fazer transformações detalhadas usando linguagem natural e gerar ou editar imagens com base no conhecimento de mundo do Gemini
Mesmo na versão inicial, o Gemini 2.0 Flash já se destacava por baixa latência, eficiência de custo e facilidade de uso, mas agora, incorporando o feedback dos usuários, recebeu imagens de qualidade superior e controles criativos mais avançados
Atualmente está disponível no Gemini API, Google AI Studio, Vertex AI e outros, com cobrança de US$ 30 por 1 milhão de tokens de saída (cerca de US$ 0,039 por imagem)
Outras formas de entrada e saída seguem a mesma política de preços do Gemini 2.5 Flash
Site oficial: https://deepmind.google/models/gemini/image/

Principais recursos e cenários

Upgrade do “Build Mode” no Google AI Studio
- O desenvolvimento de apps ficou mais simples com o Gemini 2.5 Flash Image
- Os desenvolvedores podem criar, testar e remixar rapidamente apps de IA personalizados, além de publicar diretamente pelo Google AI Studio ou salvar o código no GitHub
- Por exemplo, é possível criar facilmente um app com um prompt como “crie um aplicativo de edição de imagens no qual o usuário possa fazer upload de imagens e aplicar filtros”
- A seleção e remixagem de templates prontos também é oferecida gratuitamente
Consistência de personagens
- Manter a aparência do mesmo personagem durante a geração de imagens sempre foi um grande desafio
- O Gemini 2.5 Flash Image pode ser usado com eficiência para colocar a mesma pessoa em diferentes ambientes, mostrar um produto em vários ângulos ou locais e garantir consistência de ativos de marca
- Com o app de template do Google AI Studio, é fácil demonstrar a consistência de personagens e personalizar o código
- Esse recurso também pode ser aplicado para garantir consistência de design baseada em templates em cartões imobiliários, crachás de funcionários, mockups de produtos em massa e mais
Edição de imagens baseada em prompts de linguagem natural
- Os usuários podem modificar partes da imagem apenas com instruções em linguagem natural
- Exemplos incluem desfocar o fundo, remover manchas de uma camiseta, apagar uma pessoa, alterar poses e transformar imagens em preto e branco em imagens coloridas
- Um app de template com edição baseada em UI/prompt é fornecido para permitir experiência prática de uso
Uso nativo com base em conhecimento de mundo
- Enquanto modelos anteriores se destacavam na geração de imagens estéticas, eles eram mais fracos em compreensão semântica do mundo real
- O Gemini 2.5 Flash Image, com base em conhecimento de mundo, consegue reconhecer diagramas desenhados à mão, responder a perguntas sobre o mundo real e executar comandos complexos de edição
- Como exemplo de aplicação direta, é oferecido um app que transforma uma tela simples em um tutor educacional interativo
Fusão de múltiplas imagens
- O modelo consegue entender várias imagens e combiná-las de forma natural
- Por exemplo, oferece suporte para inserir produtos em novos fundos, mudar a tonalidade e a textura de um ambiente inteiro e fundir imagens com um único prompt
- Com um app de template, é possível posicionar produtos via drag-and-drop e gerar imagens de fusão fotorrealistas

Primeiros passos e parcerias

É possível começar imediatamente pela documentação para desenvolvedores; no momento está em preview, mas deve se estabilizar em breve
Todos os apps de demonstração podem ter o código remixado e personalizado no Google AI Studio
Em parceria com a OpenRouter.ai, o modelo será oferecido a 3 milhões de desenvolvedores, sendo o primeiro entre os cerca de 480 modelos suportados pela OpenRouter com capacidade de geração de imagens
A colaboração com a fal.ai amplia o suporte para uma comunidade ainda maior de desenvolvedores

Marca-d'água digital e feedback

Todas as imagens geradas ou editadas com o Gemini 2.5 Flash Image recebem uma marca-d'água digital SynthID invisível, permitindo detectar que se trata de conteúdo gerado por IA
Melhorias contínuas estão em andamento em qualidade de texto, consistência de personagens, descrição de detalhes de imagem e mais
O feedback de desenvolvedores é recebido continuamente por meio do fórum de desenvolvedores do Google ou no X (antigo Twitter)

Exemplo simples de uso (código Python)

No Python, é possível usar o Gemini 2.5 Flash Image com o SDK genai e as bibliotecas PIL e io, com o prompt e a imagem desejados
Exemplo: é possível aplicar livremente prompts como “meu gato comendo nano-banana em um restaurante”
Os resultados podem ser salvos no código tanto como texto simples quanto como arquivo de imagem

Direção futura de desenvolvimento

O desenvolvimento contínuo busca elevar ainda mais o nível em renderização de textos longos, consistência de personagens mais confiável e expressão realista de detalhes
Há incentivo à participação ativa e ao feedback da comunidade
Espera-se ampliar as experiências de criação e desenvolvimento com o Gemini 2.5 Flash Image

2 comentários

xguru 2025-08-27

O que é o Google Nano Banana? A IA secreta de imagens do Google

GN⁺ 2025-08-27

Comentários do Hacker News

Isso parece o momento GPT-4 dos modelos de edição de imagem. Veja resultados impressionantes no Twitter
- nano banana, ou seja, gemini 2.5 flash, teve um salto enorme de 171 pontos de elo no lmarena
- Se procurar por nano banana no Twitter, dá para ver resultados impressionantes
- Hoje em dia, todos os domínios "nano banana" já foram registrados e cada um oferece sua própria UI de geração de imagens, mas todos parecem uma espécie de atravessadores usando o nome de um modelo popular
- Fico curioso para saber por que o nome é nano banana
Este é o famoso modelo nano-banana, que agora foi renomeado para gemini-2.5-flash-image-preview no LMArena
- Link para quem não sabe o que é nano-banana: O que é o Google Nano Banana? A IA secreta de imagem do Google
- Também entrei aqui por curiosidade sobre isso, então obrigado por esclarecer
Quando tento gerar imagens com o Gemini, metade das vezes ele responde que é impossível
- Além disso, há uma confusão porque os recursos anunciados pelo Google estão espalhados por vários lugares, então não dá para entender em qual produto isso pode ser usado nem onde é preciso pagar
No fim das contas, os modelos de imagem parecem vampiros de tempo
- Fazer um único cômodo é fácil, mas criar o mesmo cômodo de forma consistente de vários ângulos é praticamente impossível
- É difícil usar isso em trabalhos que exigem consistência visual
Digitalizei fotos de família, mas muitas estavam danificadas e foi difícil restaurá-las
- Este modelo parece bom em restaurar sem alterar os detalhes, então talvez finalmente tenha chegado a um ponto utilizável
- Na verdade, esses defeitos podem ser restaurados automaticamente com um scanner de filme + recurso ICE e softwares como o Vuescan
  - Parece desnecessário entregar centenas de imagens para uma IA experimental na nuvem
- Alguém conhece algum software de melhoria de qualidade de vídeo?
  - Estou digitalizando fitas Video 2000 e VHS e queria melhorar um pouco essas gravações de lembrança
- Espero que funcione bem, mas em um dos exemplos o rosto pareceu excessivamente artificial, meio com cara de IA
- Na verdade, um modelo chamado Flux Kontext já tinha chegado a esse nível há alguns meses
O desempenho do modelo é impressionante, mas ao mesmo tempo me preocupo com o impacto social
- Basta olhar os comentários no Facebook para ficar apreensivo
- Testei o SynthID do Google e ele pareceu muito bom
  - A marca-d'água continua presente mesmo após compressão, recorte, redimensionamento, correção de cor e overpainting
- Recentemente, eu também caí em um golpe de deepfake durante um evento de lançamento da SpaceX e perdi 15k BTC
  - A tecnologia está tão sofisticada que os ataques estão ficando cada vez mais perigosos
- Os comentários do Facebook realmente parecem ser operados por bots
O exemplo da luminária foi bem impressionante
- A conexão de energia, a iluminação e até as sombras foram representadas de forma natural
Gosto da velocidade muito maior em comparação com a geração de imagens do ChatGPT
- O ChatGPT era tão lento que parecia preciso receber o resultado por notificação
- É engraçado imaginar uma imagem como “a reação dos investidores da OpenAI depois de usar o Gemini 2.5 Flash Image”
Havia uma tarefa que eu queria fazer há muito tempo
- Era substituir um objeto da imagem 1 por um objeto da imagem 2, e eu queria até especificar exatamente a posição
- Tentei vários modelos, mas todos falharam; este chegou bem perto, mas no fim substituiu outro objeto
- Gostaria de saber se existe algum modelo especializado em substituir uma posição específica usando uma imagem de referência
- O modelo ACE++ da Alibaba oferece esse tipo de recurso
  - Está sendo usado no phind.design, mas é uma tarefa bem específica, então não é algo comum

Gemini 2.5 Flash Image - Google revela seu mais recente modelo de geração e edição de imagens

Introdução ao Gemini 2.5 Flash Image

Principais recursos e cenários

Upgrade do “Build Mode” no Google AI Studio

Consistência de personagens

Edição de imagens baseada em prompts de linguagem natural

Uso nativo com base em conhecimento de mundo

Fusão de múltiplas imagens

Primeiros passos e parcerias

Marca-d'água digital e feedback

Exemplo simples de uso (código Python)

Direção futura de desenvolvimento

Leituras relacionadas

2 comentários

Comentários do Hacker News