- O Google revelou o Gemini 2.5 Flash Image, conhecido como Nano-Banana, com capacidades de geração e edição de imagens ainda mais avançadas
- Oferece suporte a consistência de personagens, edição parcial baseada em linguagem natural, uso de conhecimento de mundo e combinação de múltiplas imagens
- Os desenvolvedores podem usar o modelo imediatamente via Gemini API, Google AI Studio, Vertex AI, OpenRouter, fal.ai e outros
- O preço é de US$ 30 por 1 milhão de tokens de saída, cerca de US$ 0,039 por imagem
- Todos os resultados incluem uma marca-d'água digital SynthID invisível
Introdução ao Gemini 2.5 Flash Image
- O Google anunciou o Gemini 2.5 Flash Image (codinome nano-banana), seu modelo de nova geração para geração e edição de imagens
- Com esta atualização, tornou-se possível combinar várias imagens em uma só, manter a consistência de uma pessoa ou objeto específico, fazer transformações detalhadas usando linguagem natural e gerar ou editar imagens com base no conhecimento de mundo do Gemini
- Mesmo na versão inicial, o Gemini 2.0 Flash já se destacava por baixa latência, eficiência de custo e facilidade de uso, mas agora, incorporando o feedback dos usuários, recebeu imagens de qualidade superior e controles criativos mais avançados
- Atualmente está disponível no Gemini API, Google AI Studio, Vertex AI e outros, com cobrança de US$ 30 por 1 milhão de tokens de saída (cerca de US$ 0,039 por imagem)
- Outras formas de entrada e saída seguem a mesma política de preços do Gemini 2.5 Flash
- Site oficial: https://deepmind.google/models/gemini/image/
Principais recursos e cenários
-
Upgrade do “Build Mode” no Google AI Studio
- O desenvolvimento de apps ficou mais simples com o Gemini 2.5 Flash Image
- Os desenvolvedores podem criar, testar e remixar rapidamente apps de IA personalizados, além de publicar diretamente pelo Google AI Studio ou salvar o código no GitHub
- Por exemplo, é possível criar facilmente um app com um prompt como “crie um aplicativo de edição de imagens no qual o usuário possa fazer upload de imagens e aplicar filtros”
- A seleção e remixagem de templates prontos também é oferecida gratuitamente
-
Consistência de personagens
- Manter a aparência do mesmo personagem durante a geração de imagens sempre foi um grande desafio
- O Gemini 2.5 Flash Image pode ser usado com eficiência para colocar a mesma pessoa em diferentes ambientes, mostrar um produto em vários ângulos ou locais e garantir consistência de ativos de marca
- Com o app de template do Google AI Studio, é fácil demonstrar a consistência de personagens e personalizar o código
- Esse recurso também pode ser aplicado para garantir consistência de design baseada em templates em cartões imobiliários, crachás de funcionários, mockups de produtos em massa e mais
-
Edição de imagens baseada em prompts de linguagem natural
- Os usuários podem modificar partes da imagem apenas com instruções em linguagem natural
- Exemplos incluem desfocar o fundo, remover manchas de uma camiseta, apagar uma pessoa, alterar poses e transformar imagens em preto e branco em imagens coloridas
- Um app de template com edição baseada em UI/prompt é fornecido para permitir experiência prática de uso
-
Uso nativo com base em conhecimento de mundo
- Enquanto modelos anteriores se destacavam na geração de imagens estéticas, eles eram mais fracos em compreensão semântica do mundo real
- O Gemini 2.5 Flash Image, com base em conhecimento de mundo, consegue reconhecer diagramas desenhados à mão, responder a perguntas sobre o mundo real e executar comandos complexos de edição
- Como exemplo de aplicação direta, é oferecido um app que transforma uma tela simples em um tutor educacional interativo
-
Fusão de múltiplas imagens
- O modelo consegue entender várias imagens e combiná-las de forma natural
- Por exemplo, oferece suporte para inserir produtos em novos fundos, mudar a tonalidade e a textura de um ambiente inteiro e fundir imagens com um único prompt
- Com um app de template, é possível posicionar produtos via drag-and-drop e gerar imagens de fusão fotorrealistas
Primeiros passos e parcerias
- É possível começar imediatamente pela documentação para desenvolvedores; no momento está em preview, mas deve se estabilizar em breve
- Todos os apps de demonstração podem ter o código remixado e personalizado no Google AI Studio
- Em parceria com a OpenRouter.ai, o modelo será oferecido a 3 milhões de desenvolvedores, sendo o primeiro entre os cerca de 480 modelos suportados pela OpenRouter com capacidade de geração de imagens
- A colaboração com a fal.ai amplia o suporte para uma comunidade ainda maior de desenvolvedores
Marca-d'água digital e feedback
- Todas as imagens geradas ou editadas com o Gemini 2.5 Flash Image recebem uma marca-d'água digital SynthID invisível, permitindo detectar que se trata de conteúdo gerado por IA
- Melhorias contínuas estão em andamento em qualidade de texto, consistência de personagens, descrição de detalhes de imagem e mais
- O feedback de desenvolvedores é recebido continuamente por meio do fórum de desenvolvedores do Google ou no X (antigo Twitter)
Exemplo simples de uso (código Python)
- No Python, é possível usar o Gemini 2.5 Flash Image com o SDK genai e as bibliotecas PIL e io, com o prompt e a imagem desejados
- Exemplo: é possível aplicar livremente prompts como “meu gato comendo nano-banana em um restaurante”
- Os resultados podem ser salvos no código tanto como texto simples quanto como arquivo de imagem
Direção futura de desenvolvimento
- O desenvolvimento contínuo busca elevar ainda mais o nível em renderização de textos longos, consistência de personagens mais confiável e expressão realista de detalhes
- Há incentivo à participação ativa e ao feedback da comunidade
- Espera-se ampliar as experiências de criação e desenvolvimento com o Gemini 2.5 Flash Image
2 comentários
O que é o Google Nano Banana? A IA secreta de imagens do Google
Comentários do Hacker News