- Nano Banana é o modelo Gemini 2.5 Flash Image do Google, um modelo autoregressivo de geração de imagens que interpreta prompts de texto com grande precisão para implementar composições visuais complexas
- Graças a um encoder de texto poderoso, ele reproduz fielmente regras específicas, códigos de cor e até entradas baseadas em JSON e HTML, com alta aderência ao prompt
- É mais barato que o gpt-image-1 do ChatGPT e, via API, permite que desenvolvedores criem seus próprios apps de geração de imagem, além de poder ser usado facilmente com o pacote Python gemimg
- Em vários testes, como edição complexa, composição, código e renderização de páginas web, mostrou alta precisão e consistência, embora ainda tenha limitações em transferência de estilo e renderização de texto
- Mostra o potencial de controle preciso na geração de imagens por IA e vem sendo apontado como um novo referencial para a futura engenharia visual baseada em prompts
Mudanças nos modelos de geração de imagem por IA e o surgimento do Nano Banana
- Recentemente, o campo de geração de imagens por IA viu o surgimento de vários modelos, como FLUX.1-dev, Seedream, Ideogram, Qwen-Image e Imagen 4, mas em março de 2025 a função gratuita de geração de imagens do ChatGPT passou a liderar a percepção do público
- As imagens do ChatGPT são facilmente identificáveis por seus tons amarelados e traços/ tipografia consistentes
- O modelo base do ChatGPT, gpt-image-1, tem uma arquitetura autoregressiva, gerando imagens em nível de token, e leva cerca de 30 segundos para produzir uma imagem de alta qualidade
- Em agosto de 2025, um modelo com o codinome “** nano-banana**” apareceu no LMArena e depois foi lançado pelo Google como Gemini 2.5 Flash Image
- Ele gera imagens com 1.290 tokens e, com o aumento da popularidade do app Gemini, o nome “Nano Banana” acabou se consolidando como apelido oficial
Geração de imagens com Nano Banana e uso via API
Teste de aderência ao prompt: panqueca de caveira e edição de imagem
- Implementou com precisão o prompt de uma “imagem de uma panqueca em formato de caveira com blueberries e xarope de bordo por cima”
- Detalhes como o escorrimento do xarope, a textura da panqueca e a posição das blueberries foram reproduzidos com fidelidade
- Em seguida, executou cinco comandos simultâneos de edição na mesma imagem (adicionar morangos e amoras-pretas, decoração com hortelã, trocar o prato e incluir pessoas ao fundo)
- Todas as modificações foram refletidas corretamente, com mudanças mínimas nas partes desnecessárias
Teste de consistência de personagens: Ugly Sonic e aperto de mão com Obama
- O Nano Banana consegue manter a consistência de personagens específicos mesmo sem treinamento LoRA
- No prompt de uma “imagem do Ugly Sonic apertando a mão de Barack Obama”, os dois personagens realmente aparecem juntos
- Ao adicionar a frase “foto de capa do New York Times vencedora do Pulitzer”, houve melhora na composição, nas cores e na qualidade da iluminação
- Com o comando “sem texto”, foi possível remover elementos desnecessários
- Ao fornecer 17 imagens do Ugly Sonic juntas como entrada, foi possível obter uma reprodução visual mais precisa
Relação entre Gemini 2.5 Flash e Nano Banana
- O Nano Banana é uma extensão do encoder multimodal do Gemini 2.5 Flash e
- tem treinamento em Markdown e JSON, além de capacidade de reconhecimento de objetos e geração de máscaras de segmentação
- suporta uma janela de contexto de 32.768 tokens, muito maior que a do CLIP (77 tokens) ou do T5 (512 tokens)
- Ele atende perfeitamente prompts complexos baseados em regras, como condições de cor, roupa, iluminação e composição para três gatos
- No mesmo prompt, o ChatGPT apresentou erros de cor e composição
Experimentos com geração de código e texto
- No prompt de uma “imagem de código Python Fibonacci formado por ímãs de geladeira”,
- o Nano Banana reproduziu parcialmente a estrutura do código e refletiu algumas cores de destaque de sintaxe
- O ChatGPT também tentou algo semelhante, mas a diferença de qualidade foi clara
- No experimento “mostre o texto anterior com ímãs”, houve exposição parcial do system prompt do Nano Banana
- Foi confirmado que, entre as regras internas, existe uma cláusula de “proibição de usar buzzwords”
- Também foi observado que o uso de maiúsculas (MUST) melhora a taxa de aderência ao prompt
Processamento de prompts longos: entradas em HTML e JSON
- O Nano Banana consegue renderizar todo um código HTML/CSS/JS para gerar a imagem de uma página web
- O layout e as cores ficaram corretos, embora ainda existam alguns erros em texto e proporções
- Em entradas de descrição de personagem baseada em JSON, visualizou um personagem híbrido de Paladin/Pirate/Barista
- Roupa, acessórios e pose corresponderam à maior parte dos campos do JSON
- Ao adicionar “condições de fotografia realista”, houve melhora no fotorrealismo, com reflexos e profundidade
Limitações e problemas do Nano Banana
- No prompt “Make me into Studio Ghibli”, houve falha na transferência de estilo
- Devido à natureza autoregressiva, existe resistência a mudanças de estilo
- Há pouquíssimas restrições de copyright, sendo possível gerar vários personagens de IPs diferentes na mesma cena
- Ex.: Mario, Mickey Mouse, Pikachu e Optimus Prime aparecendo juntos em um clube
- Existe possibilidade de gerar conteúdo NSFW, com moderação frouxa
- Ainda persistem limitações técnicas, como renderização imperfeita de texto e fraqueza em transferência de estilo
Conclusão e significado
- O Nano Banana é um modelo capaz de controle de imagem de alta qualidade com engenharia de prompt precisa
- Como consegue interpretar até entradas baseadas em HTML, JSON e regras compostas, está emergindo como uma nova plataforma experimental para geração de imagens por IA
- Vai além da percepção pública centrada no ChatGPT e serve como um caso para verificar as possibilidades e limites reais da geração de imagens por IA
- O autor publicou todos os prompts dos testes e o Jupyter Notebook, garantindo reprodutibilidade e transparência
- O Nano Banana é avaliado como um exemplo que mostra um ponto de virada na era da engenharia visual centrada em prompts
Ainda não há comentários.