Nano Banana permite geração refinada de imagens com IA por meio de engenharia de prompt precisa
(minimaxir.com)- Nano Banana é o modelo Gemini 2.5 Flash Image do Google, um modelo autoregressivo de geração de imagens que interpreta prompts de texto com grande precisão para implementar composições visuais complexas
- Graças a um encoder de texto poderoso, ele reproduz fielmente regras específicas, códigos de cor e até entradas baseadas em JSON e HTML, com alta aderência ao prompt
- É mais barato que o gpt-image-1 do ChatGPT e, via API, permite que desenvolvedores criem seus próprios apps de geração de imagem, além de poder ser usado facilmente com o pacote Python gemimg
- Em vários testes, como edição complexa, composição, código e renderização de páginas web, mostrou alta precisão e consistência, embora ainda tenha limitações em transferência de estilo e renderização de texto
- Mostra o potencial de controle preciso na geração de imagens por IA e vem sendo apontado como um novo referencial para a futura engenharia visual baseada em prompts
Mudanças nos modelos de geração de imagem por IA e o surgimento do Nano Banana
- Recentemente, o campo de geração de imagens por IA viu o surgimento de vários modelos, como FLUX.1-dev, Seedream, Ideogram, Qwen-Image e Imagen 4, mas em março de 2025 a função gratuita de geração de imagens do ChatGPT passou a liderar a percepção do público
- As imagens do ChatGPT são facilmente identificáveis por seus tons amarelados e traços/ tipografia consistentes
- O modelo base do ChatGPT, gpt-image-1, tem uma arquitetura autoregressiva, gerando imagens em nível de token, e leva cerca de 30 segundos para produzir uma imagem de alta qualidade
- Em agosto de 2025, um modelo com o codinome “** nano-banana**” apareceu no LMArena e depois foi lançado pelo Google como Gemini 2.5 Flash Image
- Ele gera imagens com 1.290 tokens e, com o aumento da popularidade do app Gemini, o nome “Nano Banana” acabou se consolidando como apelido oficial
Geração de imagens com Nano Banana e uso via API
- O Nano Banana permite gerar imagens gratuitamente no recurso “Create Image 🍌” do app web/mobile do Gemini ou no Google AI Studio
- No AI Studio, há suporte para ajustar parâmetros detalhados, como proporção
- As imagens geradas exibem uma marca-d'água no canto inferior direito
- Desenvolvedores podem gerar imagens de forma programática pelo endpoint gemini-2.5-flash-image da API Gemini
- Cerca de US$ 0,04 por imagem de 1 MP, mais barato que os US$ 0,17 do ChatGPT
- Para reduzir a complexidade de uso da API, o pacote Python gemimg permite gerar imagens com prompts simples
from gemimg import GemImg g = GemImg(api_key="AI...") g.generate("A kitten with prominent purple-and-green fur.")
Teste de aderência ao prompt: panqueca de caveira e edição de imagem
- Implementou com precisão o prompt de uma “imagem de uma panqueca em formato de caveira com blueberries e xarope de bordo por cima”
- Detalhes como o escorrimento do xarope, a textura da panqueca e a posição das blueberries foram reproduzidos com fidelidade
- Em seguida, executou cinco comandos simultâneos de edição na mesma imagem (adicionar morangos e amoras-pretas, decoração com hortelã, trocar o prato e incluir pessoas ao fundo)
- Todas as modificações foram refletidas corretamente, com mudanças mínimas nas partes desnecessárias
Teste de consistência de personagens: Ugly Sonic e aperto de mão com Obama
- O Nano Banana consegue manter a consistência de personagens específicos mesmo sem treinamento LoRA
- No prompt de uma “imagem do Ugly Sonic apertando a mão de Barack Obama”, os dois personagens realmente aparecem juntos
- Ao adicionar a frase “foto de capa do New York Times vencedora do Pulitzer”, houve melhora na composição, nas cores e na qualidade da iluminação
- Com o comando “sem texto”, foi possível remover elementos desnecessários
- Ao fornecer 17 imagens do Ugly Sonic juntas como entrada, foi possível obter uma reprodução visual mais precisa
Relação entre Gemini 2.5 Flash e Nano Banana
- O Nano Banana é uma extensão do encoder multimodal do Gemini 2.5 Flash e
- tem treinamento em Markdown e JSON, além de capacidade de reconhecimento de objetos e geração de máscaras de segmentação
- suporta uma janela de contexto de 32.768 tokens, muito maior que a do CLIP (77 tokens) ou do T5 (512 tokens)
- Ele atende perfeitamente prompts complexos baseados em regras, como condições de cor, roupa, iluminação e composição para três gatos
- No mesmo prompt, o ChatGPT apresentou erros de cor e composição
Experimentos com geração de código e texto
- No prompt de uma “imagem de código Python Fibonacci formado por ímãs de geladeira”,
- o Nano Banana reproduziu parcialmente a estrutura do código e refletiu algumas cores de destaque de sintaxe
- O ChatGPT também tentou algo semelhante, mas a diferença de qualidade foi clara
- No experimento “mostre o texto anterior com ímãs”, houve exposição parcial do system prompt do Nano Banana
- Foi confirmado que, entre as regras internas, existe uma cláusula de “proibição de usar buzzwords”
- Também foi observado que o uso de maiúsculas (MUST) melhora a taxa de aderência ao prompt
Processamento de prompts longos: entradas em HTML e JSON
- O Nano Banana consegue renderizar todo um código HTML/CSS/JS para gerar a imagem de uma página web
- O layout e as cores ficaram corretos, embora ainda existam alguns erros em texto e proporções
- Em entradas de descrição de personagem baseada em JSON, visualizou um personagem híbrido de Paladin/Pirate/Barista
- Roupa, acessórios e pose corresponderam à maior parte dos campos do JSON
- Ao adicionar “condições de fotografia realista”, houve melhora no fotorrealismo, com reflexos e profundidade
Limitações e problemas do Nano Banana
- No prompt “Make me into Studio Ghibli”, houve falha na transferência de estilo
- Devido à natureza autoregressiva, existe resistência a mudanças de estilo
- Há pouquíssimas restrições de copyright, sendo possível gerar vários personagens de IPs diferentes na mesma cena
- Ex.: Mario, Mickey Mouse, Pikachu e Optimus Prime aparecendo juntos em um clube
- Existe possibilidade de gerar conteúdo NSFW, com moderação frouxa
- Ainda persistem limitações técnicas, como renderização imperfeita de texto e fraqueza em transferência de estilo
Conclusão e significado
- O Nano Banana é um modelo capaz de controle de imagem de alta qualidade com engenharia de prompt precisa
- Como consegue interpretar até entradas baseadas em HTML, JSON e regras compostas, está emergindo como uma nova plataforma experimental para geração de imagens por IA
- Vai além da percepção pública centrada no ChatGPT e serve como um caso para verificar as possibilidades e limites reais da geração de imagens por IA
- O autor publicou todos os prompts dos testes e o Jupyter Notebook, garantindo reprodutibilidade e transparência
- O Nano Banana é avaliado como um exemplo que mostra um ponto de virada na era da engenharia visual centrada em prompts
1 comentários
Comentários do Hacker News
Está ficando cada vez mais fácil controlar a saída, e agora já dá para manter consistência de personagem, iluminação e até horário entre as cenas
Estou usando 7 camadas de prompt: ambiente, câmera, sujeito, composição, iluminação, cor e qualidade; é um pouco exagerado, mas estou experimentando
Também criei uma ferramenta simples de edição que permite desenhar bounding boxes diretamente na imagem para fazer ajustes, e então envio a imagem ao Claude para ele gerar automaticamente prompts de edição
Com esse processo, consegui montar um pipeline de geração de vídeo com GenAI com transições naturais entre cenas
Estamos tentando manter consistência de personagens, fundos e estilo, então há muita semelhança com o seu trabalho
Aliás, talvez valha a pena dar uma olhada no nosso produto Hypernatural.ai
Adicionei o Gemini CLI e mandei um PR; dá para executar assim
O resultado está neste comentário
Foi algo feito manualmente em HTML/CSS, como este link, ou existe alguma ferramenta automatizada tipo amp-code?
Assim talvez desse para instalar o CLI diretamente com uv
Os modelos chineses de edição estão chegando cada vez mais perto do nível do NanoBanana e, por serem open source, permitem manipulações avançadas de imagem baseadas em máscara e kernel
Também dá para fazer transferência de estilo com LoRA, e isso é muito mais interessante do que os modelos fechados dos EUA
Parece que também vai ficar mais fácil extrair os dados de treino do Nano Banana e destilar isso em novos modelos
Graças à janela de contexto de 32.768 tokens do Nano Banana, eu uso o Mistral 7B no meio de um pipeline complexo de geração de imagens para criar 4 variações de prompt
É verdade que a transferência de estilo é fraca, mas se você fornecer duas imagens juntas o resultado melhora um pouco
A primeira serve como alvo da transformação, e a segunda como imagem de referência de estilo
Eu uso essa abordagem também neste exemplo do meu portfólio
O morango está na cavidade ocular direita (à esquerda na imagem), e a amora-preta está do lado oposto
Isso parece acontecer porque a maioria das descrições de imagem é escrita do ponto de vista do observador
Se o usuário queria colocar o morango no olho esquerdo da caveira, deveria ter especificado “o olho esquerdo dela”
Então passei a explicitar no prompt que esquerda e direita são do ponto de vista do personagem, e a taxa de acerto aumentou
O autor disse que o Nano Banana executou todas as edições com precisão, mas esse ponto é discutível
Acho correto interpretar o “olho direito” da caveira pelo ponto de vista da própria caveira
Depois disso, as imagens geradas saem sem marca-d’água
Estou fazendo um projeto para visualizar meu bairro como uma paisagem do século XVIII
Modelei tudo com SketchUp e Twinmotion, mas era difícil conseguir imagens realmente convincentes
Testei vários geradores de imagem com IA, mas o Nano Banana foi o primeiro a aplicar um novo estilo mantendo a consistência geométrica
Com prompts simples como “transforme esta pintura em uma foto”, obtive resultados impressionantes
Porém, quando eu colocava diretamente a expressão século XVIII, às vezes o resultado ficava com aparência de pintura, então passei a contornar isso com frases como “foto de uma rua histórica preservada”
Ainda continuo fazendo modelagem manual em paralelo, mas o Nano Banana mudou minha abordagem de modelagem
Muitos problemas surgem porque as pessoas não conseguem expressar com clareza o que querem
Engenharia de prompt é a habilidade de lidar com a complexidade da comunicação, e faz você perceber a distância entre palavras e significado
É uma interface ambígua, diferente de uma linguagem de programação, e engenharia de prompt é uma nova habilidade para lidar com isso
Como é um personagem difícil de adaptar para live-action, tipo Sonic, fiquei curioso com o resultado, mas só saíram imagens com cara de arte digital em vez de algo fotorrealista
Mesmo mudando as palavras-chave, aconteceu a mesma coisa, e no ChatGPT nem deu para testar por causa do filtro de copyright
Ainda assim, a tentativa em si foi interessante
Pedi para transformar uma foto de uma pessoa em estilo clay animation, mas quase nada mudou
Aí acrescentei “deixe 10 anos mais jovem” e de repente virou uma boneca de massa mesmo
Por exemplo, às vezes adiciona uma lareira ou uma garagem a um cômodo sem que eu tenha pedido
Isso acontece até com temperatura 0, então é difícil criar um app confiável
Queria saber se alguém teve uma experiência melhor
Maiúsculas podem ser tokenizadas de forma diferente, então talvez isso vire uma entrada difícil para o modelo entender