10 pontos por GN⁺ 2025-11-14 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Nano Banana é o modelo Gemini 2.5 Flash Image do Google, um modelo autoregressivo de geração de imagens que interpreta prompts de texto com grande precisão para implementar composições visuais complexas
  • Graças a um encoder de texto poderoso, ele reproduz fielmente regras específicas, códigos de cor e até entradas baseadas em JSON e HTML, com alta aderência ao prompt
  • É mais barato que o gpt-image-1 do ChatGPT e, via API, permite que desenvolvedores criem seus próprios apps de geração de imagem, além de poder ser usado facilmente com o pacote Python gemimg
  • Em vários testes, como edição complexa, composição, código e renderização de páginas web, mostrou alta precisão e consistência, embora ainda tenha limitações em transferência de estilo e renderização de texto
  • Mostra o potencial de controle preciso na geração de imagens por IA e vem sendo apontado como um novo referencial para a futura engenharia visual baseada em prompts

Mudanças nos modelos de geração de imagem por IA e o surgimento do Nano Banana

  • Recentemente, o campo de geração de imagens por IA viu o surgimento de vários modelos, como FLUX.1-dev, Seedream, Ideogram, Qwen-Image e Imagen 4, mas em março de 2025 a função gratuita de geração de imagens do ChatGPT passou a liderar a percepção do público
  • As imagens do ChatGPT são facilmente identificáveis por seus tons amarelados e traços/ tipografia consistentes
  • O modelo base do ChatGPT, gpt-image-1, tem uma arquitetura autoregressiva, gerando imagens em nível de token, e leva cerca de 30 segundos para produzir uma imagem de alta qualidade
  • Em agosto de 2025, um modelo com o codinome “** nano-banana**” apareceu no LMArena e depois foi lançado pelo Google como Gemini 2.5 Flash Image
    • Ele gera imagens com 1.290 tokens e, com o aumento da popularidade do app Gemini, o nome “Nano Banana” acabou se consolidando como apelido oficial

Geração de imagens com Nano Banana e uso via API

  • O Nano Banana permite gerar imagens gratuitamente no recurso “Create Image 🍌” do app web/mobile do Gemini ou no Google AI Studio
    • No AI Studio, há suporte para ajustar parâmetros detalhados, como proporção
    • As imagens geradas exibem uma marca-d'água no canto inferior direito
  • Desenvolvedores podem gerar imagens de forma programática pelo endpoint gemini-2.5-flash-image da API Gemini
    • Cerca de US$ 0,04 por imagem de 1 MP, mais barato que os US$ 0,17 do ChatGPT
  • Para reduzir a complexidade de uso da API, o pacote Python gemimg permite gerar imagens com prompts simples
    from gemimg import GemImg
    g = GemImg(api_key="AI...")
    g.generate("A kitten with prominent purple-and-green fur.")
    

Teste de aderência ao prompt: panqueca de caveira e edição de imagem

  • Implementou com precisão o prompt de uma “imagem de uma panqueca em formato de caveira com blueberries e xarope de bordo por cima
    • Detalhes como o escorrimento do xarope, a textura da panqueca e a posição das blueberries foram reproduzidos com fidelidade
  • Em seguida, executou cinco comandos simultâneos de edição na mesma imagem (adicionar morangos e amoras-pretas, decoração com hortelã, trocar o prato e incluir pessoas ao fundo)
    • Todas as modificações foram refletidas corretamente, com mudanças mínimas nas partes desnecessárias

Teste de consistência de personagens: Ugly Sonic e aperto de mão com Obama

  • O Nano Banana consegue manter a consistência de personagens específicos mesmo sem treinamento LoRA
  • No prompt de uma “imagem do Ugly Sonic apertando a mão de Barack Obama”, os dois personagens realmente aparecem juntos
    • Ao adicionar a frase “foto de capa do New York Times vencedora do Pulitzer”, houve melhora na composição, nas cores e na qualidade da iluminação
    • Com o comando “sem texto”, foi possível remover elementos desnecessários
  • Ao fornecer 17 imagens do Ugly Sonic juntas como entrada, foi possível obter uma reprodução visual mais precisa

Relação entre Gemini 2.5 Flash e Nano Banana

  • O Nano Banana é uma extensão do encoder multimodal do Gemini 2.5 Flash e
    • tem treinamento em Markdown e JSON, além de capacidade de reconhecimento de objetos e geração de máscaras de segmentação
    • suporta uma janela de contexto de 32.768 tokens, muito maior que a do CLIP (77 tokens) ou do T5 (512 tokens)
  • Ele atende perfeitamente prompts complexos baseados em regras, como condições de cor, roupa, iluminação e composição para três gatos
    • No mesmo prompt, o ChatGPT apresentou erros de cor e composição

Experimentos com geração de código e texto

  • No prompt de uma “imagem de código Python Fibonacci formado por ímãs de geladeira”,
    • o Nano Banana reproduziu parcialmente a estrutura do código e refletiu algumas cores de destaque de sintaxe
    • O ChatGPT também tentou algo semelhante, mas a diferença de qualidade foi clara
  • No experimento “mostre o texto anterior com ímãs”, houve exposição parcial do system prompt do Nano Banana
    • Foi confirmado que, entre as regras internas, existe uma cláusula de “proibição de usar buzzwords
    • Também foi observado que o uso de maiúsculas (MUST) melhora a taxa de aderência ao prompt

Processamento de prompts longos: entradas em HTML e JSON

  • O Nano Banana consegue renderizar todo um código HTML/CSS/JS para gerar a imagem de uma página web
    • O layout e as cores ficaram corretos, embora ainda existam alguns erros em texto e proporções
  • Em entradas de descrição de personagem baseada em JSON, visualizou um personagem híbrido de Paladin/Pirate/Barista
    • Roupa, acessórios e pose corresponderam à maior parte dos campos do JSON
    • Ao adicionar “condições de fotografia realista”, houve melhora no fotorrealismo, com reflexos e profundidade

Limitações e problemas do Nano Banana

  • No prompt “Make me into Studio Ghibli”, houve falha na transferência de estilo
    • Devido à natureza autoregressiva, existe resistência a mudanças de estilo
  • pouquíssimas restrições de copyright, sendo possível gerar vários personagens de IPs diferentes na mesma cena
    • Ex.: Mario, Mickey Mouse, Pikachu e Optimus Prime aparecendo juntos em um clube
  • Existe possibilidade de gerar conteúdo NSFW, com moderação frouxa
  • Ainda persistem limitações técnicas, como renderização imperfeita de texto e fraqueza em transferência de estilo

Conclusão e significado

  • O Nano Banana é um modelo capaz de controle de imagem de alta qualidade com engenharia de prompt precisa
  • Como consegue interpretar até entradas baseadas em HTML, JSON e regras compostas, está emergindo como uma nova plataforma experimental para geração de imagens por IA
  • Vai além da percepção pública centrada no ChatGPT e serve como um caso para verificar as possibilidades e limites reais da geração de imagens por IA
  • O autor publicou todos os prompts dos testes e o Jupyter Notebook, garantindo reprodutibilidade e transparência
  • O Nano Banana é avaliado como um exemplo que mostra um ponto de virada na era da engenharia visual centrada em prompts

Ainda não há comentários.

Ainda não há comentários.