10 pontos por GN⁺ 2025-11-14 | 1 comentários | Compartilhar no WhatsApp
  • Nano Banana é o modelo Gemini 2.5 Flash Image do Google, um modelo autoregressivo de geração de imagens que interpreta prompts de texto com grande precisão para implementar composições visuais complexas
  • Graças a um encoder de texto poderoso, ele reproduz fielmente regras específicas, códigos de cor e até entradas baseadas em JSON e HTML, com alta aderência ao prompt
  • É mais barato que o gpt-image-1 do ChatGPT e, via API, permite que desenvolvedores criem seus próprios apps de geração de imagem, além de poder ser usado facilmente com o pacote Python gemimg
  • Em vários testes, como edição complexa, composição, código e renderização de páginas web, mostrou alta precisão e consistência, embora ainda tenha limitações em transferência de estilo e renderização de texto
  • Mostra o potencial de controle preciso na geração de imagens por IA e vem sendo apontado como um novo referencial para a futura engenharia visual baseada em prompts

Mudanças nos modelos de geração de imagem por IA e o surgimento do Nano Banana

  • Recentemente, o campo de geração de imagens por IA viu o surgimento de vários modelos, como FLUX.1-dev, Seedream, Ideogram, Qwen-Image e Imagen 4, mas em março de 2025 a função gratuita de geração de imagens do ChatGPT passou a liderar a percepção do público
  • As imagens do ChatGPT são facilmente identificáveis por seus tons amarelados e traços/ tipografia consistentes
  • O modelo base do ChatGPT, gpt-image-1, tem uma arquitetura autoregressiva, gerando imagens em nível de token, e leva cerca de 30 segundos para produzir uma imagem de alta qualidade
  • Em agosto de 2025, um modelo com o codinome “** nano-banana**” apareceu no LMArena e depois foi lançado pelo Google como Gemini 2.5 Flash Image
    • Ele gera imagens com 1.290 tokens e, com o aumento da popularidade do app Gemini, o nome “Nano Banana” acabou se consolidando como apelido oficial

Geração de imagens com Nano Banana e uso via API

  • O Nano Banana permite gerar imagens gratuitamente no recurso “Create Image 🍌” do app web/mobile do Gemini ou no Google AI Studio
    • No AI Studio, há suporte para ajustar parâmetros detalhados, como proporção
    • As imagens geradas exibem uma marca-d'água no canto inferior direito
  • Desenvolvedores podem gerar imagens de forma programática pelo endpoint gemini-2.5-flash-image da API Gemini
    • Cerca de US$ 0,04 por imagem de 1 MP, mais barato que os US$ 0,17 do ChatGPT
  • Para reduzir a complexidade de uso da API, o pacote Python gemimg permite gerar imagens com prompts simples
    from gemimg import GemImg
    g = GemImg(api_key="AI...")
    g.generate("A kitten with prominent purple-and-green fur.")
    

Teste de aderência ao prompt: panqueca de caveira e edição de imagem

  • Implementou com precisão o prompt de uma “imagem de uma panqueca em formato de caveira com blueberries e xarope de bordo por cima
    • Detalhes como o escorrimento do xarope, a textura da panqueca e a posição das blueberries foram reproduzidos com fidelidade
  • Em seguida, executou cinco comandos simultâneos de edição na mesma imagem (adicionar morangos e amoras-pretas, decoração com hortelã, trocar o prato e incluir pessoas ao fundo)
    • Todas as modificações foram refletidas corretamente, com mudanças mínimas nas partes desnecessárias

Teste de consistência de personagens: Ugly Sonic e aperto de mão com Obama

  • O Nano Banana consegue manter a consistência de personagens específicos mesmo sem treinamento LoRA
  • No prompt de uma “imagem do Ugly Sonic apertando a mão de Barack Obama”, os dois personagens realmente aparecem juntos
    • Ao adicionar a frase “foto de capa do New York Times vencedora do Pulitzer”, houve melhora na composição, nas cores e na qualidade da iluminação
    • Com o comando “sem texto”, foi possível remover elementos desnecessários
  • Ao fornecer 17 imagens do Ugly Sonic juntas como entrada, foi possível obter uma reprodução visual mais precisa

Relação entre Gemini 2.5 Flash e Nano Banana

  • O Nano Banana é uma extensão do encoder multimodal do Gemini 2.5 Flash e
    • tem treinamento em Markdown e JSON, além de capacidade de reconhecimento de objetos e geração de máscaras de segmentação
    • suporta uma janela de contexto de 32.768 tokens, muito maior que a do CLIP (77 tokens) ou do T5 (512 tokens)
  • Ele atende perfeitamente prompts complexos baseados em regras, como condições de cor, roupa, iluminação e composição para três gatos
    • No mesmo prompt, o ChatGPT apresentou erros de cor e composição

Experimentos com geração de código e texto

  • No prompt de uma “imagem de código Python Fibonacci formado por ímãs de geladeira”,
    • o Nano Banana reproduziu parcialmente a estrutura do código e refletiu algumas cores de destaque de sintaxe
    • O ChatGPT também tentou algo semelhante, mas a diferença de qualidade foi clara
  • No experimento “mostre o texto anterior com ímãs”, houve exposição parcial do system prompt do Nano Banana
    • Foi confirmado que, entre as regras internas, existe uma cláusula de “proibição de usar buzzwords
    • Também foi observado que o uso de maiúsculas (MUST) melhora a taxa de aderência ao prompt

Processamento de prompts longos: entradas em HTML e JSON

  • O Nano Banana consegue renderizar todo um código HTML/CSS/JS para gerar a imagem de uma página web
    • O layout e as cores ficaram corretos, embora ainda existam alguns erros em texto e proporções
  • Em entradas de descrição de personagem baseada em JSON, visualizou um personagem híbrido de Paladin/Pirate/Barista
    • Roupa, acessórios e pose corresponderam à maior parte dos campos do JSON
    • Ao adicionar “condições de fotografia realista”, houve melhora no fotorrealismo, com reflexos e profundidade

Limitações e problemas do Nano Banana

  • No prompt “Make me into Studio Ghibli”, houve falha na transferência de estilo
    • Devido à natureza autoregressiva, existe resistência a mudanças de estilo
  • pouquíssimas restrições de copyright, sendo possível gerar vários personagens de IPs diferentes na mesma cena
    • Ex.: Mario, Mickey Mouse, Pikachu e Optimus Prime aparecendo juntos em um clube
  • Existe possibilidade de gerar conteúdo NSFW, com moderação frouxa
  • Ainda persistem limitações técnicas, como renderização imperfeita de texto e fraqueza em transferência de estilo

Conclusão e significado

  • O Nano Banana é um modelo capaz de controle de imagem de alta qualidade com engenharia de prompt precisa
  • Como consegue interpretar até entradas baseadas em HTML, JSON e regras compostas, está emergindo como uma nova plataforma experimental para geração de imagens por IA
  • Vai além da percepção pública centrada no ChatGPT e serve como um caso para verificar as possibilidades e limites reais da geração de imagens por IA
  • O autor publicou todos os prompts dos testes e o Jupyter Notebook, garantindo reprodutibilidade e transparência
  • O Nano Banana é avaliado como um exemplo que mostra um ponto de virada na era da engenharia visual centrada em prompts

1 comentários

 
GN⁺ 2025-11-14
Comentários do Hacker News
  • Eu gero dezenas de imagens por dia para storyboards
    Está ficando cada vez mais fácil controlar a saída, e agora já dá para manter consistência de personagem, iluminação e até horário entre as cenas
    Estou usando 7 camadas de prompt: ambiente, câmera, sujeito, composição, iluminação, cor e qualidade; é um pouco exagerado, mas estou experimentando
    Também criei uma ferramenta simples de edição que permite desenhar bounding boxes diretamente na imagem para fazer ajustes, e então envio a imagem ao Claude para ele gerar automaticamente prompts de edição
    Com esse processo, consegui montar um pipeline de geração de vídeo com GenAI com transições naturais entre cenas
    • Nossa equipe também usa o nano banana de forma parecida para criar storyboards e produzir vídeos em full motion com um modelo img2vid
      Estamos tentando manter consistência de personagens, fundos e estilo, então há muita semelhança com o seu trabalho
      Aliás, talvez valha a pena dar uma olhada no nosso produto Hypernatural.ai
    • Eu tenho a impressão contrária: quando o resultado sai dos trilhos uma vez, fica quase impossível voltar à intenção original
  • Eu gosto da biblioteca Python gemimg
    Adicionei o Gemini CLI e mandei um PR; dá para executar assim
    O resultado está neste comentário
    • Tenho uma dúvida para @simonw — como você fez a prévia de gist da sessão de terminal do gemini-cli?
      Foi algo feito manualmente em HTML/CSS, como este link, ou existe alguma ferramenta automatizada tipo amp-code?
    • Fiquei curioso se há algum motivo para não adicionar uma entrada project.scripts no pyproject.toml
      Assim talvez desse para instalar o CLI diretamente com uv
    • O autor enfatizou bastante open source no começo, então fiquei curioso se também vai abordar o ecossistema do QwenEdit
      Os modelos chineses de edição estão chegando cada vez mais perto do nível do NanoBanana e, por serem open source, permitem manipulações avançadas de imagem baseadas em máscara e kernel
      Também dá para fazer transferência de estilo com LoRA, e isso é muito mais interessante do que os modelos fechados dos EUA
      Parece que também vai ficar mais fácil extrair os dados de treino do Nano Banana e destilar isso em novos modelos
  • Li o texto do minimaxir com interesse
    Graças à janela de contexto de 32.768 tokens do Nano Banana, eu uso o Mistral 7B no meio de um pipeline complexo de geração de imagens para criar 4 variações de prompt
    É verdade que a transferência de estilo é fraca, mas se você fornecer duas imagens juntas o resultado melhora um pouco
    A primeira serve como alvo da transformação, e a segunda como imagem de referência de estilo
    Eu uso essa abordagem também neste exemplo do meu portfólio
    • Talvez seja uma restrição explícita para bloquear o estilo do Studio Ghibli depois da antiga onda de “make me Ghibli”
  • Encontrei um erro engraçado na segunda imagem de panqueca de caveira
    O morango está na cavidade ocular direita (à esquerda na imagem), e a amora-preta está do lado oposto
    Isso parece acontecer porque a maioria das descrições de imagem é escrita do ponto de vista do observador
    • Eu, como humano, provavelmente teria feito igual ao Nano Banana
      Se o usuário queria colocar o morango no olho esquerdo da caveira, deveria ter especificado “o olho esquerdo dela”
    • Acho que muita gente vai se confundir se “olho esquerdo” significa o do sujeito ou o da câmera
    • Eu também não tinha percebido isso, mas depois apontei o mesmo problema no JSON do personagem
      Então passei a explicitar no prompt que esquerda e direita são do ponto de vista do personagem, e a taxa de acerto aumentou
    • Pensei a mesma coisa
      O autor disse que o Nano Banana executou todas as edições com precisão, mas esse ponto é discutível
      Acho correto interpretar o “olho direito” da caveira pelo ponto de vista da própria caveira
  • Envie a solicitação pelo Google AI Studio e, para remover a marca-d’água, basta bloquear a requisição “watermark_4” nas ferramentas de desenvolvedor do navegador
    Depois disso, as imagens geradas saem sem marca-d’água
  • Fiquei surpreso ao ler que “o Nano Banana é fraco em transferência de estilo”
    Estou fazendo um projeto para visualizar meu bairro como uma paisagem do século XVIII
    Modelei tudo com SketchUp e Twinmotion, mas era difícil conseguir imagens realmente convincentes
    Testei vários geradores de imagem com IA, mas o Nano Banana foi o primeiro a aplicar um novo estilo mantendo a consistência geométrica
    Com prompts simples como “transforme esta pintura em uma foto”, obtive resultados impressionantes
    Porém, quando eu colocava diretamente a expressão século XVIII, às vezes o resultado ficava com aparência de pintura, então passei a contornar isso com frases como “foto de uma rua histórica preservada”
    Ainda continuo fazendo modelagem manual em paralelo, mas o Nano Banana mudou minha abordagem de modelagem
    • Mas, se você der uma imagem artística como referência de estilo, o Nano Banana sai da distribuição de treino e não consegue generalizar direito
  • A expressão “prompt engineered” no fim das contas significa digitar exatamente o que você quer ver
    • Mas isso é uma habilidade de verdade
      Muitos problemas surgem porque as pessoas não conseguem expressar com clareza o que querem
      Engenharia de prompt é a habilidade de lidar com a complexidade da comunicação, e faz você perceber a distância entre palavras e significado
    • Dependendo do modelo, ele pode não entender determinados prompts
    • Agora passamos a entender a interação com LLMs como uma interface em linguagem natural
      É uma interface ambígua, diferente de uma linguagem de programação, e engenharia de prompt é uma nova habilidade para lidar com isso
    • No fim, é o processo de iterar sobre o prompt para chegar ao resultado desejado
    • Antigamente isso seria chamado de “Google Fu
  • Eu tentei pedir uma cena de Meu Amigo Totoro em live-action
    Como é um personagem difícil de adaptar para live-action, tipo Sonic, fiquei curioso com o resultado, mas só saíram imagens com cara de arte digital em vez de algo fotorrealista
    Mesmo mudando as palavras-chave, aconteceu a mesma coisa, e no ChatGPT nem deu para testar por causa do filtro de copyright
    Ainda assim, a tentativa em si foi interessante
  • O Nano Banana às vezes reage devagar a edições
    Pedi para transformar uma foto de uma pessoa em estilo clay animation, mas quase nada mudou
    Aí acrescentei “deixe 10 anos mais jovem” e de repente virou uma boneca de massa mesmo
    • Isso era um pedido de transferência de estilo, então, como no exemplo do Ghibli, era esperado que falhasse
  • Pela minha experiência, o nano banana ainda
    • faz modificações aleatórias na imagem
    • muda a escala
    • ou provoca alterações sutis, mas amplas, nos detalhes gerais
      Por exemplo, às vezes adiciona uma lareira ou uma garagem a um cômodo sem que eu tenha pedido
      Isso acontece até com temperatura 0, então é difícil criar um app confiável
      Queria saber se alguém teve uma experiência melhor
    • A parte em “ALL CAPS” é interessante
      Maiúsculas podem ser tokenizadas de forma diferente, então talvez isso vire uma entrada difícil para o modelo entender
    • Estou desenvolvendo o editor PixLab, e ele segue comandos em maiúsculas exatamente como foram escritos