Awesom-Nano-Banana-Images

(github.com/PicoTrex)

21 pontos por GN⁺ 2025-09-12 | 1 comentários | Compartilhar no WhatsApp

Uma coletânea open source com diversos exemplos de geração e edição de imagens do Nano-banana do Google
Mostra recursos de transformação criativa e edição com múltiplas imagens usando a tecnologia de geração de imagens do Google
Cada caso é um exemplo real de uso coletado em comunidades como Twitter/X, Xiaohongshu e outras
Combina prompts de texto e imagens de entrada para oferecer diversos exemplos experimentais e aplicados de transformação
A estrutura de prompts e o guia de entrada estão organizados em documentos para que qualquer pessoa possa usar imediatamente

Visão geral

Este repositório é uma galeria curada que reúne várias imagens e exemplos de prompts criados com as tecnologias de geração e edição de imagens do Nano-banana
Além de mostrar as possibilidades praticamente ilimitadas de geração e edição de imagens do Google, ele ajuda a entender o Nano-banana e a experimentar o poder da fusão de múltiplas imagens e da edição criativa

Os casos foram coletados principalmente no Twitter/X, Xiaohongshu e outras plataformas de mídia independente
Registra a data das atualizações mais recentes do repositório e o histórico de versões

Estilo de pessoa ou item, penteado, transformação de fundo etc.
Pode ser usado para vários objetivos, como produtos, edifícios, personagens, comida, estilo de quadrinhos, foto de identificação e mockups
As partes entre [colchetes] podem ser ajustadas conforme o objetivo de uso para orientar com mais precisão

Fluxo de exemplo

Upload da imagem → inserção do prompt → verificação do resultado gerado (link da imagem)
Alguns estão no formato de tabela 'entrada/resultado', enquanto outros fornecem apenas o resultado final

Resumo dos principais exemplos de casos

Transformação de personagem/produto: gera fotos de pessoas em estilo de personagem, figure, LEGO e pacote em estilo Gundam
Cosplay/design: geração de fotos de cosplay com base em ilustrações, vistas de personagem em 3 ângulos e folhas de expressões
Correção/restauração de imagem: restauração de fotos antigas, remoção de fundo transparente, melhoria de cor e brilho, recuperação de ruído
Composição/mudança de estilo: tirinhas de 4 quadros em estilo mangá ou preto e branco sem falas, conversão para estilo de quadrinhos, miniaturas, aplicação de materiais/filtros, mudança de penteado/maquiagem
Visualização de dados: infográficos com resumo de blog/artigo, exibição de calorias e informações nutricionais
Educação/apresentações: ilustrações de modelos de órgãos, resolução de problemas matemáticos, adição de anotações explicativas etc.

Guia de prompts e referências

Cada prompt e descrição de caso oferece orientação personalizada para valores de entrada e [conteúdo substituível]
Combina várias imagens para aplicações como histórias, fashion boards e folhas de poses
Também permite resultados técnicos, como wireframes, hologramas e representações 3D

Participação da comunidade e agradecimentos

O material continua sendo ampliado com base em contribuições de pessoas que compartilham casos reais na comunidade de IA
Novas ideias de uso ou criações podem ser sugeridas livremente

Significado e diferenciais do projeto

Um repositório no GitHub que concentra, de forma rica, exemplos reais de aplicação dos algoritmos mais recentes de geração de imagens
É possível ver de relance as opções detalhadas dos prompts do Nano-banana, os resultados gerados e a forma de aplicação em cada caso
Oferece alto valor de referência e utilidade prática para designers, pesquisadores de IA, desenvolvedores e qualquer outra pessoa
Cada exemplo pode ser facilmente reutilizado para diferentes objetivos de edição, geração e transformação de imagens

1 comentários

GN⁺ 2025-09-12

Opiniões no Hacker News

Fiquei impressionado com os resultados realmente incríveis do Nano-Banana. Eu mantenho um site de comparação de modelos de imagem de ponta em que o principal critério é o quão precisamente o resultado corresponde a vários prompts de texto para imagem. Recentemente também adicionei um Editing Comparison Showdown para avaliar a capacidade de editar localmente uma imagem existente por meio de texto. No momento, estou comparando 6 modelos multimodais (Nano-Banana, Kontext Max, Qwen 20b etc.). Dá para conferir os resultados neste link. O Gemini Flash 2.5 está em primeiro com 7 de 12 pontos, e o Kontext tem 5, o que é bem impressionante, especialmente considerando que dá até para rodar o modelo de desenvolvimento localmente
- Com o Nano Banana, muitas vezes eu peço claramente para mudar algo de forma significativa e ele acaba gerando a mesma imagem. De vez em quando, de forma bem estranha, sai um resultado correto. Se mais alguém passou por isso ou souber como resolver, seria ótimo saber
- Ele ainda não consegue representar relógios corretamente (por exemplo, um relógio marcando 1:15 am). E o texto gerado em imagens de quadrinhos também não fica 100% correto
- Recomendo adicionar o gpt-image-1. Tecnicamente ele não é um modelo de edição, porque altera pixels globalmente, mas quando se trata de prompts muito complexos e referências de imagem, ele parece mais obediente às instruções do que o Nano Banana
O que me impressiona nesse modelo é que ele parece limitado só pela imaginação, e custa apenas US$ 0,04 por imagem. Isso não aparece na página, mas este é o modelo de geração de imagens Google Gemini (documentação oficial). A coletânea de exemplos também é boa. Só achei um pouco estranho que o segundo exemplo pareça meio inadequado para ambiente de trabalho
- Quero destacar que o Nano Banana é especialmente otimizado para edição de imagens (mais informações)
- Fico curioso se isso é um modelo único ou um pipeline de modelos
Alguns exemplos incluem elementos NSFW. Em boa parte do setor de tecnologia dos EUA, compartilhar a URL principal pode ser delicado, então talvez fosse melhor selecionar e mostrar apenas exemplos seguros individualmente. Para referência, metade do caso 1 mostra uma personagem feminina em estilo anime/quadrinhos, vestida de empregada, levantando a saia e exibindo a roupa íntima. Acho que esse é o ponto mais problemático entre os exemplos que um visitante vê logo na primeira página
- Fiquei realmente surpreso que esse exemplo com exposição de roupa íntima tenha sido gerado. Quando usei o Nano Banana (com o filtro de segurança em 'off'), ele se recusou a gerar uma imagem em estilo mangá com um capacete de samurai amaldiçoado e um cadáver deitado
- O que mais me incomodou foi que a imagem de referência é claramente uma arte digital de alta qualidade feita por um artista. Mesmo deixando de lado as questões legais no campo de IA/LLM, usar abertamente o trabalho de outra pessoa na documentação oficial me parece desconfortável do ponto de vista ético
Eu sinceramente não entendo por que as pessoas estão conseguindo bons resultados. Eu selecionei o Nano Banana (gemini-2.5-flash-image-preview) e testei aqui, mas os resultados foram horríveis. Se eu envio uma imagem de referência de um personagem e uma cena e peço para colocar o personagem naquela cena, ele simplesmente recorta e cola, mesmo que o estilo e as cores não combinem. O ChatGPT pelo menos entrega algo melhor (mesmo que às vezes não se pareça muito, ainda fica muito melhor do que algo feito em 2 minutos no Paint). Será que estou usando o modelo errado?
- Estou vendo exatamente a mesma coisa. Quando o Nano Banana funciona, funciona muito bem, mas em 90% dos casos o resultado é estranho ou de baixa qualidade. Parece recorta-e-cola ou pintura por cima, e ele recusa até pedidos razoáveis por “segurança” (na minha experiência, imagens com pessoas reais quase nunca passam). Em vez de impressionar, só irrita
- Pela minha experiência, o Nano Banana usa copiar e colar de forma bem agressiva quando acha aceitável. Você precisa explicitar no prompt que o personagem deve ser integrado naturalmente à cena. Ou seja, com prompt adequado ele fica muito melhor que outros modelos, mas o processo de elaborar esse prompt é chato e trabalhoso
- Talvez valha a pena ir testando pequenas variações no prompt, ou pedir ao Gemini 2.5 pro para melhorar o prompt e depois passar isso para o Gemini 2.5 Flash, repetindo até aprender o que funciona
- Comigo também só saem resultados absolutamente horríveis. Tentei subir uma foto da minha esposa (32 anos) para ver como ela ficaria com franja, mas a maioria das tentativas foi recusada por questões de segurança. Quando às vezes dava certo, o rosto era de outra pessoa. Só uma vez conseguiu fazer direito, mas não dava para ajustar a franja, e ele seguia devolvendo o mesmo resultado com várias mensagens de “conteúdo bloqueado” no meio
Pessoalmente, achei o desempenho deste modelo abaixo do esperado. As imagens de exemplo parecem bem seletivas. Vou compartilhar alguns casos em que falhou comigo: não conseguiu remover sombras fortes de um rosto em uma foto, ao pedir para colorizar uma foto antiga em preto e branco com um estilo nítido e moderno de DSLR ele só deixou as cores meio apagadas, num pedido de grade 3x3 de penteados ele insistia em 2x3 e quando finalmente fez 3x3 misturou etnias, e também não conseguiu fundir uma imagem real com uma gerada (por exemplo, um golfinho de tutu ficou com cara de colagem malfeita)
- O exemplo de destaque em prédio com AR foi legal. Com exatamente o mesmo prompt, ele destaca bem o prédio mais óbvio no skyline, mas se você aponta outro prédio, falha completamente. Numa imagem de Midtown Manhattan, pedi para encontrar e destacar o Chrysler Building e ele respondeu que “não está na imagem”; quando pedi o 432 Park Ave, surgiu um prédio aleatório no meio da imagem. Numa foto do Museum Campus de Chicago, ao pedir um prédio específico, ele destacou o Hancock Center, que nem aparecia. A explicação também estava errada e às vezes o texto saía quebrado
- Os exemplos também não são perfeitos. O prompt “minha foto em diferentes épocas” mudou completamente o rosto apesar do pedido para não alterar, “OOTD Outfit” usou a câmera errada, “Virtual Makeup Try-On” falhou na maquiagem, “Lighting Control” bagunçou a iluminação, e “Design a Chess Set” dizia que a imagem de entrada não era necessária, mas na prática era. Ainda assim, para quem não usa Photoshop ou quer um rascunho inicial para começar a trabalhar manualmente, pode servir
- Na verdade, acho natural que demos promocionais de qualquer projeto sempre escolham os melhores exemplos
Recentemente publiquei um pacote para facilitar a geração de imagens com Nano Banana em Python (link do github). Testando, percebi algumas tendências interessantes de engenharia de prompt: a) usar listas em Markdown no estilo de LLM e b) aproveitar palavras-chave clássicas de estilo de imagens de IA como “award-winning” e “DSLR camera” funciona muito bem no Gemini 2.5 Flash Image. Esse modelo tem um codificador de texto e um conjunto de dados de treinamento maiores, então consegue distinguir melhor que tipo de características certas formulações têm na prática. A documentação para desenvolvedores do Google também recomenda usar esse tipo de palavra-chave. E, graças à janela de contexto de 32k, dá para fazer experimentos divertidos como renderizar HTML em imagem ou obter resultados consistentes com entradas JSON elaboradas
Acho que é um avanço impressionante. Até pouco tempo atrás, ainda era difícil até mesmo gerar o mesmo personagem de forma consistente várias vezes. Agora estamos vendo esse nível de combinação e consistência. A velocidade de evolução dos modelos generativos é realmente extraordinária. Obrigado ao criador e aos contribuintes por reunirem tantos exemplos. Isso ajuda muito a entender como a ferramenta realmente funciona
Percebi algo recentemente: antigamente eu gostava de pensar que a capacidade humana especial era imaginar mentalmente coisas como mudanças de penteado usando a própria imaginação. Agora, vendo uma máquina reproduzir essa capacidade num nível parecido com o da minha imaginação ou até acima, fico um pouco desconfortável, como se minha imaginação talvez não fosse nada tão especial — do mesmo jeito que eu não sou particularmente forte só por conseguir segurar um cabide
- Eu sou do tipo que não consegue formar imagens mentais desse jeito e sempre penso de maneira mais intelectual e lógica, então a sua imaginação continua sendo uma habilidade especial. Para a maioria das pessoas, isso realmente parece um superpoder. Eu compararia a IA ao Batman (poderoso com dinheiro e cinto de utilidades, mas sem isso fica fraco) e a imaginação humana ao Superman (uma habilidade inata, sempre disponível)
- Acho realmente especial o fato de você poder ver imagens imaginadas na sua cabeça e sentir alegria, rir, se surpreender ou se chocar com isso. Os humanos têm um motivo para existir e têm emoções; você pode olhar para o pôr do sol e pensar na dispersão da luz, ou simplesmente apreciar o deslumbramento. Sempre que aceitamos plenamente cada momento, parece magia. O fato de eu poder responder a você e o Hacker News existir já me parece um milagre
- Eu tenho afantasia (ou seja, incapacidade de visualizar imagens mentalmente), então fico feliz que agora todo mundo possa imaginar em condições mais parecidas
- Fico curioso se no futuro as máquinas conseguirão criar sozinhas novos estilos artísticos. Por exemplo, estilos de mangá/anime mudam com o tempo; se os humanos parassem de impulsionar essa evolução, será que as máquinas continuariam desenvolvendo isso? Em princípio parece possível (afinal, humanos também são máquinas biológicas), mas acho que, com a arquitetura atual de IA, isso ainda está longe
- Para ser justo, essa capacidade do modelo só existe por causa dos dados de treinamento que nós mesmos criamos
Estou usando bastante o Nano Banana e ele tem sido muito útil. Tenho usado para criar livros de colorir baseados em fotos para o meu filho e os filhos dos amigos dele (exemplos e código). Ele consegue preservar bem a sensação de livro de colorir em preto e branco, mantendo ao mesmo tempo algum nível de detalhe das fotos originais
Fiquei desconfortável com a quantidade de exemplos de mulheres muito jovens retratadas de forma sexualizada. O caso 1/B mostra uma personagem feminina levantando a saia e expondo a roupa íntima. O modelo é bastante impressionante, mas esse tipo de conteúdo imaturo parece prejudicar o trabalho de PR. Na minha contagem, havia 26 exemplos com mulheres jovens e 9 com homens. Só faltou o caso “Lena” (referência à Lenna)
- Também me senti desconfortável logo de cara. Não sei se é porque estamos todos ficando velhos, mas foi essa a sensação
- Admito que o motor do avanço tecnológico sempre foi o desejo sexual, gostemos ou não. VHS, pagamentos online, streaming de vídeo — tudo isso acabou sendo impulsionado por essa demanda. Até lembrei da famosa música “The Internet Is for Porn”
- Se você pesquisar o que escultores pré-históricos esculpiam, vai se surpreender ainda mais. Li os comentários antes de abrir o site e, como o caso 1 era uma criança e o seguinte era a empregada sexy, meu primeiro pensamento foi “ah não, por favor, não me diga que juntaram os dois na mesma imagem”.

Awesom-Nano-Banana-Images

Visão geral

Menu

Exemplos de entrada & prompt

Estrutura de prompt representativa

Fluxo de exemplo

Resumo dos principais exemplos de casos

Guia de prompts e referências

Participação da comunidade e agradecimentos

Significado e diferenciais do projeto

1 comentários

Opiniões no Hacker News

Awesom-Nano-Banana-Images

Visão geral

Menu

Exemplos de entrada & prompt

Estrutura de prompt representativa

Fluxo de exemplo

Resumo dos principais exemplos de casos

Guia de prompts e referências

Participação da comunidade e agradecimentos

Significado e diferenciais do projeto

Leituras relacionadas

1 comentários

Opiniões no Hacker News