21 pontos por GN⁺ 2025-09-12 | 1 comentários | Compartilhar no WhatsApp
  • Uma coletânea open source com diversos exemplos de geração e edição de imagens do Nano-banana do Google
  • Mostra recursos de transformação criativa e edição com múltiplas imagens usando a tecnologia de geração de imagens do Google
  • Cada caso é um exemplo real de uso coletado em comunidades como Twitter/X, Xiaohongshu e outras
  • Combina prompts de texto e imagens de entrada para oferecer diversos exemplos experimentais e aplicados de transformação
  • A estrutura de prompts e o guia de entrada estão organizados em documentos para que qualquer pessoa possa usar imediatamente

Visão geral

  • Este repositório é uma galeria curada que reúne várias imagens e exemplos de prompts criados com as tecnologias de geração e edição de imagens do Nano-banana
  • Além de mostrar as possibilidades praticamente ilimitadas de geração e edição de imagens do Google, ele ajuda a entender o Nano-banana e a experimentar o poder da fusão de múltiplas imagens e da edição criativa
  • Os casos foram coletados principalmente no Twitter/X, Xiaohongshu e outras plataformas de mídia independente
  • Registra a data das atualizações mais recentes do repositório e o histórico de versões

Menu

Cada caso é composto por combinação de imagens de entrada e prompt, além do exemplo de saída.

Exemplos de entrada & prompt

  • Entrada: vários tipos, como imagem de referência, imagem do Google Maps, foto de pessoa, esboço e imagem de material
  • Prompt: inclui pedidos detalhados em inglês para transformação de imagem, edição, design, correção de cores e mais

Estrutura de prompt representativa

  • Estilo de pessoa ou item, penteado, transformação de fundo etc.
  • Pode ser usado para vários objetivos, como produtos, edifícios, personagens, comida, estilo de quadrinhos, foto de identificação e mockups
  • As partes entre [colchetes] podem ser ajustadas conforme o objetivo de uso para orientar com mais precisão

Fluxo de exemplo

  • Upload da imagem → inserção do prompt → verificação do resultado gerado (link da imagem)
  • Alguns estão no formato de tabela 'entrada/resultado', enquanto outros fornecem apenas o resultado final

Resumo dos principais exemplos de casos

  • Transformação de personagem/produto: gera fotos de pessoas em estilo de personagem, figure, LEGO e pacote em estilo Gundam
  • Cosplay/design: geração de fotos de cosplay com base em ilustrações, vistas de personagem em 3 ângulos e folhas de expressões
  • Correção/restauração de imagem: restauração de fotos antigas, remoção de fundo transparente, melhoria de cor e brilho, recuperação de ruído
  • Composição/mudança de estilo: tirinhas de 4 quadros em estilo mangá ou preto e branco sem falas, conversão para estilo de quadrinhos, miniaturas, aplicação de materiais/filtros, mudança de penteado/maquiagem
  • Visualização de dados: infográficos com resumo de blog/artigo, exibição de calorias e informações nutricionais
  • Educação/apresentações: ilustrações de modelos de órgãos, resolução de problemas matemáticos, adição de anotações explicativas etc.

Guia de prompts e referências

  • Cada prompt e descrição de caso oferece orientação personalizada para valores de entrada e [conteúdo substituível]
  • Combina várias imagens para aplicações como histórias, fashion boards e folhas de poses
  • Também permite resultados técnicos, como wireframes, hologramas e representações 3D

Participação da comunidade e agradecimentos

  • O material continua sendo ampliado com base em contribuições de pessoas que compartilham casos reais na comunidade de IA
  • Novas ideias de uso ou criações podem ser sugeridas livremente

Significado e diferenciais do projeto

  • Um repositório no GitHub que concentra, de forma rica, exemplos reais de aplicação dos algoritmos mais recentes de geração de imagens
  • É possível ver de relance as opções detalhadas dos prompts do Nano-banana, os resultados gerados e a forma de aplicação em cada caso
  • Oferece alto valor de referência e utilidade prática para designers, pesquisadores de IA, desenvolvedores e qualquer outra pessoa
  • Cada exemplo pode ser facilmente reutilizado para diferentes objetivos de edição, geração e transformação de imagens

1 comentários

 
GN⁺ 2025-09-12
Opiniões no Hacker News
  • Fiquei impressionado com os resultados realmente incríveis do Nano-Banana. Eu mantenho um site de comparação de modelos de imagem de ponta em que o principal critério é o quão precisamente o resultado corresponde a vários prompts de texto para imagem. Recentemente também adicionei um Editing Comparison Showdown para avaliar a capacidade de editar localmente uma imagem existente por meio de texto. No momento, estou comparando 6 modelos multimodais (Nano-Banana, Kontext Max, Qwen 20b etc.). Dá para conferir os resultados neste link. O Gemini Flash 2.5 está em primeiro com 7 de 12 pontos, e o Kontext tem 5, o que é bem impressionante, especialmente considerando que dá até para rodar o modelo de desenvolvimento localmente
    • Com o Nano Banana, muitas vezes eu peço claramente para mudar algo de forma significativa e ele acaba gerando a mesma imagem. De vez em quando, de forma bem estranha, sai um resultado correto. Se mais alguém passou por isso ou souber como resolver, seria ótimo saber
    • Ele ainda não consegue representar relógios corretamente (por exemplo, um relógio marcando 1:15 am). E o texto gerado em imagens de quadrinhos também não fica 100% correto
    • Recomendo adicionar o gpt-image-1. Tecnicamente ele não é um modelo de edição, porque altera pixels globalmente, mas quando se trata de prompts muito complexos e referências de imagem, ele parece mais obediente às instruções do que o Nano Banana
  • O que me impressiona nesse modelo é que ele parece limitado só pela imaginação, e custa apenas US$ 0,04 por imagem. Isso não aparece na página, mas este é o modelo de geração de imagens Google Gemini (documentação oficial). A coletânea de exemplos também é boa. Só achei um pouco estranho que o segundo exemplo pareça meio inadequado para ambiente de trabalho
    • Quero destacar que o Nano Banana é especialmente otimizado para edição de imagens (mais informações)
    • Fico curioso se isso é um modelo único ou um pipeline de modelos
  • Alguns exemplos incluem elementos NSFW. Em boa parte do setor de tecnologia dos EUA, compartilhar a URL principal pode ser delicado, então talvez fosse melhor selecionar e mostrar apenas exemplos seguros individualmente. Para referência, metade do caso 1 mostra uma personagem feminina em estilo anime/quadrinhos, vestida de empregada, levantando a saia e exibindo a roupa íntima. Acho que esse é o ponto mais problemático entre os exemplos que um visitante vê logo na primeira página
    • Fiquei realmente surpreso que esse exemplo com exposição de roupa íntima tenha sido gerado. Quando usei o Nano Banana (com o filtro de segurança em 'off'), ele se recusou a gerar uma imagem em estilo mangá com um capacete de samurai amaldiçoado e um cadáver deitado
    • O que mais me incomodou foi que a imagem de referência é claramente uma arte digital de alta qualidade feita por um artista. Mesmo deixando de lado as questões legais no campo de IA/LLM, usar abertamente o trabalho de outra pessoa na documentação oficial me parece desconfortável do ponto de vista ético
  • Eu sinceramente não entendo por que as pessoas estão conseguindo bons resultados. Eu selecionei o Nano Banana (gemini-2.5-flash-image-preview) e testei aqui, mas os resultados foram horríveis. Se eu envio uma imagem de referência de um personagem e uma cena e peço para colocar o personagem naquela cena, ele simplesmente recorta e cola, mesmo que o estilo e as cores não combinem. O ChatGPT pelo menos entrega algo melhor (mesmo que às vezes não se pareça muito, ainda fica muito melhor do que algo feito em 2 minutos no Paint). Será que estou usando o modelo errado?
    • Estou vendo exatamente a mesma coisa. Quando o Nano Banana funciona, funciona muito bem, mas em 90% dos casos o resultado é estranho ou de baixa qualidade. Parece recorta-e-cola ou pintura por cima, e ele recusa até pedidos razoáveis por “segurança” (na minha experiência, imagens com pessoas reais quase nunca passam). Em vez de impressionar, só irrita
    • Pela minha experiência, o Nano Banana usa copiar e colar de forma bem agressiva quando acha aceitável. Você precisa explicitar no prompt que o personagem deve ser integrado naturalmente à cena. Ou seja, com prompt adequado ele fica muito melhor que outros modelos, mas o processo de elaborar esse prompt é chato e trabalhoso
    • Talvez valha a pena ir testando pequenas variações no prompt, ou pedir ao Gemini 2.5 pro para melhorar o prompt e depois passar isso para o Gemini 2.5 Flash, repetindo até aprender o que funciona
    • Comigo também só saem resultados absolutamente horríveis. Tentei subir uma foto da minha esposa (32 anos) para ver como ela ficaria com franja, mas a maioria das tentativas foi recusada por questões de segurança. Quando às vezes dava certo, o rosto era de outra pessoa. Só uma vez conseguiu fazer direito, mas não dava para ajustar a franja, e ele seguia devolvendo o mesmo resultado com várias mensagens de “conteúdo bloqueado” no meio
  • Pessoalmente, achei o desempenho deste modelo abaixo do esperado. As imagens de exemplo parecem bem seletivas. Vou compartilhar alguns casos em que falhou comigo: não conseguiu remover sombras fortes de um rosto em uma foto, ao pedir para colorizar uma foto antiga em preto e branco com um estilo nítido e moderno de DSLR ele só deixou as cores meio apagadas, num pedido de grade 3x3 de penteados ele insistia em 2x3 e quando finalmente fez 3x3 misturou etnias, e também não conseguiu fundir uma imagem real com uma gerada (por exemplo, um golfinho de tutu ficou com cara de colagem malfeita)
    • O exemplo de destaque em prédio com AR foi legal. Com exatamente o mesmo prompt, ele destaca bem o prédio mais óbvio no skyline, mas se você aponta outro prédio, falha completamente. Numa imagem de Midtown Manhattan, pedi para encontrar e destacar o Chrysler Building e ele respondeu que “não está na imagem”; quando pedi o 432 Park Ave, surgiu um prédio aleatório no meio da imagem. Numa foto do Museum Campus de Chicago, ao pedir um prédio específico, ele destacou o Hancock Center, que nem aparecia. A explicação também estava errada e às vezes o texto saía quebrado
    • Os exemplos também não são perfeitos. O prompt “minha foto em diferentes épocas” mudou completamente o rosto apesar do pedido para não alterar, “OOTD Outfit” usou a câmera errada, “Virtual Makeup Try-On” falhou na maquiagem, “Lighting Control” bagunçou a iluminação, e “Design a Chess Set” dizia que a imagem de entrada não era necessária, mas na prática era. Ainda assim, para quem não usa Photoshop ou quer um rascunho inicial para começar a trabalhar manualmente, pode servir
    • Na verdade, acho natural que demos promocionais de qualquer projeto sempre escolham os melhores exemplos
  • Recentemente publiquei um pacote para facilitar a geração de imagens com Nano Banana em Python (link do github). Testando, percebi algumas tendências interessantes de engenharia de prompt: a) usar listas em Markdown no estilo de LLM e b) aproveitar palavras-chave clássicas de estilo de imagens de IA como “award-winning” e “DSLR camera” funciona muito bem no Gemini 2.5 Flash Image. Esse modelo tem um codificador de texto e um conjunto de dados de treinamento maiores, então consegue distinguir melhor que tipo de características certas formulações têm na prática. A documentação para desenvolvedores do Google também recomenda usar esse tipo de palavra-chave. E, graças à janela de contexto de 32k, dá para fazer experimentos divertidos como renderizar HTML em imagem ou obter resultados consistentes com entradas JSON elaboradas
  • Acho que é um avanço impressionante. Até pouco tempo atrás, ainda era difícil até mesmo gerar o mesmo personagem de forma consistente várias vezes. Agora estamos vendo esse nível de combinação e consistência. A velocidade de evolução dos modelos generativos é realmente extraordinária. Obrigado ao criador e aos contribuintes por reunirem tantos exemplos. Isso ajuda muito a entender como a ferramenta realmente funciona
  • Percebi algo recentemente: antigamente eu gostava de pensar que a capacidade humana especial era imaginar mentalmente coisas como mudanças de penteado usando a própria imaginação. Agora, vendo uma máquina reproduzir essa capacidade num nível parecido com o da minha imaginação ou até acima, fico um pouco desconfortável, como se minha imaginação talvez não fosse nada tão especial — do mesmo jeito que eu não sou particularmente forte só por conseguir segurar um cabide
    • Eu sou do tipo que não consegue formar imagens mentais desse jeito e sempre penso de maneira mais intelectual e lógica, então a sua imaginação continua sendo uma habilidade especial. Para a maioria das pessoas, isso realmente parece um superpoder. Eu compararia a IA ao Batman (poderoso com dinheiro e cinto de utilidades, mas sem isso fica fraco) e a imaginação humana ao Superman (uma habilidade inata, sempre disponível)
    • Acho realmente especial o fato de você poder ver imagens imaginadas na sua cabeça e sentir alegria, rir, se surpreender ou se chocar com isso. Os humanos têm um motivo para existir e têm emoções; você pode olhar para o pôr do sol e pensar na dispersão da luz, ou simplesmente apreciar o deslumbramento. Sempre que aceitamos plenamente cada momento, parece magia. O fato de eu poder responder a você e o Hacker News existir já me parece um milagre
    • Eu tenho afantasia (ou seja, incapacidade de visualizar imagens mentalmente), então fico feliz que agora todo mundo possa imaginar em condições mais parecidas
    • Fico curioso se no futuro as máquinas conseguirão criar sozinhas novos estilos artísticos. Por exemplo, estilos de mangá/anime mudam com o tempo; se os humanos parassem de impulsionar essa evolução, será que as máquinas continuariam desenvolvendo isso? Em princípio parece possível (afinal, humanos também são máquinas biológicas), mas acho que, com a arquitetura atual de IA, isso ainda está longe
    • Para ser justo, essa capacidade do modelo só existe por causa dos dados de treinamento que nós mesmos criamos
  • Estou usando bastante o Nano Banana e ele tem sido muito útil. Tenho usado para criar livros de colorir baseados em fotos para o meu filho e os filhos dos amigos dele (exemplos e código). Ele consegue preservar bem a sensação de livro de colorir em preto e branco, mantendo ao mesmo tempo algum nível de detalhe das fotos originais
  • Fiquei desconfortável com a quantidade de exemplos de mulheres muito jovens retratadas de forma sexualizada. O caso 1/B mostra uma personagem feminina levantando a saia e expondo a roupa íntima. O modelo é bastante impressionante, mas esse tipo de conteúdo imaturo parece prejudicar o trabalho de PR. Na minha contagem, havia 26 exemplos com mulheres jovens e 9 com homens. Só faltou o caso “Lena” (referência à Lenna)
    • Também me senti desconfortável logo de cara. Não sei se é porque estamos todos ficando velhos, mas foi essa a sensação
    • Admito que o motor do avanço tecnológico sempre foi o desejo sexual, gostemos ou não. VHS, pagamentos online, streaming de vídeo — tudo isso acabou sendo impulsionado por essa demanda. Até lembrei da famosa música “The Internet Is for Porn”
    • Se você pesquisar o que escultores pré-históricos esculpiam, vai se surpreender ainda mais. Li os comentários antes de abrir o site e, como o caso 1 era uma criança e o seguinte era a empregada sexy, meu primeiro pensamento foi “ah não, por favor, não me diga que juntaram os dois na mesma imagem”.