10 pontos por GN⁺ 2025-08-27 | 2 comentários | Compartilhar no WhatsApp
  • O Google revelou o Gemini 2.5 Flash Image, conhecido como Nano-Banana, com capacidades de geração e edição de imagens ainda mais avançadas
  • Oferece suporte a consistência de personagens, edição parcial baseada em linguagem natural, uso de conhecimento de mundo e combinação de múltiplas imagens
  • Os desenvolvedores podem usar o modelo imediatamente via Gemini API, Google AI Studio, Vertex AI, OpenRouter, fal.ai e outros
  • O preço é de US$ 30 por 1 milhão de tokens de saída, cerca de US$ 0,039 por imagem
  • Todos os resultados incluem uma marca-d'água digital SynthID invisível

Introdução ao Gemini 2.5 Flash Image

  • O Google anunciou o Gemini 2.5 Flash Image (codinome nano-banana), seu modelo de nova geração para geração e edição de imagens
  • Com esta atualização, tornou-se possível combinar várias imagens em uma só, manter a consistência de uma pessoa ou objeto específico, fazer transformações detalhadas usando linguagem natural e gerar ou editar imagens com base no conhecimento de mundo do Gemini
  • Mesmo na versão inicial, o Gemini 2.0 Flash já se destacava por baixa latência, eficiência de custo e facilidade de uso, mas agora, incorporando o feedback dos usuários, recebeu imagens de qualidade superior e controles criativos mais avançados
  • Atualmente está disponível no Gemini API, Google AI Studio, Vertex AI e outros, com cobrança de US$ 30 por 1 milhão de tokens de saída (cerca de US$ 0,039 por imagem)
  • Outras formas de entrada e saída seguem a mesma política de preços do Gemini 2.5 Flash
  • Site oficial: https://deepmind.google/models/gemini/image/

Principais recursos e cenários

  • Upgrade do “Build Mode” no Google AI Studio

    • O desenvolvimento de apps ficou mais simples com o Gemini 2.5 Flash Image
    • Os desenvolvedores podem criar, testar e remixar rapidamente apps de IA personalizados, além de publicar diretamente pelo Google AI Studio ou salvar o código no GitHub
    • Por exemplo, é possível criar facilmente um app com um prompt como “crie um aplicativo de edição de imagens no qual o usuário possa fazer upload de imagens e aplicar filtros”
    • A seleção e remixagem de templates prontos também é oferecida gratuitamente
  • Consistência de personagens

    • Manter a aparência do mesmo personagem durante a geração de imagens sempre foi um grande desafio
    • O Gemini 2.5 Flash Image pode ser usado com eficiência para colocar a mesma pessoa em diferentes ambientes, mostrar um produto em vários ângulos ou locais e garantir consistência de ativos de marca
    • Com o app de template do Google AI Studio, é fácil demonstrar a consistência de personagens e personalizar o código
    • Esse recurso também pode ser aplicado para garantir consistência de design baseada em templates em cartões imobiliários, crachás de funcionários, mockups de produtos em massa e mais
  • Edição de imagens baseada em prompts de linguagem natural

    • Os usuários podem modificar partes da imagem apenas com instruções em linguagem natural
    • Exemplos incluem desfocar o fundo, remover manchas de uma camiseta, apagar uma pessoa, alterar poses e transformar imagens em preto e branco em imagens coloridas
    • Um app de template com edição baseada em UI/prompt é fornecido para permitir experiência prática de uso
  • Uso nativo com base em conhecimento de mundo

    • Enquanto modelos anteriores se destacavam na geração de imagens estéticas, eles eram mais fracos em compreensão semântica do mundo real
    • O Gemini 2.5 Flash Image, com base em conhecimento de mundo, consegue reconhecer diagramas desenhados à mão, responder a perguntas sobre o mundo real e executar comandos complexos de edição
    • Como exemplo de aplicação direta, é oferecido um app que transforma uma tela simples em um tutor educacional interativo
  • Fusão de múltiplas imagens

    • O modelo consegue entender várias imagens e combiná-las de forma natural
    • Por exemplo, oferece suporte para inserir produtos em novos fundos, mudar a tonalidade e a textura de um ambiente inteiro e fundir imagens com um único prompt
    • Com um app de template, é possível posicionar produtos via drag-and-drop e gerar imagens de fusão fotorrealistas

Primeiros passos e parcerias

  • É possível começar imediatamente pela documentação para desenvolvedores; no momento está em preview, mas deve se estabilizar em breve
  • Todos os apps de demonstração podem ter o código remixado e personalizado no Google AI Studio
  • Em parceria com a OpenRouter.ai, o modelo será oferecido a 3 milhões de desenvolvedores, sendo o primeiro entre os cerca de 480 modelos suportados pela OpenRouter com capacidade de geração de imagens
  • A colaboração com a fal.ai amplia o suporte para uma comunidade ainda maior de desenvolvedores

Marca-d'água digital e feedback

  • Todas as imagens geradas ou editadas com o Gemini 2.5 Flash Image recebem uma marca-d'água digital SynthID invisível, permitindo detectar que se trata de conteúdo gerado por IA
  • Melhorias contínuas estão em andamento em qualidade de texto, consistência de personagens, descrição de detalhes de imagem e mais
  • O feedback de desenvolvedores é recebido continuamente por meio do fórum de desenvolvedores do Google ou no X (antigo Twitter)

Exemplo simples de uso (código Python)

  • No Python, é possível usar o Gemini 2.5 Flash Image com o SDK genai e as bibliotecas PIL e io, com o prompt e a imagem desejados
  • Exemplo: é possível aplicar livremente prompts como “meu gato comendo nano-banana em um restaurante”
  • Os resultados podem ser salvos no código tanto como texto simples quanto como arquivo de imagem

Direção futura de desenvolvimento

  • O desenvolvimento contínuo busca elevar ainda mais o nível em renderização de textos longos, consistência de personagens mais confiável e expressão realista de detalhes
  • Há incentivo à participação ativa e ao feedback da comunidade
  • Espera-se ampliar as experiências de criação e desenvolvimento com o Gemini 2.5 Flash Image

2 comentários

 
GN⁺ 2025-08-27
Comentários do Hacker News
  • Isso parece o momento GPT-4 dos modelos de edição de imagem. Veja resultados impressionantes no Twitter
    • nano banana, ou seja, gemini 2.5 flash, teve um salto enorme de 171 pontos de elo no lmarena
    • Se procurar por nano banana no Twitter, dá para ver resultados impressionantes
    • Hoje em dia, todos os domínios "nano banana" já foram registrados e cada um oferece sua própria UI de geração de imagens, mas todos parecem uma espécie de atravessadores usando o nome de um modelo popular
    • Fico curioso para saber por que o nome é nano banana
  • Este é o famoso modelo nano-banana, que agora foi renomeado para gemini-2.5-flash-image-preview no LMArena
  • Quando tento gerar imagens com o Gemini, metade das vezes ele responde que é impossível
    • Além disso, há uma confusão porque os recursos anunciados pelo Google estão espalhados por vários lugares, então não dá para entender em qual produto isso pode ser usado nem onde é preciso pagar
  • No fim das contas, os modelos de imagem parecem vampiros de tempo
    • Fazer um único cômodo é fácil, mas criar o mesmo cômodo de forma consistente de vários ângulos é praticamente impossível
    • É difícil usar isso em trabalhos que exigem consistência visual
  • Digitalizei fotos de família, mas muitas estavam danificadas e foi difícil restaurá-las
    • Este modelo parece bom em restaurar sem alterar os detalhes, então talvez finalmente tenha chegado a um ponto utilizável
    • Na verdade, esses defeitos podem ser restaurados automaticamente com um scanner de filme + recurso ICE e softwares como o Vuescan
      • Parece desnecessário entregar centenas de imagens para uma IA experimental na nuvem
    • Alguém conhece algum software de melhoria de qualidade de vídeo?
      • Estou digitalizando fitas Video 2000 e VHS e queria melhorar um pouco essas gravações de lembrança
    • Espero que funcione bem, mas em um dos exemplos o rosto pareceu excessivamente artificial, meio com cara de IA
    • Na verdade, um modelo chamado Flux Kontext já tinha chegado a esse nível há alguns meses
  • O desempenho do modelo é impressionante, mas ao mesmo tempo me preocupo com o impacto social
    • Basta olhar os comentários no Facebook para ficar apreensivo
    • Testei o SynthID do Google e ele pareceu muito bom
      • A marca-d'água continua presente mesmo após compressão, recorte, redimensionamento, correção de cor e overpainting
    • Recentemente, eu também caí em um golpe de deepfake durante um evento de lançamento da SpaceX e perdi 15k BTC
      • A tecnologia está tão sofisticada que os ataques estão ficando cada vez mais perigosos
    • Os comentários do Facebook realmente parecem ser operados por bots
  • O exemplo da luminária foi bem impressionante
    • A conexão de energia, a iluminação e até as sombras foram representadas de forma natural
  • Gosto da velocidade muito maior em comparação com a geração de imagens do ChatGPT
    • O ChatGPT era tão lento que parecia preciso receber o resultado por notificação
    • É engraçado imaginar uma imagem como “a reação dos investidores da OpenAI depois de usar o Gemini 2.5 Flash Image”
  • Havia uma tarefa que eu queria fazer há muito tempo
    • Era substituir um objeto da imagem 1 por um objeto da imagem 2, e eu queria até especificar exatamente a posição
    • Tentei vários modelos, mas todos falharam; este chegou bem perto, mas no fim substituiu outro objeto
    • Gostaria de saber se existe algum modelo especializado em substituir uma posição específica usando uma imagem de referência
    • O modelo ACE++ da Alibaba oferece esse tipo de recurso
      • Está sendo usado no phind.design, mas é uma tarefa bem específica, então não é algo comum