Nano Banana Pro: modelo de geração de imagens do Google DeepMind baseado no Gemini 3 Pro

(blog.google)

11 pontos por GN⁺ 2025-11-21 | 1 comentários | Compartilhar no WhatsApp

Nano Banana Pro é o mais recente modelo de geração e edição de imagens do Google DeepMind, baseado no Gemini 3 Pro, oferecendo recursos para materializar ideias visuais com precisão
Com renderização de texto aprimorada e suporte multilíngue, permite inserir diretamente nas imagens textos legíveis para pôsteres, mockups, infográficos e mais
Suporta a combinação de até 14 imagens, consistência de até 5 pessoas e resoluções de 2K a 4K, ajudando na criação de conteúdo visual de alta qualidade
Está integrado a vários produtos do Google, como Google Ads, Workspace, app Gemini e AI Studio, podendo ser usado por consumidores, profissionais e desenvolvedores
Com a marca-d'água SynthID, garante transparência em imagens geradas por IA e oferece diretamente no app Gemini um recurso de identificação de conteúdo de IA

Visão geral do Nano Banana Pro

O Nano Banana Pro é um modelo que usa a capacidade de raciocínio e o conhecimento de mundo do Gemini 3 Pro para visualizar informações visuais de forma sofisticada
- É uma versão atualizada lançada após a versão anterior, o Nano Banana (Gemini 2.5 Flash Image)
- Dá suporte a vários trabalhos de design, como ideação, visualização de dados e transformação de anotações manuscritas em diagramas

Principais recursos

Geração de material visual precisa e rica em contexto
- Com os recursos avançados de raciocínio do Gemini 3, gera conteúdos baseados em fatos, como infográficos educacionais e diagramas
- Integrado a informações em tempo real do Google Search, permite visualizar dados em tempo real como clima, esportes e receitas
Renderização de texto multilíngue
- Representa o texto dentro da imagem de forma precisa e fácil de ler, com possibilidade de tradução e localização em vários idiomas
- É adequado para criar pôsteres ou conteúdo de marca usando diferentes fontes, texturas e estilos tipográficos
Expressão visual de alta qualidade
- Permite criar imagens compostas complexas com combinação de até 14 imagens e consistência de até 5 pessoas
- Oferece controle detalhado de edição, como edição local, ajuste de ângulo de câmera, correção de cor e mudança de iluminação
- Dá suporte a resoluções 2K e 4K e a diferentes proporções de tela, atendendo tanto impressão quanto plataformas digitais

Ambientes de uso

Para consumidores e estudantes
- O Nano Banana Pro pode ser usado no recurso “Create images” do app Gemini
- Usuários gratuitos recebem uma quantidade limitada de gerações antes de voltar ao Nano Banana básico
- Assinantes do Google AI Plus, Pro e Ultra têm limites de geração mais altos
Para profissionais
- O recurso de geração de imagens do Google Ads foi atualizado para o Nano Banana Pro
- Também pode ser usado no Slides e no Vids do Google Workspace
Para desenvolvedores e empresas
- Há suporte expandido em Gemini API, Google AI Studio, Vertex AI, Antigravity e Gemini Enterprise
Para criadores
- Pela ferramenta Flow, criadores de vídeo e profissionais de marketing podem ter controle detalhado cena a cena

Identificação de imagens geradas por IA e transparência

Todas as imagens geradas pelo Nano Banana Pro recebem a marca-d'água digital SynthID, permitindo identificar sua origem
- No app Gemini, é possível enviar uma imagem e verificar diretamente se ela foi “gerada pela IA do Google”
- Imagens de usuários gratuitos e Pro recebem também uma marca-d'água visível (Gemini sparkle)
- Assinantes Ultra e ferramentas para desenvolvedores do AI Studio recebem uma tela limpa sem marca-d'água
O SynthID deverá ser expandido futuramente para conteúdo de áudio e vídeo

Materiais relacionados

Build with Nano Banana Pro: apresentação do modelo Gemini 3 Pro Image para desenvolvedores
Prompting Tips for Nano Banana Pro: guia para escrever prompts de forma eficaz
AI Image Verification in Gemini App: explicação do recurso de verificação de imagens baseado em SynthID

Sem informações adicionais no texto original

1 comentários

GN⁺ 2025-11-21

Comentários do Hacker News

Nesta semana, o Google pareceu estar se movendo como um Godzilla
Tentei vincular um cartão ao AI Studio pela primeira vez, mas o processo de pagamento foi complicado demais
Mesmo depois de configurar tudo, o erro “permission denied” continuava aparecendo
Se é preciso passar por tudo isso para pagar, não importa o quão bom seja o modelo
- Pedimos desculpas pela experiência frustrante
  A equipe está trabalhando duro para melhorar a acessibilidade
  Estamos preparando um sistema de pagamento integrado ao AI Studio para reduzir o atrito relacionado a pagamentos, com lançamento global previsto para janeiro
- A API do Google, no geral, tem uma barreira de entrada alta demais
  Em outros serviços, uma chave de API resolve, mas no Google é preciso criar conta → criar app → ativar serviço → criar app OAuth → baixar JSON
- Se você quer apenas usar a API, recomendo o Nano-Banana-Pro da Fal.ai
  O processo de cadastro é bem mais simples e oferece vários modelos de IA
- Eu também uso os planos pagos da Claude e da OpenAI, mas no Gemini é tão difícil pagar que fica complicado até tentar
  Criar um projeto no GCP só para um teste simples é exagero demais
- O incômodo é tão grande que parece até haver oportunidade de negócio só em criar um frontend para desenvolvedores melhor para os produtos de IA do Google
Testei novamente todos os prompts de edição com o Nano Banana Pro
Passou nos testes SHRDLU, M&M Van Halen e Scorpio Street
Os resultados podem ser vistos aqui
O NB Pro mostrou desempenho claramente melhor que o NB original
- No teste de edição da girafa, o resultado do NB Pro pareceu melhor que o do Seedream, mas a avaliação está ao contrário
  Acho que o próprio teste não foi adequado
- O NB Pro deveria ter passado no teste da girafa
  O resultado não é perfeito, mas fez o que foi pedido
- O teste da Torre de Pisa foi interessante
  Ele passa em prompts que exigem conhecimento claro, mas ainda tem dificuldade em simplesmente endireitar um objeto inclinado
- Seria mais fácil comparar se a imagem original fosse sempre mostrada junto em cada teste
  Exibir original e resultado lado a lado parece mais intuitivo do que usar slider
- O site é realmente útil. Fico curioso se há planos de fazer também o benchmark de texto para imagem com o NB Pro
Passei alguns meses fazendo análise de prompt engineering do Nano Banana, e agora o Google lançou uma nova versão
O novo modelo funciona direto no pacote gemimg
Mas o preço é alto demais para defini-lo como modelo padrão
Segundo a documentação, o modelo gera até duas imagens intermediárias (etapa de Thinking)
Isso pode ser a causa do aumento de custo
- O exemplo de prompt “morango no olho esquerdo, amora no olho direito” foi interessante
  O modelo reconheceu esquerda e direita do ponto de vista do observador e posicionou errado
  Esse tipo de erro em instruções relativas também é comum na área médica
  Link do exemplo relacionado
- O guia do Max para Nano Banana continua válido
  A maioria dos prompts também funciona bem no NB Pro
  Link do guia
  Também compartilhou meus resultados experimentais
- O custo por imagem de entrada é $0.0011, não $0.06
- Foi lançada a versão 0.3.2 do gemimg, e a maioria dos erros de imagem no NB Pro foi corrigida
  A “conversão para estilo Studio Ghibli” é muito mais precisa do que no ChatGPT
  Mas imagens realistas demais às vezes caem no vale da estranheza
- O wrapper do gemimg continua sendo útil
  Isso me fez sentir novamente como é importante um design de ferramentas adaptável para acompanhar mudanças técnicas
A capacidade de gerar um infográfico inteiro com um prompt curto é impressionante
Pedi “como o projeto Datasette funciona” e obtive um resultado bem acabado
Link do resultado
- Esse recurso pode mudar de forma revolucionária a função de geração de panfletos de eventos em SaaS
  Antes o texto era renderizado separadamente, mas agora parece possível fazer tudo de uma vez
- Falhou em encontrar o dó central em um teclado de piano
  Veja a imagem do resultado
- Também gerou bem um infográfico sobre um projeto com pouquíssima informação, o player.html
  Link do GitHub
  Também converte automaticamente para formato quadrado para Instagram
- Fico curioso se o infográfico do Datasette corresponde ao funcionamento real
As imagens de IA já não produzem mais artefatos óbvios, mas ainda parecem IA por causa do estilo
Especialmente os infográficos ainda eram distinguíveis dos feitos por humanos
Parece ser resultado de super-representação de certos conjuntos de dados
- Os humanos são muito sensíveis a pequenas diferenças visuais
  Modelos treinados na média acabam produzindo um “espaço de imagem mediano”
  Exemplos relacionados mostram que, com ajuste fino, também é possível obter resultados realistas
- Não é apenas um problema de dados
  Alguns modelos removem estilo de propósito, o que dá uma sensação artificial
  Modelos abertos permitem ajuste fino detalhado com LoRA, mas isso é difícil em modelos fechados
- A maioria dos modelos é treinada em dados da web inteira e produz resultados médios previsíveis
  Se você quer imagens originais, o próprio prompt precisa ser mais criativo
- Ainda restam erros sutis em textura, proporção, iluminação etc.
  Por isso a função de edição de imagem é vista como a próxima tarefa
- Modelos ajustados com feedback humano aprendem o “gosto médio” e perdem individualidade
  Os modelos iniciais tinham qualidade menor, mas produziam resultados mais interessantes
O SynthID é um bom primeiro passo, mas tem a limitação de não conseguir distinguir conteúdo de IA sem marca-d’água
Grandes empresas precisam adotar identificadores padronizados
- Acho perigoso o governo obrigar marca-d’água
  Se o Photoshop tivesse tido esse tipo de regulação, a criatividade teria sido muito limitada
- A Apple provavelmente vai lançar algo como Real Photos algum dia
  Algo que comprove que a foto foi tirada por uma câmera real e mostre um selo de verificação no iMessage
- Empresas aplicam marca-d’água por causa do controle de re-treinamento de dados
  No fim, os principais modelos comerciais provavelmente vão impor marca-d’água por padrão
- Se surgir um identificador padrão, também surgirá software para removê-lo
  Vai virar um eterno jogo de gato e rato
- Existe o projeto C2PA tentando resolver esse problema
Os animadores 2D ainda podem ficar tranquilos
Tentei gerar uma sprite sheet, mas o modelo apenas repetia quadros e não conseguia criar movimentos intermediários naturais (interpolation)
Coletânea de materiais oficiais
Developer Blog
Página do DeepMind
Model Card PDF
Introdução ao SynthID
Este modelo é o primeiro gerador de imagens a passar no meu teste de piano
Ele repete corretamente o padrão das teclas pretas em cada oitava
Modelos anteriores sempre representavam a disposição das teclas de forma errada
- Mas fora do padrão de 88 teclas, ainda há muitos erros
  Pedidos para colorir notas específicas também são tratados de forma aleatória
  O piano é um objeto padronizado, então deveria haver muitos dados de treino, mas ainda falta compreensão
- Manter um padrão repetitivo por longos intervalos é difícil
  Foi impressionante manter consistência em todas as 88 teclas
Agora o modelo consegue renderizar texto naturalmente dentro da imagem
Um recurso que antes era impossível agora parece básico
- Também concordo. Mas áreas em que visual e código se sobrepõem, como geração de ícones, ainda continuam fracas
  Design detalhado de curvas, espaçamento e equilíbrio ainda é algo que os humanos fazem melhor

Nano Banana Pro: modelo de geração de imagens do Google DeepMind baseado no Gemini 3 Pro

Visão geral do Nano Banana Pro

Principais recursos

Ambientes de uso

Identificação de imagens geradas por IA e transparência

Materiais relacionados

Leituras relacionadas

1 comentários

Comentários do Hacker News