Nano Banana Pro: modelo de geração de imagens do Google DeepMind baseado no Gemini 3 Pro
(blog.google)- Nano Banana Pro é o mais recente modelo de geração e edição de imagens do Google DeepMind, baseado no Gemini 3 Pro, oferecendo recursos para materializar ideias visuais com precisão
- Com renderização de texto aprimorada e suporte multilíngue, permite inserir diretamente nas imagens textos legíveis para pôsteres, mockups, infográficos e mais
- Suporta a combinação de até 14 imagens, consistência de até 5 pessoas e resoluções de 2K a 4K, ajudando na criação de conteúdo visual de alta qualidade
- Está integrado a vários produtos do Google, como Google Ads, Workspace, app Gemini e AI Studio, podendo ser usado por consumidores, profissionais e desenvolvedores
- Com a marca-d'água SynthID, garante transparência em imagens geradas por IA e oferece diretamente no app Gemini um recurso de identificação de conteúdo de IA
Visão geral do Nano Banana Pro
- O Nano Banana Pro é um modelo que usa a capacidade de raciocínio e o conhecimento de mundo do Gemini 3 Pro para visualizar informações visuais de forma sofisticada
- É uma versão atualizada lançada após a versão anterior, o Nano Banana (Gemini 2.5 Flash Image)
- Dá suporte a vários trabalhos de design, como ideação, visualização de dados e transformação de anotações manuscritas em diagramas
Principais recursos
- Geração de material visual precisa e rica em contexto
- Com os recursos avançados de raciocínio do Gemini 3, gera conteúdos baseados em fatos, como infográficos educacionais e diagramas
- Integrado a informações em tempo real do Google Search, permite visualizar dados em tempo real como clima, esportes e receitas
- Renderização de texto multilíngue
- Representa o texto dentro da imagem de forma precisa e fácil de ler, com possibilidade de tradução e localização em vários idiomas
- É adequado para criar pôsteres ou conteúdo de marca usando diferentes fontes, texturas e estilos tipográficos
- Expressão visual de alta qualidade
- Permite criar imagens compostas complexas com combinação de até 14 imagens e consistência de até 5 pessoas
- Oferece controle detalhado de edição, como edição local, ajuste de ângulo de câmera, correção de cor e mudança de iluminação
- Dá suporte a resoluções 2K e 4K e a diferentes proporções de tela, atendendo tanto impressão quanto plataformas digitais
Ambientes de uso
- Para consumidores e estudantes
- O Nano Banana Pro pode ser usado no recurso “Create images” do app Gemini
- Usuários gratuitos recebem uma quantidade limitada de gerações antes de voltar ao Nano Banana básico
- Assinantes do Google AI Plus, Pro e Ultra têm limites de geração mais altos
- Para profissionais
- O recurso de geração de imagens do Google Ads foi atualizado para o Nano Banana Pro
- Também pode ser usado no Slides e no Vids do Google Workspace
- Para desenvolvedores e empresas
- Há suporte expandido em Gemini API, Google AI Studio, Vertex AI, Antigravity e Gemini Enterprise
- Para criadores
- Pela ferramenta Flow, criadores de vídeo e profissionais de marketing podem ter controle detalhado cena a cena
Identificação de imagens geradas por IA e transparência
- Todas as imagens geradas pelo Nano Banana Pro recebem a marca-d'água digital SynthID, permitindo identificar sua origem
- No app Gemini, é possível enviar uma imagem e verificar diretamente se ela foi “gerada pela IA do Google”
- Imagens de usuários gratuitos e Pro recebem também uma marca-d'água visível (Gemini sparkle)
- Assinantes Ultra e ferramentas para desenvolvedores do AI Studio recebem uma tela limpa sem marca-d'água
- O SynthID deverá ser expandido futuramente para conteúdo de áudio e vídeo
Materiais relacionados
- Build with Nano Banana Pro: apresentação do modelo Gemini 3 Pro Image para desenvolvedores
- Prompting Tips for Nano Banana Pro: guia para escrever prompts de forma eficaz
- AI Image Verification in Gemini App: explicação do recurso de verificação de imagens baseado em SynthID
Sem informações adicionais no texto original
1 comentários
Comentários do Hacker News
Nesta semana, o Google pareceu estar se movendo como um Godzilla
Tentei vincular um cartão ao AI Studio pela primeira vez, mas o processo de pagamento foi complicado demais
Mesmo depois de configurar tudo, o erro “permission denied” continuava aparecendo
Se é preciso passar por tudo isso para pagar, não importa o quão bom seja o modelo
A equipe está trabalhando duro para melhorar a acessibilidade
Estamos preparando um sistema de pagamento integrado ao AI Studio para reduzir o atrito relacionado a pagamentos, com lançamento global previsto para janeiro
Em outros serviços, uma chave de API resolve, mas no Google é preciso criar conta → criar app → ativar serviço → criar app OAuth → baixar JSON
O processo de cadastro é bem mais simples e oferece vários modelos de IA
Criar um projeto no GCP só para um teste simples é exagero demais
Testei novamente todos os prompts de edição com o Nano Banana Pro
Passou nos testes SHRDLU, M&M Van Halen e Scorpio Street
Os resultados podem ser vistos aqui
O NB Pro mostrou desempenho claramente melhor que o NB original
Acho que o próprio teste não foi adequado
O resultado não é perfeito, mas fez o que foi pedido
Ele passa em prompts que exigem conhecimento claro, mas ainda tem dificuldade em simplesmente endireitar um objeto inclinado
Exibir original e resultado lado a lado parece mais intuitivo do que usar slider
Passei alguns meses fazendo análise de prompt engineering do Nano Banana, e agora o Google lançou uma nova versão
O novo modelo funciona direto no pacote gemimg
Mas o preço é alto demais para defini-lo como modelo padrão
Segundo a documentação, o modelo gera até duas imagens intermediárias (etapa de Thinking)
Isso pode ser a causa do aumento de custo
O modelo reconheceu esquerda e direita do ponto de vista do observador e posicionou errado
Esse tipo de erro em instruções relativas também é comum na área médica
Link do exemplo relacionado
A maioria dos prompts também funciona bem no NB Pro
Link do guia
Também compartilhou meus resultados experimentais
A “conversão para estilo Studio Ghibli” é muito mais precisa do que no ChatGPT
Mas imagens realistas demais às vezes caem no vale da estranheza
Isso me fez sentir novamente como é importante um design de ferramentas adaptável para acompanhar mudanças técnicas
A capacidade de gerar um infográfico inteiro com um prompt curto é impressionante
Pedi “como o projeto Datasette funciona” e obtive um resultado bem acabado
Link do resultado
Antes o texto era renderizado separadamente, mas agora parece possível fazer tudo de uma vez
Veja a imagem do resultado
Link do GitHub
Também converte automaticamente para formato quadrado para Instagram
As imagens de IA já não produzem mais artefatos óbvios, mas ainda parecem IA por causa do estilo
Especialmente os infográficos ainda eram distinguíveis dos feitos por humanos
Parece ser resultado de super-representação de certos conjuntos de dados
Modelos treinados na média acabam produzindo um “espaço de imagem mediano”
Exemplos relacionados mostram que, com ajuste fino, também é possível obter resultados realistas
Alguns modelos removem estilo de propósito, o que dá uma sensação artificial
Modelos abertos permitem ajuste fino detalhado com LoRA, mas isso é difícil em modelos fechados
Se você quer imagens originais, o próprio prompt precisa ser mais criativo
Por isso a função de edição de imagem é vista como a próxima tarefa
Os modelos iniciais tinham qualidade menor, mas produziam resultados mais interessantes
O SynthID é um bom primeiro passo, mas tem a limitação de não conseguir distinguir conteúdo de IA sem marca-d’água
Grandes empresas precisam adotar identificadores padronizados
Se o Photoshop tivesse tido esse tipo de regulação, a criatividade teria sido muito limitada
Algo que comprove que a foto foi tirada por uma câmera real e mostre um selo de verificação no iMessage
No fim, os principais modelos comerciais provavelmente vão impor marca-d’água por padrão
Vai virar um eterno jogo de gato e rato
Os animadores 2D ainda podem ficar tranquilos
Tentei gerar uma sprite sheet, mas o modelo apenas repetia quadros e não conseguia criar movimentos intermediários naturais (interpolation)
Coletânea de materiais oficiais
Developer Blog
Página do DeepMind
Model Card PDF
Introdução ao SynthID
Este modelo é o primeiro gerador de imagens a passar no meu teste de piano
Ele repete corretamente o padrão das teclas pretas em cada oitava
Modelos anteriores sempre representavam a disposição das teclas de forma errada
Pedidos para colorir notas específicas também são tratados de forma aleatória
O piano é um objeto padronizado, então deveria haver muitos dados de treino, mas ainda falta compreensão
Foi impressionante manter consistência em todas as 88 teclas
Agora o modelo consegue renderizar texto naturalmente dentro da imagem
Um recurso que antes era impossível agora parece básico
Design detalhado de curvas, espaçamento e equilíbrio ainda é algo que os humanos fazem melhor