11 pontos por GN⁺ 2025-11-21 | 1 comentários | Compartilhar no WhatsApp
  • Nano Banana Pro é o mais recente modelo de geração e edição de imagens do Google DeepMind, baseado no Gemini 3 Pro, oferecendo recursos para materializar ideias visuais com precisão
  • Com renderização de texto aprimorada e suporte multilíngue, permite inserir diretamente nas imagens textos legíveis para pôsteres, mockups, infográficos e mais
  • Suporta a combinação de até 14 imagens, consistência de até 5 pessoas e resoluções de 2K a 4K, ajudando na criação de conteúdo visual de alta qualidade
  • Está integrado a vários produtos do Google, como Google Ads, Workspace, app Gemini e AI Studio, podendo ser usado por consumidores, profissionais e desenvolvedores
  • Com a marca-d'água SynthID, garante transparência em imagens geradas por IA e oferece diretamente no app Gemini um recurso de identificação de conteúdo de IA

Visão geral do Nano Banana Pro

  • O Nano Banana Pro é um modelo que usa a capacidade de raciocínio e o conhecimento de mundo do Gemini 3 Pro para visualizar informações visuais de forma sofisticada
    • É uma versão atualizada lançada após a versão anterior, o Nano Banana (Gemini 2.5 Flash Image)
    • Dá suporte a vários trabalhos de design, como ideação, visualização de dados e transformação de anotações manuscritas em diagramas

Principais recursos

  • Geração de material visual precisa e rica em contexto
    • Com os recursos avançados de raciocínio do Gemini 3, gera conteúdos baseados em fatos, como infográficos educacionais e diagramas
    • Integrado a informações em tempo real do Google Search, permite visualizar dados em tempo real como clima, esportes e receitas
  • Renderização de texto multilíngue
    • Representa o texto dentro da imagem de forma precisa e fácil de ler, com possibilidade de tradução e localização em vários idiomas
    • É adequado para criar pôsteres ou conteúdo de marca usando diferentes fontes, texturas e estilos tipográficos
  • Expressão visual de alta qualidade
    • Permite criar imagens compostas complexas com combinação de até 14 imagens e consistência de até 5 pessoas
    • Oferece controle detalhado de edição, como edição local, ajuste de ângulo de câmera, correção de cor e mudança de iluminação
    • Dá suporte a resoluções 2K e 4K e a diferentes proporções de tela, atendendo tanto impressão quanto plataformas digitais

Ambientes de uso

  • Para consumidores e estudantes
    • O Nano Banana Pro pode ser usado no recurso “Create images” do app Gemini
    • Usuários gratuitos recebem uma quantidade limitada de gerações antes de voltar ao Nano Banana básico
    • Assinantes do Google AI Plus, Pro e Ultra têm limites de geração mais altos
  • Para profissionais
    • O recurso de geração de imagens do Google Ads foi atualizado para o Nano Banana Pro
    • Também pode ser usado no Slides e no Vids do Google Workspace
  • Para desenvolvedores e empresas
    • Há suporte expandido em Gemini API, Google AI Studio, Vertex AI, Antigravity e Gemini Enterprise
  • Para criadores
    • Pela ferramenta Flow, criadores de vídeo e profissionais de marketing podem ter controle detalhado cena a cena

Identificação de imagens geradas por IA e transparência

  • Todas as imagens geradas pelo Nano Banana Pro recebem a marca-d'água digital SynthID, permitindo identificar sua origem
    • No app Gemini, é possível enviar uma imagem e verificar diretamente se ela foi “gerada pela IA do Google”
    • Imagens de usuários gratuitos e Pro recebem também uma marca-d'água visível (Gemini sparkle)
    • Assinantes Ultra e ferramentas para desenvolvedores do AI Studio recebem uma tela limpa sem marca-d'água
  • O SynthID deverá ser expandido futuramente para conteúdo de áudio e vídeo

Materiais relacionados

  • Build with Nano Banana Pro: apresentação do modelo Gemini 3 Pro Image para desenvolvedores
  • Prompting Tips for Nano Banana Pro: guia para escrever prompts de forma eficaz
  • AI Image Verification in Gemini App: explicação do recurso de verificação de imagens baseado em SynthID

Sem informações adicionais no texto original

1 comentários

 
GN⁺ 2025-11-21
Comentários do Hacker News
  • Nesta semana, o Google pareceu estar se movendo como um Godzilla
    Tentei vincular um cartão ao AI Studio pela primeira vez, mas o processo de pagamento foi complicado demais
    Mesmo depois de configurar tudo, o erro “permission denied” continuava aparecendo
    Se é preciso passar por tudo isso para pagar, não importa o quão bom seja o modelo

    • Pedimos desculpas pela experiência frustrante
      A equipe está trabalhando duro para melhorar a acessibilidade
      Estamos preparando um sistema de pagamento integrado ao AI Studio para reduzir o atrito relacionado a pagamentos, com lançamento global previsto para janeiro
    • A API do Google, no geral, tem uma barreira de entrada alta demais
      Em outros serviços, uma chave de API resolve, mas no Google é preciso criar conta → criar app → ativar serviço → criar app OAuth → baixar JSON
    • Se você quer apenas usar a API, recomendo o Nano-Banana-Pro da Fal.ai
      O processo de cadastro é bem mais simples e oferece vários modelos de IA
    • Eu também uso os planos pagos da Claude e da OpenAI, mas no Gemini é tão difícil pagar que fica complicado até tentar
      Criar um projeto no GCP só para um teste simples é exagero demais
    • O incômodo é tão grande que parece até haver oportunidade de negócio só em criar um frontend para desenvolvedores melhor para os produtos de IA do Google
  • Testei novamente todos os prompts de edição com o Nano Banana Pro
    Passou nos testes SHRDLU, M&M Van Halen e Scorpio Street
    Os resultados podem ser vistos aqui
    O NB Pro mostrou desempenho claramente melhor que o NB original

    • No teste de edição da girafa, o resultado do NB Pro pareceu melhor que o do Seedream, mas a avaliação está ao contrário
      Acho que o próprio teste não foi adequado
    • O NB Pro deveria ter passado no teste da girafa
      O resultado não é perfeito, mas fez o que foi pedido
    • O teste da Torre de Pisa foi interessante
      Ele passa em prompts que exigem conhecimento claro, mas ainda tem dificuldade em simplesmente endireitar um objeto inclinado
    • Seria mais fácil comparar se a imagem original fosse sempre mostrada junto em cada teste
      Exibir original e resultado lado a lado parece mais intuitivo do que usar slider
    • O site é realmente útil. Fico curioso se há planos de fazer também o benchmark de texto para imagem com o NB Pro
  • Passei alguns meses fazendo análise de prompt engineering do Nano Banana, e agora o Google lançou uma nova versão
    O novo modelo funciona direto no pacote gemimg
    Mas o preço é alto demais para defini-lo como modelo padrão
    Segundo a documentação, o modelo gera até duas imagens intermediárias (etapa de Thinking)
    Isso pode ser a causa do aumento de custo

    • O exemplo de prompt “morango no olho esquerdo, amora no olho direito” foi interessante
      O modelo reconheceu esquerda e direita do ponto de vista do observador e posicionou errado
      Esse tipo de erro em instruções relativas também é comum na área médica
      Link do exemplo relacionado
    • O guia do Max para Nano Banana continua válido
      A maioria dos prompts também funciona bem no NB Pro
      Link do guia
      Também compartilhou meus resultados experimentais
    • O custo por imagem de entrada é $0.0011, não $0.06
    • Foi lançada a versão 0.3.2 do gemimg, e a maioria dos erros de imagem no NB Pro foi corrigida
      A “conversão para estilo Studio Ghibli” é muito mais precisa do que no ChatGPT
      Mas imagens realistas demais às vezes caem no vale da estranheza
    • O wrapper do gemimg continua sendo útil
      Isso me fez sentir novamente como é importante um design de ferramentas adaptável para acompanhar mudanças técnicas
  • A capacidade de gerar um infográfico inteiro com um prompt curto é impressionante
    Pedi “como o projeto Datasette funciona” e obtive um resultado bem acabado
    Link do resultado

    • Esse recurso pode mudar de forma revolucionária a função de geração de panfletos de eventos em SaaS
      Antes o texto era renderizado separadamente, mas agora parece possível fazer tudo de uma vez
    • Falhou em encontrar o dó central em um teclado de piano
      Veja a imagem do resultado
    • Também gerou bem um infográfico sobre um projeto com pouquíssima informação, o player.html
      Link do GitHub
      Também converte automaticamente para formato quadrado para Instagram
    • Fico curioso se o infográfico do Datasette corresponde ao funcionamento real
  • As imagens de IA já não produzem mais artefatos óbvios, mas ainda parecem IA por causa do estilo
    Especialmente os infográficos ainda eram distinguíveis dos feitos por humanos
    Parece ser resultado de super-representação de certos conjuntos de dados

    • Os humanos são muito sensíveis a pequenas diferenças visuais
      Modelos treinados na média acabam produzindo um “espaço de imagem mediano”
      Exemplos relacionados mostram que, com ajuste fino, também é possível obter resultados realistas
    • Não é apenas um problema de dados
      Alguns modelos removem estilo de propósito, o que dá uma sensação artificial
      Modelos abertos permitem ajuste fino detalhado com LoRA, mas isso é difícil em modelos fechados
    • A maioria dos modelos é treinada em dados da web inteira e produz resultados médios previsíveis
      Se você quer imagens originais, o próprio prompt precisa ser mais criativo
    • Ainda restam erros sutis em textura, proporção, iluminação etc.
      Por isso a função de edição de imagem é vista como a próxima tarefa
    • Modelos ajustados com feedback humano aprendem o “gosto médio” e perdem individualidade
      Os modelos iniciais tinham qualidade menor, mas produziam resultados mais interessantes
  • O SynthID é um bom primeiro passo, mas tem a limitação de não conseguir distinguir conteúdo de IA sem marca-d’água
    Grandes empresas precisam adotar identificadores padronizados

    • Acho perigoso o governo obrigar marca-d’água
      Se o Photoshop tivesse tido esse tipo de regulação, a criatividade teria sido muito limitada
    • A Apple provavelmente vai lançar algo como Real Photos algum dia
      Algo que comprove que a foto foi tirada por uma câmera real e mostre um selo de verificação no iMessage
    • Empresas aplicam marca-d’água por causa do controle de re-treinamento de dados
      No fim, os principais modelos comerciais provavelmente vão impor marca-d’água por padrão
    • Se surgir um identificador padrão, também surgirá software para removê-lo
      Vai virar um eterno jogo de gato e rato
    • Existe o projeto C2PA tentando resolver esse problema
  • Os animadores 2D ainda podem ficar tranquilos
    Tentei gerar uma sprite sheet, mas o modelo apenas repetia quadros e não conseguia criar movimentos intermediários naturais (interpolation)

  • Coletânea de materiais oficiais
    Developer Blog
    Página do DeepMind
    Model Card PDF
    Introdução ao SynthID

  • Este modelo é o primeiro gerador de imagens a passar no meu teste de piano
    Ele repete corretamente o padrão das teclas pretas em cada oitava
    Modelos anteriores sempre representavam a disposição das teclas de forma errada

    • Mas fora do padrão de 88 teclas, ainda há muitos erros
      Pedidos para colorir notas específicas também são tratados de forma aleatória
      O piano é um objeto padronizado, então deveria haver muitos dados de treino, mas ainda falta compreensão
    • Manter um padrão repetitivo por longos intervalos é difícil
      Foi impressionante manter consistência em todas as 88 teclas
  • Agora o modelo consegue renderizar texto naturalmente dentro da imagem
    Um recurso que antes era impossível agora parece básico

    • Também concordo. Mas áreas em que visual e código se sobrepõem, como geração de ícones, ainda continuam fracas
      Design detalhado de curvas, espaçamento e equilíbrio ainda é algo que os humanos fazem melhor