Nano Banana 2 Lite
(deepmind.google)- O Nano Banana 2 Lite, adicionado à família Gemini Image do Google DeepMind, é um modelo voltado a executar geração e edição de imagens de forma mais rápida e barata, com foco em reduzir o custo de tarefas visuais com muitas iterações
- Seus eixos centrais são baixa latência e eficiência de custo em grande escala, permitindo gerar milhares de imagens a um custo menor do que modelos de produção mais pesados
- Em qualidade, mantém o controle e a precisão da família Nano Banana, com suporte a consistência de personagens, edição precisa e uso de conhecimento do mundo real
- Exemplos como Space Lift, Gridscape, Peek-A-Word e Anywhere mostram experiências de usuário possíveis quando a geração de imagens se torna rápida o suficiente para não interromper o fluxo do app
- Pode cometer erros em rostos pequenos, ortografia precisa, detalhes, resultados baseados em dados, tradução e localização, além de edições e composições complexas, por isso é necessário revisar os resultados gerados
Modelo Gemini Image com geração rápida e baixo custo
- O Nano Banana 2 Lite é um modelo Gemini Image anunciado pelo Google DeepMind, com foco em geração e edição rápidas de imagens e baixo custo
- Seus principais usuários são criadores, empresas e desenvolvedores, e ele é adequado a workflows que exploram rapidamente várias ideias visuais
- O Google DeepMind apresenta este modelo como o Gemini Image mais rápido e eficiente até agora, afirmando que ele oferece geração e edição em alta velocidade pelo menor custo
- As formas de acesso são as seguintes
- Google AI Studio
- Flash-Lite mode no app Gemini
- Gemini API
- Gemini Enterprise Agent Platform
Equilíbrio entre velocidade, custo e qualidade
- A redução de latência é o ponto central, com suporte a exploração rápida e tarefas iterativas
- Em geração em larga escala, é possível criar milhares de imagens a um custo muito menor do que com modelos de produção mais pesados
- A qualidade segue a direção de entregar mais rapidamente o controle e a precisão esperados do Nano Banana
- Manutenção da consistência de personagens
- Edição visual precisa
- Uso de conhecimento do mundo real
- Quanto mais detalhes o prompt trouxer sobre elementos desejados, como personagem, fundo e atmosfera geral, mais próxima a imagem pode ficar da intenção
- Guias de prompt estão disponíveis em View prompt guide e Learn how to prompt
Exemplos de apps baseados na velocidade de geração de imagens
- Space Lift é um app que, ao receber o upload de uma foto de um cômodo, gera instantaneamente vários conceitos de interiores, de Mid-Century Modern a Bohemian Chic
- Gridscape organiza, em um canvas infinito, nós de informação com texto e imagens criados pelo Nano Banana 2 Lite e pelo Gemini 3.1 Flash Lite quando o usuário digita uma pergunta
- O usuário pode explorar conceitos relacionados em mais profundidade seguindo caminhos clicáveis
- Peek-A-Word transforma textos selecionados em materiais visuais gerados por IA e oferece definições concisas e imagens contextuais em um só espaço
- O foco é manter o fluxo de aprendizado sem alternar entre abas
- Anywhere é um app interativo de globo terrestre 3D criado com o Nano Banana 2 Lite
- Ao anexar uma imagem, ele gera uma série de cartões-postais personalizados com pontos turísticos do mundo como plano de fundo
- O usuário pode girar o globo e clicar nas fotos para ver informações sobre destinos virtuais
Métricas comparativas e model card
- O Google DeepMind apresenta o Nano Banana 2 Lite como seu modelo mais eficiente até agora e afirma que ele tem bom equilíbrio entre qualidade e velocidade
- Entre os modelos comparados está o modelo premium Nano Banana 2
- As áreas de comparação incluem fatores de qualidade de geração de imagens, como aderência ao prompt, representação de detalhes e controle
- A seção de desempenho apresenta as seguintes métricas
- Image Editing: pontuação Elo de edição de imagens em relação a modelos concorrentes, segundo lmarena.ai
- Image Generation: pontuação Elo de geração de imagens em relação a modelos concorrentes, segundo lmarena.ai
- Latency per 1k resolution image: latência por imagem em resolução 1k com base em dados da artificialanalysis.ai
- Price per 1k resolution image: preço por imagem em resolução 1k
- O model card está disponível em View model card
Possibilidades de uso vistas pelos parceiros
- Figma Weave avalia que o Nano Banana 2 Lite ajuda designers a explorar mais ideias e criar imagens únicas em um canvas baseado em nós
- Manus AI testou geração de imagens em tempo real para decks de slides e páginas web dentro de workflows autônomos
- Avalia que a velocidade é adequada para iterações visuais rápidas de agentes de IA e entrega de resultados em poucos segundos
- Considera a qualidade de imagem próxima à do Nano Banana 2 completo
- Artlist avalia que, quando a velocidade de geração fica mais rápida do que se imaginava, os usuários podem permanecer dentro da ideia em vez de esperar pela ferramenta
- Weekend afirma que, no jogo de TV controlado por voz Wit’s End, o instant-ramen é cerca de 2,7× mais rápido do que o Gemini 3.1 Flash Image na geração de imagens 1k
- Ele processa texto-para-imagem, edição e composição de múltiplas imagens em uma única API drop-in
- Latitude avalia que a velocidade de geração de imagens é importante em seu motor que gera mundos enquanto os jogadores exploram, e que o instant-ramen permite uma geração visual rápida o suficiente para acompanhar a experiência de jogo
Limitações que ainda exigem revisão
- O Gemini pode criar vários tipos de imagens, mas algumas funcionalidades ainda estão em melhoria, e as imagens geradas devem ser verificadas diretamente
- Em fidelidade visual e textual, pode haver dificuldades com rostos pequenos, ortografia precisa e detalhes da imagem
- Em precisão de dados e fatos, o conhecimento do mundo real é amplo, mas não completo
- Na geração de infográficos, anotações de diagramas e representações complexas de dados, ele pode interpretar informações de forma incorreta ou produzir resultados factualmente errados
- Saídas baseadas em dados exigem verificação
- Em tradução e localização, ele pode gerar e traduzir texto em vários idiomas, mas pode ter dificuldades com gramática, ortografia, nuances culturais e expressões idiomáticas
- Em edições complexas e blending de imagens, edições com máscara, grandes mudanças de iluminação como transformar dia em noite e composições com várias imagens podem produzir resultados pouco naturais, artefatos visuais ou cenas desconectadas
- A consistência de personagens é um ponto forte, mas nem sempre é precisa, e o Google DeepMind está trabalhando em melhorias para torná-la mais estável
Recursos de segurança e cuidados de uso
- O Google DeepMind usa filtragem ampla e rotulagem de dados para reduzir conteúdo nocivo nos datasets e diminuir a possibilidade de saídas nocivas
- Em segurança de conteúdo, realiza red teaming e avaliações, incluindo segurança infantil e representação
- Imagens geradas incluem recursos modernos de privacidade e segurança, e o SynthID insere diretamente nas imagens uma marca d’água digital invisível para permitir a identificação de imagens geradas por IA
- Informações sobre o SynthID estão disponíveis em Learn more
- LLMs como o Gemini 3.1 Flash-Lite Image podem fornecer conteúdo incorreto ou ofensivo que não representa as opiniões do Google
- É preciso cautela ao confiar, publicar ou usar conteúdo fornecido por LLMs, e ele não deve servir de base para aconselhamento profissional em áreas como medicina, direito ou finanças
1 comentários
Opiniões no Hacker News
Detesto de um jeito difícil de descrever o primeiro exemplo de geração de interiores de casa. Hoje em dia, corretores de imóveis pegam apartamentos velhos e encalhados e passam tudo por um filtro de IA, então, antes de ver que tipo de imóvel horrível estão tentando vender por um preço absurdo, você precisa passar por dezenas de imagens do tipo “poderia ficar assim se fosse decorado no estilo Ikea”
No quarto real, mal cabia uma cama queen ;(
Foi especialmente útil quando era difícil imaginar diretamente como o espaço todo ficaria se eu colocasse azulejos em determinadas partes
Antes, só era mais caro contratar alguém para fazer esse trabalho
As imagens retocadas sempre mostram as mesmas paredes claras e móveis cinza com cara de revista
A IA só deixou isso mais barato; no fim, era inevitável que chegasse a esse ponto
Imagens retocadas desse jeito até têm uma pequena marca-d’água informando que foram editadas
É um problema que já existia antes dos filtros de IA, então não é novo, mas agora ficou muito pior e mais barato
Recebi acesso antecipado para testar este modelo. Foi por causa do trabalho, e o Google ainda não passou a gostar de mim pessoalmente lol
Ele funciona como anunciado aqui e, em coisas como boa renderização de texto, parece uma versão destilada do Nano Banana 2. O Nano Banana 1 é bem mais fraco nesse ponto
Claro que, em prompts detalhados, ele não chega nem perto do Nano Banana 2 básico. Minha maior reclamação é que no NB2 dá para forçar a proporção da imagem programaticamente, mas no NB2L não
Ainda assim, o preço de US$ 0,034 por imagem é mais alto do que eu esperava. Em geral o preço está relacionado ao tempo de geração, e ele gera em metade do tempo do Nano Banana 1, enquanto o Nano Banana 1 custa US$ 0,039 por imagem
A afirmação do Google de que é possível substituir diretamente pipelines do NB1 pelo NB2L faz sentido
Ontem o Google anunciou que permitiria geração gratuita de imagens no app Gemini (https://blog.google/innovation-and-ai/products/gemini-app/pe...), mas não especificou qual modelo usa. Acho que a principal motivação do Nano Banana 2 Lite está aí
gemini-3.1-flash-lite-imagee consegui usar proporções como 16:9 e 4:3[1] - https://cloud.google.com/developers/vertex-ai
É ok, mas fica em cima do AI Studio quebrado do Google. Metade dos recursos ali exige uma conta Google One, então não consigo usar
Tenho uma conta Workspace, então não sou elegível e também não consigo migrar. O Google One não oferece suporte a domínio próprio
Então, para usar um endereço de e-mail legal e o Banana, tenho que manter duas contas e ainda pagar por isso? Estou começando a achar que o número correto de contas pagas do Google aqui é 0
Minha solução foi o OpenRouter. Dá para gerar imagens com modelos do Google em chats de desenvolvimento/teste e também executar o mesmo prompt lado a lado com outros modelos. É muito prático para geração leve de imagens
Em geral uso como padrão a conta pessoal, que tem mais contexto, mas isso exige alguns passos extras para trazer coisas como arquivos do Workspace Drive
E coisas como o Project Genie simplesmente não estão disponíveis no Workspace, o que parece bem estranho
https://www.burlap.app/download
A velocidade é realmente impressionante. O NB2 básico leva cerca de 30 segundos por imagem, enquanto este parece levar menos de 5 segundos
Criei um app que gera histórias ilustradas colocando as crianças como personagens. Eu queria manter o estilo das ilustrações, mas priorizar a semelhança com as crianças
Testei vários modelos, mas nenhum parece chegar tão perto deste em manter a semelhança mesmo com estilização. Os outros modelos acabam transformando em personagens genéricos
Estou animado para colocar este modelo no onboarding do app, para que o usuário tenha o momento “aha” o mais rápido possível. Esperar mais de 30 segundos não é ideal
Dito isso, para as ilustrações reais ainda pretendo usar o NB2 básico. Como outras pessoas disseram, esta versão Lite ainda tem alguns problemas de nuance e consistência
Não incluíram o ChatGPT no gráfico comparativo. Isso, por si só, diz muita coisa
Por outro lado, a latência é um problema, e a configuração High do ChatGPT Image 2 é lenta, levando cerca de 2 minutos em 1024x1024
De qualquer forma, se tivessem colocado isso nesse gráfico, ele teria ficado distorcido a ponto de ser inútil
Eu gostaria de escrever sobre o ChatGPT Image 2, mas parece que agora as pessoas não se interessam por geração de imagens detalhadas. Mesmo que, nos testes existentes, o ChatGPT Image 2 supere todos de longe
É meio surpreendente que o modelo de imagem do Grok vença o Nano Banana em quase todas as métricas destacadas aqui
Segundo, isso é, antes de tudo, um modelo de baixo custo para geração em massa, não um modelo frontier de ponta, então é natural que os benchmarks sejam mais baixos
Gostei do Nano Banana Pro. Ainda existe alguma alternativa local? Ouvi falar do Qwen Image, Klein e, recentemente, do Krea, e queria saber se há algo recomendável
No GenAI Showdown no meu perfil, há benchmarks comparando modelos locais e proprietários
Na verdade, ele pontuou acima do Gemini 2.5, ou seja, do NB original, o que é bem impressionante
Estou bem defasado na área de geração de imagens, então só uso de vez em quando para tokens de RPG, brincadeiras ou assets temporários pessoais. Pelos meus padrões, isso é insano
Dá para criar uma imagem em cerca de 2 segundos. Antes, para fazer uma imagem da mesma qualidade no ChatGPT, levava de 30 segundos a 1 minuto
Não entendo a reação negativa aqui
E boa parte da reação negativa vem de pessoas que odeiam o próprio conceito de arte com IA e querem que ela fracasse
Pessoas que trabalham em algo em que a imagem em si é central querem gastar mais por imagem
Por outro lado, se a imagem é parte de um relatório, um resultado descartável ou algo que entra em uma demo, uma abordagem barata é melhor
Fico curioso sobre como obter algo como o protótipo em tempo real mostrado na seção “hands on” desta página
No gemini.g, dá para adicionar uma canvas ou usar geração de imagens, mas não sei bem onde colocar o prompt “space lift” para sair como na demo
Uau, a latência caiu drasticamente. Isso deve abrir alguns novos casos de uso, embora a página linkada não explique as diferenças entre os modelos de um jeito fácil de entender
Mas, pela minha experiência pessoal usando modelos de imagem em geral, acho que o Google é o melhor no meu fluxo de trabalho. Claro, ainda não testei os provedores do Extremo Oriente
Fico curioso para saber o que outras pessoas pensam