1 pontos por GN⁺ 3 시간 전 | 1 comentários | Compartilhar no WhatsApp
  • O Nano Banana 2 Lite, adicionado à família Gemini Image do Google DeepMind, é um modelo voltado a executar geração e edição de imagens de forma mais rápida e barata, com foco em reduzir o custo de tarefas visuais com muitas iterações
  • Seus eixos centrais são baixa latência e eficiência de custo em grande escala, permitindo gerar milhares de imagens a um custo menor do que modelos de produção mais pesados
  • Em qualidade, mantém o controle e a precisão da família Nano Banana, com suporte a consistência de personagens, edição precisa e uso de conhecimento do mundo real
  • Exemplos como Space Lift, Gridscape, Peek-A-Word e Anywhere mostram experiências de usuário possíveis quando a geração de imagens se torna rápida o suficiente para não interromper o fluxo do app
  • Pode cometer erros em rostos pequenos, ortografia precisa, detalhes, resultados baseados em dados, tradução e localização, além de edições e composições complexas, por isso é necessário revisar os resultados gerados

Modelo Gemini Image com geração rápida e baixo custo

  • O Nano Banana 2 Lite é um modelo Gemini Image anunciado pelo Google DeepMind, com foco em geração e edição rápidas de imagens e baixo custo
  • Seus principais usuários são criadores, empresas e desenvolvedores, e ele é adequado a workflows que exploram rapidamente várias ideias visuais
  • O Google DeepMind apresenta este modelo como o Gemini Image mais rápido e eficiente até agora, afirmando que ele oferece geração e edição em alta velocidade pelo menor custo
  • As formas de acesso são as seguintes

Equilíbrio entre velocidade, custo e qualidade

  • A redução de latência é o ponto central, com suporte a exploração rápida e tarefas iterativas
  • Em geração em larga escala, é possível criar milhares de imagens a um custo muito menor do que com modelos de produção mais pesados
  • A qualidade segue a direção de entregar mais rapidamente o controle e a precisão esperados do Nano Banana
    • Manutenção da consistência de personagens
    • Edição visual precisa
    • Uso de conhecimento do mundo real
  • Quanto mais detalhes o prompt trouxer sobre elementos desejados, como personagem, fundo e atmosfera geral, mais próxima a imagem pode ficar da intenção
  • Guias de prompt estão disponíveis em View prompt guide e Learn how to prompt

Exemplos de apps baseados na velocidade de geração de imagens

  • Space Lift é um app que, ao receber o upload de uma foto de um cômodo, gera instantaneamente vários conceitos de interiores, de Mid-Century Modern a Bohemian Chic
  • Gridscape organiza, em um canvas infinito, nós de informação com texto e imagens criados pelo Nano Banana 2 Lite e pelo Gemini 3.1 Flash Lite quando o usuário digita uma pergunta
    • O usuário pode explorar conceitos relacionados em mais profundidade seguindo caminhos clicáveis
  • Peek-A-Word transforma textos selecionados em materiais visuais gerados por IA e oferece definições concisas e imagens contextuais em um só espaço
    • O foco é manter o fluxo de aprendizado sem alternar entre abas
  • Anywhere é um app interativo de globo terrestre 3D criado com o Nano Banana 2 Lite
    • Ao anexar uma imagem, ele gera uma série de cartões-postais personalizados com pontos turísticos do mundo como plano de fundo
    • O usuário pode girar o globo e clicar nas fotos para ver informações sobre destinos virtuais

Métricas comparativas e model card

  • O Google DeepMind apresenta o Nano Banana 2 Lite como seu modelo mais eficiente até agora e afirma que ele tem bom equilíbrio entre qualidade e velocidade
  • Entre os modelos comparados está o modelo premium Nano Banana 2
  • As áreas de comparação incluem fatores de qualidade de geração de imagens, como aderência ao prompt, representação de detalhes e controle
  • A seção de desempenho apresenta as seguintes métricas
    • Image Editing: pontuação Elo de edição de imagens em relação a modelos concorrentes, segundo lmarena.ai
    • Image Generation: pontuação Elo de geração de imagens em relação a modelos concorrentes, segundo lmarena.ai
    • Latency per 1k resolution image: latência por imagem em resolução 1k com base em dados da artificialanalysis.ai
    • Price per 1k resolution image: preço por imagem em resolução 1k
  • O model card está disponível em View model card

Possibilidades de uso vistas pelos parceiros

  • Figma Weave avalia que o Nano Banana 2 Lite ajuda designers a explorar mais ideias e criar imagens únicas em um canvas baseado em nós
  • Manus AI testou geração de imagens em tempo real para decks de slides e páginas web dentro de workflows autônomos
    • Avalia que a velocidade é adequada para iterações visuais rápidas de agentes de IA e entrega de resultados em poucos segundos
    • Considera a qualidade de imagem próxima à do Nano Banana 2 completo
  • Artlist avalia que, quando a velocidade de geração fica mais rápida do que se imaginava, os usuários podem permanecer dentro da ideia em vez de esperar pela ferramenta
  • Weekend afirma que, no jogo de TV controlado por voz Wit’s End, o instant-ramen é cerca de 2,7× mais rápido do que o Gemini 3.1 Flash Image na geração de imagens 1k
    • Ele processa texto-para-imagem, edição e composição de múltiplas imagens em uma única API drop-in
  • Latitude avalia que a velocidade de geração de imagens é importante em seu motor que gera mundos enquanto os jogadores exploram, e que o instant-ramen permite uma geração visual rápida o suficiente para acompanhar a experiência de jogo

Limitações que ainda exigem revisão

  • O Gemini pode criar vários tipos de imagens, mas algumas funcionalidades ainda estão em melhoria, e as imagens geradas devem ser verificadas diretamente
  • Em fidelidade visual e textual, pode haver dificuldades com rostos pequenos, ortografia precisa e detalhes da imagem
  • Em precisão de dados e fatos, o conhecimento do mundo real é amplo, mas não completo
    • Na geração de infográficos, anotações de diagramas e representações complexas de dados, ele pode interpretar informações de forma incorreta ou produzir resultados factualmente errados
    • Saídas baseadas em dados exigem verificação
  • Em tradução e localização, ele pode gerar e traduzir texto em vários idiomas, mas pode ter dificuldades com gramática, ortografia, nuances culturais e expressões idiomáticas
  • Em edições complexas e blending de imagens, edições com máscara, grandes mudanças de iluminação como transformar dia em noite e composições com várias imagens podem produzir resultados pouco naturais, artefatos visuais ou cenas desconectadas
  • A consistência de personagens é um ponto forte, mas nem sempre é precisa, e o Google DeepMind está trabalhando em melhorias para torná-la mais estável

Recursos de segurança e cuidados de uso

  • O Google DeepMind usa filtragem ampla e rotulagem de dados para reduzir conteúdo nocivo nos datasets e diminuir a possibilidade de saídas nocivas
  • Em segurança de conteúdo, realiza red teaming e avaliações, incluindo segurança infantil e representação
  • Imagens geradas incluem recursos modernos de privacidade e segurança, e o SynthID insere diretamente nas imagens uma marca d’água digital invisível para permitir a identificação de imagens geradas por IA
  • Informações sobre o SynthID estão disponíveis em Learn more
  • LLMs como o Gemini 3.1 Flash-Lite Image podem fornecer conteúdo incorreto ou ofensivo que não representa as opiniões do Google
  • É preciso cautela ao confiar, publicar ou usar conteúdo fornecido por LLMs, e ele não deve servir de base para aconselhamento profissional em áreas como medicina, direito ou finanças

1 comentários

 
GN⁺ 3 시간 전
Opiniões no Hacker News
  • Detesto de um jeito difícil de descrever o primeiro exemplo de geração de interiores de casa. Hoje em dia, corretores de imóveis pegam apartamentos velhos e encalhados e passam tudo por um filtro de IA, então, antes de ver que tipo de imóvel horrível estão tentando vender por um preço absurdo, você precisa passar por dezenas de imagens do tipo “poderia ficar assim se fosse decorado no estilo Ikea”

    • Acho que isso deveria ser visto como representação falsa ilegal. Há áreas cinzentas demais no uso de IA
    • Vejo isso quase como fraude. No Streeteasy, um apartamento parecia ter “colocado” uma escrivaninha, uma cômoda e uma cama queen, mas era óbvio que o modelo de imagem simplesmente tinha reduzido os móveis a proporções que não existem na realidade
      No quarto real, mal cabia uma cama queen ;(
    • Concordo 100% que enganar sobre a aparência real de um apartamento não deveria ser aceitável, nem social nem legalmente. Dito isso, na reforma do meu banheiro, o modelo de imagem ajudou bastante nas escolhas de design
      Foi especialmente útil quando era difícil imaginar diretamente como o espaço todo ficaria se eu colocasse azulejos em determinadas partes
    • Em NYC, onde moro, publicar esse tipo de imagem retocada já era comum havia mais de 10 anos
      Antes, só era mais caro contratar alguém para fazer esse trabalho
      As imagens retocadas sempre mostram as mesmas paredes claras e móveis cinza com cara de revista
      A IA só deixou isso mais barato; no fim, era inevitável que chegasse a esse ponto
      Imagens retocadas desse jeito até têm uma pequena marca-d’água informando que foram editadas
    • Só um bom fotógrafo já faz um efeito enorme. Quando um amigo vendeu a casa, fiquei surpreso com o quanto ela parecia boa nas fotos do anúncio e com o quanto parecia grande, mesmo eu sabendo que não era pequena
      É um problema que já existia antes dos filtros de IA, então não é novo, mas agora ficou muito pior e mais barato
  • Recebi acesso antecipado para testar este modelo. Foi por causa do trabalho, e o Google ainda não passou a gostar de mim pessoalmente lol
    Ele funciona como anunciado aqui e, em coisas como boa renderização de texto, parece uma versão destilada do Nano Banana 2. O Nano Banana 1 é bem mais fraco nesse ponto
    Claro que, em prompts detalhados, ele não chega nem perto do Nano Banana 2 básico. Minha maior reclamação é que no NB2 dá para forçar a proporção da imagem programaticamente, mas no NB2L não
    Ainda assim, o preço de US$ 0,034 por imagem é mais alto do que eu esperava. Em geral o preço está relacionado ao tempo de geração, e ele gera em metade do tempo do Nano Banana 1, enquanto o Nano Banana 1 custa US$ 0,039 por imagem
    A afirmação do Google de que é possível substituir diretamente pipelines do NB1 pelo NB2L faz sentido
    Ontem o Google anunciou que permitiria geração gratuita de imagens no app Gemini (https://blog.google/innovation-and-ai/products/gemini-app/pe...), mas não especificou qual modelo usa. Acho que a principal motivação do Nano Banana 2 Lite está aí

    • Pelo Vertex, é possível definir proporção de imagem programaticamente também no NB2 Lite [1]. Atualizei o programa que uso para criar imagens para o GenAI Showdown, troquei o ID do modelo para gemini-3.1-flash-lite-image e consegui usar proporções como 16:9 e 4:3
      [1] - https://cloud.google.com/developers/vertex-ai
    • Fico curioso para saber que tipo de trabalho exige geração automática de imagens em grande escala
  • É ok, mas fica em cima do AI Studio quebrado do Google. Metade dos recursos ali exige uma conta Google One, então não consigo usar
    Tenho uma conta Workspace, então não sou elegível e também não consigo migrar. O Google One não oferece suporte a domínio próprio
    Então, para usar um endereço de e-mail legal e o Banana, tenho que manter duas contas e ainda pagar por isso? Estou começando a achar que o número correto de contas pagas do Google aqui é 0

    • Passei por uma situação parecida. O Google realmente precisa melhorar a experiência de usuário para uso dos modelos e cobrança
      Minha solução foi o OpenRouter. Dá para gerar imagens com modelos do Google em chats de desenvolvimento/teste e também executar o mesmo prompt lado a lado com outros modelos. É muito prático para geração leve de imagens
    • Estou quase na mesma. Pago tanto o One quanto o Workspace para uso pessoal, e fica ambíguo qual dos dois devo usar para esses recursos
      Em geral uso como padrão a conta pessoal, que tem mais contexto, mas isso exige alguns passos extras para trazer coisas como arquivos do Workspace Drive
      E coisas como o Project Genie simplesmente não estão disponíveis no Workspace, o que parece bem estranho
    • É uma divulgação meio descarada, mas o burlap permite inserir chaves do Gemini Studio ou da OpenAI e testar várias coisas sem mexer na interface web. Foi por isso que o criei
      https://www.burlap.app/download
  • A velocidade é realmente impressionante. O NB2 básico leva cerca de 30 segundos por imagem, enquanto este parece levar menos de 5 segundos
    Criei um app que gera histórias ilustradas colocando as crianças como personagens. Eu queria manter o estilo das ilustrações, mas priorizar a semelhança com as crianças
    Testei vários modelos, mas nenhum parece chegar tão perto deste em manter a semelhança mesmo com estilização. Os outros modelos acabam transformando em personagens genéricos
    Estou animado para colocar este modelo no onboarding do app, para que o usuário tenha o momento “aha” o mais rápido possível. Esperar mais de 30 segundos não é ideal
    Dito isso, para as ilustrações reais ainda pretendo usar o NB2 básico. Como outras pessoas disseram, esta versão Lite ainda tem alguns problemas de nuance e consistência

    • Tentei algo parecido e recebi um erro dizendo que não era possível fazer coisas relacionadas a crianças. Isso mudou?
  • Não incluíram o ChatGPT no gráfico comparativo. Isso, por si só, diz muita coisa

    • Vale apontar isso. Para quem não sabe, o ChatGPT Image 2 tem um ELO absurdamente alto, de 1387, mais de 100 pontos acima do modelo em 2º lugar, com 1273 (https://arena.ai/leaderboard/text-to-image)
      Por outro lado, a latência é um problema, e a configuração High do ChatGPT Image 2 é lenta, levando cerca de 2 minutos em 1024x1024
      De qualquer forma, se tivessem colocado isso nesse gráfico, ele teria ficado distorcido a ponto de ser inútil
      Eu gostaria de escrever sobre o ChatGPT Image 2, mas parece que agora as pessoas não se interessam por geração de imagens detalhadas. Mesmo que, nos testes existentes, o ChatGPT Image 2 supere todos de longe
  • É meio surpreendente que o modelo de imagem do Grok vença o Nano Banana em quase todas as métricas destacadas aqui

    • Será mesmo? Será que deixei passar algo? Primeiro, isso não parece ser verdade, e as versões que não são Lite parecem vencer o Grok no geral
      Segundo, isso é, antes de tudo, um modelo de baixo custo para geração em massa, não um modelo frontier de ponta, então é natural que os benchmarks sejam mais baixos
  • Gostei do Nano Banana Pro. Ainda existe alguma alternativa local? Ouvi falar do Qwen Image, Klein e, recentemente, do Krea, e queria saber se há algo recomendável

    • O Krea-2 é excelente. Se você conseguir conviver com a licença restritiva, a velocidade de saída e o prompting em JSON, o Ideogram 4 provavelmente é o mais próximo dos modelos de ponta
      No GenAI Showdown no meu perfil, há benchmarks comparando modelos locais e proprietários
      Na verdade, ele pontuou acima do Gemini 2.5, ou seja, do NB original, o que é bem impressionante
    • O Krea é bom. Para informações sobre modelos abertos de ponta, veja o r/StableDiffusion
  • Estou bem defasado na área de geração de imagens, então só uso de vez em quando para tokens de RPG, brincadeiras ou assets temporários pessoais. Pelos meus padrões, isso é insano
    Dá para criar uma imagem em cerca de 2 segundos. Antes, para fazer uma imagem da mesma qualidade no ChatGPT, levava de 30 segundos a 1 minuto
    Não entendo a reação negativa aqui

    • Ainda assim, o detalhe do ChatGPT é muito melhor. Ele também consegue fazer coisas como quadrinhos complexos de 6 quadros, que o Nano Banana não consegue acompanhar
      E boa parte da reação negativa vem de pessoas que odeiam o próprio conceito de arte com IA e querem que ela fracasse
    • Os usos são diferentes.
      Pessoas que trabalham em algo em que a imagem em si é central querem gastar mais por imagem
      Por outro lado, se a imagem é parte de um relatório, um resultado descartável ou algo que entra em uma demo, uma abordagem barata é melhor
  • Fico curioso sobre como obter algo como o protótipo em tempo real mostrado na seção “hands on” desta página
    No gemini.g, dá para adicionar uma canvas ou usar geração de imagens, mas não sei bem onde colocar o prompt “space lift” para sair como na demo

  • Uau, a latência caiu drasticamente. Isso deve abrir alguns novos casos de uso, embora a página linkada não explique as diferenças entre os modelos de um jeito fácil de entender
    Mas, pela minha experiência pessoal usando modelos de imagem em geral, acho que o Google é o melhor no meu fluxo de trabalho. Claro, ainda não testei os provedores do Extremo Oriente
    Fico curioso para saber o que outras pessoas pensam