3 pontos por GN⁺ 2025-05-08 | 1 comentários | Compartilhar no WhatsApp
  • O Google lançou em prévia para desenvolvedores o recurso de geração de imagens com o modelo Gemini 2.0 Flash
  • Com comandos baseados em texto, é possível gerar, modificar e editar partes de imagens, com melhorias na qualidade visual e na renderização de texto
  • São apresentados diversos casos de uso, como reskin de produtos, geração de SKU e edição colaborativa em tempo real
  • Já é possível testar imediatamente por meio do [Google AI Studio] e do [Vertex AI], e os limites de uso da API também foram ampliados

Prévia do recurso de geração de imagens do Gemini 2.0 Flash é lançada

  • Com base no feedback dos desenvolvedores, o Google passou a oferecer o recurso de geração de imagens por meio do modelo Gemini 2.0 Flash em versão preview
  • Os usuários podem acessá-lo pelo Google AI Studio ou pelo Vertex AI

Principais melhorias

  • Melhoria na qualidade visual (em comparação com a versão experimental anterior)
  • Maior precisão na renderização de texto
  • Redução na taxa de bloqueio por filtros

Exemplos de recursos de geração de imagens que podem ser usados

  • Recriação de fundo em imagens de produtos: é possível recompor fotos de produtos existentes com diferentes fundos e ambientes
  • Edição colaborativa em tempo real: o app Gemini Co-Drawing oferece suporte à edição de imagens em tempo real por múltiplos usuários
  • Edição conversacional de apenas uma parte da imagem: sem alterar tudo, é possível modificar apenas áreas específicas com comandos conversacionais
  • Geração dinâmica de SKUs de produtos: ao combinar imagem e texto, é possível gerar automaticamente novas variações de produto (cor, rótulo etc.)
  • Colaboração com o Gemini para ideação: por meio da combinação de texto + imagem, é possível implementar diversos cenários, como culinária, produtos e planejamento

Exemplo de uso da API (Python)

from google import genai  
from google.genai import types  
  
client = genai.Client(api_key="GEMINI_API_KEY")  
response = client.models.generate_content(  
    model="gemini-2.0-flash-preview-image-generation",  
    contents=("Show me how to bake a macaron with images."),  
    config=types.GenerateContentConfig(  
        response_modalities=["TEXT", "IMAGE"]  
    ),  
)  

Planos futuros

  • No futuro, o Google pretende continuar expandindo o recurso com qualidade mais alta, adição de funcionalidades, maior velocidade e melhorias nos planos de cobrança
  • Para mais detalhes, consulte o guia de geração de imagens da API Gemini

1 comentários

 
GN⁺ 2025-05-08
Comentários no Hacker News
  • Testei o Gemini 2.0 comparando com vários modelos de geração de imagens. Não sei o quanto do Imagen 3.0 do Google está incluído, mas a qualidade estética geral parece bem inferior
    • As principais vantagens são o aspecto multimodal para manter paridade com o produto da OpenAI e a velocidade, muito mais rápida que a geração de imagens do OpenAI 4o
  • Sempre que uso a ferramenta, muitas vezes preciso tentar várias vezes para obter o resultado desejado. Tenho dúvidas sobre o uso de uma interface conversacional
  • É preciso usar com cuidado. Por exemplo, quando pedi uma receita de butter chicken vegetariano, foram retornados 41 MB de JSON e 28 imagens em base64. A 4 centavos por imagem, isso custou mais de 1 dólar em uma única solicitação
  • Usei o Gemini 2.0 para gerar 100 receitas e imagens, e o resultado ficou muito bom. Em vez de prompts de texto, usei dados brutos e metadados de tabelas
  • O preço por imagem na geração de imagens do Gemini 2.0 é de US$ 0,039, mais caro que o Imagen 3. O Gemini pode gerar imagens por meio de conversa, enquanto o Imagen 3 funciona no formato texto de entrada/imagem de saída
  • Obtive resultados mistos na demo de co-drawing. Fiz um esboço da cena esperando que o modelo a expandisse, mas ele gerou bonecos de palito renderizados em 3D
  • A saída do modelo é razoável, e atualizei um projeto recente para o novo modelo. Ainda há muitos modos de falha, mas seria preciso um grande livro de receitas mostrando um bom fluxo de trabalho
  • O objetivo do Google e de outras empresas de IA é um mundo de objetos infinitos gerados por IA que possam ser usados em compras ou comércio eletrônico. Isso desafia o verdadeiro artesanato humano e os objetos que existem de fato