Prévia do Gemini 2.0 Flash: recursos de geração e edição de imagens são revelados

(developers.googleblog.com)

3 pontos por GN⁺ 2025-05-08 | 1 comentários | Compartilhar no WhatsApp

O Google lançou em prévia para desenvolvedores o recurso de geração de imagens com o modelo Gemini 2.0 Flash
Com comandos baseados em texto, é possível gerar, modificar e editar partes de imagens, com melhorias na qualidade visual e na renderização de texto
São apresentados diversos casos de uso, como reskin de produtos, geração de SKU e edição colaborativa em tempo real
Já é possível testar imediatamente por meio do [Google AI Studio] e do [Vertex AI], e os limites de uso da API também foram ampliados

Prévia do recurso de geração de imagens do Gemini 2.0 Flash é lançada

Com base no feedback dos desenvolvedores, o Google passou a oferecer o recurso de geração de imagens por meio do modelo Gemini 2.0 Flash em versão preview
Os usuários podem acessá-lo pelo Google AI Studio ou pelo Vertex AI

Principais melhorias

Melhoria na qualidade visual (em comparação com a versão experimental anterior)
Maior precisão na renderização de texto
Redução na taxa de bloqueio por filtros

Exemplos de recursos de geração de imagens que podem ser usados

Recriação de fundo em imagens de produtos: é possível recompor fotos de produtos existentes com diferentes fundos e ambientes
Edição colaborativa em tempo real: o app Gemini Co-Drawing oferece suporte à edição de imagens em tempo real por múltiplos usuários
Edição conversacional de apenas uma parte da imagem: sem alterar tudo, é possível modificar apenas áreas específicas com comandos conversacionais
Geração dinâmica de SKUs de produtos: ao combinar imagem e texto, é possível gerar automaticamente novas variações de produto (cor, rótulo etc.)
Colaboração com o Gemini para ideação: por meio da combinação de texto + imagem, é possível implementar diversos cenários, como culinária, produtos e planejamento

Exemplo de uso da API (Python)

from google import genai  
from google.genai import types  
  
client = genai.Client(api_key="GEMINI_API_KEY")  
response = client.models.generate_content(  
    model="gemini-2.0-flash-preview-image-generation",  
    contents=("Show me how to bake a macaron with images."),  
    config=types.GenerateContentConfig(  
        response_modalities=["TEXT", "IMAGE"]  
    ),  
)

Planos futuros

No futuro, o Google pretende continuar expandindo o recurso com qualidade mais alta, adição de funcionalidades, maior velocidade e melhorias nos planos de cobrança
Para mais detalhes, consulte o guia de geração de imagens da API Gemini

1 comentários

GN⁺ 2025-05-08

Comentários no Hacker News

Testei o Gemini 2.0 comparando com vários modelos de geração de imagens. Não sei o quanto do Imagen 3.0 do Google está incluído, mas a qualidade estética geral parece bem inferior
- As principais vantagens são o aspecto multimodal para manter paridade com o produto da OpenAI e a velocidade, muito mais rápida que a geração de imagens do OpenAI 4o
Sempre que uso a ferramenta, muitas vezes preciso tentar várias vezes para obter o resultado desejado. Tenho dúvidas sobre o uso de uma interface conversacional
É preciso usar com cuidado. Por exemplo, quando pedi uma receita de butter chicken vegetariano, foram retornados 41 MB de JSON e 28 imagens em base64. A 4 centavos por imagem, isso custou mais de 1 dólar em uma única solicitação
Usei o Gemini 2.0 para gerar 100 receitas e imagens, e o resultado ficou muito bom. Em vez de prompts de texto, usei dados brutos e metadados de tabelas
O preço por imagem na geração de imagens do Gemini 2.0 é de US$ 0,039, mais caro que o Imagen 3. O Gemini pode gerar imagens por meio de conversa, enquanto o Imagen 3 funciona no formato texto de entrada/imagem de saída
Obtive resultados mistos na demo de co-drawing. Fiz um esboço da cena esperando que o modelo a expandisse, mas ele gerou bonecos de palito renderizados em 3D
A saída do modelo é razoável, e atualizei um projeto recente para o novo modelo. Ainda há muitos modos de falha, mas seria preciso um grande livro de receitas mostrando um bom fluxo de trabalho
O objetivo do Google e de outras empresas de IA é um mundo de objetos infinitos gerados por IA que possam ser usados em compras ou comércio eletrônico. Isso desafia o verdadeiro artesanato humano e os objetos que existem de fato

Prévia do Gemini 2.0 Flash: recursos de geração e edição de imagens são revelados

Prévia do recurso de geração de imagens do Gemini 2.0 Flash é lançada

Principais melhorias

Exemplos de recursos de geração de imagens que podem ser usados

Exemplo de uso da API (Python)

Planos futuros

Leituras relacionadas

1 comentários

Comentários no Hacker News