- O Google lançou em prévia para desenvolvedores o recurso de geração de imagens com o modelo Gemini 2.0 Flash
- Com comandos baseados em texto, é possível gerar, modificar e editar partes de imagens, com melhorias na qualidade visual e na renderização de texto
- São apresentados diversos casos de uso, como reskin de produtos, geração de SKU e edição colaborativa em tempo real
- Já é possível testar imediatamente por meio do [Google AI Studio] e do [Vertex AI], e os limites de uso da API também foram ampliados
Prévia do recurso de geração de imagens do Gemini 2.0 Flash é lançada
- Com base no feedback dos desenvolvedores, o Google passou a oferecer o recurso de geração de imagens por meio do modelo Gemini 2.0 Flash em versão preview
- Os usuários podem acessá-lo pelo Google AI Studio ou pelo Vertex AI
Principais melhorias
- Melhoria na qualidade visual (em comparação com a versão experimental anterior)
- Maior precisão na renderização de texto
- Redução na taxa de bloqueio por filtros
Exemplos de recursos de geração de imagens que podem ser usados
- Recriação de fundo em imagens de produtos: é possível recompor fotos de produtos existentes com diferentes fundos e ambientes
- Edição colaborativa em tempo real: o app Gemini Co-Drawing oferece suporte à edição de imagens em tempo real por múltiplos usuários
- Edição conversacional de apenas uma parte da imagem: sem alterar tudo, é possível modificar apenas áreas específicas com comandos conversacionais
- Geração dinâmica de SKUs de produtos: ao combinar imagem e texto, é possível gerar automaticamente novas variações de produto (cor, rótulo etc.)
- Colaboração com o Gemini para ideação: por meio da combinação de texto + imagem, é possível implementar diversos cenários, como culinária, produtos e planejamento
Exemplo de uso da API (Python)
from google import genai
from google.genai import types
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
model="gemini-2.0-flash-preview-image-generation",
contents=("Show me how to bake a macaron with images."),
config=types.GenerateContentConfig(
response_modalities=["TEXT", "IMAGE"]
),
)
Planos futuros
- No futuro, o Google pretende continuar expandindo o recurso com qualidade mais alta, adição de funcionalidades, maior velocidade e melhorias nos planos de cobrança
- Para mais detalhes, consulte o guia de geração de imagens da API Gemini
1 comentários
Comentários no Hacker News