Lançamento do Gemini 2.5 Flash

(developers.googleblog.com)

5 pontos por GN⁺ 2025-04-18 | 1 comentários | Compartilhar no WhatsApp

Gemini 2.5 Flash é um modelo híbrido de raciocínio oferecido por meio do Google AI Studio e do Vertex AI, com grande melhora na capacidade de raciocínio sem perder velocidade nem eficiência de custo
Com a função de pensamento (ligado/desligado) e a configuração thinking_budget, é possível ajustar com precisão desempenho, custo e latência
Ao definir o orçamento de pensamento, é possível controlar de forma detalhada o número máximo de tokens que o modelo pode gerar, permitindo respostas mais precisas e abrangentes para tarefas complexas
É o modelo de raciocínio mais econômico do Google, oferecendo alto desempenho com baixo custo e flexibilidade de ajuste para diferentes casos de uso
Atualmente está disponível em preview no Google AI Studio e no Vertex AI, e também pode ser configurado via API

Lançamento do preview do Gemini 2.5 Flash

O Google lançou o Gemini 2.5 Flash em preview por meio do Google AI Studio e do Vertex AI
Em comparação com o 2.0 Flash, a capacidade de raciocínio foi amplamente aprimorada, mantendo velocidade e eficiência de custo
É o primeiro modelo de raciocínio totalmente híbrido, permitindo que desenvolvedores ativem ou desativem o modo de pensamento
A configuração thinking_budget permite equilibrar qualidade, custo e latência de resposta
Mesmo com o modo de pensamento desativado, mantém desempenho superior ao 2.0 Flash

Recursos de raciocínio do Gemini 2.5 Flash

O Gemini 2.5 Flash não gera a resposta imediatamente; ele foi estruturado para pensar primeiro
Gera respostas mais precisas e abrangentes para problemas complexos, questões matemáticas e perguntas de análise de pesquisa
No benchmark Hard Prompts do LMArena, apresentou o segundo melhor desempenho, atrás apenas do 2.5 Pro
Oferece desempenho semelhante ao de outros modelos com preço mais baixo e tamanho de modelo menor

O modelo de raciocínio mais econômico

O Gemini 2.5 Flash é avaliado como o modelo de raciocínio com melhor relação custo-benefício
Passa a integrar a fronteira de Pareto de eficiência entre custo e qualidade do Google

Recurso de ajuste de pensamento: thinking_budget

Oferece ajuste fino entre qualidade, custo e latência para diferentes casos de uso
thinking_budget indica o número máximo de tokens que o modelo pode usar para pensar
- Ex.: aumentar o budget melhora a qualidade, mas também eleva custo e latência
Para perguntas simples que não exigem raciocínio, aplica automaticamente um budget baixo
O intervalo do budget vai de 0 a 24.576 tokens e pode ser ajustado por slider ou parâmetro de API no AI Studio e no Vertex AI

Exemplos de prompts por nível de pensamento

Baixo nível de raciocínio necessário

“Thank you” em espanhol
Perguntar quantas províncias existem no Canadá

Nível intermediário de raciocínio necessário

Calcular a probabilidade de sair 7 ao lançar dois dados
Montar uma agenda com 5 horas de basquete durante a semana com base em uma programação

Alto nível de raciocínio necessário

Problema de cálculo de tensão mecânica em uma viga
Problema de escrever uma função de avaliação de fórmulas no estilo Excel
- Exige resolução de dependências, precedência de operadores e detecção de ciclos

Como começar

A versão preview está disponível no Google AI Studio, Vertex AI e app Gemini
Experimente o parâmetro thinking_budget para explorar possibilidades de resolução de problemas complexos

Exemplo de código:

from google import genai  

client = genai.Client(api_key=&quot;GEMINI_API_KEY&quot;)  

response = client.models.generate_content(  
  model=&quot;gemini-2.5-flash-preview-04-17&quot;,  
  contents=&quot;You roll two dice. What’s the probability they add up to 7?&quot;,  
  config=genai.types.GenerateContentConfig(  
    thinking_config=genai.types.ThinkingConfig(  
      thinking_budget=1024  
    )  
  )  
)  

print(response.text)

Mais detalhes estão na documentação para desenvolvedores e no Gemini Cookbook
Mais recursos serão adicionados no futuro, com melhorias contínuas até o lançamento oficial

1 comentários

GN⁺ 2025-04-18

Comentários do Hacker News

Foi um grande acontecimento o Google oferecer o Gemini 2.5 Pro (experimental) gratuitamente. Nunca usei os modelos mais caros da OpenAI, então não posso comparar, mas em relação aos modelos gratuitos que usei no passado, o Gemini 2.5 Pro mostra um avanço considerável. Esse modelo é mais inteligente do que eu na maior parte dos temas com que lido, e não tenta apenas concordar comigo — ele discute comigo. Agora, todo o meu uso casual de IA está concentrado no Gemini, e estou ansioso para fazer perguntas sobre temas mais profundos. Estou criando novas ferramentas para aumentar o valor desse modelo
Um dos recursos do modelo Gemini que muitas vezes passa despercebido é que ele pode escrever e executar código Python diretamente pela API. Meu plugin llm-gemini oferece suporte a isso: link do GitHub. Não há custo adicional para executar o código; você paga apenas pelos tokens de entrada e saída. Por exemplo, usei 10 de entrada e 1.531 de saída, com custo de 0,536 centavo
Os modelos Gemini Flash recebem menos atenção, mas no uso real têm o melhor custo-benefício e oferecem ferramentas multimodais. O Google está vencendo discretamente a corrida da IA
Informação escondida ao explorar a fundo a documentação do Gemini 2.5 Flash: para entradas de imagem, o modelo não só pode gerar caixas delimitadoras 2D para tópicos relevantes, como também máscaras de segmentação. Gerar máscaras de segmentação com um modelo Flash nessa faixa de preço é bem impressionante. Isso é implementado gerando uma string b64 que representa a máscara
Para alguém que não é programador, o Google está ficando surpreendentemente bom. Ele fornece código que funciona de primeira. Quando pedi que escrevesse código para coletar e analisar dados de um site, ele escreveu código que fazia exatamente isso. Era uma classificação e agregação básica de dados, mas eu não esperava
Mais inovação do Google. A OpenAI tem dois grandes problemas. Primeiro, o pipeline verticalmente integrado de chips do Google e o profundo conhecimento de cadeia de suprimentos e operação necessário para produzir chips de IA. Isso oferece uma enorme vantagem de custo em todas as etapas. Segundo, a falta de dados e a vantagem injusta das redes sociais como fonte de conhecimento continuamente atualizada. Dados novos estão se tornando cada vez mais um diferencial valioso. SamA reconhece esses problemas e os vê como fundamentais para determinar se a OpenAI terá sucesso
Aumento de preço de 50% em relação ao Gemini 2.0 Flash. Parece muito, mas o Flash ainda é muito barato em comparação com outros modelos dessa qualidade
Encontrei algo interessante no código da biblioteca da API Python: link do GitHub. thinking_budget está documentado, mas é difícil entender o que é include_thoughts. Não consegui descobrir como usar essa opção para fazer o Gemini retornar um resumo dos pensamentos
O Google oferece modelos impressionantes via API e pelo AI Studio gratuito, mas o modelo usado no app Gemini parece bem pior. Nas últimas semanas usei o Gemini Advanced em uma conta Workspace, e o modelo parece pensar por menos tempo, gerar saídas mais curtas e também parece bem longe da janela de contexto anunciada de 1 milhão de tokens. Parece que o Google está limitando intencionalmente o app Gemini
Ao executar um benchmark JSON em um PDF interno (3 páginas, dificuldade média):
- gemini-flash-2.0: cerca de 60% de precisão, US$ 1 por 6.250 páginas
- gemini-2.5-flash-preview (sem thinking): cerca de 80% de precisão, US$ 1 por 1.700 páginas
- gemini-2.5-flash-preview (com thinking): cerca de 80% de precisão, US$ 1 por 350 páginas
- gemini-flash-2.5: cerca de 90% de precisão, US$ 1 por 150 páginas
- Eu gostaria que a variante com thinking fosse separada da variante normal. Fica muito confuso quando os parâmetros do modelo têm um impacto tão grande no preço

Lançamento do Gemini 2.5 Flash

Lançamento do preview do Gemini 2.5 Flash

Recursos de raciocínio do Gemini 2.5 Flash

O modelo de raciocínio mais econômico

Recurso de ajuste de pensamento: thinking_budget

Exemplos de prompts por nível de pensamento

Baixo nível de raciocínio necessário

Nível intermediário de raciocínio necessário

Alto nível de raciocínio necessário

Como começar

Leituras relacionadas

1 comentários

Comentários do Hacker News