- Gemini 2.5 Flash é um modelo híbrido de raciocínio oferecido por meio do Google AI Studio e do Vertex AI, com grande melhora na capacidade de raciocínio sem perder velocidade nem eficiência de custo
- Com a função de pensamento (ligado/desligado) e a configuração thinking_budget, é possível ajustar com precisão desempenho, custo e latência
- Ao definir o orçamento de pensamento, é possível controlar de forma detalhada o número máximo de tokens que o modelo pode gerar, permitindo respostas mais precisas e abrangentes para tarefas complexas
- É o modelo de raciocínio mais econômico do Google, oferecendo alto desempenho com baixo custo e flexibilidade de ajuste para diferentes casos de uso
- Atualmente está disponível em preview no Google AI Studio e no Vertex AI, e também pode ser configurado via API
Lançamento do preview do Gemini 2.5 Flash
- O Google lançou o Gemini 2.5 Flash em preview por meio do Google AI Studio e do Vertex AI
- Em comparação com o 2.0 Flash, a capacidade de raciocínio foi amplamente aprimorada, mantendo velocidade e eficiência de custo
- É o primeiro modelo de raciocínio totalmente híbrido, permitindo que desenvolvedores ativem ou desativem o modo de pensamento
- A configuração thinking_budget permite equilibrar qualidade, custo e latência de resposta
- Mesmo com o modo de pensamento desativado, mantém desempenho superior ao 2.0 Flash
Recursos de raciocínio do Gemini 2.5 Flash
- O Gemini 2.5 Flash não gera a resposta imediatamente; ele foi estruturado para pensar primeiro
- Gera respostas mais precisas e abrangentes para problemas complexos, questões matemáticas e perguntas de análise de pesquisa
- No benchmark Hard Prompts do LMArena, apresentou o segundo melhor desempenho, atrás apenas do 2.5 Pro
- Oferece desempenho semelhante ao de outros modelos com preço mais baixo e tamanho de modelo menor
O modelo de raciocínio mais econômico
- O Gemini 2.5 Flash é avaliado como o modelo de raciocínio com melhor relação custo-benefício
- Passa a integrar a fronteira de Pareto de eficiência entre custo e qualidade do Google
Recurso de ajuste de pensamento: thinking_budget
- Oferece ajuste fino entre qualidade, custo e latência para diferentes casos de uso
- thinking_budget indica o número máximo de tokens que o modelo pode usar para pensar
- Ex.: aumentar o budget melhora a qualidade, mas também eleva custo e latência
- Para perguntas simples que não exigem raciocínio, aplica automaticamente um budget baixo
- O intervalo do budget vai de 0 a 24.576 tokens e pode ser ajustado por slider ou parâmetro de API no AI Studio e no Vertex AI
Exemplos de prompts por nível de pensamento
Baixo nível de raciocínio necessário
- “Thank you” em espanhol
- Perguntar quantas províncias existem no Canadá
Nível intermediário de raciocínio necessário
- Calcular a probabilidade de sair 7 ao lançar dois dados
- Montar uma agenda com 5 horas de basquete durante a semana com base em uma programação
Alto nível de raciocínio necessário
- Problema de cálculo de tensão mecânica em uma viga
- Problema de escrever uma função de avaliação de fórmulas no estilo Excel
- Exige resolução de dependências, precedência de operadores e detecção de ciclos
Como começar
- A versão preview está disponível no Google AI Studio, Vertex AI e app Gemini
- Experimente o parâmetro
thinking_budget para explorar possibilidades de resolução de problemas complexos
- Exemplo de código:
from google import genai
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
model="gemini-2.5-flash-preview-04-17",
contents="You roll two dice. What’s the probability they add up to 7?",
config=genai.types.GenerateContentConfig(
thinking_config=genai.types.ThinkingConfig(
thinking_budget=1024
)
)
)
print(response.text)
- Mais detalhes estão na documentação para desenvolvedores e no Gemini Cookbook
- Mais recursos serão adicionados no futuro, com melhorias contínuas até o lançamento oficial
1 comentários
Comentários do Hacker News
Foi um grande acontecimento o Google oferecer o Gemini 2.5 Pro (experimental) gratuitamente. Nunca usei os modelos mais caros da OpenAI, então não posso comparar, mas em relação aos modelos gratuitos que usei no passado, o Gemini 2.5 Pro mostra um avanço considerável. Esse modelo é mais inteligente do que eu na maior parte dos temas com que lido, e não tenta apenas concordar comigo — ele discute comigo. Agora, todo o meu uso casual de IA está concentrado no Gemini, e estou ansioso para fazer perguntas sobre temas mais profundos. Estou criando novas ferramentas para aumentar o valor desse modelo
Um dos recursos do modelo Gemini que muitas vezes passa despercebido é que ele pode escrever e executar código Python diretamente pela API. Meu plugin llm-gemini oferece suporte a isso: link do GitHub. Não há custo adicional para executar o código; você paga apenas pelos tokens de entrada e saída. Por exemplo, usei 10 de entrada e 1.531 de saída, com custo de 0,536 centavo
Os modelos Gemini Flash recebem menos atenção, mas no uso real têm o melhor custo-benefício e oferecem ferramentas multimodais. O Google está vencendo discretamente a corrida da IA
Informação escondida ao explorar a fundo a documentação do Gemini 2.5 Flash: para entradas de imagem, o modelo não só pode gerar caixas delimitadoras 2D para tópicos relevantes, como também máscaras de segmentação. Gerar máscaras de segmentação com um modelo Flash nessa faixa de preço é bem impressionante. Isso é implementado gerando uma string b64 que representa a máscara
Para alguém que não é programador, o Google está ficando surpreendentemente bom. Ele fornece código que funciona de primeira. Quando pedi que escrevesse código para coletar e analisar dados de um site, ele escreveu código que fazia exatamente isso. Era uma classificação e agregação básica de dados, mas eu não esperava
Mais inovação do Google. A OpenAI tem dois grandes problemas. Primeiro, o pipeline verticalmente integrado de chips do Google e o profundo conhecimento de cadeia de suprimentos e operação necessário para produzir chips de IA. Isso oferece uma enorme vantagem de custo em todas as etapas. Segundo, a falta de dados e a vantagem injusta das redes sociais como fonte de conhecimento continuamente atualizada. Dados novos estão se tornando cada vez mais um diferencial valioso. SamA reconhece esses problemas e os vê como fundamentais para determinar se a OpenAI terá sucesso
Aumento de preço de 50% em relação ao Gemini 2.0 Flash. Parece muito, mas o Flash ainda é muito barato em comparação com outros modelos dessa qualidade
Encontrei algo interessante no código da biblioteca da API Python: link do GitHub.
thinking_budgetestá documentado, mas é difícil entender o que éinclude_thoughts. Não consegui descobrir como usar essa opção para fazer o Gemini retornar um resumo dos pensamentosO Google oferece modelos impressionantes via API e pelo AI Studio gratuito, mas o modelo usado no app Gemini parece bem pior. Nas últimas semanas usei o Gemini Advanced em uma conta Workspace, e o modelo parece pensar por menos tempo, gerar saídas mais curtas e também parece bem longe da janela de contexto anunciada de 1 milhão de tokens. Parece que o Google está limitando intencionalmente o app Gemini
Ao executar um benchmark JSON em um PDF interno (3 páginas, dificuldade média):