5 pontos por GN⁺ 2025-04-18 | 1 comentários | Compartilhar no WhatsApp
  • Gemini 2.5 Flash é um modelo híbrido de raciocínio oferecido por meio do Google AI Studio e do Vertex AI, com grande melhora na capacidade de raciocínio sem perder velocidade nem eficiência de custo
  • Com a função de pensamento (ligado/desligado) e a configuração thinking_budget, é possível ajustar com precisão desempenho, custo e latência
  • Ao definir o orçamento de pensamento, é possível controlar de forma detalhada o número máximo de tokens que o modelo pode gerar, permitindo respostas mais precisas e abrangentes para tarefas complexas
  • É o modelo de raciocínio mais econômico do Google, oferecendo alto desempenho com baixo custo e flexibilidade de ajuste para diferentes casos de uso
  • Atualmente está disponível em preview no Google AI Studio e no Vertex AI, e também pode ser configurado via API

Lançamento do preview do Gemini 2.5 Flash

  • O Google lançou o Gemini 2.5 Flash em preview por meio do Google AI Studio e do Vertex AI
  • Em comparação com o 2.0 Flash, a capacidade de raciocínio foi amplamente aprimorada, mantendo velocidade e eficiência de custo
  • É o primeiro modelo de raciocínio totalmente híbrido, permitindo que desenvolvedores ativem ou desativem o modo de pensamento
  • A configuração thinking_budget permite equilibrar qualidade, custo e latência de resposta
  • Mesmo com o modo de pensamento desativado, mantém desempenho superior ao 2.0 Flash

Recursos de raciocínio do Gemini 2.5 Flash

  • O Gemini 2.5 Flash não gera a resposta imediatamente; ele foi estruturado para pensar primeiro
  • Gera respostas mais precisas e abrangentes para problemas complexos, questões matemáticas e perguntas de análise de pesquisa
  • No benchmark Hard Prompts do LMArena, apresentou o segundo melhor desempenho, atrás apenas do 2.5 Pro
  • Oferece desempenho semelhante ao de outros modelos com preço mais baixo e tamanho de modelo menor

O modelo de raciocínio mais econômico

  • O Gemini 2.5 Flash é avaliado como o modelo de raciocínio com melhor relação custo-benefício
  • Passa a integrar a fronteira de Pareto de eficiência entre custo e qualidade do Google

Recurso de ajuste de pensamento: thinking_budget

  • Oferece ajuste fino entre qualidade, custo e latência para diferentes casos de uso
  • thinking_budget indica o número máximo de tokens que o modelo pode usar para pensar
    • Ex.: aumentar o budget melhora a qualidade, mas também eleva custo e latência
  • Para perguntas simples que não exigem raciocínio, aplica automaticamente um budget baixo
  • O intervalo do budget vai de 0 a 24.576 tokens e pode ser ajustado por slider ou parâmetro de API no AI Studio e no Vertex AI

Exemplos de prompts por nível de pensamento

Baixo nível de raciocínio necessário

  • “Thank you” em espanhol
  • Perguntar quantas províncias existem no Canadá

Nível intermediário de raciocínio necessário

  • Calcular a probabilidade de sair 7 ao lançar dois dados
  • Montar uma agenda com 5 horas de basquete durante a semana com base em uma programação

Alto nível de raciocínio necessário

  • Problema de cálculo de tensão mecânica em uma viga
  • Problema de escrever uma função de avaliação de fórmulas no estilo Excel
    • Exige resolução de dependências, precedência de operadores e detecção de ciclos

Como começar

  • A versão preview está disponível no Google AI Studio, Vertex AI e app Gemini
  • Experimente o parâmetro thinking_budget para explorar possibilidades de resolução de problemas complexos
  • Exemplo de código:
    from google import genai  
    
    client = genai.Client(api_key="GEMINI_API_KEY")  
    
    response = client.models.generate_content(  
      model="gemini-2.5-flash-preview-04-17",  
      contents="You roll two dice. What’s the probability they add up to 7?",  
      config=genai.types.GenerateContentConfig(  
        thinking_config=genai.types.ThinkingConfig(  
          thinking_budget=1024  
        )  
      )  
    )  
    
    print(response.text)  
    
  • Mais detalhes estão na documentação para desenvolvedores e no Gemini Cookbook
  • Mais recursos serão adicionados no futuro, com melhorias contínuas até o lançamento oficial

1 comentários

 
GN⁺ 2025-04-18
Comentários do Hacker News
  • Foi um grande acontecimento o Google oferecer o Gemini 2.5 Pro (experimental) gratuitamente. Nunca usei os modelos mais caros da OpenAI, então não posso comparar, mas em relação aos modelos gratuitos que usei no passado, o Gemini 2.5 Pro mostra um avanço considerável. Esse modelo é mais inteligente do que eu na maior parte dos temas com que lido, e não tenta apenas concordar comigo — ele discute comigo. Agora, todo o meu uso casual de IA está concentrado no Gemini, e estou ansioso para fazer perguntas sobre temas mais profundos. Estou criando novas ferramentas para aumentar o valor desse modelo

  • Um dos recursos do modelo Gemini que muitas vezes passa despercebido é que ele pode escrever e executar código Python diretamente pela API. Meu plugin llm-gemini oferece suporte a isso: link do GitHub. Não há custo adicional para executar o código; você paga apenas pelos tokens de entrada e saída. Por exemplo, usei 10 de entrada e 1.531 de saída, com custo de 0,536 centavo

  • Os modelos Gemini Flash recebem menos atenção, mas no uso real têm o melhor custo-benefício e oferecem ferramentas multimodais. O Google está vencendo discretamente a corrida da IA

  • Informação escondida ao explorar a fundo a documentação do Gemini 2.5 Flash: para entradas de imagem, o modelo não só pode gerar caixas delimitadoras 2D para tópicos relevantes, como também máscaras de segmentação. Gerar máscaras de segmentação com um modelo Flash nessa faixa de preço é bem impressionante. Isso é implementado gerando uma string b64 que representa a máscara

  • Para alguém que não é programador, o Google está ficando surpreendentemente bom. Ele fornece código que funciona de primeira. Quando pedi que escrevesse código para coletar e analisar dados de um site, ele escreveu código que fazia exatamente isso. Era uma classificação e agregação básica de dados, mas eu não esperava

  • Mais inovação do Google. A OpenAI tem dois grandes problemas. Primeiro, o pipeline verticalmente integrado de chips do Google e o profundo conhecimento de cadeia de suprimentos e operação necessário para produzir chips de IA. Isso oferece uma enorme vantagem de custo em todas as etapas. Segundo, a falta de dados e a vantagem injusta das redes sociais como fonte de conhecimento continuamente atualizada. Dados novos estão se tornando cada vez mais um diferencial valioso. SamA reconhece esses problemas e os vê como fundamentais para determinar se a OpenAI terá sucesso

  • Aumento de preço de 50% em relação ao Gemini 2.0 Flash. Parece muito, mas o Flash ainda é muito barato em comparação com outros modelos dessa qualidade

  • Encontrei algo interessante no código da biblioteca da API Python: link do GitHub. thinking_budget está documentado, mas é difícil entender o que é include_thoughts. Não consegui descobrir como usar essa opção para fazer o Gemini retornar um resumo dos pensamentos

  • O Google oferece modelos impressionantes via API e pelo AI Studio gratuito, mas o modelo usado no app Gemini parece bem pior. Nas últimas semanas usei o Gemini Advanced em uma conta Workspace, e o modelo parece pensar por menos tempo, gerar saídas mais curtas e também parece bem longe da janela de contexto anunciada de 1 milhão de tokens. Parece que o Google está limitando intencionalmente o app Gemini

  • Ao executar um benchmark JSON em um PDF interno (3 páginas, dificuldade média):

    • gemini-flash-2.0: cerca de 60% de precisão, US$ 1 por 6.250 páginas
    • gemini-2.5-flash-preview (sem thinking): cerca de 80% de precisão, US$ 1 por 1.700 páginas
    • gemini-2.5-flash-preview (com thinking): cerca de 80% de precisão, US$ 1 por 350 páginas
    • gemini-flash-2.5: cerca de 90% de precisão, US$ 1 por 150 páginas
    • Eu gostaria que a variante com thinking fosse separada da variante normal. Fica muito confuso quando os parâmetros do modelo têm um impacto tão grande no preço