Google lança oficialmente Gemini 2.5 Flash/Pro e apresenta o modelo `Flash-Lite`

(blog.google)

1 pontos por GN⁺ 2025-06-18 | 1 comentários | Compartilhar no WhatsApp

Com o lançamento oficial dos modelos Gemini 2.5 Flash e Pro, a empresa também apresentou a versão preview do modelo Flash-Lite, o mais barato e rápido
O Flash-Lite é especializado em tarefas sensíveis à latência, como tradução e classificação, oferecendo latência menor e qualidade geral superior em comparação com o 2.0 Flash/Flash-Lite
Todos os modelos 2.5 oferecem suporte a recursos como entrada multimodal, janela de contexto de 1 milhão de tokens, integração com ferramentas (busca, execução de código etc.) e alternância do modo Thinking
Projetada com foco na otimização entre custo e desempenho (Pareto Frontier), a linha foi montada para atender bem ao processamento de tráfego em larga escala
Flash-Lite e Flash também estão sendo customizados para uso em busca, e os desenvolvedores podem usar os modelos preview ou finais no Google AI Studio e Vertex AI

Características do Flash-Lite

Como o modelo mais barato e rápido, ele é oferecido com preço de $0.10 por 1 milhão de tokens de entrada e $0.40 por 1 milhão de tokens de saída
Oferece excelente relação custo-benefício, sendo especialmente adequado para tarefas com grande volume de requisições, como tradução e classificação
Em relação ao 2.0 Flash-Lite anterior, a qualidade geral melhorou, com avanço em ciência (GPQA) de 64.6% → 66.7% e em matemática (AIME 2025) de 49.8% → 63.1%
Em geração e edição de código, fica em 34.3% e 27.1%, respectivamente, abaixo de modelos de alto desempenho, mas ainda assim sendo uma opção eficiente em custo
O desempenho de processamento multimodal se mantém em 72.9%, enquanto a compreensão de imagens melhorou de 51.3% para 57.5%
Ao ativar o modo de raciocínio (Thinking), a precisão geral aumenta; por exemplo, no HumanEval sobe de 5.1% → 6.9% e no SWE-bench multi-task de 42.6% → 44.9%
Em factualidade (SimpleQA) e compreensão de contexto longo (MRCR), o desempenho também melhora visivelmente no modo Thinking; em especial, a precisão em contexto longo com 1 milhão de tokens sobe de 5.4% para 16.8%, mais que triplicando
A capacidade multilíngue (MMLU) também aumenta, alcançando 81.1% no modo non-thinking e 84.5% no modo Thinking

Mais detalhes técnicos sobre a família de modelos Gemini 2.5 podem ser vistos no Gemini technical report

1 comentários

GN⁺ 2025-06-18

Opiniões no Hacker News

O post do Google não menciona isso, mas parece incluir um aumento de preço para o modelo Gemini 2.5 Flash
Nos preços arquivados do 2.5 Flash Preview, a estrutura era $0.15 por 1 milhão de tokens de entrada de texto/imagem/vídeo, $1.00 para áudio, e na saída $0.60 sem thinking e $3.50 com thinking
Nos novos preços, a distinção entre thinking e non-thinking desapareceu
A entrada de texto/imagem/vídeo passou para $0.30 por 1 milhão, ou seja, dobrou; áudio continua em $1.00; e a saída ficou em $2.50 por 1 milhão, bem mais cara que antes no modo non-thinking, mas mais barata que no modo thinking
Mais detalhes de preços podem ser vistos aqui
- Há mais informações sobre a mudança de preço no post do blog
  Link de referência detalhado
- Houve quem comentasse sobre a ideia de que a tecnologia de IA logo ficaria barata demais, mas por enquanto os preços estão é subindo
- Quando o Gemini foi lançado pela primeira vez, achei que o preço era absurdamente baixo, barato demais em relação à concorrência, e agora parece que só estão refletindo um preço mais realista
- Um aumento de preço de 2x tratado como se não fosse nada
  Pensando que o Gemini 2.0 Flash custava $0.10/$0.40, dá para sentir bem o tamanho desse reajuste
- Opinião de que foi uma mudança percebida com bastante atenção
  Acho que essa mudança de preço é bem importante para o Gemini, que podia ter sido o GOAT na parte de audio-to-audio
Acho que muita gente usou bastante o Gemini Pro quando ele era oferecido de graça no AI Studio
Depois disso, o desempenho parece até ter piorado, e agora voltei para o Claude nas tarefas importantes
O Gemini passa muito a sensação de um amigo que fala demais sem necessidade
Mesmo assim, uso bastante para brainstorming e depois refino no Claude os prompts gerados pelo Gemini
- Pelo leaderboard do Aider, ao contrário da minha experiência, o Gemini nem sempre leva vantagem
  Eu só uso a API do Aider diretamente, então não tenho experiência com o AI Studio
  O Claude se sai bem mesmo com prompts fracos, especialmente quando a direção ainda está meio vaga
  Quando eu tenho uma direção bem clara do que quero, o Gemini 2.5 Pro (com Thinking ativado) é melhor, e o código roda com mais estabilidade
  No o4-mini e no o3 dá para sentir que “pensam” de forma mais inteligente, mas o código é mais instável (o Gemini é mais estável)
  Quanto maior a complexidade, mais o Claude parece enfraquecer; no meu caso, Gemini e o3 ficam mais bem avaliados
  Desde o lançamento do o3-mini, não tive motivo para voltar ao Claude
- Tive uma experiência parecida
  No começo parecia resolver bem até problemas complexos, mas em tarefas simples é difícil ajustar
  As respostas são prolixas demais, e como UX é o mais importante para mim, hoje prefiro a UX do Claude Code
- Comigo é a mesma coisa: mesmo tendo criado um Gem com um prompt elaborado para responder de forma concisa, ele continua prolixo e expandindo o escopo da pergunta sem necessidade
- Não tenho informação interna, mas sinto como se o modelo tivesse sido quantizado
  Aparecem padrões como repetir infinitamente um único caractere, algo que eu só via em modelos quantizados
- Queria que voltassem para a versão preview antiga
  A versão preview era equilibrada e até trazia contrapontos realmente úteis, mas a versão final (GA) ficou com um tom positivo em excesso
Fiquei muito impressionado com o Gemini e parei de usar OpenAI
De vez em quando testo os três modelos pelo OpenRouter, mas hoje uso Gemini em mais de 90% dos casos
Comparando com o ano passado, quando 90% era ChatGPT, é uma mudança bem grande
- Sou crítico em relação ao Google, mas desta vez os modelos realmente me parecem excelentes
  Principalmente por causa da janela de contexto absurdamente ampla
- Comigo foi parecido: desta vez cancelei minha assinatura do Claude e acho que o Gemini está alcançando rapidamente
Acho que com este anúncio o Flash Lite deixou de ser “inútil” e passou a ser uma “ferramenta útil”
O Flash Lite é barato e, acima de tudo, a grande vantagem é ser rápido, quase sempre respondendo em menos de 1 segundo (mínimo de 200 ms, média de 400 ms)
No nosso serviço Brokk(brokk.ai), atualmente usamos Flash 2.0 (non-Lite) para Quick Edits, e estamos pensando em adotar o 2.5 Lite desta vez
Fico curioso sobre o espaço de uso para modelos abaixo do Flash 2.5 com Thinking, que é mais lento
Quando resposta rápida é importante, ativar thinking deixa tudo lento e a proposta fica meio estranha
- Para mim, desde que pense rápido o bastante, tanto faz quanto thinking ele use
Tenho curiosidade sobre como as pessoas usam o Gemini fora de programação e por que o escolheram
Ao criar apps, vocês projetam o backend de GenAI para permitir trocar de provedor, ou até fazem balanceamento entre vários fornecedores por causa de preço ou confiabilidade? E se um dia houver um mercado spot para LLMs, o que mudaria?
- Na minha experiência, o Gemini 2.5 Pro se destaca em tarefas não relacionadas a código, como tradução e resumo (usando o Canva)
  Isso é possível por causa do tamanho da janela de contexto e dos limites de uso enormes
  Especialmente na geração de relatórios de pesquisa, acho o Gemini melhor que o ChatGPT
  Talvez por o Google ser forte em busca, os relatórios parecem mais baseados em múltiplas fontes e mais precisos
  Também prefiro mais o estilo de escrita, e a possibilidade de exportar para o Google Docs é conveniente
  Mas a UI fica muito atrás da concorrência, e a falta ou fragilidade de recursos essenciais como Custom instruction, Projects e Temporary Chat é uma grande desvantagem
- É útil poder jogar de uma vez um monte de documentos cobertos por NDA e, em poucos segundos, ele extrair só o que é relevante
  A enorme janela de contexto e a capacidade forte de puxar exatamente a informação necessária tornam o modelo ideal para esse tipo de tarefa
- O Gemini Flash 2.0 é extremamente barato e é um modelo forte para cargas de trabalho de nível enterprise
  Não é inteligência de ponta, mas pelo preço baixo, velocidade alta e confiabilidade elevada na saída estruturada, acho ótimo para desenvolvimento
  Pretendo testar um upgrade para o 2.5 Lite
- Eu uso bastante o lexikon.ai, e especialmente em processamento em lote de imagens uso muito o Gemini
  Gosto porque o preço da API de visão do Google é muito mais barato que o de outros grandes provedores (OpenAI, Anthropic)
- Uso o Gemini 2.5 Flash (opção non-thinking) como parceiro de raciocínio
  Ele ajuda a organizar minhas ideias e ainda fornece automaticamente inputs que eu não tinha considerado
  Também uso bastante para autorreflexão, jogando meus pensamentos ou preocupações e consultando a resposta da IA
Queria saber se há mais gente que não consegue acessar a API do 2.5-pro no momento
Recebo o erro “projects/349775993245/locations/us-west4/publishers/google/models/gemini-2.5-pro não foi encontrado ou você não tem permissão de acesso”
Também aparece a mensagem orientando a verificar se está sendo usada uma versão válida do modelo
Operando serviços de inferência/processamento de dados em larga escala com LLMs, faço bastante profiling de custo e desempenho de vários modelos open-weight
O que ainda acho estranho na precificação de LLM é que os fornecedores continuam cobrando linearmente pelo consumo de tokens, enquanto o custo real do sistema cresce quadraticamente conforme o comprimento da sequência aumenta
Como hoje em dia arquiteturas de modelo, algoritmos de inferência e hardware estão em grande parte parecidos, parece que os fornecedores se baseiam bastante em estatísticas históricas dos padrões de requisição dos clientes ao definir preços
No fim, não acho nada novo que aumentos de preço apareçam conforme eles passam a ter dados reais sobre os padrões de uso
Em comparação com o 2.0 Flash Lite, o preço de processamento de áudio do 2.5 Flash Lite subiu 6,33x
A entrada de áudio no 2.5 Flash Lite custa $0.5 por 1 milhão de tokens, contra $0.075 no 2.0
Fico curioso sobre o motivo de um aumento tão brusco no preço dos tokens de áudio
Assumindo uma proporção de tokens de entrada:saída de 3:1, o blended price subiu 3,24x em relação ao anterior, e em comparação com o 2.0 Flash chega perto de 5x
Por isso, o 2.0 Flash talvez ainda siga competitivo em muitos usos, especialmente fora de programação
Mesmo que o desempenho seja um pouco inferior, dividir o prompt em várias etapas pode gerar um efeito prático melhor
Eu esperava que este 2.5 Flash fosse uma opção esmagadoramente superior, então isso decepciona um pouco
(Os dados de preço relacionados estão aqui)

Google lança oficialmente Gemini 2.5 Flash/Pro e apresenta o modelo `Flash-Lite`

Características do Flash-Lite

Leituras relacionadas

1 comentários

Opiniões no Hacker News