Lançadas versões aprimoradas do Gemini 2.5 Flash e Flash-Lite

(developers.googleblog.com)

1 pontos por GN⁺ 2025-09-27 | 1 comentários | Compartilhar no WhatsApp

O Google apresentou novas versões preview do Gemini 2.5 Flash e do 2.5 Flash-Lite, com foco principal em melhorias de qualidade e eficiência
O Flash-Lite foi otimizado para ambientes de alta velocidade e baixo custo com maior compreensão de instruções, menos respostas prolixas e melhorias em multimodalidade e tradução
O Flash teve reforço no uso de ferramentas e melhor eficiência de tokens, elevando bastante o desempenho em tarefas complexas no estilo agente
Em testes reais, a pontuação no SWE-Bench Verified subiu 5%, e em benchmarks internos o desempenho em tarefas de longo prazo melhorou 15%
Ambos os modelos agora oferecem suporte ao alias -latest, permitindo usar os recursos mais recentes sem alterar o código; para quem busca estabilidade, os modelos 2.5 existentes continuam disponíveis

Visão geral do Gemini 2.5 Flash e Flash-Lite

As versões mais recentes do Gemini 2.5 Flash e Flash-Lite foram disponibilizadas no Google AI Studio e no Vertex AI. O objetivo deste lançamento é continuar entregando melhor qualidade de modelo e maior eficiência
O novo Flash-Lite e o novo Flash mostram desempenho muito superior em qualidade geral, velocidade e custo em comparação com os modelos anteriores
O Flash-Lite reduziu os tokens de saída em 50%, e o Flash em 24%, oferecendo economia de custo operacional e processamento mais rápido

Updated Gemini 2.5 Flash-Lite

Melhor aderência a instruções: a capacidade de entender e executar instruções complexas ou prompts de sistema melhorou significativamente
Mais concisão: gera respostas mais curtas e fáceis de entender, reduzindo custo com tokens e a latência em ambientes de grande volume de tráfego
Melhorias em multimodalidade e qualidade de tradução: houve aumento da confiabilidade em transcrição de áudio, reconhecimento de imagem e tradução
A versão preview do Flash-Lite já pode ser testada com o nome de modelo gemini-2.5-flash-lite-preview-09-2025

Updated Gemini 2.5 Flash

Capacidade ampliada de uso de ferramentas: o aproveitamento em cenários complexos e multietapas baseados em agentes aumentou bastante, alcançando desempenho 5 pontos percentuais superior ao da versão anterior no SWE-Bench Verified (48.9% → 54%)
Maior eficiência de custo: entrega maior qualidade de saída com menos uso de tokens, reduzindo latência e custos de infraestrutura
O feedback dos usuários do Primer também foi positivo
- Yichao ‘Peak’ Ji, cofundador e Chief Scientist da Manus, avaliou: "O novo modelo Gemini 2.5 Flash oferece velocidade e inteligência impressionantes ao mesmo tempo. Em tarefas de agentes orientadas por objetivos de longo prazo, o desempenho melhorou 15%, ampliando ainda mais a escala com base na eficiência de custos"
A versão preview do Gemini 2.5 Flash está disponível com o nome de modelo gemini-2.5-flash-preview-09-2025

Começando a desenvolver com Gemini

Ao longo do último ano, a empresa lançou modelos preview para que desenvolvedores pudessem testar rapidamente os recursos mais recentes e enviar feedback.
As versões preview apresentadas hoje não estão sendo oficialmente promovidas a uma nova versão estável, mas serão usadas como base para elevar a qualidade da próxima versão oficial

Em vez de nomes de modelo longos, foi adicionado o alias -latest, facilitando o uso contínuo do modelo mais recente. Esse alias aponta automaticamente para a versão atual, permitindo testar novos recursos sem alterar o código
- gemini-flash-latest
- gemini-flash-lite-latest
Caso uma versão específica seja atualizada ou descontinuada, haverá aviso por e-mail com pelo menos 2 semanas de antecedência. O alias é apenas uma referência simples, e preço, recursos e limites podem variar conforme cada release
Para quem precisa de estabilidade de longo prazo, é recomendado continuar usando os nomes de modelo gemini-2.5-flash e gemini-2.5-flash-lite

Significado

Este release é uma atualização preview, e não uma promoção para versão estável oficial, fazendo parte do processo de experimentação e coleta de feedback dos usuários para futuros modelos estáveis
Com o Gemini, o Google segue buscando equilíbrio entre velocidade, inteligência e eficiência de custo, enquanto continua aprimorando a plataforma para que desenvolvedores criem aplicações de IA melhores

1 comentários

GN⁺ 2025-09-27

Comentários no Hacker News

O texto aponta bem um problema que venho sentindo ao usar o Gemini recentemente. O modelo em si é realmente excelente, mas no uso real o problema de a conversa ser cortada no meio acontece repetidamente. Não parece ser por limite de tokens nem por filtro, e sim por um bug em que o modelo envia incorretamente o sinal de resposta concluída. Isso já está há meses no GitHub e no fórum de desenvolvedores como issue P2. Se você comparar uma resposta completa do Gemini com Claude ou GPT-4, a qualidade não é nada ruim. Mas confiabilidade importa. Mesmo sem ser perfeito, um modelo que sempre responde até o fim é mais fácil de usar. O Google tem capacidade técnica, mas enquanto não corrigir esse tipo de problema básico no fluxo da conversa, por melhores que sejam os benchmarks, vai continuar passando uma sensação de produto quebrado em comparação com os concorrentes. Referências relacionadas: issue #707 e discussão no fórum de desenvolvedores
- Fala de outra desvantagem do Gemini. Ele não consegue lidar ao mesmo tempo com tool calling e exigência de saída em JSON. Se você especifica application/json no pedido, o uso de ferramentas fica indisponível, e para usar os dois juntos é preciso ou torcer para que o JSON saia válido na marra (o que falha com frequência) ou usar ferramentas na primeira requisição e formatar na segunda. É incômodo, mas o contorno é relativamente simples
- Não é um problema só do Gemini; também já tive muitas experiências com o ChatGPT apresentando grandes problemas de confiabilidade
- Não entendo esses probleminhas, ou o fato de no AI Studio até o scroll funcionar mal. Como uma ferramenta tão impressionante pode falhar em coisas tão básicas?
- Sinto algo parecido. O Gemini 2.5 Pro combina muito bem com arquitetura de software. Mas é cansativo ter que ficar estimulando o modelo o tempo todo. O Sonnet também dá conta muito bem
- O ChatGPT também tem muitos problemas de confiabilidade
Adicionei suporte a esse modelo no plugin llm-gemini. Dá para executar com uvx sem instalação separada. Exemplo:

export LLM_GEMINI_KEY='...'
uvx --isolated --with llm-gemini llm -m gemini-flash-lite-latest 'An epic poem about frogs at war with ducks'

As notas de release estão aqui. Para a discussão sobre pelicanos, veja este post

Fico curioso se a imagem SVG de exemplo do pelicano andando de bicicleta está entrando no dataset de treino. Muita gente que trabalha nessa área também frequenta bastante o Hacker News
No fim das contas, quem será que vence? As rãs? Os patos? Ou o pelicano?
Se 2.5 é um modelo melhorado, por que a versão não é 2.6? É confuso ter que distinguir entre o 2.5 antigo e o novo 2.5. Parece aquela época em que a Apple lançou o "the new iPad" sem numeração
- Por isso muita gente chamava a segunda versão do Sonnet v3.5 de v3.6, e a Anthropic acabou nomeando a seguinte como v3.7
- Os modelos normalmente são chamados pelo mês/ano de lançamento. Por exemplo, o Gemini 2.5 Flash mais recente é chamado de "google/gemini-2.5-flash-preview-09-2025". Referência
- 2.5 não é nome de versão, e sim indicação da geração da arquitetura. Usando o Mazda 3 como exemplo, não seria um “Mazda 4”, mas algo como um novo nível de acabamento ou um facelift leve no mesmo modelo. Concordo que SemVer seria melhor
- Talvez seja só uma forma de transmitir que se trata de correção de bugs
- Isso também acaba gerando confusão sobre qual seria melhor entre 2.6 Flash e 2.5 Pro
Entre os principais fornecedores de foundation models, o Google parece estar realmente focado em latência, TPS e custo. Anthropic e OpenAI estão na frente em inteligência do modelo, mas abaixo de certo limiar de desempenho respostas lentas atrapalham ferramentas colaborativas. Mesmo sendo um pouco menos inteligente, um modelo rápido como o Gemini costuma ser mais agradável no fluxo de trabalho. Ainda assim, às vezes ele parece totalmente sem fio em comparação com Claude ou GPT-5
- Pessoalmente, duvido que essa divisão binária reflita mesmo a realidade. O Gemini não parece ficar tão atrás assim em “inteligência”, e acho que a diferença vai diminuir ainda mais nos próximos ciclos. Além disso, o Google parece investir não só em latência/TPS/custo, mas também em integrar rapidamente seus modelos a vários produtos além de um chatbot simples. Por exemplo, Google Workspace, Google Search, além de áreas novas como jules, labs.google/flow e dashboard financeiro, onde a empresa está experimentando ativamente. Aposto que é só questão de tempo até o Gemini aparecer no YouTube
- Tenho usado menos o Gemini (2.5-pro) recentemente. Antes eu admirava a capacidade de pesquisa profunda e as citações confiáveis. Mas nas últimas semanas ele passou a discutir mais e a falhar em reconhecer alucinações ligadas a fontes. Por exemplo, perguntei sobre acesso ao secrets map no Github Actions, e em vez de responder corretamente ele trouxe um teste de workflow errado e, por mais que eu contestasse, continuava insistindo. Já o ChatGPT respondeu sem problemas. Referências relacionadas: primeira, segunda
- Na minha opinião, a disputa em latência/TPS/custo é entre grok e gemini flash. Não existe modelo que chegue perto desses dois em tarefas de imagem→texto. OpenAI e Anthropic parecem não dar muita atenção a isso
- Há 10 anos diziam “antes de casar, coloque a pessoa diante de uma internet lenta”; agora entramos na era do “antes de casar, coloque a pessoa diante de um modelo de IA lento” ;-)
- Não concordo muito. O Gemini não se destaca apenas em custo-benefício; para o usuário comum ele é o melhor modelo “para o dia a dia”. Especialmente em partes mais “agênticas”, como programação, ele fica bem atrás de Claude e GPT-5, mas em conversas longas e em lembrar bem do contexto anterior, o Gemini é excelente. Quando uso vários modelos em paralelo para depurar algo, só o Gemini costuma captar pontos importantes de mensagens antigas e dar exemplos de código corretos. Em suporte a idiomas de baixa cobertura, OCR e reconhecimento de imagens também é muito superior. O problema do Google hoje é mais marketing e UX de IA, mas se melhorar nisso deve crescer bastante. Eu mesmo uso os três modelos quase todos os dias
Resumo non-AI: os dois modelos ficaram mais inteligentes no índice de análise de IA e também reduziram o tempo de resposta end-to-end. A eficiência de tokens de saída melhorou de 24% a 50% (o que ajuda a reduzir custos). As principais melhorias do Gemini 2.5 Flash-Lite são melhor compreensão de instruções, menos verbosidade desnecessária e capacidades reforçadas de multimodalidade/tradução. O Gemini 2.5 Flash se destaca por uso mais forte de ferramentas agênticas e raciocínio com eficiência de tokens. As strings dos modelos são gemini-2.5-flash-lite-preview-09-2025 e gemini-2.5-flash-preview-09-2025
- Acho que esse formato de “Resumo non-AI” vai virar tendência. Só o fato de ter sido organizado por uma pessoa já torna a leitura mais agradável
- Vou adotar o termo “Non-AI Summary”
- Fico curioso sobre o significado de “output token efficiency”. O Gemini Flash cobra por quantidade de tokens de entrada/saída, então se a saída for a mesma o custo deveria ser igual. Ou seja, sem mudar o tokenizador ou o funcionamento interno, fica difícil entender como isso reduz custo
- O 2.5 Flash foi o que tornou a IA realmente útil para mim pela primeira vez. Eu era o hater nº 1 de IA, mas agora abro o app Gemini antes de recorrer à busca do Google. É mais preciso, não tem anúncios, e na maior parte do tempo as informações estão corretas, como se eu tivesse o conhecimento exato da internet nas mãos. Posso ficar sozinho no app Gemini mergulhado numa conversa sobre temperatura de semeadura de couve. É muito mais focado do que lidar com blogs, bots e spam de SEO. Resta saber por quanto tempo o Google vai manter isso, já que continua existindo a questão de canibalização da receita
- Em vários aspectos, parece uma melhoria incremental em relação à versão anterior
É uma reclamação pequena sobre numeração de versão, mas seria mais intuitivo aumentar o número sempre que houver melhorias. Do jeito atual, quando lançam algo novo só gera confusão
- Tenho a mesma reclamação. A Anthropic fez algo parecido e acabou enfrentando polêmica de “nerf”. Nós compramos tokens em pacote, eles expiram rápido, e nem fica claro quanto o modelo realmente mudou nas atualizações. Na minha visão, mesmo uma melhora ou piora de 1% deveria ser divulgada. No fundo, empresas de IA precisam ser muito mais transparentes e acessíveis. Caso relacionado: Claude incident
- Isso não é uma reclamação pequena, e sim um problema sério. Com essa política, a própria numeração de versões perde o sentido
- Provavelmente a ideia é substituir o modelo 2.5 Flash anterior. Isso também lembra quando a OpenAI atualizou silenciosamente modelos como o 4-o e depois precisou reverter por causa do problema de glazing
Precisamos criar um novo esquema de versionamento significativo (semver) para modelos. Tem que ser possível distinguir claramente entre otimizações pequenas e mudanças completas de retraining/arquitetura
O Gemini 2.5 Flash tem sido o LLM que mais uso ultimamente. Especialmente em entrada de imagem e saída estruturada, achei melhor que OpenAI/Anthropic
- O Gemini 2.5 Flash atropela o ChatGPT 5 na minha área de trabalho. Fico surpreso por ele não ser mais popular
- Não verifiquei se o preço mudou
Será que só eu estou usando um Gemini diferente? No trabalho usamos Google Workspace, então o Gemini vem integrado por padrão. Mas, comparado a outros modelos, os resultados são terríveis. Todo mundo elogia, mas a minha experiência com o Gemini tem sido de respostas erradas ou longas demais (eu queria resumo e veio ensaio), e nada satisfatórias. Se faço a mesma pergunta ao Gemini e a uma versão bem mais fraca do ChatGPT, o ChatGPT sai muito melhor. Será que estou deixando passar alguma coisa?
- Eu só usei no AI Studio, e lá ele é muito superior aos outros modelos. Não tenho experiência com integração em IDE etc. Só acho importante controlar o excesso de elogios, e isso também ajuda a gerenciar a janela de contexto
- Comigo é parecido. Fora tradução, quase nunca tive motivo para usar, e até em tradução às vezes ele recusa ou age de forma estranha. Mais recentemente, já respondeu a uma pergunta básica com apenas uma vírgula, ou recusou por suposta questão ética (por exemplo, “mochila com capuz”). O maior problema é recusar coisas perfeitamente legítimas
- Depende do uso. Para Q&A simples o GPT-5 é melhor, mas para pegar frases e transformá-las em relatório, resumir ou dar ênfase, o Gemini é excelente
- Pessoalmente, o forte do ChatGPT é interpretar bem a pergunta sem precisar de pedidos extras de esclarecimento e organizar a resposta em um formato fácil de ler. Sinto que o pós-treinamento do GPT está um nível acima
- Talvez você esteja usando da forma errada
O Gemini 2.5 Flash é um modelo impressionante em desempenho por preço. Mesmo assim, não entendo por que o Gemini 2.0 Flash ainda continua tão popular. Números recentes no OpenRouter:
- xAI: Grok Code Fast 1: 1.15T
- Anthropic: Claude Sonnet 4: 586B
- Google: Gemini 2.5 Flash: 325B
- Sonoma Sky Alpha: 227B
- Google: Gemini 2.0 Flash: 187B
- DeepSeek: DeepSeek V3.1 (grátis): 180B
- xAI: Grok 4 Fast (grátis): 158B
- OpenAI: GPT-4.1 Mini: 157B
- DeepSeek: DeepSeek V3 0324: 142B
- Um ponto fraco do OpenRouter é não divulgar quantas empresas de fato usam cada modelo. Se um único grande cliente migra, o indicador todo pode mudar. Seria bom ter mais transparência nisso
- Na nossa empresa também há muitas tarefas que continuam presas a modelos antigos e nunca foram atualizadas
- É por causa do preço. O 2.0 Flash é mais barato que o 2.5 Flash e ainda é um modelo muito bom
- O 2.0 Flash é claramente mais barato que o 2.5 Flash e, até a atualização recente, era até melhor que o 2.5-Flash-Lite. É um bom trabalhador para parsing de texto, resumo e reconhecimento de imagem. Mas agora, com a chegada do 2.5-Flash-Lite, deve acabar sendo substituído
- Acho que eles também mantêm a nomenclatura no 2.5 Flash porque é trabalhoso ficar ajustando o nome a cada nova versão

Lançadas versões aprimoradas do Gemini 2.5 Flash e Flash-Lite

Visão geral do Gemini 2.5 Flash e Flash-Lite

Updated Gemini 2.5 Flash-Lite

Updated Gemini 2.5 Flash

Começando a desenvolver com Gemini

Significado

Leituras relacionadas

1 comentários

Comentários no Hacker News