Gemini 3 Flash: inteligência de fronteira projetada para velocidade

(blog.google)

4 pontos por GN⁺ 2025-12-18 | 1 comentários | Compartilhar no WhatsApp

Gemini 3 Flash é o mais recente modelo de IA do Google, oferecendo inteligência de nível de fronteira com alta velocidade e baixo custo
Mantém a capacidade de raciocínio no nível do Gemini 3 Pro enquanto combina a baixa latência e a eficiência da série Flash, dando suporte a tarefas do dia a dia e fluxos de trabalho agênticos
Supera o Gemini 2.5 Pro em benchmarks importantes, como GPQA Diamond 90,4%, Humanity’s Last Exam 33,7% e MMMU Pro 81,2%
Desenvolvedores podem acessá-lo por Google AI Studio, Gemini CLI, Antigravity e Vertex AI, enquanto usuários em geral podem utilizá-lo gratuitamente pelo app Gemini e pelo modo IA da Busca
Redefine o equilíbrio entre velocidade, custo e inteligência, posicionando-se como um modelo escalável tanto para grandes bases de usuários quanto para ambientes corporativos

Visão geral do Gemini 3 Flash

Gemini 3 Flash é uma expansão da família de modelos Gemini 3, um modelo de nova geração maximizado para velocidade e eficiência
- Foi anunciado após o Gemini 3 Pro e o modo Deep Think, e mais de 1 trilhão de tokens/dia já estão sendo processados via API
- Já foram relatados diversos casos de uso, incluindo aprendizado de temas complexos, design de jogos interativos e compreensão de conteúdo multimodal
Mantém os recursos avançados de raciocínio, compreensão visual e codificação agêntica do Gemini 3, ao mesmo tempo em que combina a latência e a eficiência de custo do nível Flash
Foi projetado como um modelo otimizado para maior precisão em tarefas cotidianas e fluxos de trabalho agênticos

Desempenho e benchmarks

Gemini 3 Flash comprova que velocidade e escala não exigem sacrificar inteligência
- Com GPQA Diamond 90,4%, Humanity’s Last Exam 33,7% (sem uso de ferramentas) e MMMU Pro 81,2%, entrega desempenho semelhante ao de modelos de grande porte
- Registrou resultados superiores ao Gemini 2.5 Pro em vários benchmarks
Expande a fronteira de Pareto entre qualidade, custo e velocidade
- Em tarefas complexas, pensa por mais tempo, mas mantém alto desempenho usando em média 30% menos tokens no tráfego geral
Segundo a Artificial Analysis, o processamento é 3 vezes mais rápido que o 2.5 Pro, com custo de US$ 0,50 por 1 milhão de tokens de entrada e US$ 3,00 de saída
- Para entrada de áudio, o custo é de US$ 1,00 por 1 milhão de tokens

Recursos para desenvolvedores

Oferece desempenho de codificação de baixa latência adequado para desenvolvimento iterativo e fluxos de trabalho de alta frequência
- No benchmark SWE-bench Verified, alcançou 78%, superando tanto a série 2.5 quanto o Gemini 3 Pro
Tem destaque em tarefas multimodais complexas, como análise de vídeo, extração de dados e perguntas e respostas visuais
- Dá suporte à implementação de aplicações inteligentes em cenários como assistência em jogos em tempo real, testes A/B e automação de design
Empresas como JetBrains, Bridgewater Associates e Figma já estão adotando o modelo, disponibilizado via Vertex AI e Gemini Enterprise

Recursos para usuários em geral

Substitui o 2.5 Flash como modelo padrão do app Gemini, disponível gratuitamente para usuários no mundo todo
- Fortalece os recursos de raciocínio multimodal, como a criação de planos acionáveis com base em análise de vídeos e imagens
- Exemplos: análise de swing de golfe, reconhecimento de desenhos e criação de quizzes personalizados com base em áudio
Permite criar protótipos de aplicativos apenas com comandos de voz, ajudando até não especialistas a desenvolver apps rapidamente
Também passa a ser aplicado como modelo padrão no modo IA da Busca
- Com base no poder de raciocínio do Gemini 3 Pro, analisa com precisão o contexto das perguntas e fornece respostas organizadas visualmente e informações em tempo real
- Tem força em objetivos de múltiplas etapas, como planejamento de viagens complexas ou aprendizado de conceitos educacionais

Canais de acesso e lançamento

Para desenvolvedores: disponível em preview no Google AI Studio, Gemini CLI, Antigravity, Vertex AI e Gemini Enterprise
Para usuários em geral: rollout global gradual no app Gemini e no modo IA da Busca Google
Gemini 3 Flash se expande como um dos principais pilares da família Gemini 3, ao lado do Gemini 3 Pro e do Deep Think

1 comentários

GN⁺ 2025-12-18

Comentários do Hacker News

Não se deixe enganar pelo nome “Flash”. Este modelo realmente mostra um desempenho impressionante
Usei por algumas semanas, e além de ser rápido em velocidade, também tem um alcance de conhecimento amplo, então é muito mais eficiente que Claude Opus 4.5 ou GPT 5.2 Extra High. O tempo de raciocínio e o custo ficam em quase um décimo
- Também rodei benchmarks, e entre 2.5 Flash, 2.5 Pro e 3.0 Flash, o 3.0 Flash foi o melhor
  O tempo de resposta é o mesmo, mas os resultados ficaram muito melhores. O custo-benefício está absurdo
  Fico curioso sobre qual diferença técnica entre os modelos Pro e Flash permitiu ao Google alcançar esse desempenho
  Como referência, eu uso bastante a API do Gemini e quero testar com benchmarks internos sempre que sair um modelo novo
- Sou cético em relação a GenAI. Costumo testar temas complexos ou de nicho, e a maioria dos modelos dá respostas horríveis
  Mas o Gemini 3 Flash foi o primeiro a dar uma resposta quase correta para uma pergunta específica do meu benchmark
  A amostra ainda é pequena, mas a melhora de precisão está bem clara
- Acho que foi um grande erro a OpenAI ter negligenciado modelos rápidos de raciocínio
  A estratégia de tentar resolver tudo com um único GPT 5 fracassou.
  Estou testando o Gemini 3 Flash agora, e tanto a latência quanto o desempenho estão melhores que no GPT 5 Thinking
  A OpenAI deveria focar em desenvolver modelos práticos, e não em propaganda
- Pelos benchmarks, o Flash é fraco em alucinação (hallucination), mas no geral supera o Gemini 3 Pro e o GPT 5.1 Thinking
  Os resultados detalhados podem ser vistos na página de avaliação da Artificial Analysis
- Talvez chegue o momento em que empresas que investiram demais na OpenAI se arrependam. A Nvidia pode ser uma exceção, mas a Microsoft provavelmente se importa menos, já que vende modelos via Azure
Foi bom ver que este lançamento pode ir direto para produção sem passar por preview
Mas o aumento de preços continua
Por exemplo, o Gemini 1.5 Flash era $0.075/M de entrada → o 3.0 Flash subiu para $0.50/M
O modelo Pro fica em algo como $2/M de entrada e $12/M de saída
Corrigindo: este modelo também é uma versão preview
- Eu na verdade tenho mais curiosidade sobre desempenho e preço de um possível Gemini 3 Flash Lite
  Para a maioria dos trabalhos que não envolvem código, a diferença entre Flash e Flash Lite pode importar mais do que a do Pro
- Valeu por organizar os preços. O Gemini 3.0 tem um desempenho tão bom que parece uma política de preços confiante
  Mas a concorrência está forte, então acho que logo deve aparecer um modelo mais barato com desempenho parecido
- Se você ativar o modo Thinking, o uso de tokens muda, então isso precisa entrar no cálculo do custo real
- O GPT-5 Mini custa $0.25/M de entrada e $2/M de saída, então em entrada é metade do Flash, e em saída é 50% mais barato
Dá a sensação de que o Google realmente conseguiu equilibrar velocidade, preço e qualidade
Se considerar também a integração com Android e G Suite, é uma combinação enorme
Parece uma estratégia para lançar um smartphone AI-first antes do projeto de hardware OpenAI–Jony Ive ou do Apple Intelligence
- Mas no uso real depende do caso.
  Por exemplo, o Gemini 3 Pro é lento e falha com frequência até em chamadas simples da ferramenta Edit
  O Claude-Code termina a mesma tarefa em 5 minutos, enquanto o Gemini leva 27 minutos
- Segundo uma matéria da MacRumors, o Apple Intelligence deve ser baseado em Gemini
- Ainda assim, fico em dúvida sobre para que IA seria usada em um smartphone.
  Acho que tablets ou smart glasses seriam mais adequados para aproveitar smol AI
O Gemini 3 Flash (non-thinking) foi o primeiro modelo a marcar 50% no meu “teste da quantidade de pernas do cachorro”
Quando mostrei uma imagem sintética com 5 pernas, a maioria dos modelos respondeu 4, mas o 3 Flash acertou 5
Só contou corretamente quando adicionei tatuagens nas pernas; na imagem sem tatuagens, ainda respondeu 4
Acho justo dar meia nota
Os modelos Flash estão cada vez mais caros, mas este 3.0 Flash tem um custo-benefício absurdo
Nos benchmarks marcou 78% e superou tanto a série 2.5 quanto o 3 Pro
É ideal para coding agent e apps interativos em tempo real
- O 3.0 Flash é mais barato, mais rápido e tem melhor desempenho que o 2.5 Pro
  Para quem usa o 2.5 Flash, o upgrade pode pesar um pouco no custo, mas vale a pena
- Acho um bom caminho posicionar o Flash cada vez mais como um modelo focado em código e raciocínio
  Quem quiser algo barato ainda tem o Flash Lite, então o equilíbrio faz sentido
- O Nemotron 3 Nano da Nvidia pode ser uma alternativa OSS parecida
  É rápido, inteligente e também suporta contexto de 1M
- Nos benchmarks do meu app, só Gemini Flash e Grok 4 Fast realmente prestaram
  Espero que modelos com pesos abertos consigam competir nessa área
- Pelo benchmark da Epoch.ai, ele também supera o GPT 5.2 da OpenAI
Já sinto que com a combinação de Claude Code e Gemini cheguei a um nível “bom o suficiente”
Agora fica difícil outra empresa me convencer.
Com este lançamento, chegamos ao ponto em que “bom o suficiente e barato o suficiente” se cruzam
- Para mim, o custo de troca é quase zero, então posso mudar de modelo com facilidade
  Basta trocar a seleção do modelo no CLI ou no plugin da IDE
- Os modelos recentes finalmente estão cumprindo a promessa de coding agent
- Os modelos antigos erravam com frequência e no fim só faziam perder tempo
  A precisão variava demais, era pura loteria
- Com Opus 4.5, os problemas de engenharia de software já estão praticamente “resolvidos”
  Empresas querem inteligência ilimitada, mas para usuários individuais não precisa chegar a tanto
No benchmark SimpleQA, ele marcou 69%, e esse é um teste de conhecimento extremamente raro
Considerando que o Gemini 2.5 Pro tinha feito 55%, é um resultado enorme
Parece que o Google aproveitou bem compressão de conhecimento ou uma arquitetura MoE (mistura de especialistas)
- A avaliação Omniscience da Artificial Analysis também vale consultar
- Graças à arquitetura MoE, talvez tenha sido possível usar muitos parâmetros em TPU sem perder throughput
- Um modelo assim também parece excelente para interfaces de voz. Talvez a Apple acabe adotando isso
- Ou pode ser que internamente ele esteja raciocinando com tool calling (por exemplo, busca no Google)
- Também pode ser uma estrutura com mais especialistas e menor taxa de ativação, aumentando a esparsidade (sparsity)
Não entendo muito bem a diferença entre “Thinking” e “Pro” no Gemini 3
A descrição fala em “resolver problemas complexos” vs “pensamento prolongado para matemática avançada e código”
Provavelmente a diferença está no orçamento de raciocínio (thinking budget)
- Parece ser algo como Fast = Flash (baixo orçamento de raciocínio), Thinking = Flash (alto orçamento de raciocínio), Pro = Pro (alto orçamento de raciocínio)
- Na prática, parece ser controlado pelo parâmetro thinking_level
- Fico curioso sobre como o “Thinking” do Gemini difere de AGI
  O Gemini sempre faz apenas raciocínio baseado em consulta.
  Se você adicionar loops e contexto persistente, ele pode parecer AGI, mas o custo sobe muito
  O Google provavelmente já deve ter experimentado isso
Minha principal reclamação é a falta de função para apagar conversas
Em contas business, não dá para apagar conversas individuais; só configurar o período total de retenção (mínimo de 3 meses)
Como usuário pago, sinto que faltam recursos básicos para o preço que só aumenta
- Se você usar via API, dá para evitar esse problema
- Tanto no produto para consumidor quanto no corporativo, o controle de retenção de dados é péssimo. É o pior entre os principais concorrentes
Numa comparação rápida de preços, segundo o LLM Prices,
o Gemini 3 Flash custa 1/4 do Pro ≤200k e 1/8 do Pro >200k
O fato de o preço não subir depois de 200k tokens é impressionante
Em entrada, custa o dobro do GPT-5 Mini e metade do Claude 4.5 Haiku

Gemini 3 Flash: inteligência de fronteira projetada para velocidade

Visão geral do Gemini 3 Flash

Desempenho e benchmarks

Recursos para desenvolvedores

Recursos para usuários em geral

Canais de acesso e lançamento

Leituras relacionadas

1 comentários

Comentários do Hacker News