- Gemini 3 Flash é o mais recente modelo de IA do Google, oferecendo inteligência de nível de fronteira com alta velocidade e baixo custo
- Mantém a capacidade de raciocínio no nível do Gemini 3 Pro enquanto combina a baixa latência e a eficiência da série Flash, dando suporte a tarefas do dia a dia e fluxos de trabalho agênticos
- Supera o Gemini 2.5 Pro em benchmarks importantes, como GPQA Diamond 90,4%, Humanity’s Last Exam 33,7% e MMMU Pro 81,2%
- Desenvolvedores podem acessá-lo por Google AI Studio, Gemini CLI, Antigravity e Vertex AI, enquanto usuários em geral podem utilizá-lo gratuitamente pelo app Gemini e pelo modo IA da Busca
- Redefine o equilíbrio entre velocidade, custo e inteligência, posicionando-se como um modelo escalável tanto para grandes bases de usuários quanto para ambientes corporativos
Visão geral do Gemini 3 Flash
- Gemini 3 Flash é uma expansão da família de modelos Gemini 3, um modelo de nova geração maximizado para velocidade e eficiência
- Foi anunciado após o Gemini 3 Pro e o modo Deep Think, e mais de 1 trilhão de tokens/dia já estão sendo processados via API
- Já foram relatados diversos casos de uso, incluindo aprendizado de temas complexos, design de jogos interativos e compreensão de conteúdo multimodal
- Mantém os recursos avançados de raciocínio, compreensão visual e codificação agêntica do Gemini 3, ao mesmo tempo em que combina a latência e a eficiência de custo do nível Flash
- Foi projetado como um modelo otimizado para maior precisão em tarefas cotidianas e fluxos de trabalho agênticos
Desempenho e benchmarks
- Gemini 3 Flash comprova que velocidade e escala não exigem sacrificar inteligência
- Com GPQA Diamond 90,4%, Humanity’s Last Exam 33,7% (sem uso de ferramentas) e MMMU Pro 81,2%, entrega desempenho semelhante ao de modelos de grande porte
- Registrou resultados superiores ao Gemini 2.5 Pro em vários benchmarks
- Expande a fronteira de Pareto entre qualidade, custo e velocidade
- Em tarefas complexas, pensa por mais tempo, mas mantém alto desempenho usando em média 30% menos tokens no tráfego geral
- Segundo a Artificial Analysis, o processamento é 3 vezes mais rápido que o 2.5 Pro, com custo de US$ 0,50 por 1 milhão de tokens de entrada e US$ 3,00 de saída
- Para entrada de áudio, o custo é de US$ 1,00 por 1 milhão de tokens
Recursos para desenvolvedores
- Oferece desempenho de codificação de baixa latência adequado para desenvolvimento iterativo e fluxos de trabalho de alta frequência
- No benchmark SWE-bench Verified, alcançou 78%, superando tanto a série 2.5 quanto o Gemini 3 Pro
- Tem destaque em tarefas multimodais complexas, como análise de vídeo, extração de dados e perguntas e respostas visuais
- Dá suporte à implementação de aplicações inteligentes em cenários como assistência em jogos em tempo real, testes A/B e automação de design
- Empresas como JetBrains, Bridgewater Associates e Figma já estão adotando o modelo, disponibilizado via Vertex AI e Gemini Enterprise
Recursos para usuários em geral
- Substitui o 2.5 Flash como modelo padrão do app Gemini, disponível gratuitamente para usuários no mundo todo
- Fortalece os recursos de raciocínio multimodal, como a criação de planos acionáveis com base em análise de vídeos e imagens
- Exemplos: análise de swing de golfe, reconhecimento de desenhos e criação de quizzes personalizados com base em áudio
- Permite criar protótipos de aplicativos apenas com comandos de voz, ajudando até não especialistas a desenvolver apps rapidamente
- Também passa a ser aplicado como modelo padrão no modo IA da Busca
- Com base no poder de raciocínio do Gemini 3 Pro, analisa com precisão o contexto das perguntas e fornece respostas organizadas visualmente e informações em tempo real
- Tem força em objetivos de múltiplas etapas, como planejamento de viagens complexas ou aprendizado de conceitos educacionais
Canais de acesso e lançamento
- Para desenvolvedores: disponível em preview no Google AI Studio, Gemini CLI, Antigravity, Vertex AI e Gemini Enterprise
- Para usuários em geral: rollout global gradual no app Gemini e no modo IA da Busca Google
- Gemini 3 Flash se expande como um dos principais pilares da família Gemini 3, ao lado do Gemini 3 Pro e do Deep Think
1 comentários
Comentários do Hacker News
Não se deixe enganar pelo nome “Flash”. Este modelo realmente mostra um desempenho impressionante
Usei por algumas semanas, e além de ser rápido em velocidade, também tem um alcance de conhecimento amplo, então é muito mais eficiente que Claude Opus 4.5 ou GPT 5.2 Extra High. O tempo de raciocínio e o custo ficam em quase um décimo
O tempo de resposta é o mesmo, mas os resultados ficaram muito melhores. O custo-benefício está absurdo
Fico curioso sobre qual diferença técnica entre os modelos Pro e Flash permitiu ao Google alcançar esse desempenho
Como referência, eu uso bastante a API do Gemini e quero testar com benchmarks internos sempre que sair um modelo novo
Mas o Gemini 3 Flash foi o primeiro a dar uma resposta quase correta para uma pergunta específica do meu benchmark
A amostra ainda é pequena, mas a melhora de precisão está bem clara
A estratégia de tentar resolver tudo com um único GPT 5 fracassou.
Estou testando o Gemini 3 Flash agora, e tanto a latência quanto o desempenho estão melhores que no GPT 5 Thinking
A OpenAI deveria focar em desenvolver modelos práticos, e não em propaganda
Os resultados detalhados podem ser vistos na página de avaliação da Artificial Analysis
Foi bom ver que este lançamento pode ir direto para produção sem passar por preview
Mas o aumento de preços continua
Por exemplo, o Gemini 1.5 Flash era $0.075/M de entrada → o 3.0 Flash subiu para $0.50/M
O modelo Pro fica em algo como $2/M de entrada e $12/M de saída
Corrigindo: este modelo também é uma versão preview
Para a maioria dos trabalhos que não envolvem código, a diferença entre Flash e Flash Lite pode importar mais do que a do Pro
Mas a concorrência está forte, então acho que logo deve aparecer um modelo mais barato com desempenho parecido
Dá a sensação de que o Google realmente conseguiu equilibrar velocidade, preço e qualidade
Se considerar também a integração com Android e G Suite, é uma combinação enorme
Parece uma estratégia para lançar um smartphone AI-first antes do projeto de hardware OpenAI–Jony Ive ou do Apple Intelligence
Por exemplo, o Gemini 3 Pro é lento e falha com frequência até em chamadas simples da ferramenta
EditO Claude-Code termina a mesma tarefa em 5 minutos, enquanto o Gemini leva 27 minutos
Acho que tablets ou smart glasses seriam mais adequados para aproveitar smol AI
O Gemini 3 Flash (non-thinking) foi o primeiro modelo a marcar 50% no meu “teste da quantidade de pernas do cachorro”
Quando mostrei uma imagem sintética com 5 pernas, a maioria dos modelos respondeu 4, mas o 3 Flash acertou 5
Só contou corretamente quando adicionei tatuagens nas pernas; na imagem sem tatuagens, ainda respondeu 4
Acho justo dar meia nota
Os modelos Flash estão cada vez mais caros, mas este 3.0 Flash tem um custo-benefício absurdo
Nos benchmarks marcou 78% e superou tanto a série 2.5 quanto o 3 Pro
É ideal para coding agent e apps interativos em tempo real
Para quem usa o 2.5 Flash, o upgrade pode pesar um pouco no custo, mas vale a pena
Quem quiser algo barato ainda tem o Flash Lite, então o equilíbrio faz sentido
É rápido, inteligente e também suporta contexto de 1M
Espero que modelos com pesos abertos consigam competir nessa área
Já sinto que com a combinação de Claude Code e Gemini cheguei a um nível “bom o suficiente”
Agora fica difícil outra empresa me convencer.
Com este lançamento, chegamos ao ponto em que “bom o suficiente e barato o suficiente” se cruzam
Basta trocar a seleção do modelo no CLI ou no plugin da IDE
A precisão variava demais, era pura loteria
Empresas querem inteligência ilimitada, mas para usuários individuais não precisa chegar a tanto
No benchmark SimpleQA, ele marcou 69%, e esse é um teste de conhecimento extremamente raro
Considerando que o Gemini 2.5 Pro tinha feito 55%, é um resultado enorme
Parece que o Google aproveitou bem compressão de conhecimento ou uma arquitetura MoE (mistura de especialistas)
Não entendo muito bem a diferença entre “Thinking” e “Pro” no Gemini 3
A descrição fala em “resolver problemas complexos” vs “pensamento prolongado para matemática avançada e código”
Provavelmente a diferença está no orçamento de raciocínio (thinking budget)
thinking_levelO Gemini sempre faz apenas raciocínio baseado em consulta.
Se você adicionar loops e contexto persistente, ele pode parecer AGI, mas o custo sobe muito
O Google provavelmente já deve ter experimentado isso
Minha principal reclamação é a falta de função para apagar conversas
Em contas business, não dá para apagar conversas individuais; só configurar o período total de retenção (mínimo de 3 meses)
Como usuário pago, sinto que faltam recursos básicos para o preço que só aumenta
Numa comparação rápida de preços, segundo o LLM Prices,
o Gemini 3 Flash custa 1/4 do Pro ≤200k e 1/8 do Pro >200k
O fato de o preço não subir depois de 200k tokens é impressionante
Em entrada, custa o dobro do GPT-5 Mini e metade do Claude 4.5 Haiku