Gemini 3.1 Pro

(blog.google)

4 pontos por GN⁺ 2026-02-20 | 4 comentários | Compartilhar no WhatsApp

Modelo de IA multimodal avançado para lidar com tarefas complexas, com foco em resolver problemas que vão além de respostas simples
Obteve 77,1% de pontuação de validação no benchmark ARC-AGI-2, alcançando mais que o dobro da capacidade de raciocínio em relação ao 3 Pro anterior
Demonstra raciocínio aprimorado em tarefas de alta complexidade, como integração de dados, explicações visuais e codificação criativa
Processa diversos formatos de entrada, como texto, áudio, imagem, vídeo e repositórios de código, com suporte a até 1 milhão de tokens de contexto e saída de 64K tokens
O Google está usando esta prévia para aprimorar workflows agentic e validar o modelo antes da disponibilidade geral

Visão geral do Gemini 3.1 Pro

O Gemini 3.1 Pro é um modelo de IA multimodal avançado para lidar com tarefas complexas, com foco em resolver problemas que vão além de respostas simples
- O Google o descreve como a principal atualização de inteligência que tornou possível o desempenho do Gemini 3 Deep Think
- Processa entradas multimodais como texto, áudio, imagem, vídeo e repositórios de código
- Suporta uma janela de contexto de até 1 milhão de tokens e saída de 64K tokens
- Esta versão está sendo distribuída gradualmente em produtos para consumidores, desenvolvedores e empresas
Os caminhos de distribuição são os seguintes
- Desenvolvedores: Gemini API no Google AI Studio, Gemini CLI, Antigravity, Android Studio
- Empresas: Vertex AI, Gemini Enterprise
- Consumidores: app Gemini, NotebookLM

Desempenho e benchmarks

O Gemini 3.1 Pro foi otimizado para resolver problemas complexos por meio de melhorias centradas em capacidade de raciocínio (reasoning)
- Registrou 77,1% de pontuação de validação no benchmark ARC-AGI-2, mais que dobrando o desempenho em relação ao 3 Pro anterior
- Principais resultados de comparação de desempenho (vs. Gemini 3 Pro):
  - ARC-AGI-2: 77,1% (vs 31,1%)
  - GPQA Diamond: 94,3% (vs 91,9%)
  - Terminal-Bench 2.0: 68,5% (vs 56,9%)
  - LiveCodeBench Pro: Elo 2887 (vs 2439)
  - BrowseComp: 85,9% (vs 59,2%)
- Esses benchmarks avaliam a capacidade do modelo de resolver padrões lógicos completamente novos
O Google o define como um “modelo base mais inteligente e mais capaz”, apresentando-o como a base para resolver problemas complexos

Casos de uso reais

O Gemini 3.1 Pro mostra várias possibilidades de aplicação ao colocar raciocínio avançado em uso prático
- Geração de explicações visuais: capacidade de explicar tópicos complexos de forma clara e visual
- Integração de dados: sintetiza vários dados em uma única visão integrada
- Implementação de projetos criativos: transforma ideias artísticas e de design em código
Exemplos concretos
- Animação baseada em código: gera animações SVG para websites a partir de prompts de texto, minimizando o tamanho do arquivo sem perda de resolução
- Integração de sistemas complexos: cria um dashboard para visualizar em tempo real a órbita da Estação Espacial Internacional (ISS)
- Design interativo: codifica uma simulação 3D de bando de estorninhos com rastreamento das mãos e interface reativa à música
- Codificação criativa: projeta um website de portfólio moderno que reflete a atmosfera literária de O Morro dos Ventos Uivantes

Distribuição e acesso

O Gemini 3.1 Pro foi lançado em formato de prévia (preview) e está coletando feedback dos usuários
- Usuários dos planos Google AI Pro e Ultra podem usar limites mais altos no app Gemini
- No NotebookLM, ele é oferecido exclusivamente para usuários Pro e Ultra
- Desenvolvedores e empresas podem acessá-lo por meio de AI Studio, Antigravity, Vertex AI, Gemini Enterprise, Gemini CLI e Android Studio

Próximos passos

Desde o lançamento do Gemini 3 Pro, o Google vem mantendo um ritmo rápido de melhorias e, com esta prévia do 3.1 Pro, está promovendo a validação das atualizações e a expansão de workflows agentic
A disponibilidade geral (GA) está prevista para após a conclusão da validação, e o Google afirmou que “está ansioso para ver o que os usuários vão criar e descobrir com este modelo”

4 comentários

jwh926 2026-02-20

Espero que alcance logo o desempenho de programação do Claude Opus.

ifmkl 2026-02-20

Isso mesmo. No primeiro dia em que o modelo 3.0 preview entrou no CLI e comecei a usar, gostei tanto que até escrevi minhas impressões no blog, mas... piorou rapidamente... Por isso, atualmente estou usando principalmente codex e claude code. Mas o claude também está meio... Vou ver se o 4.6 opus ou o sonnet são bons; se não, talvez eu acabe fixando codex para código e gemini para outras tarefas em geral..

GN⁺ 2026-02-20

Opiniões no Hacker News

Gemini 3.1 Pro parece muito promissor
Até agora eu quase sempre acabei preferindo o Claude, e o Claude Opus é especialmente forte para programação
O Gemini também é quase excelente, mas ainda não está no nível do Claude
Assino alternadamente ChatGPT Plus ↔ Gemini Pro ↔ Claude todo mês para não perder as vantagens de cada modelo
Como ex-Googler, espero que o Gemini 3.1 Pro seja melhor que o 3.0
Mas, para desenvolvimento, o Gemini foi o modelo mais frustrante que usei
O Claude Opus no VS Code Copilot equilibra bem fluxo de raciocínio e resposta, enquanto o Gemini só gasta thinking tokens e não explica o resultado
Muitas vezes entra em loop, usa mal as ferramentas e modifica arquivos errados
Então eu usava a estratégia “planejamento com Gemini, execução com Claude”, mas no fim acabei usando só Claude
Enquanto a Anthropic parece lapidar os modelos com foco em projetos reais, a Google dá a impressão de ter pouco teste em uso prático
- Meu projeto envolve muita matemática de espaço de cores, e o Gemini 3 Pro com frequência comete erros básicos de tipagem
  Confunde int8 com float ou esquece se algo foi normalizado
  Dá a sensação de alguém com memória fraca
  Ainda assim, ajuda bastante em discussões de arquitetura
- Quando usei o Gemini 3 no Openclaw, custava de 10 a 20 dólares por hora e de 1,5 a 3 dólares por prompt
  Foi o ápice da ineficiência
- O desempenho do modelo no fim depende de ajuste fino e integração com ferramentas
  O Claude parece ter aprendido o próprio “processo de programar”, e a Anthropic parece incorporar feedback dos usuários no tuning
  Como a Google mira em um modelo de uso geral, passa a impressão de algo que “faz um pouco de tudo, mas nada perfeitamente”
- O Gemini 3.0 estava em um nível inutilizável para mim
  Claude e Codex explicam como abordam o problema, mas o Gemini simplesmente sai executando
  Ignora pedidos de correção e polui o workspace
  Mesmo podendo usar de graça, quase não uso
  A Anthropic parece ter entendido cedo que “o usuário precisa conseguir manter o controle”
- O Gemini é fraco em tarefas agentic
  A OpenAI já chegou perto do nível do Claude, mas a Google ainda está longe
As pessoas subestimam a eficiência de custo do Google
Custa metade do Opus e, ainda assim, entrega desempenho bem bom
Segundo os indicadores da Artificial Analysis, o 3.1 é 40% mais barato e 30% mais rápido que o Opus
- Mas também existe a visão de que “uma resposta excelente de 2 centavos é melhor do que uma resposta mediana de 1 centavo”
  Para desenvolvimento, vale a pena usar o melhor modelo mesmo que custe 300 dólares por mês
  Em IA para consumidores, essa conta deve mudar
- Claro, se não consegue fazer o trabalho direito, não importa custar metade
  Ainda assim, se o desempenho acompanhar, a competitividade de preço é atraente
- Se o Opus produzir código 20% melhor, na prática essa diferença é grande em projetos reais
  Mas, se o desempenho for parecido, economizar 50% é uma vantagem enorme
- O Gemini vai bem em benchmarks, e os engenheiros da DeepMind também são excelentes
  Pessoalmente, funciona bem tanto no trabalho quanto nos meus projetos por hobby
  Mesmo assim, acho estranho ver tanta crítica pesada na comunidade
- O Deepseek custa 2% do preço do Opus, mas a maioria ainda não o usa para programação
Os modelos de hoje em dia são poderosos demais
Dá para criar software completo em muito menos tempo do que antes
Mas as diferenças de comportamento entre versões são grandes demais, então parece que todo mês estou gerenciando uma equipe nova
Como os modelos podem ser trocados sem aviso ou mudar de forma sutil, isso parece uma base instável
- O Opus 4.6 resolveu um problema que o o4-mini não tinha conseguido resolver antes
  Dá para ver isso na issue do sqlite-chronicle
  Depois disso, destravou pontos emperrados em vários projetos
- Já usei modelos da Anthropic, Google e OpenAI, mas ainda falta para conseguir construir um produto completo
  Mesmo assim, já são suficientes para gerar ideias e iniciar uma base de código
- Um app feito com GPT 5.1 codex max ainda funciona bem
  Parece haver uma espécie de autoconsistência em que o mesmo modelo lida melhor de novo com o código que ele próprio criou
- Na prática, a sensação é de gerenciar “um engenheiro genial, mas excêntrico”
  Ainda assim, continua sendo uma tecnologia impressionante
- Também apareceu a piada de que “por um sushi você contrata um engenheiro genial por um mês”, seguida de “e vai usar isso para fazer uma calculadora?”
O preço do Gemini 3.1 Pro não mudou
Entrada a $2/M e saída a $12/M, conforme indicado na documentação oficial
O corte de conhecimento é janeiro de 2025, e o modo “medium thinking” foi adicionado
A diferença de preço em relação aos $5/$25 do Opus 4.6 é grande
- Para usar um agente CLI corporativo, o problema é o processo complicado do Google
  Você esbarra em regras de IAM, cobrança, identificação de nome de produto etc.
  OpenAI e Anthropic são muito mais simples
  Mesmo assim, a mensalidade é parecida
- Se o desempenho em raciocínio de longo prazo não melhorar no Vendor-Bench 2, não pretendo sair do CC
  A Anthropic está à frente com otimização full-stack
- Ainda não existe minimal reasoning
  Ainda não há algo como o Opus 4.6, que seja rápido e inteligente mesmo com o thinking desligado
- Parece mais barato que o Codex, o que é interessante
- O corte de conhecimento em janeiro de 2025 parece um pouco antigo
O Gemini 3 ainda está em preview, e o 2.5 deve ser descontinuado em breve
Pela agenda oficial de descontinuação, alguns modelos são encerrados sem nem ter substituto
Fico me perguntando quando a Google vai lançar um modelo realmente pronto para produção
- Também concordo. Depender de modelos descontinuados ou nunca lançados de fato é arriscado
  Tenho sistemas em operação de verdade, então isso me dá muita insegurança
- Acho que você leu o link errado. Só o 2.5-preview será descontinuado; o 2.5 estável vai até o outono de 2026
- A Google nunca descontinuaria um software do qual muita gente depende, certo?
  Basta olhar o Killed by Google para ver o quão vazia essa frase soa
- Esse tipo de situação dá mesmo aquela sensação de “ah, isso é tão Google”
- Ainda não houve anúncio de descontinuação do 2.5
  Se o 3.0 está em preview, o 2.5 deve continuar por pelo menos mais um ano
  A própria documentação oficial diz que “a data exata de encerramento será informada com aviso prévio”
O Gemini resolveu de uma vez um problema de race condition entre UI e sincronização de dados
Até o Opus 4.6 só conseguiu resolver depois de três tentativas, então isso me surpreendeu
Está menos prolixo do que antes e vai mais direto ao ponto
Daqui para frente, devo usar Gemini para P&D e Opus/Sonnet 4.6 para finalizar
- Minha combinação é Opus 4.6 para pesquisa de código, GPT 5.3 codex para escrever código, Gemini para algoritmos científicos e matemáticos, e Grok para questões de segurança
  Se você usar um wrapper unificado com suporte a vários modelos, a preocupação de escolher modelo diminui
  No fim, o importante é “qual modelo se encaixa melhor no meu problema”
O Gemini respondeu perfeitamente à pergunta do lava-rápido
A resposta foi lógica, no estilo “se você for andando, não terá um carro para lavar, então precisa ir de carro”
- Talvez a pergunta já estivesse nos dados de treino, então tentei trocar pela pergunta de lavar um elefante
  O Gemini explicou logicamente que “é preciso levar o elefante”, inclusive dando motivos detalhados
  Foi uma capacidade de raciocínio bem impressionante
- O GPT-OSS-120b também acertou a mesma pergunta
  Mas o comentário do Gemini sobre “previsão de chuva no dia de lavar o carro” pareceu fofo, embora confiante demais
- O importante não é só acertar a resposta, e sim ter raciocinado corretamente sobre o motivo
- Na verdade, o Gemini 3 Pro e o Flash já tinham acertado essa pergunta antes
- Mas a resposta é prolixa demais, o que acaba cansando
No teste de “SVG de um pelicano andando de bicicleta”, o Gemini teve um bom resultado
Veja o link do resultado
Talvez por causa da alta no benchmark ARC-AGI, a capacidade de geração visual pareça ter melhorado
- SVG animado agora já entra como exemplo padrão
  O benchmark em si perdeu o sentido, e agora parece mais uma questão de gosto pessoal
  Precisamos de um novo benchmark de “vibe check”
- O resultado que recebi tinha um estilo mais 3D do que de pelicano
  É uma mudança interessante
- Mas ele ainda falha no meu benchmark pessoal de SVG, que é um corte transversal de coração humano
  No fim, ainda é preciso a mão de um designer humano
- Se os modelos melhorarem mais, talvez dê para criar UI em tempo real baseada em SVG ou mídia interativa
- Em compensação, quase não há avanço em outros formatos vetoriais, como PostScript
  Provavelmente isso é resultado de a Google ter feito uma otimização focada em SVG
O SVG do pelicano no blog do Simon Willison ficou muito bom, mas levou mais de 5 minutos para ser gerado
Parece um problema de desempenho típico do início do lançamento
- O problema do Gemini sempre foi essa postura de “querer ajudar demais”
  Eu só queria um pelicano e uma bicicleta, mas ele ainda adicionou nuvens, sol e chapéu
  Em programação é igual: ele não para de fazer refatorações indesejadas e adicionar comentários
- O engraçado é que, graças a testes assim, a Google realmente acabou investindo muito esforço em geração de SVG de animal + veículo
  O tweet do Jeff Dean também sugere isso
- Fico curioso sobre por que LLMs são tão bons em SVG
  Em outros tipos de entendimento espacial eles são fracos, mas na geração precisa de formas se destacam
- Daqui a pouco os modelos vão começar a competir em benchmark de “gerar SVG de pelicano de bicicleta”
- No post oficial do blog da Google, a geração de SVG é citada como caso principal de uso
  Ou seja, isso pode não ser uma melhora geral de capacidade, e sim resultado de treinamento explícito

clumsily 2026-02-20

Provavelmente, daqui a pouco vão reduzir o desempenho de forma silenciosa; o mais importante é o quanto ele vai ser nerfado. (Tenho a impressão de que a maioria dos modelos de IA vai ficando mais burra com o tempo, mas no caso do Google isso parece especialmente pior.)
Também me lembro de que o 3 Pro era bom logo depois que saiu, mas cerca de uma semana depois ele de repente ficou burro, e no fim acabei desistindo de usar.