- Modelo de IA multimodal avançado para lidar com tarefas complexas, com foco em resolver problemas que vão além de respostas simples
- Obteve 77,1% de pontuação de validação no benchmark ARC-AGI-2, alcançando mais que o dobro da capacidade de raciocínio em relação ao 3 Pro anterior
- Demonstra raciocínio aprimorado em tarefas de alta complexidade, como integração de dados, explicações visuais e codificação criativa
- Processa diversos formatos de entrada, como texto, áudio, imagem, vídeo e repositórios de código, com suporte a até 1 milhão de tokens de contexto e saída de 64K tokens
- O Google está usando esta prévia para aprimorar workflows agentic e validar o modelo antes da disponibilidade geral
Visão geral do Gemini 3.1 Pro
- O Gemini 3.1 Pro é um modelo de IA multimodal avançado para lidar com tarefas complexas, com foco em resolver problemas que vão além de respostas simples
- O Google o descreve como a principal atualização de inteligência que tornou possível o desempenho do Gemini 3 Deep Think
- Processa entradas multimodais como texto, áudio, imagem, vídeo e repositórios de código
- Suporta uma janela de contexto de até 1 milhão de tokens e saída de 64K tokens
- Esta versão está sendo distribuída gradualmente em produtos para consumidores, desenvolvedores e empresas
- Os caminhos de distribuição são os seguintes
Desempenho e benchmarks
- O Gemini 3.1 Pro foi otimizado para resolver problemas complexos por meio de melhorias centradas em capacidade de raciocínio (reasoning)
- Registrou 77,1% de pontuação de validação no benchmark ARC-AGI-2, mais que dobrando o desempenho em relação ao 3 Pro anterior
- Principais resultados de comparação de desempenho (vs. Gemini 3 Pro):
- ARC-AGI-2: 77,1% (vs 31,1%)
- GPQA Diamond: 94,3% (vs 91,9%)
- Terminal-Bench 2.0: 68,5% (vs 56,9%)
- LiveCodeBench Pro: Elo 2887 (vs 2439)
- BrowseComp: 85,9% (vs 59,2%)
- Esses benchmarks avaliam a capacidade do modelo de resolver padrões lógicos completamente novos
- O Google o define como um “modelo base mais inteligente e mais capaz”, apresentando-o como a base para resolver problemas complexos
Casos de uso reais
- O Gemini 3.1 Pro mostra várias possibilidades de aplicação ao colocar raciocínio avançado em uso prático
- Geração de explicações visuais: capacidade de explicar tópicos complexos de forma clara e visual
- Integração de dados: sintetiza vários dados em uma única visão integrada
- Implementação de projetos criativos: transforma ideias artísticas e de design em código
- Exemplos concretos
- Animação baseada em código: gera animações SVG para websites a partir de prompts de texto, minimizando o tamanho do arquivo sem perda de resolução
- Integração de sistemas complexos: cria um dashboard para visualizar em tempo real a órbita da Estação Espacial Internacional (ISS)
- Design interativo: codifica uma simulação 3D de bando de estorninhos com rastreamento das mãos e interface reativa à música
- Codificação criativa: projeta um website de portfólio moderno que reflete a atmosfera literária de
O Morro dos Ventos Uivantes
Distribuição e acesso
- O Gemini 3.1 Pro foi lançado em formato de prévia (preview) e está coletando feedback dos usuários
- Usuários dos planos Google AI Pro e Ultra podem usar limites mais altos no app Gemini
- No NotebookLM, ele é oferecido exclusivamente para usuários Pro e Ultra
- Desenvolvedores e empresas podem acessá-lo por meio de AI Studio, Antigravity, Vertex AI, Gemini Enterprise, Gemini CLI e Android Studio
Próximos passos
- Desde o lançamento do Gemini 3 Pro, o Google vem mantendo um ritmo rápido de melhorias e, com esta prévia do 3.1 Pro, está promovendo a validação das atualizações e a expansão de workflows agentic
- A disponibilidade geral (GA) está prevista para após a conclusão da validação, e o Google afirmou que “está ansioso para ver o que os usuários vão criar e descobrir com este modelo”
4 comentários
Espero que alcance logo o desempenho de programação do Claude Opus.
Isso mesmo. No primeiro dia em que o modelo 3.0 preview entrou no CLI e comecei a usar, gostei tanto que até escrevi minhas impressões no blog, mas... piorou rapidamente... Por isso, atualmente estou usando principalmente codex e claude code. Mas o claude também está meio... Vou ver se o 4.6 opus ou o sonnet são bons; se não, talvez eu acabe fixando codex para código e gemini para outras tarefas em geral..
Opiniões no Hacker News
Gemini 3.1 Pro parece muito promissor
Até agora eu quase sempre acabei preferindo o Claude, e o Claude Opus é especialmente forte para programação
O Gemini também é quase excelente, mas ainda não está no nível do Claude
Assino alternadamente ChatGPT Plus ↔ Gemini Pro ↔ Claude todo mês para não perder as vantagens de cada modelo
Como ex-Googler, espero que o Gemini 3.1 Pro seja melhor que o 3.0
Mas, para desenvolvimento, o Gemini foi o modelo mais frustrante que usei
O Claude Opus no VS Code Copilot equilibra bem fluxo de raciocínio e resposta, enquanto o Gemini só gasta thinking tokens e não explica o resultado
Muitas vezes entra em loop, usa mal as ferramentas e modifica arquivos errados
Então eu usava a estratégia “planejamento com Gemini, execução com Claude”, mas no fim acabei usando só Claude
Enquanto a Anthropic parece lapidar os modelos com foco em projetos reais, a Google dá a impressão de ter pouco teste em uso prático
Confunde int8 com float ou esquece se algo foi normalizado
Dá a sensação de alguém com memória fraca
Ainda assim, ajuda bastante em discussões de arquitetura
Foi o ápice da ineficiência
O Claude parece ter aprendido o próprio “processo de programar”, e a Anthropic parece incorporar feedback dos usuários no tuning
Como a Google mira em um modelo de uso geral, passa a impressão de algo que “faz um pouco de tudo, mas nada perfeitamente”
Claude e Codex explicam como abordam o problema, mas o Gemini simplesmente sai executando
Ignora pedidos de correção e polui o workspace
Mesmo podendo usar de graça, quase não uso
A Anthropic parece ter entendido cedo que “o usuário precisa conseguir manter o controle”
A OpenAI já chegou perto do nível do Claude, mas a Google ainda está longe
As pessoas subestimam a eficiência de custo do Google
Custa metade do Opus e, ainda assim, entrega desempenho bem bom
Segundo os indicadores da Artificial Analysis, o 3.1 é 40% mais barato e 30% mais rápido que o Opus
Para desenvolvimento, vale a pena usar o melhor modelo mesmo que custe 300 dólares por mês
Em IA para consumidores, essa conta deve mudar
Ainda assim, se o desempenho acompanhar, a competitividade de preço é atraente
Mas, se o desempenho for parecido, economizar 50% é uma vantagem enorme
Pessoalmente, funciona bem tanto no trabalho quanto nos meus projetos por hobby
Mesmo assim, acho estranho ver tanta crítica pesada na comunidade
Os modelos de hoje em dia são poderosos demais
Dá para criar software completo em muito menos tempo do que antes
Mas as diferenças de comportamento entre versões são grandes demais, então parece que todo mês estou gerenciando uma equipe nova
Como os modelos podem ser trocados sem aviso ou mudar de forma sutil, isso parece uma base instável
Dá para ver isso na issue do sqlite-chronicle
Depois disso, destravou pontos emperrados em vários projetos
Mesmo assim, já são suficientes para gerar ideias e iniciar uma base de código
Parece haver uma espécie de autoconsistência em que o mesmo modelo lida melhor de novo com o código que ele próprio criou
Ainda assim, continua sendo uma tecnologia impressionante
O preço do Gemini 3.1 Pro não mudou
Entrada a $2/M e saída a $12/M, conforme indicado na documentação oficial
O corte de conhecimento é janeiro de 2025, e o modo “medium thinking” foi adicionado
A diferença de preço em relação aos $5/$25 do Opus 4.6 é grande
Você esbarra em regras de IAM, cobrança, identificação de nome de produto etc.
OpenAI e Anthropic são muito mais simples
Mesmo assim, a mensalidade é parecida
A Anthropic está à frente com otimização full-stack
Ainda não há algo como o Opus 4.6, que seja rápido e inteligente mesmo com o thinking desligado
O Gemini 3 ainda está em preview, e o 2.5 deve ser descontinuado em breve
Pela agenda oficial de descontinuação, alguns modelos são encerrados sem nem ter substituto
Fico me perguntando quando a Google vai lançar um modelo realmente pronto para produção
Tenho sistemas em operação de verdade, então isso me dá muita insegurança
Basta olhar o Killed by Google para ver o quão vazia essa frase soa
Se o 3.0 está em preview, o 2.5 deve continuar por pelo menos mais um ano
A própria documentação oficial diz que “a data exata de encerramento será informada com aviso prévio”
O Gemini resolveu de uma vez um problema de race condition entre UI e sincronização de dados
Até o Opus 4.6 só conseguiu resolver depois de três tentativas, então isso me surpreendeu
Está menos prolixo do que antes e vai mais direto ao ponto
Daqui para frente, devo usar Gemini para P&D e Opus/Sonnet 4.6 para finalizar
Se você usar um wrapper unificado com suporte a vários modelos, a preocupação de escolher modelo diminui
No fim, o importante é “qual modelo se encaixa melhor no meu problema”
O Gemini respondeu perfeitamente à pergunta do lava-rápido
A resposta foi lógica, no estilo “se você for andando, não terá um carro para lavar, então precisa ir de carro”
O Gemini explicou logicamente que “é preciso levar o elefante”, inclusive dando motivos detalhados
Foi uma capacidade de raciocínio bem impressionante
Mas o comentário do Gemini sobre “previsão de chuva no dia de lavar o carro” pareceu fofo, embora confiante demais
No teste de “SVG de um pelicano andando de bicicleta”, o Gemini teve um bom resultado
Veja o link do resultado
Talvez por causa da alta no benchmark ARC-AGI, a capacidade de geração visual pareça ter melhorado
O benchmark em si perdeu o sentido, e agora parece mais uma questão de gosto pessoal
Precisamos de um novo benchmark de “vibe check”
É uma mudança interessante
No fim, ainda é preciso a mão de um designer humano
Provavelmente isso é resultado de a Google ter feito uma otimização focada em SVG
O SVG do pelicano no blog do Simon Willison ficou muito bom, mas levou mais de 5 minutos para ser gerado
Parece um problema de desempenho típico do início do lançamento
Eu só queria um pelicano e uma bicicleta, mas ele ainda adicionou nuvens, sol e chapéu
Em programação é igual: ele não para de fazer refatorações indesejadas e adicionar comentários
O tweet do Jeff Dean também sugere isso
Em outros tipos de entendimento espacial eles são fracos, mas na geração precisa de formas se destacam
Ou seja, isso pode não ser uma melhora geral de capacidade, e sim resultado de treinamento explícito
Provavelmente, daqui a pouco vão reduzir o desempenho de forma silenciosa; o mais importante é o quanto ele vai ser nerfado. (Tenho a impressão de que a maioria dos modelos de IA vai ficando mais burra com o tempo, mas no caso do Google isso parece especialmente pior.)
Também me lembro de que o 3 Pro era bom logo depois que saiu, mas cerca de uma semana depois ele de repente ficou burro, e no fim acabei desistindo de usar.