4 pontos por GN⁺ 2026-02-20 | 4 comentários | Compartilhar no WhatsApp
  • Modelo de IA multimodal avançado para lidar com tarefas complexas, com foco em resolver problemas que vão além de respostas simples
  • Obteve 77,1% de pontuação de validação no benchmark ARC-AGI-2, alcançando mais que o dobro da capacidade de raciocínio em relação ao 3 Pro anterior
  • Demonstra raciocínio aprimorado em tarefas de alta complexidade, como integração de dados, explicações visuais e codificação criativa
  • Processa diversos formatos de entrada, como texto, áudio, imagem, vídeo e repositórios de código, com suporte a até 1 milhão de tokens de contexto e saída de 64K tokens
  • O Google está usando esta prévia para aprimorar workflows agentic e validar o modelo antes da disponibilidade geral

Visão geral do Gemini 3.1 Pro

  • O Gemini 3.1 Pro é um modelo de IA multimodal avançado para lidar com tarefas complexas, com foco em resolver problemas que vão além de respostas simples
    • O Google o descreve como a principal atualização de inteligência que tornou possível o desempenho do Gemini 3 Deep Think
    • Processa entradas multimodais como texto, áudio, imagem, vídeo e repositórios de código
    • Suporta uma janela de contexto de até 1 milhão de tokens e saída de 64K tokens
    • Esta versão está sendo distribuída gradualmente em produtos para consumidores, desenvolvedores e empresas
  • Os caminhos de distribuição são os seguintes

Desempenho e benchmarks

  • O Gemini 3.1 Pro foi otimizado para resolver problemas complexos por meio de melhorias centradas em capacidade de raciocínio (reasoning)
    • Registrou 77,1% de pontuação de validação no benchmark ARC-AGI-2, mais que dobrando o desempenho em relação ao 3 Pro anterior
    • Principais resultados de comparação de desempenho (vs. Gemini 3 Pro):
      • ARC-AGI-2: 77,1% (vs 31,1%)
      • GPQA Diamond: 94,3% (vs 91,9%)
      • Terminal-Bench 2.0: 68,5% (vs 56,9%)
      • LiveCodeBench Pro: Elo 2887 (vs 2439)
      • BrowseComp: 85,9% (vs 59,2%)
    • Esses benchmarks avaliam a capacidade do modelo de resolver padrões lógicos completamente novos
  • O Google o define como um “modelo base mais inteligente e mais capaz”, apresentando-o como a base para resolver problemas complexos

Casos de uso reais

  • O Gemini 3.1 Pro mostra várias possibilidades de aplicação ao colocar raciocínio avançado em uso prático
    • Geração de explicações visuais: capacidade de explicar tópicos complexos de forma clara e visual
    • Integração de dados: sintetiza vários dados em uma única visão integrada
    • Implementação de projetos criativos: transforma ideias artísticas e de design em código
  • Exemplos concretos
    • Animação baseada em código: gera animações SVG para websites a partir de prompts de texto, minimizando o tamanho do arquivo sem perda de resolução
    • Integração de sistemas complexos: cria um dashboard para visualizar em tempo real a órbita da Estação Espacial Internacional (ISS)
    • Design interativo: codifica uma simulação 3D de bando de estorninhos com rastreamento das mãos e interface reativa à música
    • Codificação criativa: projeta um website de portfólio moderno que reflete a atmosfera literária de O Morro dos Ventos Uivantes

Distribuição e acesso

  • O Gemini 3.1 Pro foi lançado em formato de prévia (preview) e está coletando feedback dos usuários
    • Usuários dos planos Google AI Pro e Ultra podem usar limites mais altos no app Gemini
    • No NotebookLM, ele é oferecido exclusivamente para usuários Pro e Ultra
    • Desenvolvedores e empresas podem acessá-lo por meio de AI Studio, Antigravity, Vertex AI, Gemini Enterprise, Gemini CLI e Android Studio

Próximos passos

  • Desde o lançamento do Gemini 3 Pro, o Google vem mantendo um ritmo rápido de melhorias e, com esta prévia do 3.1 Pro, está promovendo a validação das atualizações e a expansão de workflows agentic
  • A disponibilidade geral (GA) está prevista para após a conclusão da validação, e o Google afirmou que “está ansioso para ver o que os usuários vão criar e descobrir com este modelo

4 comentários

 
jwh926 2026-02-20

Espero que alcance logo o desempenho de programação do Claude Opus.

 
ifmkl 2026-02-20

Isso mesmo. No primeiro dia em que o modelo 3.0 preview entrou no CLI e comecei a usar, gostei tanto que até escrevi minhas impressões no blog, mas... piorou rapidamente... Por isso, atualmente estou usando principalmente codex e claude code. Mas o claude também está meio... Vou ver se o 4.6 opus ou o sonnet são bons; se não, talvez eu acabe fixando codex para código e gemini para outras tarefas em geral..

 
GN⁺ 2026-02-20
Opiniões no Hacker News
  • Gemini 3.1 Pro parece muito promissor
    Até agora eu quase sempre acabei preferindo o Claude, e o Claude Opus é especialmente forte para programação
    O Gemini também é quase excelente, mas ainda não está no nível do Claude
    Assino alternadamente ChatGPT Plus ↔ Gemini Pro ↔ Claude todo mês para não perder as vantagens de cada modelo

  • Como ex-Googler, espero que o Gemini 3.1 Pro seja melhor que o 3.0
    Mas, para desenvolvimento, o Gemini foi o modelo mais frustrante que usei
    O Claude Opus no VS Code Copilot equilibra bem fluxo de raciocínio e resposta, enquanto o Gemini só gasta thinking tokens e não explica o resultado
    Muitas vezes entra em loop, usa mal as ferramentas e modifica arquivos errados
    Então eu usava a estratégia “planejamento com Gemini, execução com Claude”, mas no fim acabei usando só Claude
    Enquanto a Anthropic parece lapidar os modelos com foco em projetos reais, a Google dá a impressão de ter pouco teste em uso prático

    • Meu projeto envolve muita matemática de espaço de cores, e o Gemini 3 Pro com frequência comete erros básicos de tipagem
      Confunde int8 com float ou esquece se algo foi normalizado
      Dá a sensação de alguém com memória fraca
      Ainda assim, ajuda bastante em discussões de arquitetura
    • Quando usei o Gemini 3 no Openclaw, custava de 10 a 20 dólares por hora e de 1,5 a 3 dólares por prompt
      Foi o ápice da ineficiência
    • O desempenho do modelo no fim depende de ajuste fino e integração com ferramentas
      O Claude parece ter aprendido o próprio “processo de programar”, e a Anthropic parece incorporar feedback dos usuários no tuning
      Como a Google mira em um modelo de uso geral, passa a impressão de algo que “faz um pouco de tudo, mas nada perfeitamente”
    • O Gemini 3.0 estava em um nível inutilizável para mim
      Claude e Codex explicam como abordam o problema, mas o Gemini simplesmente sai executando
      Ignora pedidos de correção e polui o workspace
      Mesmo podendo usar de graça, quase não uso
      A Anthropic parece ter entendido cedo que “o usuário precisa conseguir manter o controle”
    • O Gemini é fraco em tarefas agentic
      A OpenAI já chegou perto do nível do Claude, mas a Google ainda está longe
  • As pessoas subestimam a eficiência de custo do Google
    Custa metade do Opus e, ainda assim, entrega desempenho bem bom
    Segundo os indicadores da Artificial Analysis, o 3.1 é 40% mais barato e 30% mais rápido que o Opus

    • Mas também existe a visão de que “uma resposta excelente de 2 centavos é melhor do que uma resposta mediana de 1 centavo”
      Para desenvolvimento, vale a pena usar o melhor modelo mesmo que custe 300 dólares por mês
      Em IA para consumidores, essa conta deve mudar
    • Claro, se não consegue fazer o trabalho direito, não importa custar metade
      Ainda assim, se o desempenho acompanhar, a competitividade de preço é atraente
    • Se o Opus produzir código 20% melhor, na prática essa diferença é grande em projetos reais
      Mas, se o desempenho for parecido, economizar 50% é uma vantagem enorme
    • O Gemini vai bem em benchmarks, e os engenheiros da DeepMind também são excelentes
      Pessoalmente, funciona bem tanto no trabalho quanto nos meus projetos por hobby
      Mesmo assim, acho estranho ver tanta crítica pesada na comunidade
    • O Deepseek custa 2% do preço do Opus, mas a maioria ainda não o usa para programação
  • Os modelos de hoje em dia são poderosos demais
    Dá para criar software completo em muito menos tempo do que antes
    Mas as diferenças de comportamento entre versões são grandes demais, então parece que todo mês estou gerenciando uma equipe nova
    Como os modelos podem ser trocados sem aviso ou mudar de forma sutil, isso parece uma base instável

    • O Opus 4.6 resolveu um problema que o o4-mini não tinha conseguido resolver antes
      Dá para ver isso na issue do sqlite-chronicle
      Depois disso, destravou pontos emperrados em vários projetos
    • Já usei modelos da Anthropic, Google e OpenAI, mas ainda falta para conseguir construir um produto completo
      Mesmo assim, já são suficientes para gerar ideias e iniciar uma base de código
    • Um app feito com GPT 5.1 codex max ainda funciona bem
      Parece haver uma espécie de autoconsistência em que o mesmo modelo lida melhor de novo com o código que ele próprio criou
    • Na prática, a sensação é de gerenciar “um engenheiro genial, mas excêntrico”
      Ainda assim, continua sendo uma tecnologia impressionante
    • Também apareceu a piada de que “por um sushi você contrata um engenheiro genial por um mês”, seguida de “e vai usar isso para fazer uma calculadora?”
  • O preço do Gemini 3.1 Pro não mudou
    Entrada a $2/M e saída a $12/M, conforme indicado na documentação oficial
    O corte de conhecimento é janeiro de 2025, e o modo “medium thinking” foi adicionado
    A diferença de preço em relação aos $5/$25 do Opus 4.6 é grande

    • Para usar um agente CLI corporativo, o problema é o processo complicado do Google
      Você esbarra em regras de IAM, cobrança, identificação de nome de produto etc.
      OpenAI e Anthropic são muito mais simples
      Mesmo assim, a mensalidade é parecida
    • Se o desempenho em raciocínio de longo prazo não melhorar no Vendor-Bench 2, não pretendo sair do CC
      A Anthropic está à frente com otimização full-stack
    • Ainda não existe minimal reasoning
      Ainda não há algo como o Opus 4.6, que seja rápido e inteligente mesmo com o thinking desligado
    • Parece mais barato que o Codex, o que é interessante
    • O corte de conhecimento em janeiro de 2025 parece um pouco antigo
  • O Gemini 3 ainda está em preview, e o 2.5 deve ser descontinuado em breve
    Pela agenda oficial de descontinuação, alguns modelos são encerrados sem nem ter substituto
    Fico me perguntando quando a Google vai lançar um modelo realmente pronto para produção

    • Também concordo. Depender de modelos descontinuados ou nunca lançados de fato é arriscado
      Tenho sistemas em operação de verdade, então isso me dá muita insegurança
    • Acho que você leu o link errado. Só o 2.5-preview será descontinuado; o 2.5 estável vai até o outono de 2026
    • A Google nunca descontinuaria um software do qual muita gente depende, certo?
      Basta olhar o Killed by Google para ver o quão vazia essa frase soa
    • Esse tipo de situação dá mesmo aquela sensação de “ah, isso é tão Google”
    • Ainda não houve anúncio de descontinuação do 2.5
      Se o 3.0 está em preview, o 2.5 deve continuar por pelo menos mais um ano
      A própria documentação oficial diz que “a data exata de encerramento será informada com aviso prévio”
  • O Gemini resolveu de uma vez um problema de race condition entre UI e sincronização de dados
    Até o Opus 4.6 só conseguiu resolver depois de três tentativas, então isso me surpreendeu
    Está menos prolixo do que antes e vai mais direto ao ponto
    Daqui para frente, devo usar Gemini para P&D e Opus/Sonnet 4.6 para finalizar

    • Minha combinação é Opus 4.6 para pesquisa de código, GPT 5.3 codex para escrever código, Gemini para algoritmos científicos e matemáticos, e Grok para questões de segurança
      Se você usar um wrapper unificado com suporte a vários modelos, a preocupação de escolher modelo diminui
      No fim, o importante é “qual modelo se encaixa melhor no meu problema”
  • O Gemini respondeu perfeitamente à pergunta do lava-rápido
    A resposta foi lógica, no estilo “se você for andando, não terá um carro para lavar, então precisa ir de carro”

    • Talvez a pergunta já estivesse nos dados de treino, então tentei trocar pela pergunta de lavar um elefante
      O Gemini explicou logicamente que “é preciso levar o elefante”, inclusive dando motivos detalhados
      Foi uma capacidade de raciocínio bem impressionante
    • O GPT-OSS-120b também acertou a mesma pergunta
      Mas o comentário do Gemini sobre “previsão de chuva no dia de lavar o carro” pareceu fofo, embora confiante demais
    • O importante não é só acertar a resposta, e sim ter raciocinado corretamente sobre o motivo
    • Na verdade, o Gemini 3 Pro e o Flash já tinham acertado essa pergunta antes
    • Mas a resposta é prolixa demais, o que acaba cansando
  • No teste de “SVG de um pelicano andando de bicicleta”, o Gemini teve um bom resultado
    Veja o link do resultado
    Talvez por causa da alta no benchmark ARC-AGI, a capacidade de geração visual pareça ter melhorado

    • SVG animado agora já entra como exemplo padrão
      O benchmark em si perdeu o sentido, e agora parece mais uma questão de gosto pessoal
      Precisamos de um novo benchmark de “vibe check”
    • O resultado que recebi tinha um estilo mais 3D do que de pelicano
      É uma mudança interessante
    • Mas ele ainda falha no meu benchmark pessoal de SVG, que é um corte transversal de coração humano
      No fim, ainda é preciso a mão de um designer humano
    • Se os modelos melhorarem mais, talvez dê para criar UI em tempo real baseada em SVG ou mídia interativa
    • Em compensação, quase não há avanço em outros formatos vetoriais, como PostScript
      Provavelmente isso é resultado de a Google ter feito uma otimização focada em SVG
  • O SVG do pelicano no blog do Simon Willison ficou muito bom, mas levou mais de 5 minutos para ser gerado
    Parece um problema de desempenho típico do início do lançamento

    • O problema do Gemini sempre foi essa postura de “querer ajudar demais”
      Eu só queria um pelicano e uma bicicleta, mas ele ainda adicionou nuvens, sol e chapéu
      Em programação é igual: ele não para de fazer refatorações indesejadas e adicionar comentários
    • O engraçado é que, graças a testes assim, a Google realmente acabou investindo muito esforço em geração de SVG de animal + veículo
      O tweet do Jeff Dean também sugere isso
    • Fico curioso sobre por que LLMs são tão bons em SVG
      Em outros tipos de entendimento espacial eles são fracos, mas na geração precisa de formas se destacam
    • Daqui a pouco os modelos vão começar a competir em benchmark de “gerar SVG de pelicano de bicicleta”
    • No post oficial do blog da Google, a geração de SVG é citada como caso principal de uso
      Ou seja, isso pode não ser uma melhora geral de capacidade, e sim resultado de treinamento explícito
 
clumsily 2026-02-20

Provavelmente, daqui a pouco vão reduzir o desempenho de forma silenciosa; o mais importante é o quanto ele vai ser nerfado. (Tenho a impressão de que a maioria dos modelos de IA vai ficando mais burra com o tempo, mas no caso do Google isso parece especialmente pior.)
Também me lembro de que o 3 Pro era bom logo depois que saiu, mas cerca de uma semana depois ele de repente ficou burro, e no fim acabei desistindo de usar.