Gemini 3 Deep Think é apresentado

(blog.google)

7 pontos por GN⁺ 2026-02-13 | 1 comentários | Compartilhar no WhatsApp

O modelo de IA da Google Gemini 3 Deep Think, voltado para a resolução de problemas em ciência, pesquisa e engenharia, recebeu uma grande atualização
A nova versão foi projetada, em colaboração com cientistas e pesquisadores, para lidar com problemas complexos com dados incompletos ou sem uma resposta claramente definida
Alcançou desempenho em nível de medalha de ouro em olimpíadas internacionais e benchmarks de várias áreas, como matemática, programação, física e química
Dá suporte a pesquisa real e aplicações de engenharia, oferecendo funções práticas como a geração de modelos imprimíveis em 3D a partir de esboços
Disponível para assinantes do Google AI Ultra e por meio do programa de acesso antecipado da Gemini API, com expansão planejada para pesquisadores e empresas

Visão geral principal do Gemini 3 Deep Think

Gemini 3 Deep Think é um modo especializado de raciocínio projetado para resolver desafios modernos nas áreas de ciência, pesquisa e engenharia
- A Google trabalhou em estreita colaboração com cientistas e pesquisadores para reforçar a capacidade de lidar com problemas sem respostas claras ou com dados incompletos
- Combina conhecimento teórico e utilidade prática em engenharia, evoluindo como um modelo voltado para aplicações reais
Esta atualização é oferecida aos assinantes do Google AI Ultra por meio do app Gemini, e pesquisadores, engenheiros e empresas podem solicitar acesso antecipado pela Gemini API

Casos iniciais de uso

Lisa Carbone, matemática da Rutgers University, usou o Deep Think na revisão de um artigo matemático relacionado à física de altas energias e encontrou erros lógicos que passaram pela revisão humana
O Wang Lab da Duke University otimizou um processo complexo de crescimento cristalino para a busca de materiais semicondutores, projetando uma receita de crescimento de filme fino acima de 100μm
Anupam Pathak, da divisão Platforms & Devices da Google, testou o Deep Think para acelerar o projeto de componentes físicos

Maior precisão matemática e algorítmica

O Deep Think registrou resultados em nível de medalha de ouro na Olimpíada Internacional de Matemática e no Campeonato Internacional Universitário de Programação
A versão mais recente alcançou os seguintes recordes em benchmarks acadêmicos
- Humanity’s Last Exam: 48.4% (sem uso de ferramentas)
- ARC-AGI-2: 84.6% (verificado pela ARC Prize Foundation)
- Codeforces: Elo 3455
- International Math Olympiad 2025: desempenho em nível de medalha de ouro
O Deep Think também é usado no desenvolvimento de agentes especializados para exploração matemática

Exploração de domínios científicos complexos

Além de matemática e programação, houve melhora de desempenho em ciências em geral, como química e física
- Na seção escrita das Olimpíadas Internacionais de Física e Química de 2025, alcançou resultados em nível de medalha de ouro
- Registrou 50.5% no benchmark de física teórica CMT-Benchmark
Esse desempenho comprova a expansão da capacidade de raciocínio científico do Deep Think

Aceleração da engenharia no mundo real

O Deep Think oferece suporte à interpretação de dados complexos e à modelagem de sistemas físicos, com foco no uso prático por pesquisadores e engenheiros
O acesso em ambientes reais de pesquisa está sendo ampliado por meio da Gemini API
Por exemplo, o usuário pode inserir um esboço para gerar um modelo imprimível em 3D, e o Deep Think faz a análise, a modelagem e a geração do arquivo

Acesso e uso

Assinantes do Google AI Ultra já podem usar o Deep Think imediatamente no app Gemini
Pesquisadores, engenheiros e empresas podem se inscrever no programa de acesso antecipado via Gemini API
A Google espera que o Deep Think ajude a expandir novas descobertas científicas e casos de uso aplicados

1 comentários

GN⁺ 2026-02-13

Comentários do Hacker News

É impressionante ver uma pontuação de 84,6% no Arc-AGI-2
No post oficial do blog há detalhes sobre o Gemini 3 Deep Think
- Já fazia tempo que eu tinha a impressão de que o Gemini 3 era incrivelmente generalista (general)
  Ele conseguiu vencer Balatro (ante 8) só com descrição em texto. Não é tão difícil para humanos, mas é surpreendente um LLM conseguir isso sem treinamento específico
  Testei no Balatro Bench, e o Deepseek não consegue jogar esse jogo de jeito nenhum
- Até um ano atrás, esse benchmark ficava na faixa de 1~10%, e agora subiu a um ponto em que quase dá para chamar de nível AGI, o que é difícil de acreditar
- O aumento da pontuação no ARC-AGI é interessante, mas é exagero tratar isso como um salto em ‘inteligência geral’
  Eu costumo brincar que o G do ARC-AGI significa ‘graphical’. Até agora os modelos eram fracos em raciocínio espacial (spatial reasoning), e parece que desta vez resolveram isso
  Espero que no ARC-AGI 3 sejam adicionadas tarefas em formato de jogo baseadas em tentativa e erro
- Olhando o leaderboard do ARC Prize, o custo atual é de cerca de US$ 13,62 por tarefa
  Na prática, parece que ainda vai levar mais 5~10 anos até o custo de execução ficar em um nível razoável
  Ainda assim, fico em dúvida se o modelo não foi sobreajustado (fitting) ao benchmark
- Para uma comparação justa, teria que comparar com um modelo equivalente, como o GPT-5.x Pro
Tenho a sensação de que a velocidade de lançamento de modelos está anormalmente alta
Só hoje saíram Gemini 3 Deep Think e GPT 5.3 Codex Spark, e alguns dias atrás tivemos Opus 4.6, GLM5 e MiniMax M2.5
- Parece que o período do Ano-Novo Lunar chinês teve influência
  Os laboratórios chineses costumam lançar modelos nessa época, e os laboratórios dos EUA parecem correr para divulgar modelos mais fortes para evitar um impacto como o do DeepSeek R1 (20 de janeiro de 2025)
- Hoje em dia há tantos tipos de modelo que está difícil até distinguir
  O Gemini 3 Deep Think parece menos um modelo totalmente novo e mais uma versão do Gemini 3 Pro com uma camada de raciocínio (subagent) por cima
  Como também pode ser conectado a frameworks externos de agentes como o OpenClaw, a discussão sobre ‘workflow de agentes’ parece exagerada
- Nas últimas semanas, o ciclo de lançamentos foi realmente explosivo
- Em uma frase: Fast takeoff
O Google está totalmente na frente
Muita gente achava que ele estava ficando para trás, mas isso acabou sendo a melhor estratégia possível
- Os modelos são impressionantes, mas a qualidade do produto é péssima
  Usei Gemini web/CLI por dois meses, e ele perde o contexto no meio da conversa; se você pergunta sobre melhoria da qualidade do ar, ele responde só com uma lista de purificadores sem contexto
  Chega a citar sites de propaganda russa ou mudar para chinês no meio da frase
  Não dá para aceitar 20 euros por mês com essa qualidade
- O Google em tempos normais é lento e burocrático, mas o Google em modo de guerra trabalha em uma velocidade impressionante
- A OpenAI provavelmente vai lançar outra coisa daqui a algumas horas, então essa competição está divertida
  As pessoas que diziam que ARC-AGI-2 era o limite dos LLMs agora vão mudar o critério de novo
  Parece que a maior parte do esforço humano vai ser gasta tentando provar que “a IA ainda não é AGI”
- Mesmo assim, em termos de utilidade no mundo real, o Google ainda está atrás
  O Gemini 3 Pro ainda tem muitos problemas
Estou usando o Gemini 3 Pro em um projeto de digitalização de documentos históricos
Digitalizo atas manuscritas em alemão de 1885 a 1974, faço a transcrição página por página e depois a tradução
Já processei cerca de 2.370 páginas, com 95% de precisão e custo de API de cerca de US$ 50
Ainda precisa de revisão manual, mas a economia de tempo é enorme
- Talvez uma única passada já seja suficiente, então valeria reavaliar a eficiência total depois da revisão
Pela minha intuição, os modelos estão distribuídos em três espectros
não-pensantes, pensantes e best-of-N (Deep Think, GPT Pro)
Em cada caso, a complexidade computacional cresce mais ou menos de forma linear, quadrática e cúbica
Os modelos pensantes conseguem resolver problemas que exigem escrever scratchpad
- O próximo passo provavelmente será um enxame de agentes (agent swarm)
  Um modelo gerente recebe o prompt, cria vários subagentes para tentar em paralelo e depois avalia e redistribui os resultados
- Nos modelos best-of-N, o essencial é o uso de contexto longo
  Desde a versão 2.5, o Google lida muito bem com contexto longo na prática
  O conceito de pass@N também é interessante e se encaixa bem em tarefas exploratórias que trocam tempo por dinheiro, como busca de vulnerabilidades de segurança ou problemas de otimização
- Sobre a pergunta de se um grande modelo não-pensante pode ter o mesmo desempenho que um modelo pensante menor, os modelos da Anthropic são um bom exemplo
  Nesta imagem, o Opus 4.6 mostra alto desempenho mesmo sem raciocínio explícito
O PDF com a metodologia de avaliação de todos os benchmarks está aqui
A pontuação de 84,6% no ARC-AGI-2 é com base no conjunto semi-private,
e se passar de 85% no conjunto private é considerado “solved”, com um prêmio de US$ 700K
Veja o guia do ARC Prize
- Pelo fato de o título do documento estar como “Gemini 3.1 Pro”, parece que uma nova versão deve sair em breve
- Mas acho difícil passar de 85% no conjunto private. Isso poderia significar vazamento de dados
Os modelos estão evoluindo rápido demais ultimamente, e isso me faz pensar que meu emprego pode desaparecer em 3~5 anos
Parece que os LLMs já entraram na fase de melhorar a si mesmos
É uma pena não estar no OpenRouter
Hoje em dia, os principais modelos Deep Think estão sendo bloqueados para uso apenas nas próprias plataformas
- O OpenRouter também é bom, mas o litellm é uma biblioteca Python simples e mais limpa
  Veja a documentação do litellm
- Mas agora dá a sensação de que a era de ouro (golden age) acabou
O Gemini sempre me pareceu um modelo cheio de conhecimento, mas com pouca flexibilidade
Ele desmorona facilmente diante de pedidos fora do script
- Na verdade, esse tipo de experiência também pode ser uma questão de adaptação do usuário
  Como usei modelos do Google por muito tempo, tive a sensação de que os modelos da OpenAI eram bem piores
  E usuários da OpenAI provavelmente sentem o mesmo e acham que o próprio modelo é o melhor pelo mesmo motivo
- Em certo sentido, o Gemini parece um modelo que pensa do seu próprio jeito
  Ainda não testei, mas pode ser que a capacidade de seguir instruções tenha melhorado
É surpreendente como a evolução dos modelos está rápida
Eu achava que já iríamos bater em um muro, mas os novos modelos estão destruindo completamente os benchmarks existentes
- Mas, como as empresas estão focadas em otimizar pontuação de benchmark, a correlação com o desempenho real está diminuindo cada vez mais

Gemini 3 Deep Think é apresentado

Visão geral principal do Gemini 3 Deep Think

Casos iniciais de uso

Maior precisão matemática e algorítmica

Exploração de domínios científicos complexos

Aceleração da engenharia no mundo real

Acesso e uso

Leituras relacionadas

1 comentários

Comentários do Hacker News