7 pontos por GN⁺ 2026-02-13 | 1 comentários | Compartilhar no WhatsApp
  • O modelo de IA da Google Gemini 3 Deep Think, voltado para a resolução de problemas em ciência, pesquisa e engenharia, recebeu uma grande atualização
  • A nova versão foi projetada, em colaboração com cientistas e pesquisadores, para lidar com problemas complexos com dados incompletos ou sem uma resposta claramente definida
  • Alcançou desempenho em nível de medalha de ouro em olimpíadas internacionais e benchmarks de várias áreas, como matemática, programação, física e química
  • Dá suporte a pesquisa real e aplicações de engenharia, oferecendo funções práticas como a geração de modelos imprimíveis em 3D a partir de esboços
  • Disponível para assinantes do Google AI Ultra e por meio do programa de acesso antecipado da Gemini API, com expansão planejada para pesquisadores e empresas

Visão geral principal do Gemini 3 Deep Think

  • Gemini 3 Deep Think é um modo especializado de raciocínio projetado para resolver desafios modernos nas áreas de ciência, pesquisa e engenharia
    • A Google trabalhou em estreita colaboração com cientistas e pesquisadores para reforçar a capacidade de lidar com problemas sem respostas claras ou com dados incompletos
    • Combina conhecimento teórico e utilidade prática em engenharia, evoluindo como um modelo voltado para aplicações reais
  • Esta atualização é oferecida aos assinantes do Google AI Ultra por meio do app Gemini, e pesquisadores, engenheiros e empresas podem solicitar acesso antecipado pela Gemini API

Casos iniciais de uso

  • Lisa Carbone, matemática da Rutgers University, usou o Deep Think na revisão de um artigo matemático relacionado à física de altas energias e encontrou erros lógicos que passaram pela revisão humana
  • O Wang Lab da Duke University otimizou um processo complexo de crescimento cristalino para a busca de materiais semicondutores, projetando uma receita de crescimento de filme fino acima de 100μm
  • Anupam Pathak, da divisão Platforms & Devices da Google, testou o Deep Think para acelerar o projeto de componentes físicos

Maior precisão matemática e algorítmica

  • O Deep Think registrou resultados em nível de medalha de ouro na Olimpíada Internacional de Matemática e no Campeonato Internacional Universitário de Programação
  • A versão mais recente alcançou os seguintes recordes em benchmarks acadêmicos
    • Humanity’s Last Exam: 48.4% (sem uso de ferramentas)
    • ARC-AGI-2: 84.6% (verificado pela ARC Prize Foundation)
    • Codeforces: Elo 3455
    • International Math Olympiad 2025: desempenho em nível de medalha de ouro
  • O Deep Think também é usado no desenvolvimento de agentes especializados para exploração matemática

Exploração de domínios científicos complexos

  • Além de matemática e programação, houve melhora de desempenho em ciências em geral, como química e física
    • Na seção escrita das Olimpíadas Internacionais de Física e Química de 2025, alcançou resultados em nível de medalha de ouro
    • Registrou 50.5% no benchmark de física teórica CMT-Benchmark
  • Esse desempenho comprova a expansão da capacidade de raciocínio científico do Deep Think

Aceleração da engenharia no mundo real

  • O Deep Think oferece suporte à interpretação de dados complexos e à modelagem de sistemas físicos, com foco no uso prático por pesquisadores e engenheiros
  • O acesso em ambientes reais de pesquisa está sendo ampliado por meio da Gemini API
  • Por exemplo, o usuário pode inserir um esboço para gerar um modelo imprimível em 3D, e o Deep Think faz a análise, a modelagem e a geração do arquivo

Acesso e uso

  • Assinantes do Google AI Ultra já podem usar o Deep Think imediatamente no app Gemini
  • Pesquisadores, engenheiros e empresas podem se inscrever no programa de acesso antecipado via Gemini API
  • A Google espera que o Deep Think ajude a expandir novas descobertas científicas e casos de uso aplicados

1 comentários

 
GN⁺ 2026-02-13
Comentários do Hacker News
  • É impressionante ver uma pontuação de 84,6% no Arc-AGI-2
    No post oficial do blog há detalhes sobre o Gemini 3 Deep Think

    • Já fazia tempo que eu tinha a impressão de que o Gemini 3 era incrivelmente generalista (general)
      Ele conseguiu vencer Balatro (ante 8) só com descrição em texto. Não é tão difícil para humanos, mas é surpreendente um LLM conseguir isso sem treinamento específico
      Testei no Balatro Bench, e o Deepseek não consegue jogar esse jogo de jeito nenhum
    • Até um ano atrás, esse benchmark ficava na faixa de 1~10%, e agora subiu a um ponto em que quase dá para chamar de nível AGI, o que é difícil de acreditar
    • O aumento da pontuação no ARC-AGI é interessante, mas é exagero tratar isso como um salto em ‘inteligência geral’
      Eu costumo brincar que o G do ARC-AGI significa ‘graphical’. Até agora os modelos eram fracos em raciocínio espacial (spatial reasoning), e parece que desta vez resolveram isso
      Espero que no ARC-AGI 3 sejam adicionadas tarefas em formato de jogo baseadas em tentativa e erro
    • Olhando o leaderboard do ARC Prize, o custo atual é de cerca de US$ 13,62 por tarefa
      Na prática, parece que ainda vai levar mais 5~10 anos até o custo de execução ficar em um nível razoável
      Ainda assim, fico em dúvida se o modelo não foi sobreajustado (fitting) ao benchmark
    • Para uma comparação justa, teria que comparar com um modelo equivalente, como o GPT-5.x Pro
  • Tenho a sensação de que a velocidade de lançamento de modelos está anormalmente alta
    Só hoje saíram Gemini 3 Deep Think e GPT 5.3 Codex Spark, e alguns dias atrás tivemos Opus 4.6, GLM5 e MiniMax M2.5

    • Parece que o período do Ano-Novo Lunar chinês teve influência
      Os laboratórios chineses costumam lançar modelos nessa época, e os laboratórios dos EUA parecem correr para divulgar modelos mais fortes para evitar um impacto como o do DeepSeek R1 (20 de janeiro de 2025)
    • Hoje em dia há tantos tipos de modelo que está difícil até distinguir
      O Gemini 3 Deep Think parece menos um modelo totalmente novo e mais uma versão do Gemini 3 Pro com uma camada de raciocínio (subagent) por cima
      Como também pode ser conectado a frameworks externos de agentes como o OpenClaw, a discussão sobre ‘workflow de agentes’ parece exagerada
    • Nas últimas semanas, o ciclo de lançamentos foi realmente explosivo
    • Em uma frase: Fast takeoff
  • O Google está totalmente na frente
    Muita gente achava que ele estava ficando para trás, mas isso acabou sendo a melhor estratégia possível

    • Os modelos são impressionantes, mas a qualidade do produto é péssima
      Usei Gemini web/CLI por dois meses, e ele perde o contexto no meio da conversa; se você pergunta sobre melhoria da qualidade do ar, ele responde só com uma lista de purificadores sem contexto
      Chega a citar sites de propaganda russa ou mudar para chinês no meio da frase
      Não dá para aceitar 20 euros por mês com essa qualidade
    • O Google em tempos normais é lento e burocrático, mas o Google em modo de guerra trabalha em uma velocidade impressionante
    • A OpenAI provavelmente vai lançar outra coisa daqui a algumas horas, então essa competição está divertida
      As pessoas que diziam que ARC-AGI-2 era o limite dos LLMs agora vão mudar o critério de novo
      Parece que a maior parte do esforço humano vai ser gasta tentando provar que “a IA ainda não é AGI”
    • Mesmo assim, em termos de utilidade no mundo real, o Google ainda está atrás
      O Gemini 3 Pro ainda tem muitos problemas
  • Estou usando o Gemini 3 Pro em um projeto de digitalização de documentos históricos
    Digitalizo atas manuscritas em alemão de 1885 a 1974, faço a transcrição página por página e depois a tradução
    Já processei cerca de 2.370 páginas, com 95% de precisão e custo de API de cerca de US$ 50
    Ainda precisa de revisão manual, mas a economia de tempo é enorme

    • Talvez uma única passada já seja suficiente, então valeria reavaliar a eficiência total depois da revisão
  • Pela minha intuição, os modelos estão distribuídos em três espectros
    não-pensantes, pensantes e best-of-N (Deep Think, GPT Pro)
    Em cada caso, a complexidade computacional cresce mais ou menos de forma linear, quadrática e cúbica
    Os modelos pensantes conseguem resolver problemas que exigem escrever scratchpad

    • O próximo passo provavelmente será um enxame de agentes (agent swarm)
      Um modelo gerente recebe o prompt, cria vários subagentes para tentar em paralelo e depois avalia e redistribui os resultados
    • Nos modelos best-of-N, o essencial é o uso de contexto longo
      Desde a versão 2.5, o Google lida muito bem com contexto longo na prática
      O conceito de pass@N também é interessante e se encaixa bem em tarefas exploratórias que trocam tempo por dinheiro, como busca de vulnerabilidades de segurança ou problemas de otimização
    • Sobre a pergunta de se um grande modelo não-pensante pode ter o mesmo desempenho que um modelo pensante menor, os modelos da Anthropic são um bom exemplo
      Nesta imagem, o Opus 4.6 mostra alto desempenho mesmo sem raciocínio explícito
  • O PDF com a metodologia de avaliação de todos os benchmarks está aqui
    A pontuação de 84,6% no ARC-AGI-2 é com base no conjunto semi-private,
    e se passar de 85% no conjunto private é considerado “solved”, com um prêmio de US$ 700K
    Veja o guia do ARC Prize

    • Pelo fato de o título do documento estar como “Gemini 3.1 Pro”, parece que uma nova versão deve sair em breve
    • Mas acho difícil passar de 85% no conjunto private. Isso poderia significar vazamento de dados
  • Os modelos estão evoluindo rápido demais ultimamente, e isso me faz pensar que meu emprego pode desaparecer em 3~5 anos
    Parece que os LLMs já entraram na fase de melhorar a si mesmos

  • É uma pena não estar no OpenRouter
    Hoje em dia, os principais modelos Deep Think estão sendo bloqueados para uso apenas nas próprias plataformas

    • O OpenRouter também é bom, mas o litellm é uma biblioteca Python simples e mais limpa
      Veja a documentação do litellm
    • Mas agora dá a sensação de que a era de ouro (golden age) acabou
  • O Gemini sempre me pareceu um modelo cheio de conhecimento, mas com pouca flexibilidade
    Ele desmorona facilmente diante de pedidos fora do script

    • Na verdade, esse tipo de experiência também pode ser uma questão de adaptação do usuário
      Como usei modelos do Google por muito tempo, tive a sensação de que os modelos da OpenAI eram bem piores
      E usuários da OpenAI provavelmente sentem o mesmo e acham que o próprio modelo é o melhor pelo mesmo motivo
    • Em certo sentido, o Gemini parece um modelo que pensa do seu próprio jeito
      Ainda não testei, mas pode ser que a capacidade de seguir instruções tenha melhorado
  • É surpreendente como a evolução dos modelos está rápida
    Eu achava que já iríamos bater em um muro, mas os novos modelos estão destruindo completamente os benchmarks existentes

    • Mas, como as empresas estão focadas em otimizar pontuação de benchmark, a correlação com o desempenho real está diminuindo cada vez mais