- O modelo de IA da Google Gemini 3 Deep Think, voltado para a resolução de problemas em ciência, pesquisa e engenharia, recebeu uma grande atualização
- A nova versão foi projetada, em colaboração com cientistas e pesquisadores, para lidar com problemas complexos com dados incompletos ou sem uma resposta claramente definida
- Alcançou desempenho em nível de medalha de ouro em olimpíadas internacionais e benchmarks de várias áreas, como matemática, programação, física e química
- Dá suporte a pesquisa real e aplicações de engenharia, oferecendo funções práticas como a geração de modelos imprimíveis em 3D a partir de esboços
- Disponível para assinantes do Google AI Ultra e por meio do programa de acesso antecipado da Gemini API, com expansão planejada para pesquisadores e empresas
Visão geral principal do Gemini 3 Deep Think
- Gemini 3 Deep Think é um modo especializado de raciocínio projetado para resolver desafios modernos nas áreas de ciência, pesquisa e engenharia
- A Google trabalhou em estreita colaboração com cientistas e pesquisadores para reforçar a capacidade de lidar com problemas sem respostas claras ou com dados incompletos
- Combina conhecimento teórico e utilidade prática em engenharia, evoluindo como um modelo voltado para aplicações reais
- Esta atualização é oferecida aos assinantes do Google AI Ultra por meio do app Gemini, e pesquisadores, engenheiros e empresas podem solicitar acesso antecipado pela Gemini API
Casos iniciais de uso
- Lisa Carbone, matemática da Rutgers University, usou o Deep Think na revisão de um artigo matemático relacionado à física de altas energias e encontrou erros lógicos que passaram pela revisão humana
- O Wang Lab da Duke University otimizou um processo complexo de crescimento cristalino para a busca de materiais semicondutores, projetando uma receita de crescimento de filme fino acima de 100μm
- Anupam Pathak, da divisão Platforms & Devices da Google, testou o Deep Think para acelerar o projeto de componentes físicos
Maior precisão matemática e algorítmica
- O Deep Think registrou resultados em nível de medalha de ouro na Olimpíada Internacional de Matemática e no Campeonato Internacional Universitário de Programação
- A versão mais recente alcançou os seguintes recordes em benchmarks acadêmicos
- Humanity’s Last Exam: 48.4% (sem uso de ferramentas)
- ARC-AGI-2: 84.6% (verificado pela ARC Prize Foundation)
- Codeforces: Elo 3455
- International Math Olympiad 2025: desempenho em nível de medalha de ouro
- O Deep Think também é usado no desenvolvimento de agentes especializados para exploração matemática
Exploração de domínios científicos complexos
- Além de matemática e programação, houve melhora de desempenho em ciências em geral, como química e física
- Na seção escrita das Olimpíadas Internacionais de Física e Química de 2025, alcançou resultados em nível de medalha de ouro
- Registrou 50.5% no benchmark de física teórica CMT-Benchmark
- Esse desempenho comprova a expansão da capacidade de raciocínio científico do Deep Think
Aceleração da engenharia no mundo real
- O Deep Think oferece suporte à interpretação de dados complexos e à modelagem de sistemas físicos, com foco no uso prático por pesquisadores e engenheiros
- O acesso em ambientes reais de pesquisa está sendo ampliado por meio da Gemini API
- Por exemplo, o usuário pode inserir um esboço para gerar um modelo imprimível em 3D, e o Deep Think faz a análise, a modelagem e a geração do arquivo
Acesso e uso
- Assinantes do Google AI Ultra já podem usar o Deep Think imediatamente no app Gemini
- Pesquisadores, engenheiros e empresas podem se inscrever no programa de acesso antecipado via Gemini API
- A Google espera que o Deep Think ajude a expandir novas descobertas científicas e casos de uso aplicados
1 comentários
Comentários do Hacker News
É impressionante ver uma pontuação de 84,6% no Arc-AGI-2
No post oficial do blog há detalhes sobre o Gemini 3 Deep Think
Ele conseguiu vencer Balatro (ante 8) só com descrição em texto. Não é tão difícil para humanos, mas é surpreendente um LLM conseguir isso sem treinamento específico
Testei no Balatro Bench, e o Deepseek não consegue jogar esse jogo de jeito nenhum
Eu costumo brincar que o G do ARC-AGI significa ‘graphical’. Até agora os modelos eram fracos em raciocínio espacial (spatial reasoning), e parece que desta vez resolveram isso
Espero que no ARC-AGI 3 sejam adicionadas tarefas em formato de jogo baseadas em tentativa e erro
Na prática, parece que ainda vai levar mais 5~10 anos até o custo de execução ficar em um nível razoável
Ainda assim, fico em dúvida se o modelo não foi sobreajustado (fitting) ao benchmark
Tenho a sensação de que a velocidade de lançamento de modelos está anormalmente alta
Só hoje saíram Gemini 3 Deep Think e GPT 5.3 Codex Spark, e alguns dias atrás tivemos Opus 4.6, GLM5 e MiniMax M2.5
Os laboratórios chineses costumam lançar modelos nessa época, e os laboratórios dos EUA parecem correr para divulgar modelos mais fortes para evitar um impacto como o do DeepSeek R1 (20 de janeiro de 2025)
O Gemini 3 Deep Think parece menos um modelo totalmente novo e mais uma versão do Gemini 3 Pro com uma camada de raciocínio (subagent) por cima
Como também pode ser conectado a frameworks externos de agentes como o OpenClaw, a discussão sobre ‘workflow de agentes’ parece exagerada
O Google está totalmente na frente
Muita gente achava que ele estava ficando para trás, mas isso acabou sendo a melhor estratégia possível
Usei Gemini web/CLI por dois meses, e ele perde o contexto no meio da conversa; se você pergunta sobre melhoria da qualidade do ar, ele responde só com uma lista de purificadores sem contexto
Chega a citar sites de propaganda russa ou mudar para chinês no meio da frase
Não dá para aceitar 20 euros por mês com essa qualidade
As pessoas que diziam que ARC-AGI-2 era o limite dos LLMs agora vão mudar o critério de novo
Parece que a maior parte do esforço humano vai ser gasta tentando provar que “a IA ainda não é AGI”
O Gemini 3 Pro ainda tem muitos problemas
Estou usando o Gemini 3 Pro em um projeto de digitalização de documentos históricos
Digitalizo atas manuscritas em alemão de 1885 a 1974, faço a transcrição página por página e depois a tradução
Já processei cerca de 2.370 páginas, com 95% de precisão e custo de API de cerca de US$ 50
Ainda precisa de revisão manual, mas a economia de tempo é enorme
Pela minha intuição, os modelos estão distribuídos em três espectros
não-pensantes, pensantes e best-of-N (Deep Think, GPT Pro)
Em cada caso, a complexidade computacional cresce mais ou menos de forma linear, quadrática e cúbica
Os modelos pensantes conseguem resolver problemas que exigem escrever scratchpad
Um modelo gerente recebe o prompt, cria vários subagentes para tentar em paralelo e depois avalia e redistribui os resultados
Desde a versão 2.5, o Google lida muito bem com contexto longo na prática
O conceito de pass@N também é interessante e se encaixa bem em tarefas exploratórias que trocam tempo por dinheiro, como busca de vulnerabilidades de segurança ou problemas de otimização
Nesta imagem, o Opus 4.6 mostra alto desempenho mesmo sem raciocínio explícito
O PDF com a metodologia de avaliação de todos os benchmarks está aqui
A pontuação de 84,6% no ARC-AGI-2 é com base no conjunto semi-private,
e se passar de 85% no conjunto private é considerado “solved”, com um prêmio de US$ 700K
Veja o guia do ARC Prize
Os modelos estão evoluindo rápido demais ultimamente, e isso me faz pensar que meu emprego pode desaparecer em 3~5 anos
Parece que os LLMs já entraram na fase de melhorar a si mesmos
É uma pena não estar no OpenRouter
Hoje em dia, os principais modelos Deep Think estão sendo bloqueados para uso apenas nas próprias plataformas
Veja a documentação do litellm
O Gemini sempre me pareceu um modelo cheio de conhecimento, mas com pouca flexibilidade
Ele desmorona facilmente diante de pedidos fora do script
Como usei modelos do Google por muito tempo, tive a sensação de que os modelos da OpenAI eram bem piores
E usuários da OpenAI provavelmente sentem o mesmo e acham que o próprio modelo é o melhor pelo mesmo motivo
Ainda não testei, mas pode ser que a capacidade de seguir instruções tenha melhorado
É surpreendente como a evolução dos modelos está rápida
Eu achava que já iríamos bater em um muro, mas os novos modelos estão destruindo completamente os benchmarks existentes