2 pontos por GN⁺ 2025-08-02 | 1 comentários | Compartilhar no WhatsApp
  • Gemini 2.5 Deep Think foi disponibilizado no app Gemini para os assinantes do Google AI Ultra
  • Novos métodos de pensamento paralelo (parallel thinking) e resultados de pesquisa foram incorporados, e, com base em um modelo que venceu a medalha de ouro da IMO, a versão foi melhorada para ficar mais adequada ao uso real
  • Mostra desempenho excepcional em várias tarefas complexas, como resolução criativa de problemas, raciocínio matemático e científico e desenvolvimento de algoritmos
  • Para melhorar o desempenho, o Tempo de Raciocínio (Thinking Time) é estendido para explorar simultaneamente várias ideias e soluções, gerando pensamento mais profundo e resultados criativos
  • A segurança e o desenvolvimento responsável de IA foram fortalecidos com avaliações e ações de mitigação reforçadas, e os planos de expansão para API e uso corporativo foram anunciados

Lançamento do Gemini 2.5 Deep Think

  • Gemini 2.5 Deep Think está disponível para assinantes do Google AI Ultra por meio do app Gemini
  • Uma versão com feedback de testadores confiáveis e pesquisadores incorporados
  • Baseado em um modelo de nível de ouro da recente Olimpíada Internacional de Matemática (IMO), com melhorias em velocidade e praticidade para a experiência do usuário real
  • Com esta divulgação, o potencial do recurso como ferramenta de resolução criativa de problemas foi ampliado, e há planos para evoluir a funcionalidade com base em feedback de matemáticos e pesquisadores

Como o Deep Think funciona

  • Com a adoção da pensagem paralela, o Gemini passa a explorar e comparar/compor, de forma simultânea, diversas ideias e soluções para problemas complexos
  • Aumentando o Tempo de Inferência (Thinking Time) do modelo, é possível investigar várias hipóteses com mais profundidade para encontrar soluções mais criativas
  • O aprendizado por reforço treina o modelo a explorar ativamente esses caminhos de inferência expandidos, fortalecendo uma resolução de problemas mais intuitiva e aprofundada

Principais desempenhos e áreas de uso do Deep Think

  • Desenvolvimento e design iterativos: alto desempenho em tarefas que desenvolvem sistemas ou designs complexos passo a passo
  • Descobertas científicas e matemáticas: bom desempenho em investigações criativas de alta complexidade, como raciocínio matemático e interpretação de artigos científicos
  • Desenvolvimento de algoritmos e código: alcança desempenho de ponta em problemas de programação difíceis que exigem estruturação do problema, considerando complexidade de tempo e trade-offs
  • Nos benchmarks mais recentes (ex.: LiveCodeBench V6, Humanity’s Last Exam), demonstrou desempenho de ponta em código/conhecimento/raciocínio em comparação com modelos anteriores

Desenvolvimento responsável e segurança do Gemini

  • O Gemini 2.5 Deep Think apresenta segurança de conteúdo e tom mais objetivo melhorados em comparação ao modelo Pro anterior nas avaliações de segurança
  • À medida que a complexidade aumenta, os riscos também são avaliados, com reforço da avaliação Frontier Safety e das medidas de resposta necessárias
  • Os resultados detalhados de segurança podem ser consultados no Model Card

Como usar o Deep Think

  • Assinantes do Google AI Ultra podem usar o recurso no app Gemini escolhendo 2.5 Pro no menu suspenso do modelo e ativando o Deep Think na barra de prompt, com limite de usos diário definido
  • A integração com ferramentas como execução de código e busca no Google é automática, permitindo respostas muito mais longas
  • Em breve serão feitos testes adicionais para o Gemini API e para o ambiente enterprise

1 comentários

 
GN⁺ 2025-08-02
Comentários no Hacker News
  • Testei o novo agente Deep Think, mas cheguei ao limite diário de uso logo depois de inserir cinco prompts. Se o serviço é isso por US$ 250 por mês, é bem decepcionante. Em termos de competitividade de preço, fica claramente atrás do o3-pro e do Grok 4 Heavy. Na comunidade de IA, esse recurso vinha recebendo atenção como praticamente a única parte que ainda poderia justificar o preço da assinatura Google Ultra. Mas o Google oferece seus melhores modelos de graça no AI Studio e, ao mesmo tempo, aplica esse tipo de política de cobrança aos assinantes Ultra que realmente pagam, o que sinceramente não faz sentido para mim. Em termos de desempenho, quando inseri um problema de negócios de alta complexidade, ele forneceu uma solução clara e convincente, alinhada com o resultado de uma reunião interna. No fim das contas, porém, o o3 também chegou a uma conclusão semelhante por um preço muito menor. Só que o relatório do o3 pareceu um pouco menos organizado. Acho que preciso usar mais para saber melhor

    • Ainda não parece totalmente pronto ou otimizado para comercialização, mas pode ser uma estratégia para lançar antes da entrada em vigor do EU AI Act em 2 de agosto e depois ter dois anos para se adequar aos critérios. Por isso, acho bem provável que tenham liberado primeiro para um grupo pequeno de usuários com limites de uso bem rígidos
    • Tenho curiosidade sobre o desempenho do Deep Think em tarefas que exigem contexto muito grande. Como o parallel thinking pode ser extremamente útil para certos tipos de problema, queria testar se ele consegue lidar com mais contexto do que a chain of thought tradicional consegue cobrir
    • Anos atrás, eu media habilidade de programação pela capacidade de resolver sem pesquisa na internet ou então de postar uma pergunta bem organizada em algum lugar como o StackOverflow e depois responder eu mesmo. Às vezes apareciam comentários como “fiquei perdido por 3 dias e essa resposta salvou minha vida”, e isso dava muito orgulho. Estou resolvendo um problema difícil a semana inteira, mas modelos de IA do tipo Copilot quase não ajudam. Em programação, a sensação de competência vem justamente quando ninguém consegue te ajudar — nem mesmo a IA — e você precisa recorrer por conta própria à generalização, síntese e criatividade. (Então fico me consolando com a ideia de que ainda falta um pouco para os agentes de programação com IA me substituírem completamente)
    • Já usei tanto o Grok 4 quanto o 4 Heavy e, na minha experiência, ambos são realmente ruins. Não importa quantas consultas você possa fazer; se as respostas forem péssimas, isso não serve para nada. Foi meu pior gasto com LLM este ano. Já investi bastante em várias IAs, mas o dinheiro gasto com Grok foi o mais desperdiçado
    • Às vezes é surpreendente ver o Google oferecer seus modelos premium de graça no AI Studio enquanto entrega migalhas de benefício aos clientes pagantes. Mas, ao mesmo tempo, isso não é nada surpreendente. Provavelmente o Google não está tirando grande lucro dos clientes AI Ultra e considera mais importante o grande volume de dados de usuários obtido na camada gratuita do AI Studio. Ao deixar os melhores modelos abertos de graça, é fácil ganhar participação entre os usuários mais exigentes. Depois, no futuro, dá para aplicar políticas de cobrança a esse público, e isso também é uma boa estratégia para aproveitar os servidores ociosos que o Google tem hoje
  • Pessoal, coloquei o prompt “desenhe uma imagem SVG de um pelicano andando de bicicleta” no Gemini Deep Think e este foi o resultado https://www.svgviewer.dev/s/5R5iTexQ Fiz antes do Simon Willison!

    • Tudo que vira meme no HN está destinado a entrar nos dados de treinamento. É engraçado imaginar um estagiário em cada empresa de IA suando para desenhar um SVG de pelicano incrível
    • Acabei de ver o resultado e me surpreendi por realmente parecer um pelicano, ficou bem bom
    • Esses benchmarks de meme, como desenho de morango e afins, são engraçados, mas hoje entram demais no treinamento dos modelos, então viram uma forma de medição fácil de enganar
    • Isso realmente dá a sensação de viver no futuro
    • Sinceramente, acho que é a primeira vez que eu conseguiria acertar “isso é um pelicano andando de bicicleta” vendo só o SVG, sem o prompt. O caso da vocal tower também foi impressionante. Em termos de percepção visual e espacial, me parece um avanço considerável
  • Se quiser testar por conta própria, dá para usar a CLI llm do simonw e o plugin llm-consortiumVantagem 1: dá para combinar vários modelos livremente. Você pode configurar as combinações que quiser, independentemente do laboratórioVantagem 2: usando o plugin llm-model-gateway, você pode conectar tudo de uma vez via API local ao seu app ou à sua ferramenta de colaboração para programação https://x.com/karpathy/status/1870692546969735361
    Ele até escreveu pessoalmente a instalação, exemplos de comandos e um exemplo mostrando que também dá para criar um consortium of consortium.
    https://GitHub.com/irthomasthomas/llm-consortium

    • Fico curioso por que isso é chamado de versão local do Gemini Deep Think. Imagino que arquiteturas multiagente possam ser implementadas de várias formas. E, por causa da covariance entre vários modelos, os erros podem se sincronizar, então acho que otimizar o desempenho exige combinações estruturais diversas para reduzir a correlação de erros sem perder a precisão individual. Gostaria de testar isso em benchmarks nos quais existam várias soluções possíveis
    • Fico pensando se a União Europeia é um consortium of consortiums
    • Pedi para me avisarem se souberem de algum plugin do OpenWebUI que dê suporte a isso
    • Comentaram que não estão vendo o comando llm serve
  • Não é o modelo que ganhou ouro na IMO algumas semanas atrás, mas é uma variante muito próxima https://x.com/OfficialLoganK/status/1951262261512659430 Ainda não está disponível via API

  • Esta abordagem é semelhante ao Grok 4 Heavy: executa vários agentes de “raciocínio” em paralelo, compara as respostas entre si e volta com a melhor, levando cerca de 30 minutos. O resultado é excelente, mas para uma comparação justa de benchmark, na prática ele deveria ser comparado com o Grok 4 Heavy, e não com o Grok 4 comum, que é um modelo de agente único e mais rápido

    • Quando o mesmo poder computacional de raciocínio é distribuído entre vários agentes, o resultado melhora. Até o problema de “pensar demais e piorar a resposta” pode ser superado com várias linhas de raciocínio curtas em paralelo
    • No artigo, foi dito que o Deep Think chega à solução final gerando várias ideias de uma vez com raciocínio paralelo, considerando, integrando e revisando tudo simultaneamente. Pela descrição, não fica claro se há uso de múltiplos agentes, então acho que isso permite várias interpretações
    • O Grok-4 heavy usa ferramentas para resolver com facilidade muitos dos problemas que aparecem nos benchmarks, então há limites para uma comparação direta
    • Tenho curiosidade sobre como a abordagem do Google difere de Mixture of Experts. Em Mixture of Experts, cada especialista é treinado com pesos diferentes, enquanto aqui a diversidade de raciocínio parece vir só do ajuste de temperature. Queria saber se há algum artigo comparando com precisão o que funciona melhor: rodar o mesmo modelo várias vezes para obter diversidade de ideias ou rodar em paralelo vários modelos com arquiteturas/pesos diferentes
    • Surpreende que ainda não exista um app que coloque os principais LLMs para competir entre si num mesmo lugar e selecione a resposta final
  • OpenAI foi para US$ 200, Anthropic para US$ 100 e US$ 200, Gemini para US$ 250, e Grok até US$ 300. Só a OpenAI disse “praticamente ilimitado”, e de fato nunca bati no limite do plano ChatGPT Pro. Já no Claude Max, atingi o limite várias vezes. Mas fico curioso por que essas empresas não divulgam claramente os limites

    • O objetivo é cobrar em dobro. Se o preço fosse justo, mostrariam o valor por token por consulta e você pagaria apenas pelo que usou. Mas as empresas querem receita recorrente fixa e, ao mesmo tempo, minimizar o uso real, então vendem como se fosse ilimitado em cobrança mensal ou anual. No fim, é uma estrutura feita para você pagar mais do que realmente usa
    • O verdadeiro motivo para não divulgarem os limites com antecedência é que as empresas precisam poder ajustá-los dinamicamente conforme a situação do mercado ou a carga da infraestrutura. Quando acontece uma explosão repentina de tráfego, como na febre de geração de imagens estilo Ghibli no ChatGPT, elas colocam restrições; quando há folga, como agora, podem aliviar
    • Se os limites forem transparentes, os usuários começam a criar truques para explorar o máximo possível, e isso acaba reduzindo ainda mais os limites para todos. Então, na prática, não divulgar pode ser a melhor escolha para a maioria
  • Nos últimos meses usando Gemini, tive a sensação de que ele está piorando cada vez mais. As hallucinations aparecem com frequência demais e, mesmo quando você aponta isso, a IA insiste. Está difícil confiar

    • Na minha experiência, o Flash está melhorando cada vez mais. Mesmo pagando pelo Pro, uso o Flash com mais frequência. O Pro me decepciona porque muitas vezes quase não busca informações recentes e apenas repete dados antigos de treinamento, mas o Flash quase não tem esse problema. Para programação, uso o Pro no Gemini CLI, e ele é impressionante não só para escrever código, mas também para redigir documentos de design, decompor tarefas semanais, gerenciar cronogramas e assim por diante. Quando você fornece uma estrutura organizada, parece até que ele cuida sozinho do próprio contexto
    • Tive experiência parecida. Não uso mais o Gemini Pro. Ele é prolixo demais e contraditório. O Claude Sonnet 4 responde bem. Ultimamente parece que o Sonnet reduziu bastante a diferença para o Opus. Desde que passaram a usar o novo sistema de cotas, comecei a usar o Sonnet primeiro. Agora ele resolve bem a maioria dos problemas difíceis ou complexos, mesmo comparado ao Opus. Há só alguns meses eu não sentia isso nesse nível
    • Também sinto que o Gemini está piorando cada vez mais. Mas em benchmarks como fiction.livebench é difícil quantificar essa diferença. Fico me perguntando se estão quantizando o modelo de forma agressiva, com perda de desempenho, ou se nossas expectativas é que continuam subindo
    • Queria perguntar se isso é principalmente um problema de integração com ferramentas e se você usa no AI Studio ou pela API. Pelo que vi, ele frequentemente inventa ferramentas inexistentes e demonstra confiança excessiva nos resultados
  • Foi informado que assinantes do Google AI Ultra já podem usar hoje o recurso Deep Think no app Gemini, com uma quantidade fixa de prompts. Mas queria entender melhor se esse “conjunto fixo” significa um número fixo ou se quer dizer que os tipos de prompt são predefinidos

    • O limite é de 10 solicitações por dia. Como cada prompt leva cerca de 30 minutos de reflexão, ele é mais voltado para pesquisa ou problemas multicamadas e sintéticos do que para programação comum ou escrita de fanfic
  • Ao usar o Gemini CLI para montar cronogramas, mesmo instruindo claramente várias vezes para não fazer mudanças inesperadas e mesmo intervindo, ele insiste em tentar alterar coisas por conta própria e acaba bagunçando o plano

    • Esses agentes, na verdade, muitas vezes causam mais confusão. O Claude Code (Anthropic) é popular porque usa uma abordagem que extrai o máximo de desempenho do modelo. Já o Gemini CLI acaba reduzindo o desempenho original do Gemini Pro 2.5. Por isso, desisti completamente do Gemini CLI, mesmo sendo grátis. Ainda assim, ele continua muito forte em trabalhos guiados por prompt, então sigo usando com regularidade
    • Comigo é parecido. Se você entrega ao Gemini CLI uma tarefa grande e abstrata, ele erra repetidamente. Em compensação, se der um pouco de estrutura clara, separando por etapas a geração de contexto, ele produz resultados realmente impressionantes. Na primeira etapa, eu mando apenas ler o código e escrever um documento de definição de requisitos. Depois, peço que use esse resultado para documentar em etapas uma especificação detalhada, o design da API, pseudocódigo da lógica complicada e assim por diante. No fim, faço ele quebrar todo o desenvolvimento em um plano de trabalho por semana, dia e hora, e, depois de fornecer informação suficiente, peço que escreva o código final. Se fosse totalmente automatizado, daria até para fazer com script, mas na prática funciona melhor com revisão humana, feedback e brainstorming contínuo. Como ele mesmo gera mais de 90% do contexto de que precisa, ultimamente, usando assim, quase não comete erros na maioria dos casos