O modo de raciocínio GPT-5 do ChatGPT (Research Goblin) é poderoso em buscas

(simonwillison.net)

6 pontos por GN⁺ 2025-09-08 | 1 comentários | Compartilhar no WhatsApp

O ChatGPT baseado em GPT-5 (também chamado de Research Goblin) demonstra um nível muito alto de precisão e utilidade em buscas na web
De perguntas triviais comuns a pesquisas complexas de informação, ele mostra forte capacidade de exploração e raciocínio em uma ampla variedade de temas
Em exemplos reais, fornece respostas e materiais confiáveis por meio de processos extensos de busca e raciocínio em cadeia
Mesmo em ambiente móvel, é possível ter excelente usabilidade e um fluxo de trabalho contínuo
Graças à integração de tool calling e chain-of-thought, apresenta um novo padrão para buscas baseadas em LLM na perspectiva de desenvolvedores

GPT-5, Research Goblin e a inovação em busca

O paradigma de busca em transformação

Antes, o conselho dominante era “não use chatbots como se fossem mecanismos de busca”, mas com o ChatGPT baseado em GPT-5 essa regra parece estar sendo quebrada
Modelos baseados em GPT-5 vão além da simples integração com mecanismos como o Bing e chegam a um nível que substitui ou supera, na prática, a pesquisa na internet
O apelido “Research Goblin” surgiu porque, diante de qualquer dúvida ou tarefa complexa, ele investiga com insistência quase anormal até chegar à melhor resposta possível

Casos reais de busca e resultados

Esteiras rolantes curiosas (Travelators)

Ao ser perguntado sobre quando a esteira de borracha do aeroporto de Heathrow foi substituída por metal, estimou que isso ocorreu entre 2014 e 2018 e ainda encontrou uma reportagem interessante de 2024 relacionada ao tema

Identificação de edifício

Quando perguntado sobre um prédio exótico visto pela janela do trem, identificou corretamente em 1 minuto e 4 segundos que era o The Blade (Reading) e forneceu links de fonte

Investigação sobre cake pops da Starbucks UK

Investigou em profundidade por que não há cake pops em lojas da Starbucks no Reino Unido e encontrou que eles foram introduzidos em 2023, mas não são vendidos em certas lojas — especialmente em lojas de viagem
Também reuniu materiais comprobatórios, incluindo PDF de nutrição e alergênicos, além de discussões no Reddit

Relação entre Wikipedia e Britannica

Analisou em profundidade a veracidade e o contexto da alegação online de que a Wikipedia usou parte de fontes da Britannica de 1911 como dados iniciais, rastreando e fornecendo até documentos e explicações do projeto relacionado

Nome oficial da University of Cambridge

Apresentou, com materiais de apoio, o nome legal oficial da Universidade de Cambridge: The Chancellor, Masters, and Scholars of the University of Cambridge
Também mostrou o processo de raciocínio de forma transparente, permitindo verificar a confiabilidade da resposta correta

Histórico das cavernas e do restaurante no Exeter Quay

Ao investigar a estrutura interna de um restaurante escavado no penhasco na região de Exeter Quay e sua história, esclareceu por meio de várias etapas de busca e análise de PDFs que ele foi criado em penhascos de arenito vermelho nas décadas de 1820 e 1830
Mostrou um padrão ativo de exploração, buscando relatórios/desenhos em inglês e, quando não conseguia acessá-los, redigindo até um rascunho de e-mail para solicitação

Comparação entre Aldi e Lidl

Fez uma análise extensa de presença no Reino Unido, imagem e ranking de mercado de Aldi e Lidl, incluindo números de participação de mercado e avaliação dos consumidores
A pedido do usuário, reorganizou o ranking também com base no critério de “fanciness” (sofisticação/percepção premium)

Escaneamento de livros por laboratórios de IA

Além do caso da Anthropic escanear grandes quantidades de livros para criar dados de treinamento, não foi possível confirmar se outros laboratórios de IA fazem algo semelhante, mas o sistema registrou detalhadamente a exploração dessa possibilidade

A superioridade prática das buscas com GPT-5

Na busca do ChatGPT baseado em GPT-5, é possível obter coleta e avaliação de informações mais rápidas, sistemáticas e amplas do que no trabalho manual
Especialmente em ambiente móvel, a usabilidade melhorou muito, tornando possível satisfazer curiosidades e realizar tarefas cotidianas de pesquisa a qualquer hora e lugar
Tem capacidade de entregar resultados rápidos e ricos o bastante para substituir o recurso Deep Research da OpenAI

O significado disso do ponto de vista do desenvolvimento de LLMs

Graças à combinação de tool calling e chain-of-thought, a busca, o raciocínio encadeado e a exploração adicional fluem naturalmente em uma única etapa de “pensamento”\n- A tecnologia RAG (busca + geração) também pode ser operada de forma muito mais poderosa por meio de chamadas flexíveis de ferramentas em múltiplas etapas e integração avançada com busca
No termo usado pela Anthropic, isso é interleaved thinking; a OpenAI Responses API também oferece suporte a um fluxo semelhante

Dicas para usar buscas de forma eficaz

É possível melhorar a qualidade da busca por meio de intuição empírica (usar dicas como “go deep”, por exemplo, induz uma investigação ainda mais minuciosa)
Mesmo em perguntas interpretativas sem uma resposta claramente definida, ele produz resultados úteis e interessantes
Como sugere a metáfora do “goblin”, o Research Goblin é uma IA de busca diferente dos humanos: trabalhadora, mas não totalmente confiável, o que ainda lhe dá alto valor de uso

1 comentários

GN⁺ 2025-09-08

Comentário no Hacker News

Concordo com o texto do Simon, mas acho que “pesquisa” significa comparar diferentes formas de evidência. Isso se aplica a várias áreas, como o efeito do Obamacare, previsão de decisões judiciais, análise de influência em animação e formas de usar bibliotecas open source. O ChatGPT e outros LLMs têm dificuldade para avaliar evidências ou entender o viés das fontes e, especialmente ao lidar com muitas estatísticas, quanto mais tentam raciocinar de forma plausível, mais alucinações aparecem. Os modelos também têm uma tendência de querer apoiar o ponto de vista do usuário e acabam respondendo de forma positiva mesmo quando isso não foi pedido. Eu sempre peço ao ChatGPT para avaliar diretamente as fontes, comparar argumentos a favor e contra e, às vezes, contesto o modelo para ver como ele reage. Dá para ver um relato mais detalhado no blog
- Tentei usar o Perplexity para encontrar a configuração ideal do meu monitor, e ele me deu uma lista concisa de ajustes com as razões. Mas, ao verificar as fontes, não havia informação oficial nem base concreta, só posts de usuários especulando ou discutindo em fóruns da Samsung. Seria bom se houvesse uma confidence rating baseada na confiabilidade das fontes, mas isso parece realmente difícil de implementar
- ChatGPT e LLMs muitas vezes só repetem “senso comum” superficial. Depois de várias perguntas adicionais, pedindo se aquilo realmente tem base, qual é a fonte, para mostrar os trechos citados e confirmar de novo que não era alucinação, com bastante frequência acaba ficando claro que a resposta inicial estava completamente errada. A maioria das pessoas provavelmente aceitaria essa primeira resposta sem questionar
- Por exemplo, quando tento tomar uma decisão de compra bem pesquisada, sinto que é realmente difícil porque a maior parte é opinião de marketing, e os sinais contrários, como comentários negativos no Reddit ou no YouTube, não compensam isso o suficiente
- O GPT-5 (e modelos como o o3) é um dos LLMs com postura mais crítica. Em pedidos acadêmicos e técnicos, ele consegue citar fontes de informação e comparar resultados diferentes mesmo sem prompt especial. As primeiras versões do Grok 4 apenas resumiam artigos sem análise, e o Claude Opus 4 também fugia do ponto principal, por exemplo ao retornar documentos focados em uso quando eu pedi uma lista de bibliotecas JS. O GPT-5 obviamente não é perfeito, mas é melhor que um humano mediano
- Queria perguntar o que vocês acham do uso da palavra “pesquisa” para descrever um conjunto de funcionalidades em LLM. Fico em dúvida se isso representa de fato o que é pesquisa, ou se está num nível parecido com o clichê “do your research” tão comum em época de eleição nos EUA
Ainda acho que a busca do Google, especialmente com udm=14 para desativar os resumos de IA, continua sendo uma experiência bem boa. Por exemplo, em perguntas sobre Britannica e Wikipedia, eu consegui resultados no Google e na própria Wikipedia em 1 a 2 segundos, e em uns 60 segundos dava para achar rapidamente o que eu queria por conta própria. Já no ChatGPT isso leva cerca de 3 minutos de processamento e eu ainda preciso conferir o resultado e checar se houve alucinação. No fim, é impressionante que um LLM consiga fazer a tarefa X, mas sinto que pesquisar diretamente e depois eu mesmo sintetizar é muito mais eficiente
- Com base em experiências recentes, tenho uma opinião um pouco diferente. Se você não desligar os resumos de IA do Google, a experiência realmente piora. Por exemplo, ao procurar um repositório no Github, o Google não encontrou a página real e só mostrou links nada a ver. O GPT demora mais, mas dependendo do escopo da pesquisa tem suas vantagens. Em temas mais profundos, como movimentação de unidades em StarCraft2, achei conveniente poder pedir de uma vez só o resumo, a explicação e até o código-fonte relacionado no GPT. E eu consigo filtrar os erros o bastante. No futuro, parece provável que toda navegação na internet venha com esse tipo de assistência baseada em LLM
- Procurei no Google por "Rubber bouncy at Heathrow removal" e recebi 3 links como resultado, enquanto o ChatGPT pareceu alucinar um pouco ao apresentar evidências. Em coisas como busca reversa de imagem ou procurar o preço do cake pop do Starbucks, achei mais eficaz buscar diretamente. Ainda assim, as pessoas preferem o ChatGPT pela conveniência de ele responder as informações da web de uma vez só. Mesmo havendo alucinações ocasionais, a tendência parece ser aceitar esse custo. Assim como antigamente se confiava mais em bibliotecas do que na Wikipedia, talvez a evolução dos LLMs acabe sendo uma nova mudança de paradigma
- Minha sugestão é que, ao fazer experimentos com o Google, você tente usar os exemplos mais difíceis de responder
- Fiz uma pergunta simples ao GPT-5 no modo Auto, e ele começou a responder em 2 segundos, apresentando 2 links corretos em uma velocidade confortável de leitura. No modo Think, levou uns 2 minutos, mas comparou várias fontes e acrescentou base para todos os resumos. Tenho usado bem o GPT para informações difíceis de encontrar em governos locais e para analisar PRs complexos de open source. Dá realmente a sensação de poupar o trabalho de ler um monte de propostas por conta própria
- Se as pessoas passarem a interagir só com agentes, sem visitar diretamente a web, fico curioso sobre como a web vai mudar. Vai ser um período interessante de transformação
Eu costumava usar o subreddit "Tip of My Tongue" para encontrar informações antigas de que eu lembrava, mas nem tudo era resolvido lá. Com o recurso Deep Research, consegui resolver 4 problemas que continuavam sem solução em 1 hora, e no quinto pelo menos encontrei pistas para continuar sozinho. Mesmo que falte capacidade de raciocínio lógico, é muito poderoso conseguir consumir rapidamente dezenas de resultados de busca e extrair informação relevante a partir de descrições vagas. Agora dá para ter esse poder de busca em minutos sem precisar lidar com spambots do Reddit ou usuários que não seguem as regras
- Existe uma diferença entre links de documentos tradicionais e conteúdo gerado com base em resultados de busca, e esse conteúdo gerado é realmente útil e impressionante. Mas também não dá para esquecer que esse tipo de resultado pode estar errado com frequência. Se fosse possível colocar um nível de confidence nas respostas, isso talvez também fizesse sentido como modelo de negócio
Eu também acho que o ChatGPT é excelente para pesquisa, mas às vezes há casos patológicos em que ele dá respostas superficiais e potencialmente erradas. Mesmo quando há fontes primárias objetivas online, ele pode errar, então compartilho este blog relacionado
- Acho que o caso que você descreveu é diferente do que acontece na prática. Sua opinião diverge dos artigos, e a sensação é que você organizou isso no blog esperando que o ChatGPT adotasse o seu ponto de vista. Parece haver limites para uma avaliação objetiva
- Ultimamente o ChatGPT parece mais instável. Em mais da metade das respostas, ele inventa fundamentos, esquece o contexto ou simplesmente erra. No Aistudio, mesmo passando de 300 mil tokens, Gemini/Aistudio mantém bem o contexto, mas o ChatGPT parece fraco quando há muita informação
- Também tive muitas experiências parecidas. Melhorou um pouco ao mudar para GPT5 Thinking, mas ainda parece deixar passar coisas em comparação com o o3 ou o o1. Por exemplo, perguntei ao GPT5 sobre o episódio da fonte termal do romance Bocchan, e ele deu uma explicação sutilmente errada. No romance real, o protagonista nada na fonte termal e depois passa vergonha por causa de uma placa de proibição, mas o GPT5 focou só na parte de explicar a regra
- Acho seu texto interessante e apropriado para discussão. Sinceramente, acho que o GPT poderia ter dado uma resposta melhor, mas também é válida a discussão sobre em que ponto a pesquisa deve parar. Em geral, se você tentar incluir até fontes menos confiáveis, o debate nunca termina. No fim, parar numa conclusão amplamente consensual me parece um trade-off razoável
Os antigos modelos “heavy” pareciam carregar conhecimento de nível enciclopédico, enquanto os modelos mais “light” recentes dependem de busca na web e entregam só informação rasa. Sinto falta da força dos modelos que “lembravam” de inúmeros documentos offline
- Eu penso exatamente o oposto. O conhecimento interno do modelo pode ser alucinação, então sempre é preciso fazer uma pesquisa de verificação à parte. Já quando o LLM faz a busca e o resumo antes, basta conferir as fontes, o que é muito mais prático. O Kagi Assistant faz bem esse papel
- Por muito tempo eu usava com a busca desligada, mas recentemente adicionei aos comandos personalizados modos para pesquisa na web e uso de conhecimento interno. Se eu digitar xz, ele faz pesquisa na web; se eu digitar xx, usa só conhecimento interno. É uma configuração que permite alternar livremente dentro da sessão
- Modelos sem busca são pesados, e modelos baseados em busca são leves, mas dependem de dados reais atualizados. Tenho alternado entre os dois, mas ultimamente prefiro mais os modelos leves baseados em fontes
- O conhecimento real fica armazenado fora. É por isso que bibliotecas são tão importantes nas universidades. Para agentes, memória sozinha também não basta
- Eu também sinto isso até certo ponto. Seria interessante se um modelo leve com busca na web oferecesse uma visualização que separasse, em cada página, o que já era conhecido, o que é novo, quais evidências são alegadas e onde há inconsistências
O autor processa uma “quantidade irracional de trabalho” para encontrar respostas na internet, e acho estranho como isso parece ser aceito com entusiasmo como desperdício de recurso computacional. Fico me perguntando se esse é mesmo o objetivo, e se uma “wild goose chase” consumindo recursos enormes só para encontrar a resposta certa é algo justificável
- Historicamente, muita gente passou a vida toda correndo atrás de pistas falsas. Newton, Einstein, até gênios não foram exceção
O ChatGPT é realmente impressionante, mas imagino que professores do ensino médio e universitários vão sofrer por causa do uso desse tipo de ferramenta. Por exemplo, se você passar um trabalho como “pesquise a fundo o máximo de evidências de que O Senhor dos Anéis foi influenciado por Gormenghast”, os alunos vão automaticamente usar deep research exemplo compartilhado
- Fico curioso se você de fato verificou os fatos por conta própria, clicou em todos os links e conferiu as fontes. Eu mesmo já me gabei de que o ChatGPT tinha “resolvido” algo, mas na verdade era informação da Wikipedia e ainda por cima estava errada
- A maioria dos alunos que cola na escola é preguiçosa e não se importa com hierarquia ou prestígio, então não tem interesse em trabalho de alta qualidade. Não há motivo para usar um modo Thinking demorado
- Achei engraçado o uso de neologismos como ‘steel-man’ na resposta do ChatGPT
- Numa oficina para professores, me veio a ideia de ensinar o método socrático e ajudar as crianças a argumentarem por conta própria com base no que obtêm do Google/ChatGPT. Seria uma abordagem em que elas articulam diretamente o conhecimento ampliado pela pesquisa com LLM e organizam o próprio nível atual de entendimento
Mesmo para perguntas que o Brave search resolveria em segundos, esse tipo de resposta em LLM às vezes demora surpreendentemente muito
- Eu gosto do Brave, mas achei os resultados de busca ruins. Os recursos de IA até são ok, mas quase nunca trazem os resultados reais que eu quero
- Hoje em dia há uma parede de sites ruins otimizados para SEO, então não acho tão fácil assim me dar por satisfeito
- Com Chat+Search, existe a vantagem de obter a resposta imediatamente sem se preocupar com anúncios, cliques, content farms ou malware
Fico confuso sobre qual recurso é esse entre “Web Search”, “Deep Research” e “Agent Mode” do ChatGPT. A composição dessas funções é bem curiosa
- Não é Deep Search nem Agent Mode. Eu seleciono “GPT-5 Thinking” e ativo apenas a ferramenta normal de busca
- Pela minha experiência, o resultado fica mais para “pesquisar no Reddit e acrescentar alguns comentários”
- Não esqueçam do “ChatGPT 5 Pro”. É um pouco diferente de Deep Research
- Acho que é só o modo padrão. Mesmo sem ativar explicitamente a opção de busca na web, ele pesquisa automaticamente. Fico me perguntando por que ainda existe uma opção separada para isso
- Pelo que percebo, é no mínimo o modo ChatGPT 5 Thinking com pesquisa na web ativada no perfil. Quando o pedido envolve informação recente ou pesquisa, o ChatGPT tende a pensar mais profundamente e investigar
Eu queria saber qual é a receita de um podcast que escuto. Dois comediantes de Phoenix começaram sem seguidores e agora estão no topo das paradas da Apple. Antes, mesmo tentando descobrir, eu não achava uma resposta clara, mas o GPT-5 fez uma quantidade “forçada” de pesquisa, cruzou várias fontes e me deu até uma faixa confiável
- Então qual era a faixa?
- Ultimamente o GPT também parece dar respostas mais prolixas. O Google Gemini às vezes solta artigos inúteis, e o ChatGPT também vem tendendo a entregar relatórios longos em vez de respostas mais informativas. Talvez isso aconteça porque as pessoas passam a confiar mais nesse formato de relatório extenso. Além disso, mesmo quando aparecem fundamentos detalhados ou números, algumas respostas são fáceis de verificar e outras não. Tenho receio de que usar demais LLMs faça minhas habilidades de pesquisa se deteriorarem. E, experimentando com MCP, também senti que ele consome uma quantidade absurda de recursos. Esse tipo de deep research parece estar sendo oferecido barato pela OpenAI, talvez até operando no prejuízo, então se no futuro o aumento de preço for grande, a própria dependência pode virar um risco

O modo de raciocínio GPT-5 do ChatGPT (Research Goblin) é poderoso em buscas

GPT-5, Research Goblin e a inovação em busca

O paradigma de busca em transformação

Casos reais de busca e resultados

Esteiras rolantes curiosas (Travelators)

Identificação de edifício

Investigação sobre cake pops da Starbucks UK

Relação entre Wikipedia e Britannica

Nome oficial da University of Cambridge

Histórico das cavernas e do restaurante no Exeter Quay

Comparação entre Aldi e Lidl

Escaneamento de livros por laboratórios de IA

A superioridade prática das buscas com GPT-5

O significado disso do ponto de vista do desenvolvimento de LLMs

Dicas para usar buscas de forma eficaz

Leituras relacionadas

1 comentários

Comentário no Hacker News