Deep Research, Deep Search e Search: quais são as diferenças
(leehanchung.github.io)- Recentemente, laboratórios de IA vêm anunciando várias funcionalidades usando o termo Deep Research
- O Google lançou o Gemini 1.5 Deep Research em dezembro de 2024, a OpenAI lançou o Deep Research em fevereiro de 2025, e a Perplexity apresentou seu próprio Deep Research logo depois
- Além disso, DeepSeek, Qwen da Alibaba e a xAI de Elon Musk passaram a introduzir recursos de Search e Deep Search em assistentes de chatbot
- No GitHub, surgiram dezenas de implementações open source de “deep research”
- Isso sugere que, assim como aconteceu com Retrieval-Augmented Generation (RAG) em 2025, o termo “deep research” está sendo usado sem uma definição clara
Deep Research, Deep Search ou apenas Search
> Google: “Deep Research usa IA para explorar temas complexos e fornecer relatórios abrangentes e fáceis de ler, mostrando que o Gemini está ficando ainda mais capaz de lidar com tarefas complexas e economizar tempo.” -
> OpenAI: “Deep Research é o agente de próxima geração da OpenAI: quando o usuário fornece um prompt, o ChatGPT busca, analisa e sintetiza centenas de fontes online para gerar um relatório abrangente no nível de um analista de pesquisa.”
> Perplexity: “Quando você faz uma pergunta de Deep Research, o Perplexity realiza dezenas de buscas, lê centenas de fontes, raciocina sobre o material e entrega autonomamente um relatório abrangente.”
- Tirando os termos de marketing, deep research pode ser definido da seguinte forma
> Um sistema de geração de relatórios que aceita uma consulta do usuário, usa um modelo de linguagem grande (LLM) como agente para buscar e analisar informações de forma iterativa e produz um relatório detalhado - Em termos de processamento de linguagem natural (NLP), isso é conhecido como report generation
Formas de implementação
- Desde o surgimento do ChatGPT, geração de relatórios, ou “deep research”, tornou-se um dos principais focos da engenharia de IA
- O autor experimentou isso em um hackathon no início de 2023, quando a engenharia de IA ainda estava começando a ganhar força
- Ferramentas e inúmeros demos como LangChain, AutoGPT, GPT-Researcher e prompt engineering receberam grande atenção no Twitter e no LinkedIn
- Porém, o verdadeiro desafio está nos detalhes de implementação
- A seguir, são explorados padrões gerais para construir sistemas de geração de relatórios, destacando suas diferenças e classificando o que diferentes fornecedores oferecem
Sem treinamento: grafo acíclico direcionado (DAG)
- No início, descobriu-se que não era prático pedir a LLMs como o GPT-3.5 que gerassem um relatório do zero
- Em vez disso, foi usado o padrão Composite para encadear várias chamadas de LLM
- A consulta do usuário é decomposta para gerar um esboço do relatório
- Para cada seção, busca-se e resume-se informação relevante em mecanismos de busca ou bases de conhecimento
- Por fim, usa-se a LLM para combinar as seções em um relatório coerente
- O GPT-Researcher é um exemplo disso
- Todos os prompts desse sistema são cuidadosamente ajustados por meio de prompt engineering
- A avaliação depende de verificação subjetiva do resultado, e a qualidade do relatório é inconsistente
- Quando funciona, é excelente, mas nem sempre é estável
Sem treinamento: máquina de estados finitos (FSM)
- Para melhorar a qualidade dos relatórios, engenheiros adicionaram complexidade à abordagem DAG
- Em vez de um processo de passagem única, introduziram padrões estruturados como Reflexion e self-reflection para que a LLM revise e melhore sua própria saída
- Isso transforma um DAG simples em uma máquina de estados finitos (FSM), com a LLM guiando parcialmente as transições de estado
- Assim como no método DAG, todos os prompts são escritos manualmente, e a avaliação é subjetiva
- Como o sistema é ajustado manualmente, a qualidade do relatório ainda varia bastante
Com treinamento: ponta a ponta
- As limitações dos métodos anteriores — prompt engineering aleatório e falta de métricas de avaliação mensuráveis — levaram à busca por mudanças
- O STORM, de Stanford, resolve esses problemas ao otimizar o sistema de ponta a ponta usando DSPy
- Como resultado, o STORM gera relatórios com qualidade comparável à de artigos da Wikipédia
Com treinamento: modelos de raciocínio em larga escala
- Com a melhora da capacidade de raciocínio das LLMs, modelos de raciocínio em larga escala se tornaram uma opção atraente para deep research
- Por exemplo, a OpenAI treina seu modelo de Deep Research da seguinte forma
- Avalia as saídas usando LLM-as-a-judge e rubricas de avaliação
- O Gemini do Google e o assistente de chat da Perplexity também oferecem recursos de “deep research”, mas não divulgam documentação sobre como otimizaram os modelos ou sistemas, nem avaliações quantitativas substanciais
- No entanto, o gerente de produto de Deep Research do Google mencionou em uma entrevista em podcast: “Temos acesso especial. É praticamente o mesmo modelo (Gemini 1.5). Claro, fazemos nosso próprio trabalho adicional de pós-treinamento”
- Isso sugere que o peso do trabalho de fine-tuning não é tão grande
- Enquanto isso, o Grok da xAI se destaca em geração de relatórios, mas parece não buscar além de duas iterações
- Ou seja, faz algumas buscas para as seções do esboço e algumas buscas para cada seção
Cenário competitivo
- Foi desenvolvido um mapa conceitual para avaliar as capacidades de vários serviços que oferecem recursos de deep research
- Eixo vertical: profundidade da pesquisa (número de ciclos iterativos de coleta de informação adicional com base em resultados anteriores)
- Eixo horizontal: nível de treinamento (de sistemas ajustados manualmente até sistemas totalmente treinados com técnicas de machine learning)
- Sistemas com treinamento representativos:
- OpenAI Deep Research: sistema baseado em reinforcement learning otimizado para tarefas de pesquisa
- DeepSeek: treinado para raciocínio geral e uso de ferramentas, podendo se adaptar a demandas de pesquisa
- Google Gemini: LLM amplamente treinada, mas não especializada em pesquisa
- Stanford STORM: sistema que otimiza todo o processo de pesquisa de ponta a ponta
- Esse framework ajuda a entender como cada serviço equilibra a profundidade da pesquisa iterativa e a abordagem de treinamento
Conclusão
- A tecnologia de deep research está evoluindo rapidamente, e técnicas que há poucos meses não funcionavam ou nem estavam implementadas agora estão sendo aplicadas com sucesso
- No entanto, o uso ambíguo da terminologia aumenta a confusão
- Espera-se que este texto ajude a esclarecer as diferenças técnicas e a evitar que as pessoas se deixem levar por termos de marketing
2 comentários
> Um colega brincou: "O AlphaGO venceu Lee Sedol, mas o Lee Sedol tem um algoritmo de direção autônoma muito melhor"
Mas só existe um Lee Sedol, e ele não pode ser clonado
Opinião no Hacker News
A distinção proposta por Han Xiao entre DeepSearch e DeepResearch é muito interessante
Um colega brincou: "AlphaGO venceu Lee Sedol, mas Lee Sedol tem um algoritmo de direção autônoma muito melhor"
Parece capturar bem a diferença entre o que a OpenAI e outras empresas estão oferecendo
A IA está se diversificando cada vez mais, e é provável que surjam vários tipos de agentes
Dizem que o Grok é excelente para gerar relatórios, e pedir respostas em formato de tabela facilita a comparação
DR é uma boa forma de coletar informações e realizar pesquisa de fato a partir de um ponto de partida focado
Comparando o OpenAI Deep Research com o Deep Research da Perplexity, há uma diferença de "estreito e profundo" vs. "raso e amplo"
Tenho testado vários fluxos de trabalho com Deep Search/Research
O STORM foi muito bem avaliado, mas o GPT Researcher não
São as maiores plataformas de organização de informação da internet, mas ainda não consigo encontrar outras palavras para descrever o produto