Deep Research, Deep Search e Search: quais são as diferenças

(leehanchung.github.io)

6 pontos por GN⁺ 2025-03-06 | 2 comentários | Compartilhar no WhatsApp

Recentemente, laboratórios de IA vêm anunciando várias funcionalidades usando o termo Deep Research
O Google lançou o Gemini 1.5 Deep Research em dezembro de 2024, a OpenAI lançou o Deep Research em fevereiro de 2025, e a Perplexity apresentou seu próprio Deep Research logo depois
Além disso, DeepSeek, Qwen da Alibaba e a xAI de Elon Musk passaram a introduzir recursos de Search e Deep Search em assistentes de chatbot
No GitHub, surgiram dezenas de implementações open source de “deep research”
Isso sugere que, assim como aconteceu com Retrieval-Augmented Generation (RAG) em 2025, o termo “deep research” está sendo usado sem uma definição clara

Deep Research, Deep Search ou apenas Search

> Google: “Deep Research usa IA para explorar temas complexos e fornecer relatórios abrangentes e fáceis de ler, mostrando que o Gemini está ficando ainda mais capaz de lidar com tarefas complexas e economizar tempo.” -
> OpenAI: “Deep Research é o agente de próxima geração da OpenAI: quando o usuário fornece um prompt, o ChatGPT busca, analisa e sintetiza centenas de fontes online para gerar um relatório abrangente no nível de um analista de pesquisa.”
> Perplexity: “Quando você faz uma pergunta de Deep Research, o Perplexity realiza dezenas de buscas, lê centenas de fontes, raciocina sobre o material e entrega autonomamente um relatório abrangente.”

Tirando os termos de marketing, deep research pode ser definido da seguinte forma
> Um sistema de geração de relatórios que aceita uma consulta do usuário, usa um modelo de linguagem grande (LLM) como agente para buscar e analisar informações de forma iterativa e produz um relatório detalhado
Em termos de processamento de linguagem natural (NLP), isso é conhecido como report generation

Formas de implementação

Desde o surgimento do ChatGPT, geração de relatórios, ou “deep research”, tornou-se um dos principais focos da engenharia de IA
O autor experimentou isso em um hackathon no início de 2023, quando a engenharia de IA ainda estava começando a ganhar força
Ferramentas e inúmeros demos como LangChain, AutoGPT, GPT-Researcher e prompt engineering receberam grande atenção no Twitter e no LinkedIn
Porém, o verdadeiro desafio está nos detalhes de implementação
A seguir, são explorados padrões gerais para construir sistemas de geração de relatórios, destacando suas diferenças e classificando o que diferentes fornecedores oferecem

Sem treinamento: grafo acíclico direcionado (DAG)

No início, descobriu-se que não era prático pedir a LLMs como o GPT-3.5 que gerassem um relatório do zero
Em vez disso, foi usado o padrão Composite para encadear várias chamadas de LLM
A consulta do usuário é decomposta para gerar um esboço do relatório
Para cada seção, busca-se e resume-se informação relevante em mecanismos de busca ou bases de conhecimento
Por fim, usa-se a LLM para combinar as seções em um relatório coerente
O GPT-Researcher é um exemplo disso
- Todos os prompts desse sistema são cuidadosamente ajustados por meio de prompt engineering
- A avaliação depende de verificação subjetiva do resultado, e a qualidade do relatório é inconsistente
- Quando funciona, é excelente, mas nem sempre é estável

Sem treinamento: máquina de estados finitos (FSM)

Para melhorar a qualidade dos relatórios, engenheiros adicionaram complexidade à abordagem DAG
Em vez de um processo de passagem única, introduziram padrões estruturados como Reflexion e self-reflection para que a LLM revise e melhore sua própria saída
Isso transforma um DAG simples em uma máquina de estados finitos (FSM), com a LLM guiando parcialmente as transições de estado
- Assim como no método DAG, todos os prompts são escritos manualmente, e a avaliação é subjetiva
- Como o sistema é ajustado manualmente, a qualidade do relatório ainda varia bastante

Com treinamento: ponta a ponta

As limitações dos métodos anteriores — prompt engineering aleatório e falta de métricas de avaliação mensuráveis — levaram à busca por mudanças
O STORM, de Stanford, resolve esses problemas ao otimizar o sistema de ponta a ponta usando DSPy
- Como resultado, o STORM gera relatórios com qualidade comparável à de artigos da Wikipédia

Com treinamento: modelos de raciocínio em larga escala

Com a melhora da capacidade de raciocínio das LLMs, modelos de raciocínio em larga escala se tornaram uma opção atraente para deep research
Por exemplo, a OpenAI treina seu modelo de Deep Research da seguinte forma
- Avalia as saídas usando LLM-as-a-judge e rubricas de avaliação
O Gemini do Google e o assistente de chat da Perplexity também oferecem recursos de “deep research”, mas não divulgam documentação sobre como otimizaram os modelos ou sistemas, nem avaliações quantitativas substanciais
No entanto, o gerente de produto de Deep Research do Google mencionou em uma entrevista em podcast: “Temos acesso especial. É praticamente o mesmo modelo (Gemini 1.5). Claro, fazemos nosso próprio trabalho adicional de pós-treinamento”
Isso sugere que o peso do trabalho de fine-tuning não é tão grande
Enquanto isso, o Grok da xAI se destaca em geração de relatórios, mas parece não buscar além de duas iterações
Ou seja, faz algumas buscas para as seções do esboço e algumas buscas para cada seção

Cenário competitivo

Foi desenvolvido um mapa conceitual para avaliar as capacidades de vários serviços que oferecem recursos de deep research
Eixo vertical: profundidade da pesquisa (número de ciclos iterativos de coleta de informação adicional com base em resultados anteriores)
Eixo horizontal: nível de treinamento (de sistemas ajustados manualmente até sistemas totalmente treinados com técnicas de machine learning)
Sistemas com treinamento representativos:
- OpenAI Deep Research: sistema baseado em reinforcement learning otimizado para tarefas de pesquisa
- DeepSeek: treinado para raciocínio geral e uso de ferramentas, podendo se adaptar a demandas de pesquisa
- Google Gemini: LLM amplamente treinada, mas não especializada em pesquisa
- Stanford STORM: sistema que otimiza todo o processo de pesquisa de ponta a ponta
Esse framework ajuda a entender como cada serviço equilibra a profundidade da pesquisa iterativa e a abordagem de treinamento

Conclusão

A tecnologia de deep research está evoluindo rapidamente, e técnicas que há poucos meses não funcionavam ou nem estavam implementadas agora estão sendo aplicadas com sucesso
No entanto, o uso ambíguo da terminologia aumenta a confusão
Espera-se que este texto ajude a esclarecer as diferenças técnicas e a evitar que as pessoas se deixem levar por termos de marketing

2 comentários

halfenif 2025-03-10

> Um colega brincou: "O AlphaGO venceu Lee Sedol, mas o Lee Sedol tem um algoritmo de direção autônoma muito melhor"

Mas só existe um Lee Sedol, e ele não pode ser clonado

GN⁺ 2025-03-06

Opinião no Hacker News

A distinção proposta por Han Xiao entre DeepSearch e DeepResearch é muito interessante
- DeepSearch é o processo de repetir busca, leitura e raciocínio até encontrar a melhor resposta
- DeepResearch adiciona um framework estruturado ao DeepSearch para gerar um longo relatório de pesquisa
- Acho que DeepSearch é o padrão mais valioso e interessante
- DeepResearch não passa de um efeito cosmético de empacotar o resultado como um "relatório" e tem grande potencial de produzir resultados imprecisos ou enganosos
Um colega brincou: "AlphaGO venceu Lee Sedol, mas Lee Sedol tem um algoritmo de direção autônoma muito melhor"
- Isso destaca a grande diferença, ao longo do tempo, entre os sistemas de IA mais avançados e a "capacidade média" de uma pessoa comum
Parece capturar bem a diferença entre o que a OpenAI e outras empresas estão oferecendo
- O Gemini 2.0 Flash do Google também tem integração nativa com a busca do Google
- O DR da OpenAI tende a treinar modelos para tarefas específicas
- Está avançando na direção de oferecer modelo + treinamento RL posterior como produto
- O genspark MOA gera relatórios aprofundados para um determinado prompt
A IA está se diversificando cada vez mais, e é provável que surjam vários tipos de agentes
Dizem que o Grok é excelente para gerar relatórios, e pedir respostas em formato de tabela facilita a comparação
- A Amazon escolhe os produtos a serem comparados, mas os critérios de comparação não são bons
- Com o Grok, é possível adicionar ou remover colunas e encurtar a resposta
DR é uma boa forma de coletar informações e realizar pesquisa de fato a partir de um ponto de partida focado
- O fato de um LLM ter feito isso não significa que ele tenha ficado mais sábio
- O LLM não passa a entender o tema com mais profundidade
- É necessária uma capacidade mais profunda de integrar e aplicar informações
- Devido às limitações da arquitetura Transformer, o aprendizado em tempo real é difícil
Comparando o OpenAI Deep Research com o Deep Research da Perplexity, há uma diferença de "estreito e profundo" vs. "raso e amplo"
- A OpenAI seleciona fontes de alta qualidade e se aprofunda em um tema específico
- A Perplexity usa muitas fontes para oferecer um panorama superficial do espaço do problema
- A OpenAI leva mais tempo
Tenho testado vários fluxos de trabalho com Deep Search/Research
- Há abordagens imperativas (selecionar diretamente as fontes para gerar o relatório) e declarativas (usar algoritmos DFS/BFS)
- Fico fascinado com o fluxo end-to-end de sistemas como o STORM
O STORM foi muito bem avaliado, mas o GPT Researcher não
- É possível configurar o GPT Researcher para diferentes orçamentos
São as maiores plataformas de organização de informação da internet, mas ainda não consigo encontrar outras palavras para descrever o produto