6 pontos por GN⁺ 2025-03-06 | 2 comentários | Compartilhar no WhatsApp
  • Recentemente, laboratórios de IA vêm anunciando várias funcionalidades usando o termo Deep Research
  • O Google lançou o Gemini 1.5 Deep Research em dezembro de 2024, a OpenAI lançou o Deep Research em fevereiro de 2025, e a Perplexity apresentou seu próprio Deep Research logo depois
  • Além disso, DeepSeek, Qwen da Alibaba e a xAI de Elon Musk passaram a introduzir recursos de Search e Deep Search em assistentes de chatbot
  • No GitHub, surgiram dezenas de implementações open source de “deep research”
  • Isso sugere que, assim como aconteceu com Retrieval-Augmented Generation (RAG) em 2025, o termo “deep research” está sendo usado sem uma definição clara

Deep Research, Deep Search ou apenas Search

> Google: “Deep Research usa IA para explorar temas complexos e fornecer relatórios abrangentes e fáceis de ler, mostrando que o Gemini está ficando ainda mais capaz de lidar com tarefas complexas e economizar tempo.” -
> OpenAI: “Deep Research é o agente de próxima geração da OpenAI: quando o usuário fornece um prompt, o ChatGPT busca, analisa e sintetiza centenas de fontes online para gerar um relatório abrangente no nível de um analista de pesquisa.”
> Perplexity: “Quando você faz uma pergunta de Deep Research, o Perplexity realiza dezenas de buscas, lê centenas de fontes, raciocina sobre o material e entrega autonomamente um relatório abrangente.”

  • Tirando os termos de marketing, deep research pode ser definido da seguinte forma
    > Um sistema de geração de relatórios que aceita uma consulta do usuário, usa um modelo de linguagem grande (LLM) como agente para buscar e analisar informações de forma iterativa e produz um relatório detalhado
  • Em termos de processamento de linguagem natural (NLP), isso é conhecido como report generation

Formas de implementação

  • Desde o surgimento do ChatGPT, geração de relatórios, ou “deep research”, tornou-se um dos principais focos da engenharia de IA
  • O autor experimentou isso em um hackathon no início de 2023, quando a engenharia de IA ainda estava começando a ganhar força
  • Ferramentas e inúmeros demos como LangChain, AutoGPT, GPT-Researcher e prompt engineering receberam grande atenção no Twitter e no LinkedIn
  • Porém, o verdadeiro desafio está nos detalhes de implementação
  • A seguir, são explorados padrões gerais para construir sistemas de geração de relatórios, destacando suas diferenças e classificando o que diferentes fornecedores oferecem

Sem treinamento: grafo acíclico direcionado (DAG)

  • No início, descobriu-se que não era prático pedir a LLMs como o GPT-3.5 que gerassem um relatório do zero
  • Em vez disso, foi usado o padrão Composite para encadear várias chamadas de LLM
  • A consulta do usuário é decomposta para gerar um esboço do relatório
  • Para cada seção, busca-se e resume-se informação relevante em mecanismos de busca ou bases de conhecimento
  • Por fim, usa-se a LLM para combinar as seções em um relatório coerente
  • O GPT-Researcher é um exemplo disso
    • Todos os prompts desse sistema são cuidadosamente ajustados por meio de prompt engineering
    • A avaliação depende de verificação subjetiva do resultado, e a qualidade do relatório é inconsistente
    • Quando funciona, é excelente, mas nem sempre é estável

Sem treinamento: máquina de estados finitos (FSM)

  • Para melhorar a qualidade dos relatórios, engenheiros adicionaram complexidade à abordagem DAG
  • Em vez de um processo de passagem única, introduziram padrões estruturados como Reflexion e self-reflection para que a LLM revise e melhore sua própria saída
  • Isso transforma um DAG simples em uma máquina de estados finitos (FSM), com a LLM guiando parcialmente as transições de estado
    • Assim como no método DAG, todos os prompts são escritos manualmente, e a avaliação é subjetiva
    • Como o sistema é ajustado manualmente, a qualidade do relatório ainda varia bastante

Com treinamento: ponta a ponta

  • As limitações dos métodos anteriores — prompt engineering aleatório e falta de métricas de avaliação mensuráveis — levaram à busca por mudanças
  • O STORM, de Stanford, resolve esses problemas ao otimizar o sistema de ponta a ponta usando DSPy
    • Como resultado, o STORM gera relatórios com qualidade comparável à de artigos da Wikipédia

Com treinamento: modelos de raciocínio em larga escala

  • Com a melhora da capacidade de raciocínio das LLMs, modelos de raciocínio em larga escala se tornaram uma opção atraente para deep research
  • Por exemplo, a OpenAI treina seu modelo de Deep Research da seguinte forma
    • Avalia as saídas usando LLM-as-a-judge e rubricas de avaliação
  • O Gemini do Google e o assistente de chat da Perplexity também oferecem recursos de “deep research”, mas não divulgam documentação sobre como otimizaram os modelos ou sistemas, nem avaliações quantitativas substanciais
  • No entanto, o gerente de produto de Deep Research do Google mencionou em uma entrevista em podcast: “Temos acesso especial. É praticamente o mesmo modelo (Gemini 1.5). Claro, fazemos nosso próprio trabalho adicional de pós-treinamento”
  • Isso sugere que o peso do trabalho de fine-tuning não é tão grande
  • Enquanto isso, o Grok da xAI se destaca em geração de relatórios, mas parece não buscar além de duas iterações
  • Ou seja, faz algumas buscas para as seções do esboço e algumas buscas para cada seção

Cenário competitivo

  • Foi desenvolvido um mapa conceitual para avaliar as capacidades de vários serviços que oferecem recursos de deep research
  • Eixo vertical: profundidade da pesquisa (número de ciclos iterativos de coleta de informação adicional com base em resultados anteriores)
  • Eixo horizontal: nível de treinamento (de sistemas ajustados manualmente até sistemas totalmente treinados com técnicas de machine learning)
  • Sistemas com treinamento representativos:
    • OpenAI Deep Research: sistema baseado em reinforcement learning otimizado para tarefas de pesquisa
    • DeepSeek: treinado para raciocínio geral e uso de ferramentas, podendo se adaptar a demandas de pesquisa
    • Google Gemini: LLM amplamente treinada, mas não especializada em pesquisa
    • Stanford STORM: sistema que otimiza todo o processo de pesquisa de ponta a ponta
  • Esse framework ajuda a entender como cada serviço equilibra a profundidade da pesquisa iterativa e a abordagem de treinamento

Conclusão

  • A tecnologia de deep research está evoluindo rapidamente, e técnicas que há poucos meses não funcionavam ou nem estavam implementadas agora estão sendo aplicadas com sucesso
  • No entanto, o uso ambíguo da terminologia aumenta a confusão
  • Espera-se que este texto ajude a esclarecer as diferenças técnicas e a evitar que as pessoas se deixem levar por termos de marketing

2 comentários

 
halfenif 2025-03-10

> Um colega brincou: "O AlphaGO venceu Lee Sedol, mas o Lee Sedol tem um algoritmo de direção autônoma muito melhor"

Mas só existe um Lee Sedol, e ele não pode ser clonado

 
GN⁺ 2025-03-06
Opinião no Hacker News
  • A distinção proposta por Han Xiao entre DeepSearch e DeepResearch é muito interessante

    • DeepSearch é o processo de repetir busca, leitura e raciocínio até encontrar a melhor resposta
    • DeepResearch adiciona um framework estruturado ao DeepSearch para gerar um longo relatório de pesquisa
    • Acho que DeepSearch é o padrão mais valioso e interessante
    • DeepResearch não passa de um efeito cosmético de empacotar o resultado como um "relatório" e tem grande potencial de produzir resultados imprecisos ou enganosos
  • Um colega brincou: "AlphaGO venceu Lee Sedol, mas Lee Sedol tem um algoritmo de direção autônoma muito melhor"

    • Isso destaca a grande diferença, ao longo do tempo, entre os sistemas de IA mais avançados e a "capacidade média" de uma pessoa comum
  • Parece capturar bem a diferença entre o que a OpenAI e outras empresas estão oferecendo

    • O Gemini 2.0 Flash do Google também tem integração nativa com a busca do Google
    • O DR da OpenAI tende a treinar modelos para tarefas específicas
    • Está avançando na direção de oferecer modelo + treinamento RL posterior como produto
    • O genspark MOA gera relatórios aprofundados para um determinado prompt
  • A IA está se diversificando cada vez mais, e é provável que surjam vários tipos de agentes

  • Dizem que o Grok é excelente para gerar relatórios, e pedir respostas em formato de tabela facilita a comparação

    • A Amazon escolhe os produtos a serem comparados, mas os critérios de comparação não são bons
    • Com o Grok, é possível adicionar ou remover colunas e encurtar a resposta
  • DR é uma boa forma de coletar informações e realizar pesquisa de fato a partir de um ponto de partida focado

    • O fato de um LLM ter feito isso não significa que ele tenha ficado mais sábio
    • O LLM não passa a entender o tema com mais profundidade
    • É necessária uma capacidade mais profunda de integrar e aplicar informações
    • Devido às limitações da arquitetura Transformer, o aprendizado em tempo real é difícil
  • Comparando o OpenAI Deep Research com o Deep Research da Perplexity, há uma diferença de "estreito e profundo" vs. "raso e amplo"

    • A OpenAI seleciona fontes de alta qualidade e se aprofunda em um tema específico
    • A Perplexity usa muitas fontes para oferecer um panorama superficial do espaço do problema
    • A OpenAI leva mais tempo
  • Tenho testado vários fluxos de trabalho com Deep Search/Research

    • Há abordagens imperativas (selecionar diretamente as fontes para gerar o relatório) e declarativas (usar algoritmos DFS/BFS)
    • Fico fascinado com o fluxo end-to-end de sistemas como o STORM
  • O STORM foi muito bem avaliado, mas o GPT Researcher não

    • É possível configurar o GPT Researcher para diferentes orçamentos
  • São as maiores plataformas de organização de informação da internet, mas ainda não consigo encontrar outras palavras para descrever o produto