Os problemas do OpenAI Deep Research

(ben-evans.com)

23 pontos por xguru 2025-02-20 | Ainda não há comentários. | Compartilhar no WhatsApp

> "O Deep Research da OpenAI foi feito para mim, mas eu não consigo usá-lo. Parece uma demo incrível, mas, no fim, inevitavelmente aparecem problemas. E a forma como esses problemas surgem é bem interessante." - Benedict Evans

O que eu faço principalmente é pesquisa e análise
- Encontro os dados que quero, organizo tudo, crio gráficos e extraio insights, expressando isso em texto e gráficos
- O processo então consiste em conversar com as pessoas com base nesses resultados
O Deep Research da OpenAI parece uma solução que automatiza esse tipo de “trabalho de pesquisa”
- Fiquei curioso para testar se essa ferramenta realmente era adequada
- Por coincidência, o tema do relatório de exemplo fornecido pelo Deep Research era o “mercado de smartphones”, uma área que eu conheço bem
A tabela apresentada no relatório de exemplo parecia excelente à primeira vista
- Mas a pergunta fundamental precisa vir antes: “de onde vieram esses dados?”
- O Deep Research citou ‘Statista’ e ‘Statcounter’ como fontes, mas as duas fontes têm problemas
  - O Statcounter é uma estatística baseada em tráfego, então tende a super-representar ou sub-representar determinadas plataformas por causa do viés no uso dos dispositivos
  - O Statista reaproveita outras fontes com otimização para SEO, e a fonte real existe separadamente
    - Isso não é muito diferente de dizer que “a fonte são os resultados de busca do Google”
Como exemplo, ao olhar os números de participação de iOS/Android no mercado japonês, o Deep Research apresenta “iOS 69%, Android 31%”
- O próprio Statcounter nunca apresentou 69% em nenhum momento nos últimos 12 meses
- A fonte real por trás do Statista é a Kantar Worldpanel, mas os números fornecidos pela Kantar são praticamente o oposto (cerca de Android 63%, iOS 36%)
- Enquanto isso, dados de um órgão do governo japonês (link, página 25) informam “cerca de 53% Android, 47% iOS”
- Além disso, os números da Kantar às vezes variam até 20 pontos percentuais de um mês para outro, então é difícil considerá-los dados que representem a “base instalada real de hardware”
Para verificar todas essas diferenças, no fim das contas é preciso revalidar todos os números da tabela
- Nesse caso, o principal motivo para usar a ferramenta — “economizar tempo” — praticamente desaparece
- No fim, fica difícil confiar cegamente nos dados que o Deep Research colocou na tabela
O problema aqui é que “um LLM não é um banco de dados”
- LLMs são fortes em entender a intenção de uma pergunta de forma probabilística, mas fracos em tarefas “determinísticas”, como extrair números exatos de uma fonte específica
- O Deep Research precisaria entender corretamente qual significado de participação de mercado o usuário quer e trazer os números certos de fontes confiáveis, mas não conseguiu fazer isso
Isso acaba mostrando o fenômeno de que “LLMs fazem bem o que computadores fazem mal (entender contexto), mas fazem mal o que computadores fazem bem (extrair informação exata)”
- A OpenAI tenta colocar no mesmo pacote tanto o papel de inferir a intenção do usuário quanto o de coletar informação precisa, mas no estado atual isso gera desalinhamento
- Ainda mais porque o próprio exemplo já era um material promocional apresentado pela OpenAI, e mesmo assim continha erros
Algumas pessoas podem dizer que “o modelo vai melhorar gradualmente, então isso vai evoluir”
- Mas mesmo que a tabela esteja 85% certa, se os outros 15% estiverem errados, a confiabilidade geral continua baixa
- Só quando isso se aproximar de 100% será possível falar em “pesquisa totalmente automatizada”, e sou cético quanto a esse ponto ser realmente alcançável
Ainda assim, isso não significa que a tecnologia seja totalmente inútil
- Se for um tema que você conhece bem, dá para gerar rapidamente um relatório de 20 páginas e depois corrigir manualmente apenas os erros, economizando tempo
- Eu chamo LLMs de “estagiário infinito”, e isso é parecido com a necessidade de revisar o rascunho trazido por um estagiário
- Citando Steve Jobs ao dizer que o computador é uma bicicleta para a mente, faz sentido usá-lo como ferramenta para ampliar a capacidade humana
Mas, no fundo, há dois problemas
- Não está claro se devemos construir produtos partindo do pressuposto de que o modelo pode errar, ou se devemos assumir que o próprio modelo acabará se tornando confiável
- Empresas como a OpenAI, além do enorme capital, ainda não demonstraram barreiras de entrada especiais nem capacidades reais de produto (fora das áreas de código e marketing)
  - Para que tentativas como o Deep Research virem de fato um ‘produto’ que seja mais do que “caixa de texto + API”, é preciso resolver a gestão de erros e o contexto de uso
  - Concorrentes como a Perplexity também estão surgindo e, no fim, o cenário mais provável é que outros softwares gerenciem a taxa de erro com base em APIs que abstraem os LLMs
Em resumo, o Deep Research é uma tentativa interessante, mas ainda é difícil garantir sua confiabilidade, e não está claro em que direção o setor vai evoluir

Os problemas do OpenAI Deep Research

Leituras relacionadas

Ainda não há comentários.