23 pontos por xguru 2025-02-20 | Ainda não há comentários. | Compartilhar no WhatsApp

> "O Deep Research da OpenAI foi feito para mim, mas eu não consigo usá-lo. Parece uma demo incrível, mas, no fim, inevitavelmente aparecem problemas. E a forma como esses problemas surgem é bem interessante." - Benedict Evans

  • O que eu faço principalmente é pesquisa e análise
    • Encontro os dados que quero, organizo tudo, crio gráficos e extraio insights, expressando isso em texto e gráficos
    • O processo então consiste em conversar com as pessoas com base nesses resultados
  • O Deep Research da OpenAI parece uma solução que automatiza esse tipo de “trabalho de pesquisa”
    • Fiquei curioso para testar se essa ferramenta realmente era adequada
    • Por coincidência, o tema do relatório de exemplo fornecido pelo Deep Research era o “mercado de smartphones”, uma área que eu conheço bem
  • A tabela apresentada no relatório de exemplo parecia excelente à primeira vista
    • Mas a pergunta fundamental precisa vir antes: “de onde vieram esses dados?”
    • O Deep Research citou ‘Statista’ e ‘Statcounter’ como fontes, mas as duas fontes têm problemas
      • O Statcounter é uma estatística baseada em tráfego, então tende a super-representar ou sub-representar determinadas plataformas por causa do viés no uso dos dispositivos
      • O Statista reaproveita outras fontes com otimização para SEO, e a fonte real existe separadamente
        • Isso não é muito diferente de dizer que “a fonte são os resultados de busca do Google”
  • Como exemplo, ao olhar os números de participação de iOS/Android no mercado japonês, o Deep Research apresenta “iOS 69%, Android 31%”
    • O próprio Statcounter nunca apresentou 69% em nenhum momento nos últimos 12 meses
    • A fonte real por trás do Statista é a Kantar Worldpanel, mas os números fornecidos pela Kantar são praticamente o oposto (cerca de Android 63%, iOS 36%)
    • Enquanto isso, dados de um órgão do governo japonês (link, página 25) informam “cerca de 53% Android, 47% iOS”
    • Além disso, os números da Kantar às vezes variam até 20 pontos percentuais de um mês para outro, então é difícil considerá-los dados que representem a “base instalada real de hardware”
  • Para verificar todas essas diferenças, no fim das contas é preciso revalidar todos os números da tabela
    • Nesse caso, o principal motivo para usar a ferramenta — “economizar tempo” — praticamente desaparece
    • No fim, fica difícil confiar cegamente nos dados que o Deep Research colocou na tabela
  • O problema aqui é que “um LLM não é um banco de dados”
    • LLMs são fortes em entender a intenção de uma pergunta de forma probabilística, mas fracos em tarefas “determinísticas”, como extrair números exatos de uma fonte específica
    • O Deep Research precisaria entender corretamente qual significado de participação de mercado o usuário quer e trazer os números certos de fontes confiáveis, mas não conseguiu fazer isso
  • Isso acaba mostrando o fenômeno de que “LLMs fazem bem o que computadores fazem mal (entender contexto), mas fazem mal o que computadores fazem bem (extrair informação exata)”
    • A OpenAI tenta colocar no mesmo pacote tanto o papel de inferir a intenção do usuário quanto o de coletar informação precisa, mas no estado atual isso gera desalinhamento
    • Ainda mais porque o próprio exemplo já era um material promocional apresentado pela OpenAI, e mesmo assim continha erros
  • Algumas pessoas podem dizer que “o modelo vai melhorar gradualmente, então isso vai evoluir”
    • Mas mesmo que a tabela esteja 85% certa, se os outros 15% estiverem errados, a confiabilidade geral continua baixa
    • Só quando isso se aproximar de 100% será possível falar em “pesquisa totalmente automatizada”, e sou cético quanto a esse ponto ser realmente alcançável
  • Ainda assim, isso não significa que a tecnologia seja totalmente inútil
    • Se for um tema que você conhece bem, dá para gerar rapidamente um relatório de 20 páginas e depois corrigir manualmente apenas os erros, economizando tempo
    • Eu chamo LLMs de “estagiário infinito”, e isso é parecido com a necessidade de revisar o rascunho trazido por um estagiário
    • Citando Steve Jobs ao dizer que o computador é uma bicicleta para a mente, faz sentido usá-lo como ferramenta para ampliar a capacidade humana
  • Mas, no fundo, há dois problemas
    • Não está claro se devemos construir produtos partindo do pressuposto de que o modelo pode errar, ou se devemos assumir que o próprio modelo acabará se tornando confiável
    • Empresas como a OpenAI, além do enorme capital, ainda não demonstraram barreiras de entrada especiais nem capacidades reais de produto (fora das áreas de código e marketing)
      • Para que tentativas como o Deep Research virem de fato um ‘produto’ que seja mais do que “caixa de texto + API”, é preciso resolver a gestão de erros e o contexto de uso
      • Concorrentes como a Perplexity também estão surgindo e, no fim, o cenário mais provável é que outros softwares gerenciem a taxa de erro com base em APIs que abstraem os LLMs
  • Em resumo, o Deep Research é uma tentativa interessante, mas ainda é difícil garantir sua confiabilidade, e não está claro em que direção o setor vai evoluir

Ainda não há comentários.

Ainda não há comentários.