13 pontos por xguru 2025-02-03 | 3 comentários | Compartilhar no WhatsApp
  • A OpenAI apresentou no ChatGPT um novo recurso do tipo agente chamado "Deep Research"
  • Ele coleta, analisa e sintetiza grandes volumes de informação na internet para resolver automaticamente tarefas complexas em dezenas de minutos
  • Como uma etapa central para alcançar a AGI no futuro, a capacidade de "síntese de conhecimento" para criar novo conhecimento é essencial

Por que a OpenAI criou o Deep Research

  • Foi desenvolvido para usuários que precisam de resultados de pesquisa minuciosos e confiáveis, desde trabalho intelectual altamente especializado (finanças, ciência, políticas públicas, engenharia etc.) até pesquisa para grandes compras de bens de consumo
  • Pode encontrar e documentar rapidamente informações de nicho pouco visíveis ou fatos não intuitivos em várias fontes online
  • Permite automatizar pesquisas em nível profissional para aumentar significativamente a produtividade no trabalho

Como usar o Deep Research

  • Selecione o modo Deep Research na caixa de entrada de mensagens do ChatGPT
  • É possível anexar arquivos ou planilhas necessários junto com a solicitação (por exemplo, análise de concorrentes, recomendação personalizada de produtos etc.)
  • O Deep Research navega pela internet de 5 a até 30 minutos para elaborar um relatório detalhado
  • Durante a execução, é possível acompanhar o processo por uma barra lateral que mostra resumos por etapa e fontes de referência
  • O resultado final é fornecido no formato de relatório com citações abrangentes, e no futuro também deverá incluir imagens e visualizações de dados

Como funciona

  • Usa um modelo de próxima geração (baseado no OpenAI o3) que expande a capacidade de raciocínio do OpenAI o1 para lidar com navegação e análise complexas
  • Ele próprio realiza planejamento em várias etapas, coleta de informações e incorporação de feedback intermediário
  • Também pode acessar arquivos enviados pelo usuário e realizar análises, como criação de gráficos com ferramentas em Python
  • Cita as fontes em nível de frase específica para aumentar a precisão e a transparência

Avaliação no Humanity’s Last Exam

  • No Humanity’s Last Exam, uma avaliação ampla divulgada recentemente, registrou 26,6% de acerto, mostrando desempenho superior em relação aos modelos anteriores
    • Foram elaboradas mais de 3.000 questões em nível de especialista, abrangendo várias áreas do conhecimento
  • Houve grandes melhorias em relação aos modelos anteriores nas áreas de química, humanidades e ciências sociais, e matemática
  • Entre vários modelos usados para comparação, como GPT-4o, Grok-2, Claude 3.5 Sonnet, Gemini Thinking e OpenAI o1, o modelo do Deep Research apresentou a maior precisão, com 26,6%
    • O GPT-4o teve cerca de 3,3%, o Claude 3.5 Sonnet 4,3% e o OpenAI o1 9,1%

Benchmark GAIA

  • O GAIA é um indicador que avalia perguntas do mundo real que exigem navegação na web, processamento multimodal e uso de ferramentas
  • O modelo do Deep Research superou o melhor desempenho anterior nesse benchmark
  • As questões do GAIA são divididas em níveis de dificuldade de 1 a 3, e o Deep Research mostrou pontuações superiores ao recorde anterior em todos os níveis
  • Mais especificamente, em comparação com o recorde anterior, houve melhora de cerca de 6% a 8% em cada nível, elevando também a média geral

Trabalho em nível de especialista

  • Em avaliações internas, mostrou um nível de automação alto o suficiente para substituir pesquisas manuais que levariam várias horas
  • Como o desempenho melhora quanto mais o modelo navega e pensa, é importante dar tempo suficiente para o processamento

Limitações

  • Ainda podem ocorrer alguns erros factuais ou raciocínios incorretos (hallucination)
  • Há dificuldade em distinguir rumores de fontes mais confiáveis, e a expressão de incerteza pode não ser precisa
  • No início do lançamento, o formato de relatórios ou citações pode ainda não ser totalmente fluido, e o tempo de execução pode se alongar em alguns casos

Acesso e uso

  • No momento, o Deep Research tem alto custo computacional e está sendo disponibilizado primeiro para usuários Pro, com limite de até 100 usos por mês
  • Em breve também será liberado gradualmente para usuários Plus e Team
  • Há planos de expandir o suporte posteriormente para usuários do Reino Unido, Suíça e Espaço Econômico Europeu (EEA)
  • No futuro, uma versão menor do modelo, mais rápida e eficiente, aumentará bastante o limite de solicitações para todas as contas pagas

Próximos planos

  • O Deep Research está disponível primeiro na versão web do ChatGPT e em breve também será integrado aos apps para celular e desktop
  • No futuro, também deverá se conectar a dados por assinatura e recursos internos para oferecer resultados ainda mais personalizados
  • A expectativa é que, ao combinar o Deep Research com o Operator, seja possível construir uma experiência de agente mais avançada, capaz de executar automaticamente até tarefas reais offline/online

3 comentários

 
GN⁺ 2025-02-04

Comentários do Hacker News

  • Um usuário mencionou que tentou gerar um relatório sobre si mesmo, mas vários erros ocorreram. Por exemplo, sua reputação no Stack Overflow foi reconhecida incorretamente, e uma citação de entrevista foi atribuída à pessoa errada.

  • Outro usuário apontou que cerca de 10% das vezes os modelos de linguagem não conseguem fornecer respostas totalmente precisas, o que pode reduzir a confiança. Também enfatizou que o tempo necessário para verificar a exatidão das respostas é um fator importante.

  • Um usuário comentou que isso parece semelhante a um projeto recente de geração de relatórios lançado pela Standard.

  • Foi mencionado que o Gemini já oferece essa funcionalidade há alguns meses com o nome "Deep Research". Isso levanta dúvidas sobre a duplicação de nomes no mundo da IA.

  • Um usuário alertou que, mesmo reconhecendo os problemas de erros e alucinações, muitas pessoas vão ignorá-los e inserir os resultados em seus PowerPoints. Quanto mais poderosas essas ferramentas se tornarem, maior será a distorção da informação.

  • Foi mencionado que o modelo o3 ainda não lançado oferece suporte a esse recurso e que se trata de um modelo bastante impressionante. Foi destacado como um modelo de ponta ao lado de Google, DeepSeek e Perplexity.

  • Foi mencionado que isso parece ser uma ferramenta interessante para quem trabalha no meio acadêmico, mas que o custo é um obstáculo para testá-la. Também houve um pedido para que alguém a testasse com prompts específicos.

  • Foram levantadas dúvidas sobre essa capacidade como pré-condição para AGI e ASI. Houve ceticismo em relação à importância da pesquisa e preocupação com a dependência de respostas em vez de resultados executados.

  • Foi mencionado que, em testes internos, foi alcançada uma taxa de aprovação de apenas 20%, e que revisar uma grande quantidade de texto impreciso consome muito tempo. Argumentou-se que é necessário um processo mais iterativo.

  • Também foram levantadas dúvidas sobre se especialistas famosos ou pessoas em busca de visibilidade continuarão escrevendo em blogs. Houve preocupação com um cenário em que todos os leitores acabem sendo bots.

 
devil1032 2025-02-03

Estou com uma expectativa enorme por isso.. E isso nem era o one more thing..
Será que a polêmica da DeepSeek vai ser abafada por isso?