1 pontos por GN⁺ 2024-11-01 | Ainda não há comentários. | Compartilhar no WhatsApp

Chain-of-Thought e queda de desempenho

  • Visão geral do Chain-of-Thought (CoT)

    • CoT é uma estratégia amplamente usada em grandes modelos de linguagem e multimodais.
    • Embora seja conhecido por melhorar o desempenho em várias tarefas, ainda está em andamento o esforço para determinar em quais configurações ele é eficaz.
  • Objetivo da pesquisa

    • Identificar as características das tarefas em que o CoT pode reduzir o desempenho do modelo.
    • Inspirando-se na psicologia cognitiva, o estudo examina: (i) casos em que pensamento verbal ou deliberação prejudicam o desempenho humano, e (ii) casos em que as restrições que governam o desempenho humano se generalizam para modelos de linguagem.
  • Principais casos estudados

    • Foram testados três casos, como aprendizagem estatística implícita, percepção visual e classificação de padrões com exceções.
    • Foi constatado que, em diversos modelos de ponta, usar pensamento durante a inferência reduz significativamente o desempenho (por exemplo, o OpenAI o1-preview apresentou queda de até 36,3% em acurácia absoluta em comparação com o GPT-4o).
  • Descobertas adicionais

    • Foram identificadas três tarefas que satisfazem a condição (i), mas não a (ii).
    • Nessas tarefas, embora o pensamento verbal prejudique o desempenho humano, o CoT mantém ou melhora o desempenho do modelo.
  • Conclusão

    • Embora não exista um paralelismo exato entre os processos cognitivos dos modelos e os dos humanos, considerar casos em que o pensamento afeta negativamente o desempenho humano ajuda a identificar configurações em que também pode haver impacto negativo nos modelos.
    • Ao conectar a literatura sobre deliberação humana com a avaliação de CoT, o estudo oferece uma nova ferramenta para entender a escolha de prompts e o impacto do pensamento durante a inferência.

Resumo do GN⁺

  • Este estudo mostra que o CoT não melhora o desempenho do modelo em todas as situações.
  • Ele sugere a possibilidade de prever quedas de desempenho do modelo a partir de casos em que o pensamento humano afeta negativamente o desempenho.
  • É interessante o uso de insights da psicologia cognitiva para entender o efeito do CoT.
  • Como projetos com funcionalidade semelhante, são recomendados os diversos modelos de linguagem da OpenAI.

Ainda não há comentários.

Ainda não há comentários.