O impacto negativo do Chain-of-Thought em tarefas nas quais pensar prejudica o desempenho humano
(arxiv.org)Chain-of-Thought e queda de desempenho
-
Visão geral do Chain-of-Thought (CoT)
- CoT é uma estratégia amplamente usada em grandes modelos de linguagem e multimodais.
- Embora seja conhecido por melhorar o desempenho em várias tarefas, ainda está em andamento o esforço para determinar em quais configurações ele é eficaz.
-
Objetivo da pesquisa
- Identificar as características das tarefas em que o CoT pode reduzir o desempenho do modelo.
- Inspirando-se na psicologia cognitiva, o estudo examina: (i) casos em que pensamento verbal ou deliberação prejudicam o desempenho humano, e (ii) casos em que as restrições que governam o desempenho humano se generalizam para modelos de linguagem.
-
Principais casos estudados
- Foram testados três casos, como aprendizagem estatística implícita, percepção visual e classificação de padrões com exceções.
- Foi constatado que, em diversos modelos de ponta, usar pensamento durante a inferência reduz significativamente o desempenho (por exemplo, o OpenAI o1-preview apresentou queda de até 36,3% em acurácia absoluta em comparação com o GPT-4o).
-
Descobertas adicionais
- Foram identificadas três tarefas que satisfazem a condição (i), mas não a (ii).
- Nessas tarefas, embora o pensamento verbal prejudique o desempenho humano, o CoT mantém ou melhora o desempenho do modelo.
-
Conclusão
- Embora não exista um paralelismo exato entre os processos cognitivos dos modelos e os dos humanos, considerar casos em que o pensamento afeta negativamente o desempenho humano ajuda a identificar configurações em que também pode haver impacto negativo nos modelos.
- Ao conectar a literatura sobre deliberação humana com a avaliação de CoT, o estudo oferece uma nova ferramenta para entender a escolha de prompts e o impacto do pensamento durante a inferência.
Resumo do GN⁺
- Este estudo mostra que o CoT não melhora o desempenho do modelo em todas as situações.
- Ele sugere a possibilidade de prever quedas de desempenho do modelo a partir de casos em que o pensamento humano afeta negativamente o desempenho.
- É interessante o uso de insights da psicologia cognitiva para entender o efeito do CoT.
- Como projetos com funcionalidade semelhante, são recomendados os diversos modelos de linguagem da OpenAI.
Ainda não há comentários.