O impacto negativo do Chain-of-thought em tarefas nas quais pensar demais reduz o desempenho humano

(arxiv.org)

1 pontos por GN⁺ 2024-11-01 | 1 comentários | Compartilhar no WhatsApp

Chain-of-thought (CoT) é usado como se fosse uma estratégia padrão para melhorar o desempenho básico de LLMs e LMMs, mas ao transferir para a avaliação de modelos 6 tipos de tarefas psicológicas em que humanos erram por causa de deliberação verbal, o desempenho caiu bastante em algumas delas
A queda foi mais evidente em aprendizado estatístico implícito, reconhecimento facial difícil de verbalizar e aprendizado de regras com exceções; no OpenAI o1-preview, a acurácia absoluta em aprendizado de gramática artificial foi até 36,3% menor que a do GPT-4o zero-shot
Em reconhecimento facial, todos os 6 LMMs testados tiveram desempenho pior sob condição de CoT, e na classificação de veículos com exceções o GPT-4o teve um aumento de 331% no número de repetições necessárias para aprender os rótulos corretos em comparação com direct prompting
Em julgamento de inconsistência lógica, intuição espacial e agregação de preferências multidimensionais, o CoT não foi consistentemente prejudicial; conhecimento lógico prévio, contexto longo e experiências sensório-motoras diferentes das humanas explicaram parte das diferenças nos resultados
Casos de excesso de reflexão em humanos serviram como pista para encontrar tarefas em que o CoT falha de forma mais eficiente do que o acaso, mas a decisão de usar ou não CoT deve considerar em conjunto a capacidade do modelo e a estrutura da tarefa

Os riscos quando CoT vira padrão

Chain-of-thought (CoT) é uma técnica de prompting que instrui o modelo a “pensar passo a passo” ou a incluir uma estrutura de raciocínio intermediário na resposta
Grandes metaestudos mostraram que o CoT melhora o desempenho especialmente em tarefas de matemática e raciocínio simbólico, mas também foram observadas quedas em áreas como classificação de texto
Em LLMs e LMMs mais recentes, como os modelos o-series da OpenAI, a interface web do Claude e modelos com thinking, a inferência em tempo de raciocínio está se tornando um componente padrão
O que ainda falta é um padrão mais detalhado sobre em que situações o CoT reduz sistematicamente o desempenho
Este estudo usa como pista tarefas da psicologia em que “pensar” é prejudicial para humanos, buscando tarefas em que o CoT também se torna nocivo para modelos

Seis tipos de avaliação trazidos da psicologia humana

As tarefas representativas em que o pensamento verbal humano reduz o desempenho foram organizadas em 6 protótipos, e cada protótipo foi expandido para avaliação de LLMs e LMMs
Os 3 tipos em que a queda de desempenho com CoT foi clara:
- Aprendizado estatístico implícito: classificar se sequências geradas por uma gramática artificial pertencem ao mesmo padrão
- Estímulos difíceis de expressar em linguagem: reconhecimento facial em que, ao ver um rosto, o modelo precisa encontrar a mesma pessoa entre imagens candidatas
- Aprendizado de regras com exceções: aprender por feedback repetido rótulos misturados entre uma regra geral quase sempre correta e exceções
Os 3 tipos em que a queda com CoT não foi consistente:
- Tarefas de inferência em linguagem natural para julgar sentenças logicamente inconsistentes
- Tarefas de intuição espacial para estimar o nível da água ao inclinar um copo
- Tarefas de agregação de preferências para escolher a melhor opção entre apartamentos com muitos atributos
Os 6 datasets expandidos foram disponibilizados em human overthinking benchmark

As três tarefas em que o CoT vacilou bastante

Aprendizado estatístico implícito: classificação de gramática artificial
- As “palavras” artificiais foram geradas por finite-state grammar (FSG), e o modelo, após ver 15 exemplos de treino, precisava classificar se uma nova sequência vinha da mesma gramática
- Foram construídos 4.400 problemas de classificação a partir de 100 FSGs; em cada FSG, entre 44 palavras, 22 pertenciam à gramática e 22 eram geradas alterando uma letra de palavras existentes
- Os modelos testados foram OpenAI o1-preview, GPT-4o, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro e Llama 3·3.1 70B/8B Instruct
- O CoT reduziu a acurácia na maioria dos modelos
  - o1-preview ficou 36,3% abaixo em acurácia absoluta em relação ao GPT-4o zero-shot em um subconjunto de 440 problemas
  - GPT-4o caiu de 87,50% em zero-shot para 64,40% com CoT, queda de 23,10 p.p.
  - Claude 3 Opus caiu de 70,70% para 62,70%, redução de 8,00 p.p.
  - Gemini 1.5 Pro caiu de 68,00% para 61,95%, redução de 6,05 p.p.
  - Llama 3.1 70B Instruct caiu de 65,90% para 57,10%, redução de 8,80 p.p.
  - tree-of-thought e in-context reasoning steering melhoraram parcialmente o desempenho, mas não conseguiram reduzir de forma significativa a diferença para o desempenho zero-shot do GPT-4o
Reconhecimento facial: estímulos visuais difíceis de verbalizar
- A clássica tarefa de verbal overshadowing foi adaptada para LMMs, pedindo para escolher, entre 5 imagens candidatas, a mesma pessoa mostrada em uma imagem facial inicial
- O dataset foi composto por 500 problemas e 2.500 rostos únicos, e os rostos candidatos de cada problema compartilhavam descrições iguais de etnia, gênero, faixa etária, cor dos olhos, comprimento do cabelo, cor do cabelo e tipo de cabelo
- As imagens foram geradas com stable-image-ultra, e para cada problema foram usadas 1 imagem da mesma pessoa e 4 imagens de outras pessoas com a mesma descrição
- Todos os 6 LMMs testados tiveram queda de desempenho com CoT
- GPT-4o: 64,00% → 51,20%
- Claude 3 Opus: 44,00% → 29,60%
- Claude 3.5 Sonnet: 97,80% → 94,80%
- Gemini 1.5 Pro: 66,00% → 54,60%
- InternVL2 26B: 9,20% → 6,00%
- InternVL2 Llama3 76B: 15,77% → 13,77%
- Quedas semelhantes também apareceram em uma configuração de dificuldade reduzida e em uma configuração de classificação binária, sugerindo que o CoT não apenas atrapalhou a ordem das imagens, mas afetou o próprio processo de raciocínio
Aprendizado de regras com exceções: classificação de rótulos de veículos
- Na tarefa de classificação de veículos, o modelo atribuía rótulos binários a uma lista de veículos e recebia feedback após cada previsão, repetindo até acertar todos os rótulos de uma vez
- Cada veículo incluía 1 atributo com correlação de 80% com o rótulo, 3 atributos sem relação com o rótulo e 1 atributo que identificava individualmente o veículo
- Se o modelo aprendesse a regra geral quase correta, falharia nas exceções; se aprendesse a correspondência entre o atributo identificador individual e o rótulo, conseguiria acertar tudo
- Os 2.400 veículos foram divididos em 240 listas de 10, avaliadas com no máximo 15 repetições
- O CoT aumentou bastante o número de iterações necessárias para aprender os rótulos em todos os modelos avaliados
- GPT-4o: direct 2,9 vezes → CoT 12,5 vezes, aumento de 331%
- Claude 3.5 Sonnet: 2,3 vezes → 6,4 vezes, aumento de 178%
- Claude 3 Opus: 2,4 vezes → 5,5 vezes, aumento de 129%
- O direct prompting do GPT-4o alcançou classificação perfeita entre a 2ª e a 3ª repetição, mas com CoT o modelo ainda ficava, em média, em 8 acertos de 10 mesmo após 15 repetições
- Quando um steering prompt forte instruía explicitamente o modelo a combinar placas de identificação, o CoT também alcançava nível zero-shot, mas o CoT padrão não conseguia escolher o espaço de raciocínio ideal

Três tarefas que mostraram diferenças entre humanos e modelos

Julgamento de inconsistência lógica
- Em experimentos com humanos, pedir primeiro que a pessoa explicasse por que um par de sentenças inconsistentes poderia coexistir piorava o desempenho ao julgar a inconsistência real
- A avaliação com modelos foi expandida para 3.216 problemas usando pares de entailment de SNLI, MNLI e um dataset sintético
- GPT-4o e Llama 3.1 70B Instruct melhoraram bastante com CoT
- GPT-4o: MNLI 53,2% → 93,9%, SNLI 51,4% → 94,3%
- Llama 3.1 70B Instruct: MNLI 55,6% → 81,6%, SNLI 50,4% → 82,3%
- Os participantes humanos originais foram recrutados sem especialização em lógica formal, mas LLMs podem ter encontrado conhecimento sobre quebra-cabeças lógicos e manipulação lógica em seus corpora de treino, o que permite ao CoT elevar o desempenho em combinação com tokens extras
- Em modelos com desempenho zero-shot já alto, como Gemini 1.5 Pro e Claude 3 Opus, apareceram algumas quedas com CoT
Intuição espacial
- A tarefa de inclinar copos pergunta qual nível de água no copo vazio faria com que a água tocasse as bordas de ambos os copos ao serem inclinados no mesmo ângulo
- A tarefa humana original exigia desenhar diretamente o nível da água, mas a avaliação com LMMs foi convertida em problema visual de múltipla escolha com opções A~D
- Foram gerados 100 problemas no total com imagens desenhadas por código, e GPT-4o, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro e InternVL2 Llama3 76B foram avaliados
- Não foi observada diferença significativa entre zero-shot e CoT
- GPT-4o: 38% → 40%
- Claude 3.5 Sonnet: 42% → 38%
- Claude 3 Opus: 42% → 38%
- Gemini 1.5 Pro: 35% → 36%
- InternVL2 Llama3 76B: 39% → 31%
- A vantagem humana em condição não verbal vem de simulação visual e motora, mas neste cenário é difícil supor que LMMs tenham representações baseadas em experiência motora como as humanas
Agregação de preferências multidimensionais
- A tarefa de escolha de apartamentos consiste em selecionar o melhor apartamento após observar muitos atributos de 4 apartamentos
- Em experimentos com humanos, a condição com tarefa distratora levou a escolhas melhores do que a condição de reflexão após exposição breve a grande volume de informação
- Na avaliação com modelos, foram criados 80 atributos de apartamentos e frases positivas, negativas e neutras para cada atributo; o GPT-4o então avaliou o peso de cada frase de -5 a 5, e 300 tarefas de escolha foram construídas
- Em GPT-4o, Claude 3.5 Sonnet e Claude 3 Opus, o CoT em geral melhorou o desempenho; no Llama 3.1 70B Instruct, o desempenho foi menor porque muitas respostas em condição CoT não foram retornadas corretamente
- Ao contrário da memória de trabalho humana, os modelos conseguem consultar muitas frases dentro do contexto, então o CoT pode funcionar como um mecanismo de soma da importância dos atributos

Validação da heurística e limitações

Para verificar se tarefas escolhidas com base em casos de excesso de reflexão humano realmente encontravam melhor as falhas do CoT, o estudo usou como referência bootstrap 378 comparações entre zero-shot e CoT de Sprague et al. 2025
Ao comparar 50 diferenças numéricas por modelo nas 6 tarefas, não houve nenhuma amostra, entre 100.000 reamostragens, com queda média de desempenho maior que a encontrada no estudo
Mesmo considerando apenas a frequência de quedas de desempenho, apenas 11 entre 100.000 reamostragens tiveram queda no mesmo nível ou acima, resultando em um valor de p estimado menor que 0,00011
A heurística baseada em psicologia humana ajuda a encontrar melhor casos de falha do CoT tanto em tamanho de efeito quanto em frequência de ocorrência
Ainda assim, essa heurística não cobre todos os casos em que o CoT é ruim e pode deixar passar falhas importantes para modelos, ainda que pouco interessantes do ponto de vista humano

Implicações para implantação e avaliação de CoT

O CoT é uma forma eficaz de expandir a capacidade dos modelos, mas como pode reduzir bastante o desempenho em certos cenários, sua aplicação como padrão deve ser analisada tarefa por tarefa
Em tarefas nas quais a linguagem expressa mal diferenças perceptivas sutis, em tarefas que exigem capturar implicitamente padrões estatísticos complexos e em tarefas de aprendizado de regras com muitas exceções, o raciocínio intermediário verbal pode atrapalhar
Não é possível igualar diretamente os resultados de humanos e modelos, e conclusões que antropomorfizem os modelos como se fossem humanos não fazem parte do escopo deste estudo
As diferenças entre humanos e modelos também devem ser incorporadas à avaliação
- Modelos podem usar contextos mais longos que humanos
- Modelos podem ter encontrado padrões lógicos e resolução de problemas em seus corpora de treino
- Modelos podem não compartilhar simulações baseadas em experiência motora humana
No futuro, outros métodos de indução de raciocínio, como prompting por comparação e analogia, também podem ser avaliados levando em conta ao mesmo tempo os resultados da psicologia humana e as limitações dos modelos

1 comentários

GN⁺ 2024-11-01

Opiniões do Hacker News

É assustadoramente parecido com os problemas que enfrentamos na Pioneer ao criar fluxos de trabalho humano+LLM para situações de alto risco e alta complexidade.
Humanos são inteligentes, fazem muitos julgamentos e cálculos de forma inconsciente/implícita e usam muitos atalhos mentais.
Por isso, quando tentamos automatizar seguindo o processo real exatamente como ele é, o pensamento implícito vem à superfície e tudo fica mais lento; também tivemos de mudar de forma bastante criativa o modo de criar fluxos de trabalho com LLMs.
- Parece que linguagem está sendo confundida com lógica ou bom senso.
  Já vimos isso na psiquiatria e no jornalismo moderno, mas os LLMs deixam claro que uma linguagem gramaticalmente correta e com fluxo natural só precisa de um modelo do “mundo” da linguagem; compreensão da realidade, compreensão espacial, pistas sociais, lógica de senso comum e lógica matemática são quase opcionais.
  Gostaria de propor chamar a base linguística dos LLMs de Word Model. Não é erro de digitação.
  Tentar destilar um modelo de mundo a partir de um Word Model parece um bom ponto de partida para um remake moderno da caverna de Platão.
- Isto não é uma questão de velocidade, e sim de a precisão do modelo regredir em certas tarefas ao usar COT.
  
  Em experimentos amplos nas três configurações, descobrimos que um conjunto diverso de modelos de ponta apresenta desempenho significativamente pior que seus equivalentes zero-shot ao usar reasoning em tempo de inferência. Por exemplo, o OpenAI o1-preview teve uma queda de até 36,3% em precisão absoluta em relação ao GPT-4o.
  Ou seja, o problema identificado aqui é que COT é um método menos eficaz que a conclusão de chat sem modificações para algumas tarefas, não apenas que ele torna tudo mais lento.
Já vi um LLM ter esse tipo de problema quando eu estava testando.
Pedi para ordenar três frutas da maior para a menor; acho que eram laranja, mirtilo e toranja.
Com um prompt simples, ele acertava facilmente, mas, se eu colocasse algo como “pense passo a passo”, ele geralmente errava ao tentar resolver o problema em palavras.
- Fico pensando em quanto isso se aproxima da forma como aprendemos matemática.
  As respostas de problemas simples de matemática são aprendidas de modo meio instintivo, e em algum momento também desenvolvemos intuição para coisas como integrais ou derivadas.
  Mas, no instante em que pedem para explicar o porquê — ou, pior, exigem uma prova —, fica muito mais difícil. Mesmo que a resposta inicial possa estar correta.
- LLMs não pensam; eles comprimem a internet em um formato esperto de compressão com perdas, colocam uma boa interface em cima e recuperam coisas dali.
  Cadeia de pensamento é parecido com recomprimir um JPG várias vezes para tentar aumentar a qualidade. Se não está lá, não está lá.
- Seria interessante pensar em como ele errou.
  Na parte de “pensar passo a passo”, ele chegou a uma conclusão errada logo no início, talvez uma conclusão inferida de forma sutil, e LLMs são muito ruins em voltar atrás de erros; então provavelmente seguiu para uma conclusão internamente consistente, mas errada.
  Para mim, muito do COT parece um mecanismo para desacelerar o LLM e impedir conclusões prematuras, mas, se ele tira uma conclusão errada no começo, isso pode sair pela culatra em um contexto pior do que quando usado sem COT.
- Sempre achei interessante como o resultado muda quando se acrescentam condições adicionais ao problema de ordenação, como cor, cheiro, posição.
  Entendo isso, essencialmente, como essas condições afetando o espaço de probabilidade e enfraquecendo padrões emergentes que frequentemente superestimamos.
- A resposta do Claude sai assim:
  Ao listar as três frutas da maior para a menor, a ordem é toranja, laranja, mirtilo.
  Ele diz que a toranja geralmente tem cerca de 4 a 6 polegadas de diâmetro, sendo claramente a maior das três; a laranja costuma ter de 2 a 3 polegadas; e o mirtilo tem cerca de 0,5 polegada, sendo o menor.
Visto de outro modo, um poderoso algoritmo de autocompletar está expandindo repetidamente documentos existentes com base no conjunto de treinamento.
Às vezes, se você intervém para mudar o estilo do documento de perguntas e respostas para um formato menos comum, o resultado final pode ser menos desejável.
- Metade do HN pensa assim, e acho que a outra metade veria deste jeito:
  Um cérebro artificial às vésperas da singularidade mostrou mais um sinal de se aproximar da consciência. O desempenho do processo de cadeia de pensamento é exatamente igual ao dos humanos, e isso é mais uma prova da chegada da AGI antes de 2030.
- Esse enquadramento é mais longo, muito mais difícil de entender e transmite menos informação.
Além disso, cadeia de pensamento tem um custo computacional muito alto.
Com certeza é difícil bancar isso gratuitamente, como nos produtos da geração anterior da Web 2.0.
Não parece possível extrair AGI das probabilidades de tokens com prompting repetido.
Quando olharmos para trás, se tivermos de apontar um artigo que levou ao estouro e colapso da bolha de IA, talvez seja este.
A parte sobre “tarefas em que pensar piora o desempenho humano” é interessante.

Três desses casos são aprendizagem estatística implícita, reconhecimento visual e classificação de padrões com exceções.
É fascinante que nosso cérebro de lagarto seja melhor em inferência estatística implícita.
- Basta pensar em quão rápido o cérebro de lagarto calcula a trajetória da bola e onde colocar a mão ao pegar uma bola.
- Por definição, penso que pensar é sempre raciocínio explícito.
  E uma estimativa de Fermi bem ponderada provavelmente vence o chute visual do cérebro de lagarto todas as vezes. Mas, nessa zona intermediária, os dois parecem interferir negativamente um no outro.
- Era exatamente isso que eu estava procurando.
  Tarefas em que não se deve pensar, e sim confiar na intuição.
Isso mostra algo interessante sobre processamento de informação tanto em sistemas biológicos quanto em sistemas de IA.
Ambos comprimem informação. O cérebro cria padrões neurais eficientes por meio da experiência, e a IA desenvolve representações internas por meio do treinamento.
Quando somos forçados a expressar isso em palavras, essa codificação eficiente é “descomprimida” e pode perder padrões sutis.
Por isso, tarefas como reconhecimento visual, otimizadas para acontecer quase instantaneamente em processamento paralelo, só têm o desempenho prejudicado quando passadas por uma cadeia de pensamento serial.
95% × 95% = 90,25%
Muito interessante. Afinal, em que tipo de tarefa pensar torna os humanos piores?
- Atletas passam a se sair muito pior quando começam a pensar em seus movimentos, estratégias e táticas.
  Atletas de elite se saem melhor em um estado de fluxo, sem pensar em nada, deixando o corpo e a memória muscular trabalharem.
  No instante em que você pensa em microajustes, como levantar mais o cotovelo, passa a controlar conscientemente o corpo, o que é mais de uma ordem de grandeza mais lento e menos coordenado que o modo automático e inconsciente.
  Criatividade e novas ideias são parecidas. Se você pensa deliberadamente em algo passo a passo, fica difícil encontrar uma solução nova e inovadora.
  Há uma razão para o momento “aha!” acontecer no banho: é porque o subconsciente está pensando no problema, em vez de empurrar o pensamento à força por um caminho específico.
  Parece haver muitas áreas em que fazer o processo de pensamento passar por um template específico atrapalha o uso de todos os recursos e capacidades do cérebro disponíveis.
- A resposta está no texto. Um dos exemplos é gramática.
  Dizem que muitas pessoas pioram no momento em que tentam explicar gramática em palavras.
- Com senhas fortes também: você pode acabar esquecendo a própria senha se tentar soletrar mentalmente cada caractere, um por um.
  Mas, quando senta diante do teclado e relaxa, digita tudo perfeitamente no automático.
Lembro de um mantra que ouvi em aulas de xadrez:
Se você pensa por muito tempo, pensa errado
- A formulação original de Bent Larsen é “uma variante longa é uma variante errada”.

O impacto negativo do Chain-of-thought em tarefas nas quais pensar demais reduz o desempenho humano

Os riscos quando CoT vira padrão

Seis tipos de avaliação trazidos da psicologia humana

As três tarefas em que o CoT vacilou bastante

Aprendizado estatístico implícito: classificação de gramática artificial

O CoT reduziu a acurácia na maioria dos modelos

Reconhecimento facial: estímulos visuais difíceis de verbalizar

Aprendizado de regras com exceções: classificação de rótulos de veículos

Três tarefas que mostraram diferenças entre humanos e modelos

Julgamento de inconsistência lógica

Intuição espacial

Agregação de preferências multidimensionais

Validação da heurística e limitações

Implicações para implantação e avaliação de CoT

Leituras relacionadas

1 comentários

Opiniões do Hacker News