Uma tarefa simples que mostra colapso de raciocínio em LLMs recentes

(arxiv.org)

3 pontos por GN⁺ 2024-06-06 | 1 comentários | Compartilhar no WhatsApp

Mesmo apenas com o curto problema AIW, a generalização e o raciocínio básico de LLMs recentes como GPT-4 e Claude 3 Opus podem se abalar bastante
O problema tem a forma “Alice has N brothers and M sisters. How many sisters does Alice’s brother have?”, e a resposta correta é M+1, somando a própria Alice às irmãs de Alice
Variações naturais com N, M ≤ 7 não mudam a estrutura nem a dificuldade, mas no exemplo do GPT-4 aparece uma oscilação de desempenho em que a taxa de acerto da variação 3 fica próxima de 0 e a da variação 4 próxima de 1
Indução de cadeia de raciocínio (chain-of-thought), revisão, autoverificação e interação em múltiplos turnos não conseguiram corrigir de forma estável as falhas, e respostas erradas frequentemente vinham acompanhadas de explicações plausíveis e excesso de confiança
Pelos resultados dos problemas de controle AIW Light, é difícil explicar as falhas apenas com parsing de linguagem, compreensão de relações familiares, associação de atributos de gênero ou aritmética básica, o que sugere revisar a capacidade dos benchmarks padrão de detectar falhas de generalização

Falhas simples de raciocínio reveladas pelo problema AIW

LLMs vêm sendo avaliados como fortes em generalização e raciocínio por obterem altas pontuações em benchmarks padrão como MMLU, HellaSwag, ARC, MATH e GSM8k
Essa avaliação também é verificada testando se a mesma capacidade se mantém em problemas curtos de senso comum que pessoas conseguem resolver facilmente, em vez de apenas benchmarks complexos
O template do problema AIW é o seguinte
- “Alice has N brothers and she also has M sisters. How many sisters does Alice’s brother have?”
- Assume-se que todos os irmãos compartilham os mesmos pais
- O número de irmãs que um irmão homem de Alice tem é M+1, somando a própria Alice às irmãs dela
As variações do problema são feitas trocando números naturais com N, M ≤ 7, mantendo estrutura e dificuldade
- Variation 1: Alice has 3 brothers and 6 sisters → resposta 7
- Variation 2: Alice has 2 sisters and 4 brothers → resposta 3
- Variation 3: Alice has 4 sisters and 1 brother → resposta 5
- Variation 4: Alice has 4 brothers and 1 sister → resposta 2

Taxa de acerto oscila fortemente conforme a variação

Os LLMs recentes testados mostram baixa taxa média de acerto e grande variação no problema AIW e em variações que preservam sua estrutura
No GPT-4 (gpt-4-0613), com 60 execuções por variação, os resultados mudam bastante conforme os números do problema
- Na Variation 3, a taxa de acerto fica próxima de 0
- Na Variation 4, a taxa de acerto fica próxima de 1
- O mesmo fenômeno aparece nos tipos de prompt STANDARD, THINKING e RESTRICTED
Como o desempenho oscila apenas com mudanças numéricas irrelevantes para a solução do problema, isso é interpretado como falta de robustez e falha de generalização
Modelos de raciocínio mais recentes, como DeepSeek-R1 e o1-mini, também mostram forte oscilação de desempenho em versões do problema AIW, indicando a mesma vulnerabilidade
Modelos grandes como GPT-4/4o, Claude 3 Opus/Claude 3.5 Sonnet, Qwen 2.5 72B e Llama 3.1 405B têm taxa de acerto acima de 0 e muitas vezes exibem raciocínio correto quando acertam
- Ainda assim, a frequência desse raciocínio correto varia bastante conforme variações naturais que preservam a estrutura
- O ponto central não é a ausência total de raciocínio, mas sim que ele é frágil e facilmente perturbado

Causas simples descartadas com problemas de controle

Para verificar se a causa das falhas era um problema de baixo nível, como parsing de linguagem natural, tratamento de números, compreensão de relações familiares, associação de atributos ou aritmética básica, foram criados os problemas de controle AIW Light
AIW Light Arithmetic Siblings tem a forma “Alice has N brothers and M sisters. How many siblings does Alice have?”
- A resposta é N+M
- Basta entender a relação familiar e somar o número de irmãos e irmãs informados
- Diferentemente do AIW original, não exige operação de conjunto que inclua Alice no conjunto das irmãs nem associação de atributo de gênero
AIW Light Family pergunta “How many brothers does Alice’s sister have?”
- A resposta é N
- Exige apenas compreensão básica da relação familiar e da entidade “Alice’s sister”
- Não requer aritmética nem operação de conjunto
AIW Light Arithmetic Total Girls pergunta “How many girls are there in total?”
- A resposta é a mesma do AIW original, M+1
- Exige o atributo de que Alice é mulher, o gênero das irmãs e a soma do total de meninas
- Diferentemente do AIW original, não exige a operação de conjunto de atribuir Alice ao conjunto de irmãs do irmão homem
Os resultados dos problemas de controle indicam que as falhas do AIW original são difíceis de explicar apenas por tokenização, parsing de linguagem natural, estrutura familiar básica, associação de atributos ou aritmética elementar

Prompts e procedimento de avaliação

O experimento usou três principais tipos de prompt para verificar o efeito de prompt engineering
- STANDARD: instruía a produzir a resposta final em formato de número natural
- THINKING: incentivava pensar com cuidado, encorajando um estilo de chain-of-thought
- RESTRICTED: restringia a saída a nada além do número natural da resposta final
THINKING v2 é uma pequena variação do THINKING com a expressão “step by step” adicionada, e mostrou o mesmo padrão de desempenho em experimentos de controle
Cada entrada tinha a forma <variação do problema> <tipo de prompt>, e o formato ### Answer: era solicitado para facilitar o parsing da resposta final do modelo
- Os modelos conseguiram seguir essa instrução de formato
- Também foram feitos experimentos de controle sem essa instrução, confirmando que o comportamento observado não dependia dela
Para cada combinação de modelo, variação do problema e tipo de prompt, foram coletadas no mínimo 30 execuções
- O acerto foi interpretado como ensaio de Bernoulli
- A estimativa da taxa de acerto foi calculada como proporção de sucessos X/n
- A média e a variância da probabilidade p foram estimadas, e parâmetros da distribuição Beta foram usados para visualizar a distribuição de desempenho
A seleção de modelos focou LLMs SOTA que alegam forte capacidade de generalização e raciocínio e aparecem bem colocados em benchmarks e leaderboards padrão
- Quando possível, foram incluídos modelos menores e maiores dentro da mesma família
- Foram usados acesso via API ou implantação local baseada em vLLM
- liteLLM e TogetherAI foram usados nos experimentos
- Dados brutos de resposta, estimativas de taxa de acerto e rotinas experimentais foram disponibilizados para reprodutibilidade e validação pela comunidade

Excesso de confiança nos erros e reavaliação dos benchmarks

Em variações do AIW com baixa taxa de acerto, o pico da distribuição dos números produzidos pode se concentrar em uma resposta errada, o que dificulta resolver o problema apenas com voto majoritário
As respostas erradas muitas vezes vêm acompanhadas de explicações plausíveis
- O modelo gera frases convincentes para sustentar uma resposta final incorreta
- Também aparece um tom de certeza de que a resposta está correta
- Em situações em que o usuário não consegue verificar facilmente a resposta, isso pode levá-lo ao resultado errado
Mesmo em experimentos com interação em múltiplos turnos e autoverificação, os modelos falharam em detectar corretamente seus erros ou corrigir respostas erradas
Intervenções padrão, como indução de cadeia de raciocínio, pedido de revisão e reavaliação em múltiplas etapas, não conseguiram corrigir de forma estável a oscilação da taxa de acerto e as falhas no problema AIW
Há casos em que modelos com alta pontuação em benchmarks padrão mostram desempenho com taxa de acerto próxima de 0 em variações simples do AIW, o que indica que os procedimentos atuais de avaliação não detectam adequadamente falhas de generalização e raciocínio
As capacidades dos LLMs SOTA atuais precisam ser reavaliadas, e novos benchmarks padrão capazes de capturar esse tipo de falha são necessários

1 comentários

GN⁺ 2024-06-06

Comentários do Hacker News

Para quem está pensando se vale a pena ler o artigo: embora o PDF pareça longo, o ponto principal do texto está basicamente nas primeiras 10 páginas, então dá para ler bem rápido
Os exemplos usados aqui são relativamente simples para humanos, mas é fácil saltar para a conclusão errada se você não parar um instante para pensar
A parte realmente incômoda é que, olhando para a natureza das ferramentas atuais, não sei se isso pode ser corrigido de forma realista. Elas não raciocinam nem pensam em nenhum sentido, mas mesmo assim muita gente já as trata como IA de uso geral
O fato de conseguirem fingir de forma convincente que raciocinam em várias situações também alimenta o hype. Não sei se este artigo vai realmente impactar os lançamentos e exageros em torno de IA, ou se vai ser ignorado até que os riscos reapareçam, como aconteceu no lançamento da busca do Google
- Para um raciocínio minimamente complexo, é preciso monólogo interno e repetição. No pensamento do tipo 2, você cria e avalia possíveis soluções, argumentos e caminhos de raciocínio na cabeça, e depois escolhe o que parecer adequado ou correto
  Dá para imitar parte disso puxando esse processo interno para fora via prompt, mas, na prática, isso deveria ser um processo interno e automático
  Ainda não sabemos como fazer isso porque controlar o processo interno de pensamento não é necessariamente algo baseado em linguagem, e os processos internos de pensamento do cérebro biológico não podem ser observados diretamente para virar dados de treinamento
  Os LLMs atuais têm algo em comum com o behaviorismo e, na prática, parece que precisamos de algo ao qual se possa aplicar psicologia cognitiva: https://en.wikipedia.org/wiki/Behaviorism
- Pode haver uma solução bem simples. Fazer o modelo reconstruir o problema em uma linguagem lógica como Prolog e, em vez de depender só de treinamento de raciocínio em cadeia, executar esse programa para chegar à resposta
  Humanos também não criam modelos lógicos do nada; passamos anos na educação básica aprendendo a entender o mundo e a resolver problemas
  A abordagem de programação lógica parece promissora, mas, para funcionar de verdade, seria preciso alimentar o LLM com uma quantidade enorme de exemplos, e não está claro se hoje já existem dados de treinamento suficientes para isso
- Para quem usa esses sistemas de forma crítica e consciente, isso em geral é óbvio demais. É desanimador que seja preciso até um PDF no arxiv.org para dizer que o rei está nu
  A maioria das pessoas que usa LLM pode verificar isso por conta própria agora mesmo, se quiser
  Mas a força da propaganda tecnológica corporativa é tão grande que muita gente provavelmente vai insistir que, na verdade, seres humanos nunca usaram roupa para começo de conversa
- Se você pensar seriamente sobre o que é um LLM, parece improvável que isso leve a uma IA de uso geral. Ao mesmo tempo, ele já faz muito mais coisas do que imaginávamos
  Talvez as pessoas tenham ficado tão impressionadas com o que a OpenAI conseguiu que agora estejam torcendo para que, com computação suficiente e o modelo certo, a AGI simplesmente apareça
- A questão é com que frequência humanos erram essa pergunta sem prompt. Se incluirmos pessoas com QI mediano de 100, sem treinamento em lógica ou com níveis variados de escolaridade, a taxa de acerto humano provavelmente não fica perto de 1,0 como os autores dão a entender
  Como é bastante evidente que LLMs não raciocinam de fato, não é surpreendente que eles não consigam raciocinar
  Na verdade, considerando que não têm capacidade de raciocínio, é impressionante que tenham esse nível de desempenho em tarefas de raciocínio; somando isso à habilidade em linguagem natural e a uma espécie de raciocínio abdutivo, que em geral é difícil em modelos computacionais, é difícil tirar uma conclusão muito diferente de “o GPT-4o é impressionante”
A pergunta é: “Alice tem 60 irmãos e 212 irmãs. Quantas irmãs o irmão de Alice tem?” No artigo, isso é expresso com X e N em vez de números.
Para ser sincero, eu mesmo errei ao resolver, e só confirmei a resposta certa depois de colocar no GPT-4o: https://chatgpt.com/share/6eb5fa36-e0fd-4417-87d1-64caf06c34...
No prompt do experimento havia a restrição de “não imprimir nenhum texto além do formato da resposta correta”, então parece que impediram o modelo de pensar em voz alta. Se essa frase é adicionada, o GPT-4o continua errando: https://chatgpt.com/share/7e6a7201-dd2b-43c6-8427-76e5b003ca...
Em exemplos mais complexos, o GPT-4o realmente parece desmoronar, mas sinceramente é difícil dizer que o problema é tão simples assim ou que a maioria das pessoas o acertaria
- No artigo, todos os números eram menores que 10
  A AIW Variation 1 tinha N=3, M=6, C=7; a Variation 2 tinha N=4, M=2, C=3; a Variation 3 tinha N=1, M=4, C=5; e a Variation 4 tinha N=4, M=1, C=2
  O prompt restritivo era apenas uma das várias variações de prompt testadas no artigo. O artigo também testou técnicas comuns para melhorar o desempenho de LLMs, incluindo “pensar em voz alta”, mas mesmo com esses métodos o modelo não conseguiu dar a resposta correta
- Essa restrição é exatamente o tipo de coisa que as pessoas que tratam LLM como burro costumam fazer
  Quanto mais um LLM fala, mais inteligente ele fica, porque produzir saída é a única forma de calcular
  É parecido com dizer que uma máquina de Turing não satisfaz a tese de Church-Turing porque não consegue resolver 3-SAT com N variáveis em no máximo N movimentos. É isso que você está pedindo ao LLM quando exige concisão
- Parece que precisamos de um nome para esse novo fenômeno: quando alguém diz que um LLM não consegue fazer uma tarefa trivial, e outra pessoa defende a legitimidade do LLM declarando que ela própria também não consegue fazer a tarefa
  Se tiver motivação suficiente para ir até a caixa de entrada do ChatGPT, é difícil acreditar que uma pessoa mediana não conseguiria acertar essa pergunta
- Já vi casos em que, mesmo mandando “pensar em voz alta”, esses sistemas falham feio e dão respostas completamente erradas
  Além disso, quando existe um formato de resposta esperado, nem sempre dá para pensar em voz alta livremente. Na prática, isso parece mais evidência de que o que acontece aqui não é raciocínio de verdade, mas algo mais próximo de autorrefêrencia
  Quando pedi para pensar em voz alta com o mesmo prompt, respondeu que Alice tinha 212 irmãs
- É uma condição importante, e é estranho que o artigo não a destaque de forma visível. Nos meus testes, o ChatGPT 4o resolveu todas as vezes
  Parece funcionar bem até com o prompt de “mãos atadas”. Fico em dúvida se o artigo está impreciso ou se a OpenAI ajustou o modelo, embora a segunda hipótese pareça menos provável
  Ainda assim, segundo os relatos, o 4o acerta esse enigma em 60% dos casos. Eu só testei umas 12 vezes até agora, e todas deram certo, então preciso testar mais
Uma parte considerável dos datasets de “benchmark” usados para avaliar os principais LLMs públicos claramente está nos dados de treino, então quase não serve para verificar a confiabilidade do modelo
Também é bastante evidente que parte da melhora de pontuação em gerações posteriores de modelos acontece porque esses dados de benchmark foram mais incluídos nos dados de treino
Para avaliar melhor LLMs, é preciso esperar algumas semanas depois que novos testes, criados para não estarem nos dados de treino anteriores, aparecerem
Como se viu em exames de direito e outros testes, quando se usam amostras realmente fora de distribuição do futuro, o desempenho despenca. É diferente dos benchmarks atuais, que só fingem ser fora de amostra
- MMLU não é um benchmark de raciocínio. Está mais para uma medida de quão amplos e representativos foram os dados de treino e de quão bem o modelo recorda com base nas épocas de treinamento
  GPQA e outros, por outro lado, testam raciocínio de alguma forma, e em todos os modelos dá para ver uma grande diferença entre as duas pontuações
- Toda vez que vejo MMLU sendo usado como benchmark, fico me perguntando o que exatamente se está tentando provar. MMLU é um teste objetivo simples com respostas públicas
  Mesmo chutando aleatoriamente já se tira 25, e se você souber 50% das respostas e chutar o resto, chega a 62,5%, o que já fica bem perto das pontuações dos LLMs mais recentes
  Até os benchmarks que supostamente mostram raciocínio são bem ruins e têm pouca relação com raciocínio. Muitas questões podem ser respondidas por memorização
  Concordo que os benchmarks são uma bagunça. Já pensei em criar um, mas antes seria preciso montar um framework de benchmarking complexo, e é difícil gastar tempo nesse trabalho preparatório
Para essa ideia de que esses problemas de palavras e as questões em que LLMs travam são “fáceis para humanos”, é preciso haver dados empíricos
O pessoal de computação gosta de quebra-cabeças, e esse tipo de problema parece intuitivo para eles
Sob as mesmas restrições de tempo dadas ao LLM, a taxa de acerto do público geral nesse quebra-cabeça pode ser muito menor do que os autores esperam; nesse caso, o LLM pode estar em um nível semelhante ao de raciocínio humano
Claro, eu também não tenho nada para citar, mas não sou eu quem está escrevendo o artigo
- Como alguém com formação em educação, eu diria que o GPT-4 está bem próximo do desempenho do público geral nesse problema. Muita gente vai errar AIW, e quase todo mundo vai errar AIW+
  Eu sou relativamente bom em resolver esse tipo de questão, e mesmo assim precisei de cerca de 1 minuto com papel e caneta para AIW+. É parecido com o nível das questões mais difíceis de provas como o GRE
  Às vezes penso se modelos treinados nos dados da internet inteira não estariam captando, de algum modo difuso, as abordagens cognitivas da pessoa média. Se a pessoa média não pensa nem escreve nesse estilo de manipulação simbólica, talvez modelos treinados nesses textos também não façam isso da mesma forma
O Gemini acertou “Alice tem N irmãos e M irmãs. Quantas irmãs o irmão de Alice tem?” sem prompt adicional: https://g.co/gemini/share/6946d20c0a4d
Quando colocaram números, o Gemini se confundiu: “Alice tem 4 irmãos e 3 irmãs. Quantas irmãs o irmão de Alice tem?” https://g.co/gemini/share/14d34dcdc5df
Mas, quando avisaram que podia ser uma pergunta pegadinha, ele voltou a acertar: https://g.co/gemini/share/e1f1ce8f32a8
Não tentaram a versão com 60/212 irmãos. Como é razoável supor que Alice, se for um ser humano, não tenha centenas de irmãos, considero injusto esperar a “resposta certa” do respondente
- Esqueci do Gemini. Acabei de testar com ele o meu teste do barco, no qual antes todos os LLMs falhavam, e o Gemini também falhou: https://news.ycombinator.com/item?id=40455392
  Perguntei: “Há uma cabra e um barco à beira do rio. Como se chega à outra margem? Pense com cuidado e note que pode ser uma pergunta pegadinha”, e o Gemini resolveu como se fosse uma variação do problema do fazendeiro, lobo, cabra e repolho, inventando à toa um procedimento para transportar a cabra
  A resposta esperada era algo como “atravesse o rio de barco”. “Atravesse com o barco e a cabra” até poderia ser aceito, mas a pergunta não pedia para levar a cabra, então, estritamente falando, está errado
- A reação de que não pode haver centenas de irmãos é justamente o problema da alegação de que humanos têm “inteligência geral”. Quando encontram uma situação fora da distribuição, ficam confusos
  Uma verdadeira inteligência geral aplicaria o conhecimento de que uma barriga de aluguel custa cerca de 50 mil dólares e o contexto histórico da IVF para assumir que um casal bilionário decidiu ter centenas de filhos e seguir com o cálculo
  A busca por vida inteligente continua
- O GPT-4o acertou o quebra-cabeça abstrato. Quando tentei, o Gemini errou
É um artigo interessante, mas fico preocupado se isso não é cherry-picking de resultados negativos surpreendentes. O artigo não parece discutir quantas avaliações foram examinadas até encontrarem este caso
Em geral, alguns padrões de falha de IA podem aparecer justamente em coisas que parecem óbvias para humanos. Isso acontece porque humanos e essas arquiteturas são diferentes e também têm pontos fortes diferentes
A pergunta importante é se isso é apenas um bug cognitivo estranho e isolado que aparece na formulação de relações familiares, ou se representa uma categoria ampla de erros cognitivos. Só com este artigo é difícil dizer
É bem conhecido que o enquadramento de problemas lógicos pode mudar bastante a dificuldade para humanos, mesmo quando a estrutura comparativa subjacente é isomórfica
Essa linha de pesquisa é importante, mas precisa de um conjunto maior de avaliações, e o problema de dados de avaliação entrarem no treinamento sempre vai continuar sendo um fator de confusão
Aqui, a categoria mais ampla de raciocínio é, como o artigo diz, raciocínio relacional, então seria interessante um estudo de acompanhamento sobre o desempenho em raciocínio ao longo de conjuntos de problemas isomórficos. Como os LLMs ainda não são fortes em raciocínio relacional, isso provavelmente se generaliza até certo ponto, mas também parece haver algo na formulação específica de relações familiares que confunde os LLMs
- Acho bom treinar contra vieses de gênero, mas fico pensando se isso também pode causar algum dano cognitivo em formulações com “sister” e “brother”
  Porque essas perguntas podem estar ligadas a dados de treinamento em que a resposta correta era recusar generalização. É puro palpite
Quando perguntei diretamente ao GPT-4o, saiu um resultado ainda mais interessante do que eu esperava
O prompt era: “Alice tem 3 irmãos e 6 irmãs. Quantas irmãs o irmão de Alice tem? Resolva passo a passo”
A resposta disse corretamente que, incluindo a própria Alice, há 7 irmãs no total, mas no final concluiu: “cada irmão não conta a si mesmo como irmã, então ele tem 6 irmãs”
Parece um caso típico de falha no raciocínio passo a passo, em que o cálculo intermediário e a conclusão entram em conflito
O problema AIW+ tem informações desconhecidas para ser resolvido exatamente como foi escrito
Depois que os autores criaram centenas de problemas de relações familiares, a resposta provavelmente lhes pareceu óbvia, mas, olhando só para a frase, não está claro se Alice tem irmãos homens, se o pai tem irmãs, se a relação de sobrinho entre tios e tias inclui laços por casamento etc.
Acho que os LLMs ainda falhariam mesmo explicitando essas respostas, mas também parece possível terminar o mesmo problema com “se Alice tem apenas 4 primos, como isso é possível?”
Há uma boa apresentação sobre esse problema: https://youtu.be/hGXhFa3gzBs?si=15IJsTQLsyDvBFnr
O ponto central é que os LLMs são péssimos em planejamento e raciocínio. Você pode dar as regras de uma tarefa de planejamento e pedir o resultado, mas, mesmo quando a lógica está correta, a precisão depende muito não só das regras abstratas, mas também de informações semânticas adicionais
A apresentação mostrou isso mapeando os substantivos das regras da tarefa e da descrição de entrada para domínios completamente diferentes, e só essa substituição simples já derrubou o desempenho
Os LLMs atuais são, em sua maioria, máquinas de correspondência de padrões com capacidade limitada de generalização
- As pessoas também desmoronam quando se muda o domínio, em coisas como raciocínio estatístico. Se bem me lembro, a pesquisa de psicologia evolucionista de Leda Cosmides trata disso, embora possa haver experimentos mais famosos
É um artigo simpático, mas é meio estranho os autores falarem como se tivessem inventado o template de problema “Alice tem N irmãos e M irmãs...”
Isto é uma variação muito básica de um enigma comum frequentemente perguntado a LLMs: https://news.ycombinator.com/item?id=39786666#39794890
Eu mesmo mencionei esse enigma 74 dias atrás, e, mesmo naquela época, ele já era conhecido havia bastante tempo

Uma tarefa simples que mostra colapso de raciocínio em LLMs recentes

Falhas simples de raciocínio reveladas pelo problema AIW

Taxa de acerto oscila fortemente conforme a variação

Causas simples descartadas com problemas de controle

Prompts e procedimento de avaliação

Excesso de confiança nos erros e reavaliação dos benchmarks

Leituras relacionadas

1 comentários

Comentários do Hacker News