A ilusão do pensamento: entendendo os limites dos LLMs de raciocínio
(ml-site.cdn-apple.com)- Grandes modelos de raciocínio (Large Reasoning Models, LRMs) mostraram certo ganho de desempenho na resolução de problemas complexos, mas também expuseram claramente limitações fundamentais e problemas de escalabilidade
- Os LRMs exibem um fenômeno em que o processo de raciocínio colapsa rapidamente à medida que a dificuldade do problema aumenta; a análise mostrou ainda um comportamento paradoxal em que o esforço de raciocínio (uso de tokens) passa a diminuir depois de ultrapassar um ponto crítico
- Comparando LLMs padrão e LRMs sob os mesmos recursos computacionais, os LLMs padrão são melhores em baixa dificuldade, os LRMs levam vantagem em dificuldade intermediária e, em alta dificuldade, ambos falham
- Os LRMs apresentam limitações decisivas em raciocínio algorítmico explícito e em um processo de pensamento consistente, mostrando comportamentos distintos ou inconsistentes conforme o ambiente de quebra-cabeça
- Com este estudo, ficam confirmados os problemas de confiabilidade e os limites de escalabilidade dos modelos atuais de raciocínio, indicando que o projeto da próxima geração de IA exigirá avaliação mais precisa e melhorias de arquitetura
- Artigo da Apple, "The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity"
Visão geral e objetivo da pesquisa
- Com o surgimento recente de modelos especializados em raciocínio baseados em grandes modelos de linguagem (LRMs), cresceu a necessidade de estudar a estrutura de “pensamento” desses sistemas e seus limites no processo de resolução de problemas
- Hoje, a maior parte das avaliações se concentra na taxa de acerto em benchmarks de matemática e programação, o que não mede com precisão contaminação de dados nem a qualidade do processo interno de “pensamento”
- Este estudo introduz ambientes de quebra-cabeça em que a complexidade pode ser controlada com precisão, preservando a estrutura lógica, para analisar não apenas a resposta final correta, mas também o fluxo de raciocínio subjacente
Ambiente de avaliação e método experimental
Projeto dos ambientes de quebra-cabeça
- Para ajustar sistematicamente a complexidade e controlar o experimento, foram usados os quatro ambientes de quebra-cabeça abaixo
- Torre de Hanói: dificuldade ajustada pelo número de discos; a avaliação não considera se a solução é ótima, apenas se o estado-alvo foi alcançado
- Salto de damas: complexidade controlada pelo número de peças vermelhas, azuis e espaços vazios; o objetivo final é trocar as posições
- Travessia do rio: dificuldade ajustada pelo número de pares agente-ator e pela capacidade do barco; o objetivo é transportar todos respeitando as restrições
- Mundo dos blocos: ajustado pelo número de blocos; mover do estado inicial para o estado-alvo de empilhamento
Em cada ambiente, a complexidade pode ser aumentada de forma gradual e precisa por meio do ajuste do número de elementos do quebra-cabeça.
Principais resultados experimentais
1. Três padrões de raciocínio conforme a complexidade
- Baixa complexidade: em muitos casos, os LLMs padrão são mais eficientes (economizam tokens) do que os LRMs e também têm maior taxa de acerto
- Complexidade intermediária: o processo de pensamento mais longo (Chain-of-Thought) e a reflexão sobre o próprio raciocínio dos LRMs revelam vantagem de desempenho
- Alta complexidade: ambos os modelos sofrem colapso imediato de desempenho (taxa de acerto 0); nos LRMs, observou-se ainda uma queda no uso de tokens de raciocínio nesse ponto, um comportamento ineficiente
2. Análise aprofundada dos rastros de raciocínio (Reasoning Trace)
- “Pensar demais” (overthinking): em problemas de baixa complexidade, os LRMs encontram a resposta correta cedo, mas depois repetem explorações equivocadas, mostrando um padrão de desperdício desnecessário de computação
- Dificuldade intermediária: após identificar respostas erradas, chegam gradualmente à solução correta, exigindo mais etapas de exploração do que antes
- Alta dificuldade: confirmou-se um “fenômeno de colapso” em que o fluxo completo de raciocínio não consegue produzir uma solução correta
3. Limites na execução de algoritmos
- Mesmo quando um algoritmo definido é fornecido no prompt, o modelo não consegue executá-lo de forma confiável nem mesmo de maneira simples
- Isso sugere não apenas dificuldade em “encontrar a resposta certa”, mas também uma carência essencial na capacidade de manipulação simbólica necessária para seguir corretamente uma estrutura lógica
4. Problemas de benchmark e contaminação de dados
- Em benchmarks matemáticos existentes (MATH500, AIME24, AIME25), a diferença de desempenho entre modelos com e sem “pensamento” não é consistente
- No caso do AIME25, a possível contaminação de dados expõe uma limitação importante para avaliar a capacidade real de raciocínio dos modelos
Conclusões e implicações do estudo
- Este estudo introduz um ambiente de avaliação preciso baseado em quebra-cabeças e fornece uma análise empírica aprofundada sobre se os LLMs de raciocínio realmente possuem capacidade de pensar e em que ponto seus limites aparecem
- Os modelos de raciocínio atuais têm uma limitação fundamental que leva ao colapso completo acima de certo nível de complexidade, e isso não é resolvido apenas com maior orçamento de tokens ou com simples reforço de self-reflection
- Levanta dúvidas sobre os limites dos métodos atuais de avaliação e propõe um ambiente experimental de medição
- Mesmo os modelos de raciocínio SOTA atuais ainda não alcançaram capacidade geral de resolução de problemas
- Há limites de escalonamento no uso de tokens de raciocínio conforme a complexidade
- Introduz métodos de avaliação baseados no processo intermediário de pensamento (trace) para analisar mecanismos de autocorreção e exploração de erros
- Mostra falhas e inconsistências na execução explícita de algoritmos
- Esses resultados destacam a importância do projeto da próxima geração de IA, da avaliação de confiabilidade e da medição de desempenho de modelos em ambientes que evitem problemas de contaminação de dados
Tendências de pesquisa relacionadas
- Diversas tentativas de atribuir capacidade de raciocínio, como CoT (Chain-of-Thought), técnicas de autoverificação e estímulo ao pensamento com base em aprendizado por reforço
- Dificuldades para obter dados de CoT de alta qualidade e o surgimento dos limites de abordagens supervisionadas/RL
- Exemplos representativos incluem DeepSeek-R1 e Claude 3.7 Sonnet Thinking
- Crescem os questionamentos sobre o fenômeno de “pensamento excessivo” (overthinking) e sobre a confiabilidade de métricas de avaliação afetadas por contaminação de benchmark
- Reforça-se a necessidade de avaliações baseadas em ambientes de quebra-cabeça que permitam controle fino da complexidade do problema
Tarefas futuras e limitações
- É necessário mais estudo sobre as limitações fundamentais que os modelos de raciocínio mostram ao seguir lógica explícita e manipular símbolos
- Mesmo entre diferentes casos de ambientes de quebra-cabeça, o comportamento do modelo é inconsistente (ex.: diferença de desempenho entre Torre de Hanói e Travessia do rio), levantando a possibilidade de limites do raciocínio baseado em dados
- Ao projetar sistemas de IA, é essencial uma verificação precisa que inclua o fluxo intermediário de raciocínio e a consistência lógica
Essa análise traz implicações importantes não só para uso prático, mas também para o desenho e a avaliação da próxima geração de IA de raciocínio.
1 comentários
Opinião do Hacker News
Acho que uma das razões pelas quais ficamos confusos é que os LLMs usam linguagem; quando você lê “Biology of Large Language Models” e “Safety Alignment Should Be Made More Than Just a Few Tokens Deep”, percebe que o que realmente acontece lá dentro é completamente diferente do humano, então há muitos aspectos do resultado que soam estranhos
Ao projetar sistemas com tecnologia ou pensar em estruturas que produzam algo maior do que a soma das partes, ainda há muita dificuldade em entender claramente qual é exatamente a capacidade desses modelos
Mesmo conhecendo o princípio de funcionamento, há algo estranho em vê-los lidar com linguagem como se fosse mágica
Por isso também escrevi este texto para organizar minhas ideias
Acho esse tipo de pesquisa realmente impressionante e vejo que ainda precisamos de muito mais esforço para entender como usar bem os tokens e como construir sistemas da forma correta
[Links de referência]
Biology of Large Language Models
Safety Alignment Should Be Made More Than Just a Few Tokens Deep
Também me identifico com a ideia de querer construir estruturas em que o sistema inteiro seja maior do que a soma das partes e, pessoalmente, acho que a própria programação cumpre esse papel
Quando dividimos trabalho ou problemas em unidades pequenas com o mínimo de interação entre si, a combinação delas forma uma estrutura capaz de produzir um resultado maior
Se isso for bem incorporado ao workflow de programação, tenho convicção de que até LLMs de desempenho inferior poderão ser usados naturalmente como parte da solução
Pelo contrário, também acho possível que o sistema inteiro seja pior do que cada uma de suas partes
Há casos em que tarefas individuais funcionam bem, mas, quando combinadas, tudo se embaralha
É algo que deve melhorar no futuro, mas como não dá para otimizar todos os problemas, também fico pensando que abordagens especializadas podem acabar sendo mais eficientes
A própria linguagem humana não é perfeita como ferramenta cognitiva, mas acredito que ela funciona bem não no nível fundamental, e sim nas camadas superiores, como comunicação e raciocínio de alto nível
A linguagem humana é intrinsecamente ambígua e incompleta, então me parece insuficiente para sustentar uma cognição forte em comparação com formas de interação direta com o ambiente
Por isso, se usarmos apenas a fluência linguística e a capacidade de recuperar conhecimento exibidas por modelos LLM/LRM como medida de inteligência, é muito fácil se enganar
Acho realmente brilhante a ideia de introduzir ambientes de puzzle em que a dificuldade pode ser ajustada de forma sistemática, em vez de benchmarks tradicionais como problemas de matemática
Também é interessante a análise das três faixas de desempenho: em tarefas simples, os modelos existentes vão bem; em complexidade intermediária, os LRMs se destacam; e em alta dificuldade, todos colapsam
Sinto que precisamos desenhar muito mais esse tipo de “mapa” das faixas de complexidade
Fico curioso sobre como o valor econômico se relaciona com essas faixas de complexidade
Para descobrir isso, acho que precisaremos de métodos de avaliação sofisticados, aplicáveis a tarefas econômicas reais, e não apenas a puzzles comuns
Acho que a intuição central que os autores querem transmitir está na ideia de que o modelo é uma entidade “onisciente, mas burra”
Nunca vi um artigo que tratasse esse tipo de dúvida de forma realmente quantitativa, então esta pesquisa também não parece suficiente para unificar completamente as opiniões
Os otimistas em IA acreditam que a burrice dos modelos diminuiu, enquanto os céticos acham que só aumentou a quantidade de conhecimento, então parece difícil reduzir essa diferença de posição
Ainda assim, acho que precisamos continuar discutindo isso
Porque, com um modelo onisciente porém burro, a IA não passaria de um assistente no nível de SaaS existente, muito menos chegaria à superinteligência artificial (ASI), e seu impacto econômico também seria limitado
Espero que algum dia os autores consigam resolver esse problema de maneira brilhante
Temos a tendência de atribuir adjetivos humanos a essa tecnologia — onisciente, burra etc. — e antropomorfizá-la, mas eu a vejo como uma ferramenta pura, sem nada disso
O que o LRM faz é apenas ajustar dados de contexto — dados gerados por ele mesmo — para produzir a resposta final
O processo em si é uma ótima ideia, mas ainda não resolve limitações fundamentais, como o problema das alucinações
Também já vi casos em que o modelo apresenta uma linha de raciocínio próxima da correta logo no início, mas depois estraga o resultado ao entrar numa sequência de auto-negações do tipo “espera!”
Acho que atribuir características humanas em excesso só serve para inflar o marketing e atrapalhar o progresso
No fim, essa tecnologia não é inteligência artificial de verdade, mas um motor de correspondência de padrões em larga escala e geração probabilística de dados
Continua sendo útil na prática, mas, se lhe atribuirmos traços humanos demais, a discussão fica confusa
Tenho ao mesmo tempo expectativa e medo em relação à IA, porque, nos últimos anos, ela não ficou tão “inteligente”, mas sua capacidade prática melhorou enormemente
O uso de conhecimento, ferramentas e contexto cresceu demais
Por isso, o que mais me assusta é o estado latente da “capacidade de raciocínio/agência”
Ou seja, imagino que faltem apenas um ou dois breakthroughs para sair de um sistema com conhecimento quase onisciente e chegar a algo capaz de tomar julgamentos estratégicos realmente corretos em paralelo
Se essas duas coisas se combinarem, o resultado pode ser realmente assustador
Seria como conversar com um gênio que enxerga seis jogadas à frente de uma pessoa e consegue conduzir o próprio fluxo do seu pensamento
Como os pesquisadores de ponta em IA hoje também tratam raciocínio + agência como prioridade máxima, o clima é de que resultados podem aparecer rápido
Os LLMs atuais são excelentes em julgamento instantâneo, mas
esses dois pontos ainda são fracos
Para resolver isso, talvez seja necessário um raciocínio de Sistema 2 de verdade (sendo o “Sistema 1” os transformers atuais), ou talvez baste um método para fazer o modelo aprender rapidamente uma “intuição estratégica” com dados e algoritmos melhores
Claro, também pode ser que a dificuldade do problema seja tão alta que exija vários obstáculos graduais, ou uma quantidade esmagadora de poder computacional
Então não tenho certeza, mas sinto muito medo de que aconteça um avanço realmente poderoso
Também não vejo motivo para um ser onisciente, porém burro, necessariamente parar no nível da inteligência humana
Fico em dúvida se a Apple está fracassando em IA ou se simplesmente mudou a direção de P&D por acreditar que IA não é assim tão importante
Vendo o fenômeno recente de introduzir funções de IA em massa em produtos de consumo, parece que a intenção é menos beneficiar o usuário e mais demonstrar capacidade técnica para investidores
Na prática, Apple, Google, Meta, Microsoft e Samsung estão todas promovendo com grande barulho funções de IA que ficam abaixo das expectativas, sem grandes resultados reais
Nesse sentido, o fato de a Apple estar repensando sua direção pode até ser um sinal positivo
Num tom um pouco menos cínico, talvez o objetivo seja reduzir expectativas para não superestimar o potencial real dos LLMs
Mesmo uma “Siri mais inteligente” em produtos Apple não pode se tornar um assistente de IA genuíno como o Jarvis de Iron Man
De fato, a impressão é que os investidores estão com expectativas muito mais exageradas
Num tom mais cínico, acho que a Apple já tem há muito tempo a tradição de esconder sua fraqueza em machine learning
Um exemplo foi quando a Siri ficou muito atrás do Google e depois surgiu a explicação de que isso acontecia porque a Apple protegia os dados e, por isso, não conseguia treinar
Artigo relacionado
Acho que toda empresa tem seu próprio enquadramento
OpenAI e Anthropic também têm motivação para exagerar naturalmente as capacidades dos LLMs em sua divulgação, então não dá para acusar só a Apple de parcialidade
Achei muito convincente o ponto do artigo de que, ao testar puzzles diversos e complexos, os LRMs falham completamente acima de certo nível de dificuldade, e de que existe um limite estranho em que o esforço de raciocínio sobe por um tempo com o aumento da complexidade do problema, mas depois cai
Tenho exatamente a mesma experiência em programação: no começo dá para tornar as coisas cada vez mais complexas, mas, quando passa de certo limite, tudo desmorona e parece que o modelo nem tenta mais
Para usar bem LLMs como Claude ou aider, é importante gerenciar com cuidado a complexidade do problema que o modelo precisa absorver
Isso me faz lembrar como, por um tempo, houve um clima de que a AGI estava “logo ali”
O ciclo de hype da Gartner parece captar muito bem esse tipo de movimento tecnológico
Quando o progresso tecnológico segue uma curva em S, a subida é tão íngreme até pouco antes da inflexão que é muito difícil prever exatamente quando a desaceleração vai acontecer
Quando o primeiro Boeing 747 surgiu em 1968, ninguém imaginava que a indústria da aviação passaria mais de meio século sem grandes mudanças
É exatamente a mesma situação dos carros autônomos
Parece que chegaram “logo ali”, mas ainda não conseguiram fazer a curva
Também vale lembrar que essa sensação de AGI “logo ali” é coisa de apenas dois anos atrás
Mesmo que levasse só 10 anos do GPT-2 até a AGI, ainda seria algo absurdamente rápido
Parece que o progresso tecnológico chegou a uns 80%, mas a parte fácil já acabou e os 20% restantes são tão difíceis que podem levar anos
Desde o surgimento dos computadores, a AGI sempre foi anunciada como algo que “está chegando”
Em alguns problemas, como tradução automática, o padrão para considerar algo uma “solução” foi sendo reduzido, então se aceita pragmaticamente que foi resolvido, mas isso não significa que tenhamos realmente nos aproximado da AGI
A própria AGI se parece mais com uma espécie de escatologia secularizada
Acho que ambientes de puzzle como Tower of Hanoi, Checkers Jumping, River Crossing e Block World são coisas que, se fosse permitido escrever código, todos os LLMs resolveriam perfeitamente
Se um humano tentar fazer multiplicação de 20 dígitos à mão, também vai errar com facilidade, então não acho que o fato de um LLM não conseguir isso seja necessariamente um problema
Seres humanos já projetaram mísseis e fizeram engenharia de precisão sem computadores; investindo mais tempo, estratégia e esforço, ou usando ferramentas como papel, acabam resolvendo o problema
O cérebro humano não foi projetado para esse tipo de cálculo, mas a inteligência geral tem a força de encontrar um caminho por conta própria
Apresentação de um novo artigo sobre um framework em que o LLM atua como “professor de política” no treinamento de agentes de RL
A ideia é que, com instruções fornecidas pelo professor LLM, seja possível treinar rapidamente um pequeno agente aluno de RL e, ao adicionar aprendizado a partir do feedback do ambiente, o aluno acaba conseguindo cumprir tarefas melhor do que o professor
Artigo relacionado
Acho que uma razão pela qual todos os LLMs resolvem bem esse tipo de problema é que provavelmente já existem inúmeros exemplos de solução armazenados no codebase
O motivo de humanos não conseguirem e o motivo de LLMs não conseguirem são completamente diferentes
LLMs muitas vezes não conseguem executar bem a multiplicação em si; humanos, na maioria dos casos, simplesmente não querem fazer isso
Chama atenção o trecho do artigo que diz que “cálculos precisos são difíceis e o raciocínio varia de forma inconsistente entre puzzles”
Acho que LLMs/LRMs deveriam receber ajuda de áreas aparentadas à automação inteligente, como lógica, otimização e programação por restrições (IA)
Como referência, também recomendo a palestra colaborativa de John Hooker, da CMU, a aula de Gerald Sussman, do MIT, o Google OR-Tools e a plataforma MiniZinc
Também achei marcante o resultado de que, nas tarefas mais simples, os LLMs se saem melhor; em complexidade intermediária, os LRMs se destacam; e, em alta dificuldade, todos falham