Sete respostas ao artigo da Apple sobre os “limites dos LLMs de raciocínio” e suas limitações

(garymarcus.substack.com)

15 pontos por GN⁺ 2025-06-15 | 2 comentários | Compartilhar no WhatsApp

O artigo da Apple A ilusão do pensamento: entendendo os limites dos LLMs de raciocínio causou grande repercussão ao levantar questionamentos sobre a hipótese de escalabilidade da IA
Houve sete principais respostas contrárias a isso, mas o autor deste texto, Gary Marcus (professor emérito da NYU), avalia que nenhuma delas é convincente
Argumentos como “humanos também erram”, “limite de comprimento da saída”, “o autor do artigo é estagiário” e outros do tipo em geral desviam o foco e evitam a questão central, sem resolver a vulnerabilidade fundamental
Algumas observações, como “usar código para resolver o problema”, têm algum valor, mas a conclusão é que isso apenas destaca ainda mais a necessidade de uma IA neuro-simbólica
Resultados recentes de uma pesquisa da SalesForce também mostram que o desempenho de LLMs em raciocínio complexo de múltiplos turnos em cenários reais de negócio é de apenas 35%, em linha com as preocupações levantadas pelo artigo da Apple

Sete respostas ao artigo da Apple sobre raciocínio e suas limitações

Introdução

O artigo da Apple Illusion of Thinking: entendendo os limites dos LLMs de raciocínio revelou os limites dos grandes modelos de linguagem em raciocínio e execução de algoritmos, atraindo grande atenção da indústria, da imprensa e da academia
Mais de 150 mil pessoas leram o post explicativo sobre o artigo, resumido por Gary Marcus
O The Guardian publicou uma coluna referenciando o post, e também surgiram versões na ACM e em francês, comprovando o interesse global
Em resposta, defensores da GenAI reagiram criticamente ao artigo e apresentaram várias objeções, mas nenhuma delas constitui uma refutação fundamental

1. “Humanos também têm dificuldade com problemas complexos e exigências de memória”

A afirmação de que humanos também têm dificuldade é verdadeira, mas a própria razão de termos criado computadores e IA foi processar com precisão cálculos e tarefas repetitivas que humanos não conseguem fazer bem
Como exemplo, no quebra-cabeça da Torre de Hanói, sistemas tradicionais de IA simbólica conseguem executar a tarefa sem erros
Se fosse AGI, deveria mostrar desempenho superior; ficar apenas na categoria de erros semelhantes aos humanos pode ser visto como uma limitação
O ponto central do artigo da Apple é mostrar que, à medida que os LLMs se afastam da distribuição de treinamento e a complexidade aumenta, não é possível confiar em sua execução correta de algoritmos
Dizer que “humanos também erram” é um desvio de foco

2. “LRMs não conseguem resolver isso por causa do limite de tokens de saída”

Os LRMs (grandes modelos de raciocínio) têm limite de comprimento de saída, mas alguns casos do artigo (por exemplo, Torre de Hanói com 8 discos, 255 etapas) ainda cabem confortavelmente nesse intervalo
Uma IA simbólica bem projetada não é afetada por esse tipo de problema, e o mesmo deveria valer para uma AGI
O limite de tokens é um bug, não uma solução
Se nem algoritmos básicos podem ser executados com confiabilidade, problemas do mundo real (estratégia militar, biologia etc.) são ainda mais inviáveis

3. “O autor do artigo é estagiário”

Isso é um ad hominem (ataque pessoal), irrelevante para a questão. É um erro que ignora as práticas científicas
Na prática, o autor é um promissor estudante de Ph.D., e o artigo tem seis autores ao todo (quatro com Ph.D., incluindo pesquisadores renomados como Samy Bengio)
A questão central é a qualidade do artigo, independentemente da posição do autor

4. “Com modelos maiores, isso pode funcionar”

Há relatos de melhora em alguns modelos maiores, mas não é possível prever qual tamanho seria suficiente
Mesmo em LRMs da mesma arquitetura, surgem resultados inconsistentes, como sucesso com 6 discos e fracasso com 8 discos
Há falta de confiabilidade e previsibilidade do modelo, exigindo validação prévia para todo problema → algo ainda distante de AGI

5. “Se usar código, dá para resolver o problema”

Alguns LLMs conseguem resolver o problema por meio de código, mas isso mostra justamente a vantagem da IA neuro-simbólica
Uma AGI/IA em sentido pleno deveria ser capaz de raciocinar e fazer retroanálise com base em compreensão conceitual, mesmo sem código
Assim como uma prova avalia a compreensão conceitual de um aluno, os LLMs também precisam demonstrar compreensão conceitual genuína

6. “O experimento tem só 4 exemplos, e o problema de Hanói também não é perfeito”

Os quatro exemplos do artigo podem não ser perfeitos, mas estão alinhados com vários resultados de pesquisas anteriores, e casos semelhantes de falha continuam sendo reportados
Pesquisadores como Tal Linzen, da NYU, também fornecem evidências adicionais dessas limitações

7. “Isso já é algo que todo mundo sabia”

Muitos pesquisadores já reconheciam há bastante tempo a fragilidade de generalização dos LLMs
Mas é importante notar que, no contexto público e industrial, este artigo está concentrando a atenção sobre o tema
- O fato de ele ter se tornado um gatilho para que a indústria passe a observar e discutir seriamente a possibilidade de AGI, antes superestimada e exagerada, é relevante
Mesmo entre pesquisadores, apareceu uma reação contraditória: ao mesmo tempo em que dizem que o artigo está “errado”, também afirmam que “isso já era conhecido”

Conclusão

Entre essas respostas, faltam argumentos decisivamente convincentes
O artigo da Apple reforça mais uma vez um sinal claro de que ampliar escala não é a resposta para AGI
A tecnologia atual de LLMs mostra limites evidentes em confiabilidade, generalização e raciocínio conceitual
De fato, até figuras importantes como Sam Altman vêm demonstrando um clima de maior seriedade diante da situação atual

O artigo da SalesForce e evidências adicionais convergentes

Holistic Assessment of LLM Agents Across Diverse Business Scenarios and Interactions

Em um artigo recente da SalesForce, foi divulgado um benchmark de avaliação de LLMs com base em cenários reais de negócio (vendas ao cliente, atendimento, B2B/B2C etc.)
A taxa de sucesso é de 58% em turno único (uma rodada de pergunta e resposta), mas despenca para 35% em múltiplos turnos (interações contínuas)
Em particular, a execução de workflow supera 83% de desempenho, mas há limitações em raciocínio múltiplo, mudança de contexto e afins
Há também quase nenhuma consciência de confidencialidade (Confidentiality awareness); isso pode melhorar via prompt, mas com perda de desempenho
Ficam claros os limites dos LLMs diante das exigências de complexidade e realismo do ambiente corporativo, destacando a necessidade de integrar raciocínio de múltiplos turnos, confidencialidade e várias habilidades de trabalho

Resumo

Tanto o artigo da Apple quanto o da SalesForce mostram que a geração atual de LLMs apresenta sérias limitações em raciocínio realmente complexo, conversas de múltiplos turnos e execução de algoritmos
Para se aproximar de AGI, será necessário ir além de escalabilidade e avançar em integração neuro-simbólica e melhorias estruturais
É significativo que a indústria e os pesquisadores estejam finalmente começando a dar atenção séria à discussão sobre essas limitações

2 comentários

fanotify 2025-06-16

Altman escreveu em seu ensaio que "daqui a 10 anos, talvez possamos passar de um ano em que resolvemos a física de altas energias para, no ano seguinte, começar a colonização espacial". Ele acrescentou que as pessoas que tentarem se "conectar" diretamente à IA por meio de interfaces cérebro-computador verão suas vidas mudar de forma radical.
Essa retórica está acelerando a adoção de IA em toda a nossa sociedade. Hoje, a IA está sendo usada pelo DOGE (Gabinete do Primeiro-Ministro) para reorganizar o governo, os militares a utilizam para torná-los mais letais e ela frequentemente é encarregada da educação de nossas crianças, muitas vezes com consequências desconhecidas.
Em outras palavras, um dos maiores riscos da IA é superestimarmos suas capacidades, confiarmos nela mais do que o necessário, mesmo depois de ter demonstrado tendências antissociais como "chantagem oportunista", e passarmos a depender dela de maneira imprudente. Ao fazer isso, ficamos vulneráveis à possibilidade de que a IA falhe nos momentos mais importantes.
"Usar IA pode gerar uma variedade de ideias, mas ainda exige uma revisão considerável", diz Ortiz. "Por exemplo, para preparar uma declaração de imposto, é melhor usar uma ferramenta parecida com o TurboTax do que o ChatGPT."

Trecho do artigo do WSJ, Why Superintelligent AI Isn't Taking Over Anytime Soon

GN⁺ 2025-06-15

Opinião do Hacker News

Apresenta-se o argumento de que é verdade que humanos têm dificuldade com problemas complexos e carga de memória, mas isso não é tudo. Destaca-se a expectativa de que máquinas entreguem resultados melhores que os humanos. Compartilha-se a ideia de que, se admitimos que humanos também cometem esses erros, mas ao mesmo tempo insistimos que essa capacidade é necessária para a definição de “capacidade de pensar”, então a conclusão acaba sendo que o próprio pensamento humano também é uma ilusão
- Também concordo, mas acho que a parte sobre AGI está errada. Minha visão é que a definição de AGI é uma IA capaz de realizar todas as tarefas no nível de um ser humano médio
- Sinto que os dois lados não são muito claros. Tenho a impressão de que estão respondendo perguntas qualitativas apenas com respostas quantitativas
Avaliação de que é um bom texto de análise sobre o artigo da Apple e as críticas de Gary Marcus. Recomenda-se, para uma discussão mais detalhada, um texto relacionado no LessWrong
- Menciona-se uma curiosidade sincera: ainda é válido dar tanto peso à opinião de Gary Marcus? As críticas dele parecem mais filosóficas do que científicas, e fica difícil ver o que ele de fato produz ou como sua lógica é verificada na prática
- Quanto ao lesswrong.com, expressa-se a posição de que não se confia muito no site por ser um grupo que segue as ideias de certas figuras específicas (por exemplo, Yud)
Compartilha-se o insight de que LLMs podem produzir resultados que parecem “raciocínio” quando existe uma solução semelhante aprendida no passado, mas desmoronam diante de problemas totalmente novos. Não seria raciocínio em sentido estrito, mas, na prática, é algo bastante útil. A capacidade de repetir soluções também é vista como bem útil, assim como fornecer checagens factuais repetidamente. Observa-se que Marcus pode estar tecnicamente correto, mas pende mais para um tom emocional do que explicativo
- Se essa repetição de soluções semelhantes realmente funcionasse tão bem, seria incrível, mas na prática essas ferramentas muitas vezes nem conseguem repetir direito a mesma solução e, além disso, inventam resultados plausíveis na hora (alucinações), o que torna grande o incômodo de precisar de verificação humana cuidadosa o tempo todo
- Se ao menos isso funcionasse direito, já seria revolucionário, mas ainda continua parecendo um idealismo de sonho distante. Menciona-se uma experiência recente em que o Gemini confundiu direita e esquerda até mesmo numa questão didática muito básica
- Há cansaço com o argumento repetitivo do tipo “LLM é só um papagaio”. Pela minha experiência, LLMs conseguem raciocinar e resolver problemas completamente novos que não estavam nos dados de treino. Já testei muitos casos variados e há vários exemplos disso. Para resumir de uma vez as respostas aos interlocutores, é preciso primeiro definir claramente “raciocínio” e “resolução de problemas novos”. Pessoalmente, vejo raciocínio como uma categoria, não como sinônimo de inteligência geral. O fato de LLMs nem sempre resolverem problemas difíceis não significa que raciocínio em si seja impossível para elas. Na minha visão, a capacidade de raciocínio dos LLMs é fraca no geral, mas não concordo com a afirmação de que eles não conseguem raciocinar nem resolver problemas novos de forma alguma.
  1. Pode-se argumentar que a própria tarefa de next token prediction exige raciocínio
  2. Vários experimentos de tradução para línguas hipotéticas totalmente inexistentes também tiveram sucesso. Há muitos estudos sobre in-context learning e zero-shot
  3. Já tentaram validar a capacidade de raciocínio com todo tipo de desafio/jogo/quebra-cabeça, mas acabam surgindo casos em que LLMs resolvem um por um (ex.: quebra-cabeça do problema de Monty Hall, outro exemplo anterior de quebra-cabeça); há inclusive modelos treinados antes da divulgação pública desses quebra-cabeças
  4. Também existem muitos estudos sobre out-of-context reasoning (ex.: artigo no arXiv) Como pontos adicionais de refutação,
  5. Mesmo que modelos falhem a partir de certo limiar de complexidade, o fato de modelos recentes conseguirem resolver até certo ponto esses quebra-cabeças difíceis já é bastante impressionante. O que o GPT-3.5 não conseguia fazer, os modelos atuais conseguem. Há progresso gradual contínuo na área de raciocínio. Quanto maiores e mais inteligentes os modelos, melhor lidam com tarefas zero-shot, e isso parece correlacionado com melhora na capacidade de raciocínio
  6. O próprio artigo traz dados que sustentam a tese “modelos maiores = desempenho melhor”. O Claude 3.7 mostra desempenho muito melhor que o DeepSeek e mantém a solução estável ao longo de sequências longas. Com modelos melhores e mais tokens, há ganho rápido em problemas de dificuldade intermediária. O fato de não resolverem apenas os “problemas difíceis” não significa de forma alguma incapacidade de raciocinar. Há alguns anos se dizia que eles nem davam conta dos problemas intermediários, mas o cenário já mudou bastante
- Essa visão seria justamente o oposto de raciocínio. Defensores de IA tentam dizer que LLMs seriam inteligentes ou capazes de raciocinar, mas na prática não conseguem raciocínio criativo ou intelectualmente genuíno. Raciocínio verdadeiro significaria encontrar por conta própria uma solução inovadora para um problema nunca visto antes. LLMs apenas extraem probabilisticamente soluções presentes nos dados; não teriam qualquer capacidade real de estimar ou inferir uma solução verdadeira
Aponta-se que muitas das objeções e refutações na verdade são frágeis, ou podem ser quase todas incluídas no ponto 5. O centro da discussão é se LLMs conseguem escrever código ou usar sistemas lógicos. Questiona-se se, na ausência de acesso a ferramentas, um raciocínio vazio (alucinação/resposta errada) realmente significa ausência de raciocínio, ou se a expectativa correta não seria uma IA que, como um humano inteligente, “reconhece os próprios limites”
- Pelos resultados reais do experimento, o modelo produzia até 100 etapas e depois dizia algo como “isso já é demais, então vou apenas explicar o método de resolução”, reconhecendo claramente seus limites. Mesmo assim, esse tipo de resposta foi tratado como erro. Veja este exemplo de resposta real do modelo. Por exemplo, quando a complexidade fica alta demais, a resposta segue o tipo “não consigo descrever todos os casos individuais, então vou explicar o método”; um certo modelo (Sonnet), ao passar de 7 itens, pula o raciocínio passo a passo direto e passa a descrever apenas o algoritmo ou abordagem geral de solução
- Tirando o ponto 3, não acho que a maioria das refutações seja frágil; pelo contrário, sinto que o texto original cria muitos espantalhos. A razão de a refutação 1 aparecer com frequência é a alegação de que “este artigo provou que LLMs não conseguem raciocinar”. Só que o autor fica trazendo AGI para a conversa e muda a própria definição de forma espantalhosa (“a máquina precisa fazer mais do que humanos”, algo assim). Na prática, a definição de AGI é uma IA capaz de realizar tarefas no nível de um humano médio, não uma superinteligência, mas o autor entende isso errado. A propósito, em problemas como a Torre de Hanói, LLMs já mostram desempenho acima da média humana. Realisticamente, uma pessoa comum não consegue resolver uma Torre de Hanói com 8 discos sem anotar nada, mas um LLM consegue. Ainda assim, para chegar a AGI de verdade, os modelos ainda têm muitas barreiras a superar. A refutação 5 também é um espantalho do tipo “não consegue puxar código da web”, quando na realidade dá para citar exemplos em que resolvem problemas novos escrevendo código diretamente. Esses pontos não são uma crítica ao artigo, mas observações factuais sobre as limitações do próprio artigo. O texto apenas mostrou limites de raciocínio dos LLMs e descreveu restrições sem grandes exageros, mas o título era chamativo demais e muita gente parece não ter lido o conteúdo com atenção
Sobre a afirmação de que seria um “quebra-cabeça que até criança resolve”, há a confissão de que, na prática, resolver de cabeça uma Torre de Hanói com 8 discos, sem anotações, é difícil. Levanta-se a dúvida se a comparação entre humanos e IA está sendo realmente feita em igualdade de condições
A razão de essas reportagens serem bem-vindas é que existe necessidade de esfriar um pouco o entusiasmo exagerado em torno da IA. Se a intenção é usar seriamente novas ferramentas de IA no mundo real, é preciso pausar o deslumbramento e encarar com frieza os limites reais e a natureza dessa tecnologia. Ela é impressionante e prática em várias áreas, mas estimular um boom sem critério acaba, no fim, beneficiando direta ou indiretamente apenas os interessados em ganhar dinheiro com isso
- Gary Marcus não seria alguém promovendo “pé no chão”, mas sim alguém que aumenta a própria fama se posicionando contra a corrente principal da IA. Este texto também seria lógico, mas mostraria uma mudança de postura em relação a trabalhos anteriores, nos quais ele afirmava com força que LLMs haviam sofrido um “golpe fatal”. Os textos dele parecem razoáveis no tom, mas ao ler vários, percebe-se um padrão consistente
- De fato, mesmo entre investidores em IA, um boom exagerado tende a favorecer apenas esquemas de pump and dump, vendedores de cursos ou consultorias; quem realmente quer construir inovação corre o risco de em breve enfrentar um inverno da IA
- Há uma postura instintivamente desconfiada em relação a LLMs. Na maioria das vezes em que escreveram código para mim até agora, a qualidade foi péssima; hoje eu nem gosto muito nem uso com frequência. Ainda assim, espero que com o tempo se tornem ferramentas bem úteis. Ao mesmo tempo, na minha opinião, Marcus não tem qualquer qualificação para participar dessa discussão. Suas falas geram pouca discussão substantiva e muito exagero improdutivo, alimentando demais o campo anti-IA. Chega-se a avaliar isso como “respectability laundering: citá-lo faz uma crítica parecer legítima”
- Eu queria ouvir críticas vindas de alguém que pelo menos saiba o que é test/train split em machine learning. Quando alguém tão distante da prática recente de ML fala sobre as capacidades de IA, isso me parece até um símbolo muito representativo do medo em torno da IA
- Questiona-se o quanto isso é realmente útil. Há mais de um ano se fala em “produtividade 10x no trabalho do conhecimento”, mas onde estão os resultados concretos dessa transformação? Surgiu uma nova geração de suítes de escritório? Houve produção em massa de apps mobile? O mercado editorial foi revolucionado? Fora memes de Ghibli ou conteúdos virais do tipo ‘RETURNS’, há mesmo produção concreta?
Caso alguém queira ver o artigo original, compartilha-se o link do original
- Como material de pesquisa e referência, também são apresentados o artigo: The Illusion of Thinking – pontos fortes e limites de modelos de raciocínio (PDF) e o comentário A Knockout Blow for LLMs?. Pergunta-se se há outros materiais relacionados
Menciona-se que, em uma prova de matemática, questões de cálculo diferencial e integral não servem apenas para o aluno dar a resposta numérica, mas para avaliar sua compreensão conceitual. O time da Apple também estaria observando se o LLM entende conceitualmente o problema de Hanói. LLMs podem “baixar” o código certo, mas em problemas novos ou ambientes dinâmicos essa estratégia de baixar código sem entender o conceito teria limites. Porém, na prática, LLMs não baixam código, e sim têm capacidade de “escrevê-lo” diretamente. Se um aluno em prova escrevesse um programa geral de derivadas/integrais, isso seria até uma evidência de compreensão conceitual superior
- Se o aluno só consultou algumas poucas anotações em comparação com a quantidade de parâmetros de um LLM, isso não me convenceria
Dá-se importância à citação do artigo da Salesforce segundo a qual “os agentes mostraram capacidades de preservação de segredo quase próximas de zero”
Apresenta-se o exemplo de que, quando humanos criaram aviões, disseram que “não eram pássaros”, e quando criaram submarinos, disseram que “não eram peixes”, mas o progresso continuou. O ponto central seria escolher entre aprender rapidamente a usar o potencial dessa ferramenta ou ficar para trás. Como dica, a mensagem é que uma “postura de aprendizado” ajuda muito mais na adaptação ao futuro do que ouvir continuamente as afirmações negativas sem fim da mesma pessoa