Pesquisas recentes indicam que LLMs têm dificuldade com tarefas composicionais

(quantamagazine.org)

11 pontos por GN⁺ 2025-02-03 | 5 comentários | Compartilhar no WhatsApp

LLMs têm dificuldade com tarefas composicionais (Compositional Task), o que sugere limites em suas capacidades
- Esse problema mostra que os LLMs não conseguem raciocinar além do que viram nos dados de treinamento
Em 17 de dezembro de 1962, a Life International publicou um quebra-cabeça lógico composto por 15 frases
Cada frase oferecia uma pista, como “o britânico mora na casa vermelha” ou “na casa do meio bebe-se leite”
Os atributos das cinco casas — cor, nacionalidade dos moradores, animais de estimação, bebidas etc. — eram todos diferentes, e a pergunta central era “quem é o dono da zebra?”
Esse problema é chamado de Einstein’s puzzle (ou riddle) e, recentemente, vem sendo usado como métrica para medir a capacidade de raciocínio em múltiplas etapas de modelos de machine learning, especialmente grandes modelos de linguagem (LLMs)
Nouha Dziri, cientista de pesquisa do Allen Institute for AI, e colegas aplicaram LLMs como o ChatGPT a esse quebra-cabeça para verificar seus limites
Ficou claro que LLMs têm dificuldade para resolver problemas complexos que vão além do que viram nos dados de treinamento
Isso mostra a dificuldade do raciocínio composicional (compositional reasoning), que consiste em “combinar resultados resolvidos passo a passo para chegar à resposta final”
A equipe de Dziri argumenta que os LLMs têm uma limitação estrutural por serem treinados apenas com previsão de palavras
Outros pesquisadores também demonstraram que a arquitetura transformer, amplamente usada hoje, tem limites matemáticos para resolver esse tipo de problema complexo
Embora modelos cada vez mais poderosos estejam surgindo, levanta-se a perspectiva de que eles talvez não consigam resolver fundamentalmente todos os problemas de raciocínio composicional
Andrew Wilson (NYU) comentou que esse tipo de pesquisa leva a comunidade de pesquisa em IA a repensar se deve continuar apostando em uma abordagem centrada em transformers

Dúvidas levantadas por resultados surpreendentes

Segundo Dziri, à medida que os LLMs começaram a mostrar capacidades linguísticas surpreendentes, cresceu a curiosidade sobre se eles seriam capazes de “raciocínio real”
Mesmo sendo treinados de forma simples (prevendo a próxima parte da frase) a partir de uma enorme quantidade de texto da internet, os LLMs conseguem realizar tarefas complexas como processamento de linguagem natural, resumo de documentos e geração de código
OpenAI o1, GPT-4, Gemini do Google e Claude da Anthropic são exemplos representativos desses grandes modelos
Mas esses modelos às vezes também cometem erros inesperados em problemas que parecem simples para humanos
Por exemplo, há relatos de que frequentemente erram até multiplicações simples
Segundo a pesquisa de Dziri, quando o GPT-4 foi testado com multiplicações de três dígitos, acertou apenas 59%; com multiplicações de quatro dígitos, esse número caiu drasticamente para 4%
Em versões modificadas do Einstein’s puzzle, quando as casas eram pequenas (com 2 a 3 atributos), o modelo mostrava alta precisão, mas quando os atributos subiam para 4 ou 5, a taxa de sucesso despencava
Quando o GPT-3 foi ajustado com 1,8 milhão de exemplos de multiplicação, ele resolvia bem os casos dentro do intervalo incluído no treinamento, mas a taxa de acerto caía fortemente quando o formato da pergunta diferia dos exemplos treinados
A conclusão é que o modelo está mais próximo de imitar com base nos exemplos de treinamento do que de compreender o algoritmo em si

Limites evidentes

O problema apontado em comum por Dziri e outros pesquisadores é a falta de “capacidade de raciocínio composicional”
Binghui Peng (Stanford University), ainda no doutorado na Universidade Columbia, chamou atenção para o fato de que LLMs frequentemente erram em perguntas que combinam fatos, como “quem é o pai do pai?”
Ele calculou quantos parâmetros uma camada simples de transformer precisaria para resolver esse tipo de problema e concluiu que, se o tamanho do domínio for maior que o número de parâmetros do modelo, a solução se torna impossível
Depois, mesmo ao expandir isso para transformers com múltiplas camadas, provou que, ao enfrentar problemas complexos de raciocínio composicional, eles são matematicamente incapazes
Em outras palavras, à medida que a escala do modelo aumenta, ele pode resolver problemas mais difíceis, mas se a dificuldade do problema também escalar, a limitação acaba aparecendo
Alguns pesquisadores tentaram outras estruturas de redes neurais além de transformers, como state-space models, mas limites semelhantes também foram confirmados

Tentativas de superar os limites

Várias medidas complementares vêm sendo propostas para superar as limitações dos LLMs
Por exemplo, a equipe de Tom Goldstein (University of Maryland) fez com que números recebessem informações extras de posição ao serem inseridos no transformer, permitindo operações com quantidades maiores de dígitos
Com esse trabalho, um modelo treinado com números de 20 dígitos mostrou 98% de precisão até mesmo em somas com números de 100 dígitos
Outro método é a técnica de chain-of-thought, que apresenta de forma gradual no prompt o processo de resolução do problema
Observou-se que modelos como o GPT-4 mostram, com esse método, potencial para resolver problemas mais complexos
Isso se baseia no princípio de “decompor um grande problema em uma sequência de problemas menores”, e foi proposta uma interpretação teórica de que essa abordagem amplia o intervalo de operações que transformers conseguem processar
No entanto, os modelos reais não demonstram essa capacidade em todos os problemas, e os resultados variam conforme a forma de treinamento e a estrutura do modelo
Em última instância, como LLMs se baseiam em pattern matching, sempre existirão limites no caso de problemas grandes ou complexos de raciocínio composicional
Ainda assim, do ponto de vista do usuário comum, essas limitações talvez não sejam tão importantes
Já para os pesquisadores que constroem esses modelos, entender e corrigir os limites estruturais é uma tarefa central
Dziri enfatizou: “se conseguirmos entender com precisão o mecanismo interno de funcionamento dos LLMs, aumentam as chances de resolver problemas fundamentais”

5 comentários

ned0909 2025-02-05

Isso é da época anterior à era do raciocínio.

bakyeono0 2025-02-04

Há um problema em que o símbolo ~ está sendo interpretado como marcador tipográfico de texto riscado do Markdown. Seria bom se vocês pudessem corrigir isso.

rabolution 2025-02-04

Por isso, ao usar LLMs enquanto programo, percebo que eles funcionam melhor quanto menor for o acoplamento e melhor for a separação de responsabilidades. Na verdade, acho que isso talvez também valha para as pessoas. ;)

hided62 2025-02-03

O texto em si é recente, mas parece que a base do artigo é de antes do o1.

Perguntaram algo como: "A filha da irmã da mãe do irmão mais novo do pai é minha parente de que grau?"
O 4o claramente tem limitações, mas o o1 até evitava todas as pegadinhas.

GN⁺ 2025-02-03

Comentários no Hacker News

LLMs têm a característica de, como outros modelos de aprendizado de máquina, fazer correspondência de padrões nos dados de entrada para produzir resultados estatisticamente mais prováveis
- O "Chain of thought", combinado com aprendizado por reforço, permite resolver problemas difíceis
- É necessária uma definição clara de sucesso e um modelo de recompensa
- A capacidade humana de resolver problemas também depende de correspondência de padrões, e os humanos conseguem integrar grandes quantidades de informação com eficiência
LLMs são uma maravilha da IA e estão avançando, a cada dois meses, em coisas que antes eram consideradas impossíveis
- Alguns cientistas estão subestimando os resultados dos LLMs
- LeCun disse que os LLMs são um beco sem saída e sugeriu outras direções para os pesquisadores
- O fato de os resultados de LLM da Meta estarem atrás dos de outras empresas pode estar relacionado a esse ceticismo
Há muita desinformação sobre a pesquisa com LLMs
- Modelos de 6 a 12 meses atrás só conseguem raciocínio simples
- Tarefas lógicas e algorítmicas complexas exigem pensamento de sistema 2
- LLMs podem raciocinar por meio de programação
o3-mini-high conseguiu gerar código Prolog rapidamente
- O código Prolog dado como exemplo foi bem-sucedido em resolver o problema
Os resultados recentes da pesquisa tratam de GPT-3, 3.5 e da primeira geração do 4
O ChatGPT parece um mecanismo de busca rápido, com muitas alucinações e contexto limitado
- Há muitas promessas sobre avanços futuros, mas pouco progresso real
É preciso distinguir se os resultados da pesquisa analisam LLMs puros ou motores de síntese com LLM
- O desempenho do o3 no ARC-AGI-1 mostra a capacidade de um motor de síntese
LLMs podem falhar em perguntas simples que exigem raciocínio 2D ou 3D
- A IA pode ser treinada para representar bem o mundo 2D/3D
Quando as limitações dos LLMs são mencionadas em artigos, alguns meses depois já aparece um chatbot sem essas limitações
- Essas limitações não são fundamentais
Quando a pesquisa acadêmica é publicada, muitas vezes ela já está defasada em alguns meses
- Se você quiser conhecer os limites da tecnologia mais recente, é melhor recorrer às redes sociais do que a artigos acadêmicos