- LLMs têm dificuldade com tarefas composicionais (Compositional Task), o que sugere limites em suas capacidades
- Esse problema mostra que os LLMs não conseguem raciocinar além do que viram nos dados de treinamento
- Em 17 de dezembro de 1962, a Life International publicou um quebra-cabeça lógico composto por 15 frases
- Cada frase oferecia uma pista, como “o britânico mora na casa vermelha” ou “na casa do meio bebe-se leite”
- Os atributos das cinco casas — cor, nacionalidade dos moradores, animais de estimação, bebidas etc. — eram todos diferentes, e a pergunta central era “quem é o dono da zebra?”
- Esse problema é chamado de Einstein’s puzzle (ou riddle) e, recentemente, vem sendo usado como métrica para medir a capacidade de raciocínio em múltiplas etapas de modelos de machine learning, especialmente grandes modelos de linguagem (LLMs)
- Nouha Dziri, cientista de pesquisa do Allen Institute for AI, e colegas aplicaram LLMs como o ChatGPT a esse quebra-cabeça para verificar seus limites
- Ficou claro que LLMs têm dificuldade para resolver problemas complexos que vão além do que viram nos dados de treinamento
- Isso mostra a dificuldade do raciocínio composicional (compositional reasoning), que consiste em “combinar resultados resolvidos passo a passo para chegar à resposta final”
- A equipe de Dziri argumenta que os LLMs têm uma limitação estrutural por serem treinados apenas com previsão de palavras
- Outros pesquisadores também demonstraram que a arquitetura transformer, amplamente usada hoje, tem limites matemáticos para resolver esse tipo de problema complexo
- Embora modelos cada vez mais poderosos estejam surgindo, levanta-se a perspectiva de que eles talvez não consigam resolver fundamentalmente todos os problemas de raciocínio composicional
- Andrew Wilson (NYU) comentou que esse tipo de pesquisa leva a comunidade de pesquisa em IA a repensar se deve continuar apostando em uma abordagem centrada em transformers
Dúvidas levantadas por resultados surpreendentes
- Segundo Dziri, à medida que os LLMs começaram a mostrar capacidades linguísticas surpreendentes, cresceu a curiosidade sobre se eles seriam capazes de “raciocínio real”
- Mesmo sendo treinados de forma simples (prevendo a próxima parte da frase) a partir de uma enorme quantidade de texto da internet, os LLMs conseguem realizar tarefas complexas como processamento de linguagem natural, resumo de documentos e geração de código
- OpenAI o1, GPT-4, Gemini do Google e Claude da Anthropic são exemplos representativos desses grandes modelos
- Mas esses modelos às vezes também cometem erros inesperados em problemas que parecem simples para humanos
- Por exemplo, há relatos de que frequentemente erram até multiplicações simples
- Segundo a pesquisa de Dziri, quando o GPT-4 foi testado com multiplicações de três dígitos, acertou apenas 59%; com multiplicações de quatro dígitos, esse número caiu drasticamente para 4%
- Em versões modificadas do Einstein’s puzzle, quando as casas eram pequenas (com 2 a 3 atributos), o modelo mostrava alta precisão, mas quando os atributos subiam para 4 ou 5, a taxa de sucesso despencava
- Quando o GPT-3 foi ajustado com 1,8 milhão de exemplos de multiplicação, ele resolvia bem os casos dentro do intervalo incluído no treinamento, mas a taxa de acerto caía fortemente quando o formato da pergunta diferia dos exemplos treinados
- A conclusão é que o modelo está mais próximo de imitar com base nos exemplos de treinamento do que de compreender o algoritmo em si
Limites evidentes
- O problema apontado em comum por Dziri e outros pesquisadores é a falta de “capacidade de raciocínio composicional”
- Binghui Peng (Stanford University), ainda no doutorado na Universidade Columbia, chamou atenção para o fato de que LLMs frequentemente erram em perguntas que combinam fatos, como “quem é o pai do pai?”
- Ele calculou quantos parâmetros uma camada simples de transformer precisaria para resolver esse tipo de problema e concluiu que, se o tamanho do domínio for maior que o número de parâmetros do modelo, a solução se torna impossível
- Depois, mesmo ao expandir isso para transformers com múltiplas camadas, provou que, ao enfrentar problemas complexos de raciocínio composicional, eles são matematicamente incapazes
- Em outras palavras, à medida que a escala do modelo aumenta, ele pode resolver problemas mais difíceis, mas se a dificuldade do problema também escalar, a limitação acaba aparecendo
- Alguns pesquisadores tentaram outras estruturas de redes neurais além de transformers, como state-space models, mas limites semelhantes também foram confirmados
Tentativas de superar os limites
- Várias medidas complementares vêm sendo propostas para superar as limitações dos LLMs
- Por exemplo, a equipe de Tom Goldstein (University of Maryland) fez com que números recebessem informações extras de posição ao serem inseridos no transformer, permitindo operações com quantidades maiores de dígitos
- Com esse trabalho, um modelo treinado com números de 20 dígitos mostrou 98% de precisão até mesmo em somas com números de 100 dígitos
- Outro método é a técnica de chain-of-thought, que apresenta de forma gradual no prompt o processo de resolução do problema
- Observou-se que modelos como o GPT-4 mostram, com esse método, potencial para resolver problemas mais complexos
- Isso se baseia no princípio de “decompor um grande problema em uma sequência de problemas menores”, e foi proposta uma interpretação teórica de que essa abordagem amplia o intervalo de operações que transformers conseguem processar
- No entanto, os modelos reais não demonstram essa capacidade em todos os problemas, e os resultados variam conforme a forma de treinamento e a estrutura do modelo
- Em última instância, como LLMs se baseiam em pattern matching, sempre existirão limites no caso de problemas grandes ou complexos de raciocínio composicional
- Ainda assim, do ponto de vista do usuário comum, essas limitações talvez não sejam tão importantes
- Já para os pesquisadores que constroem esses modelos, entender e corrigir os limites estruturais é uma tarefa central
- Dziri enfatizou: “se conseguirmos entender com precisão o mecanismo interno de funcionamento dos LLMs, aumentam as chances de resolver problemas fundamentais”
5 comentários
Isso é da época anterior à era do raciocínio.
Há um problema em que o símbolo
~está sendo interpretado como marcador tipográfico de texto riscado do Markdown. Seria bom se vocês pudessem corrigir isso.Por isso, ao usar LLMs enquanto programo, percebo que eles funcionam melhor quanto menor for o acoplamento e melhor for a separação de responsabilidades. Na verdade, acho que isso talvez também valha para as pessoas. ;)
O texto em si é recente, mas parece que a base do artigo é de antes do o1.
Perguntaram algo como: "A filha da irmã da mãe do irmão mais novo do pai é minha parente de que grau?"
O 4o claramente tem limitações, mas o o1 até evitava todas as pegadinhas.
Comentários no Hacker News
LLMs têm a característica de, como outros modelos de aprendizado de máquina, fazer correspondência de padrões nos dados de entrada para produzir resultados estatisticamente mais prováveis
LLMs são uma maravilha da IA e estão avançando, a cada dois meses, em coisas que antes eram consideradas impossíveis
Há muita desinformação sobre a pesquisa com LLMs
o3-mini-highconseguiu gerar código Prolog rapidamenteOs resultados recentes da pesquisa tratam de GPT-3, 3.5 e da primeira geração do 4
O ChatGPT parece um mecanismo de busca rápido, com muitas alucinações e contexto limitado
É preciso distinguir se os resultados da pesquisa analisam LLMs puros ou motores de síntese com LLM
LLMs podem falhar em perguntas simples que exigem raciocínio 2D ou 3D
Quando as limitações dos LLMs são mencionadas em artigos, alguns meses depois já aparece um chatbot sem essas limitações
Quando a pesquisa acadêmica é publicada, muitas vezes ela já está defasada em alguns meses