11 pontos por GN⁺ 2025-02-03 | 5 comentários | Compartilhar no WhatsApp
  • LLMs têm dificuldade com tarefas composicionais (Compositional Task), o que sugere limites em suas capacidades
    • Esse problema mostra que os LLMs não conseguem raciocinar além do que viram nos dados de treinamento
  • Em 17 de dezembro de 1962, a Life International publicou um quebra-cabeça lógico composto por 15 frases
  • Cada frase oferecia uma pista, como “o britânico mora na casa vermelha” ou “na casa do meio bebe-se leite”
  • Os atributos das cinco casas — cor, nacionalidade dos moradores, animais de estimação, bebidas etc. — eram todos diferentes, e a pergunta central era “quem é o dono da zebra?”
  • Esse problema é chamado de Einstein’s puzzle (ou riddle) e, recentemente, vem sendo usado como métrica para medir a capacidade de raciocínio em múltiplas etapas de modelos de machine learning, especialmente grandes modelos de linguagem (LLMs)
  • Nouha Dziri, cientista de pesquisa do Allen Institute for AI, e colegas aplicaram LLMs como o ChatGPT a esse quebra-cabeça para verificar seus limites
  • Ficou claro que LLMs têm dificuldade para resolver problemas complexos que vão além do que viram nos dados de treinamento
  • Isso mostra a dificuldade do raciocínio composicional (compositional reasoning), que consiste em “combinar resultados resolvidos passo a passo para chegar à resposta final”
  • A equipe de Dziri argumenta que os LLMs têm uma limitação estrutural por serem treinados apenas com previsão de palavras
  • Outros pesquisadores também demonstraram que a arquitetura transformer, amplamente usada hoje, tem limites matemáticos para resolver esse tipo de problema complexo
  • Embora modelos cada vez mais poderosos estejam surgindo, levanta-se a perspectiva de que eles talvez não consigam resolver fundamentalmente todos os problemas de raciocínio composicional
  • Andrew Wilson (NYU) comentou que esse tipo de pesquisa leva a comunidade de pesquisa em IA a repensar se deve continuar apostando em uma abordagem centrada em transformers

Dúvidas levantadas por resultados surpreendentes

  • Segundo Dziri, à medida que os LLMs começaram a mostrar capacidades linguísticas surpreendentes, cresceu a curiosidade sobre se eles seriam capazes de “raciocínio real”
  • Mesmo sendo treinados de forma simples (prevendo a próxima parte da frase) a partir de uma enorme quantidade de texto da internet, os LLMs conseguem realizar tarefas complexas como processamento de linguagem natural, resumo de documentos e geração de código
  • OpenAI o1, GPT-4, Gemini do Google e Claude da Anthropic são exemplos representativos desses grandes modelos
  • Mas esses modelos às vezes também cometem erros inesperados em problemas que parecem simples para humanos
  • Por exemplo, há relatos de que frequentemente erram até multiplicações simples
  • Segundo a pesquisa de Dziri, quando o GPT-4 foi testado com multiplicações de três dígitos, acertou apenas 59%; com multiplicações de quatro dígitos, esse número caiu drasticamente para 4%
  • Em versões modificadas do Einstein’s puzzle, quando as casas eram pequenas (com 2 a 3 atributos), o modelo mostrava alta precisão, mas quando os atributos subiam para 4 ou 5, a taxa de sucesso despencava
  • Quando o GPT-3 foi ajustado com 1,8 milhão de exemplos de multiplicação, ele resolvia bem os casos dentro do intervalo incluído no treinamento, mas a taxa de acerto caía fortemente quando o formato da pergunta diferia dos exemplos treinados
  • A conclusão é que o modelo está mais próximo de imitar com base nos exemplos de treinamento do que de compreender o algoritmo em si

Limites evidentes

  • O problema apontado em comum por Dziri e outros pesquisadores é a falta de “capacidade de raciocínio composicional”
  • Binghui Peng (Stanford University), ainda no doutorado na Universidade Columbia, chamou atenção para o fato de que LLMs frequentemente erram em perguntas que combinam fatos, como “quem é o pai do pai?”
  • Ele calculou quantos parâmetros uma camada simples de transformer precisaria para resolver esse tipo de problema e concluiu que, se o tamanho do domínio for maior que o número de parâmetros do modelo, a solução se torna impossível
  • Depois, mesmo ao expandir isso para transformers com múltiplas camadas, provou que, ao enfrentar problemas complexos de raciocínio composicional, eles são matematicamente incapazes
  • Em outras palavras, à medida que a escala do modelo aumenta, ele pode resolver problemas mais difíceis, mas se a dificuldade do problema também escalar, a limitação acaba aparecendo
  • Alguns pesquisadores tentaram outras estruturas de redes neurais além de transformers, como state-space models, mas limites semelhantes também foram confirmados

Tentativas de superar os limites

  • Várias medidas complementares vêm sendo propostas para superar as limitações dos LLMs
  • Por exemplo, a equipe de Tom Goldstein (University of Maryland) fez com que números recebessem informações extras de posição ao serem inseridos no transformer, permitindo operações com quantidades maiores de dígitos
  • Com esse trabalho, um modelo treinado com números de 20 dígitos mostrou 98% de precisão até mesmo em somas com números de 100 dígitos
  • Outro método é a técnica de chain-of-thought, que apresenta de forma gradual no prompt o processo de resolução do problema
  • Observou-se que modelos como o GPT-4 mostram, com esse método, potencial para resolver problemas mais complexos
  • Isso se baseia no princípio de “decompor um grande problema em uma sequência de problemas menores”, e foi proposta uma interpretação teórica de que essa abordagem amplia o intervalo de operações que transformers conseguem processar
  • No entanto, os modelos reais não demonstram essa capacidade em todos os problemas, e os resultados variam conforme a forma de treinamento e a estrutura do modelo
  • Em última instância, como LLMs se baseiam em pattern matching, sempre existirão limites no caso de problemas grandes ou complexos de raciocínio composicional
  • Ainda assim, do ponto de vista do usuário comum, essas limitações talvez não sejam tão importantes
  • Já para os pesquisadores que constroem esses modelos, entender e corrigir os limites estruturais é uma tarefa central
  • Dziri enfatizou: “se conseguirmos entender com precisão o mecanismo interno de funcionamento dos LLMs, aumentam as chances de resolver problemas fundamentais”

5 comentários

 
ned0909 2025-02-05

Isso é da época anterior à era do raciocínio.

 
bakyeono0 2025-02-04

Há um problema em que o símbolo ~ está sendo interpretado como marcador tipográfico de texto riscado do Markdown. Seria bom se vocês pudessem corrigir isso.

 
rabolution 2025-02-04

Por isso, ao usar LLMs enquanto programo, percebo que eles funcionam melhor quanto menor for o acoplamento e melhor for a separação de responsabilidades. Na verdade, acho que isso talvez também valha para as pessoas. ;)

 
hided62 2025-02-03

O texto em si é recente, mas parece que a base do artigo é de antes do o1.

Perguntaram algo como: "A filha da irmã da mãe do irmão mais novo do pai é minha parente de que grau?"
O 4o claramente tem limitações, mas o o1 até evitava todas as pegadinhas.

 
GN⁺ 2025-02-03
Comentários no Hacker News
  • LLMs têm a característica de, como outros modelos de aprendizado de máquina, fazer correspondência de padrões nos dados de entrada para produzir resultados estatisticamente mais prováveis

    • O "Chain of thought", combinado com aprendizado por reforço, permite resolver problemas difíceis
    • É necessária uma definição clara de sucesso e um modelo de recompensa
    • A capacidade humana de resolver problemas também depende de correspondência de padrões, e os humanos conseguem integrar grandes quantidades de informação com eficiência
  • LLMs são uma maravilha da IA e estão avançando, a cada dois meses, em coisas que antes eram consideradas impossíveis

    • Alguns cientistas estão subestimando os resultados dos LLMs
    • LeCun disse que os LLMs são um beco sem saída e sugeriu outras direções para os pesquisadores
    • O fato de os resultados de LLM da Meta estarem atrás dos de outras empresas pode estar relacionado a esse ceticismo
  • Há muita desinformação sobre a pesquisa com LLMs

    • Modelos de 6 a 12 meses atrás só conseguem raciocínio simples
    • Tarefas lógicas e algorítmicas complexas exigem pensamento de sistema 2
    • LLMs podem raciocinar por meio de programação
  • o3-mini-high conseguiu gerar código Prolog rapidamente

    • O código Prolog dado como exemplo foi bem-sucedido em resolver o problema
  • Os resultados recentes da pesquisa tratam de GPT-3, 3.5 e da primeira geração do 4

  • O ChatGPT parece um mecanismo de busca rápido, com muitas alucinações e contexto limitado

    • Há muitas promessas sobre avanços futuros, mas pouco progresso real
  • É preciso distinguir se os resultados da pesquisa analisam LLMs puros ou motores de síntese com LLM

    • O desempenho do o3 no ARC-AGI-1 mostra a capacidade de um motor de síntese
  • LLMs podem falhar em perguntas simples que exigem raciocínio 2D ou 3D

    • A IA pode ser treinada para representar bem o mundo 2D/3D
  • Quando as limitações dos LLMs são mencionadas em artigos, alguns meses depois já aparece um chatbot sem essas limitações

    • Essas limitações não são fundamentais
  • Quando a pesquisa acadêmica é publicada, muitas vezes ela já está defasada em alguns meses

    • Se você quiser conhecer os limites da tecnologia mais recente, é melhor recorrer às redes sociais do que a artigos acadêmicos