Entendendo os limites do raciocínio matemático em LLMs

(arxiv.org)

2 pontos por GN⁺ 2024-10-13 | 1 comentários | Compartilhar no WhatsApp

Só o aumento da pontuação no GSM8K não basta para avaliar a real capacidade de raciocínio matemático de um LLM; o GSM-Symbolic permite uma avaliação mais controlada com várias variações da mesma estrutura de problema
Esse benchmark converte problemas do GSM8K em templates simbólicos, ajustando nomes, números e quantidade de cláusulas condicionais, e cria 50 amostras por template em 100 templates, formando 5.000 exemplos por benchmark
Em 25 modelos públicos e fechados recentes, o desempenho caiu e a variância aumentou mesmo com a mesma estrutura de problema quando só os números mudavam; a pontuação original do GSM8K ficou à direita da distribuição do GSM-Symbolic em 21 dos 25 modelos
À medida que o número de cláusulas aumentava, a acurácia caía e a variância crescia; o Gemma2-9B-it caiu de 84,4% no GSM-M1 para 41,8% no GSM-P2, e o GPT-4o de 94,4% para 88,0%
No GSM-NoOp, que adiciona cláusulas irrelevantes mas aparentemente relacionadas, o desempenho de todos os modelos despencou; o Phi-3-mini ficou 65,7 p.p. abaixo do GSM8K, mostrando dificuldade em separar de forma consistente informação necessária da desnecessária

A capacidade de raciocínio matemático que o GSM8K sozinho não consegue mostrar

O GSM8K inclui mais de 8.000 problemas e soluções de matemática do ensino fundamental, com 7.473 exemplos de treino e 1.319 exemplos de teste
Como são problemas matemáticos relativamente simples, centrados nas quatro operações, ele é amplamente usado para avaliação com prompting de Chain-of-Thought (CoT)
Em uma estrutura de conjunto de teste única e fixa, só se obtém uma medida de acurácia, o que dificulta observar de forma controlada o comportamento do modelo diante de variações nas perguntas ou mudanças de dificuldade
Quanto mais usado é um benchmark, maior também a possibilidade de contaminação de dados, em que exemplos de teste acabam entrando por acaso nos dados de treino do modelo
O GSM-Symbolic transforma problemas do GSM8K em templates simbólicos para gerar várias variações e avaliar o desempenho de raciocínio matemático dos LLMs não com uma pontuação única, mas com uma distribuição de desempenho
Os templates do GSM-Symbolic e os dados gerados estão disponíveis em apple/ml-gsm-symbolic

Geração dos templates e método de avaliação

O GSM-Symbolic foi criado convertendo exemplos específicos do conjunto de teste do GSM8K em templates analisáveis
- Define variáveis, intervalos das variáveis e condições que garantem a correção da resposta final
- Como os problemas são de matemática elementar, condições como divisibilidade exata são usadas com frequência para garantir que a resposta seja um número inteiro
- Nomes de pessoas, comidas e moedas, entre outros substantivos comuns, são usados para simplificar a geração de templates
Depois da criação dos templates, eles passam por várias verificações automáticas
- Verifica-se se os valores originais das variáveis não permaneceram no template
- Confere-se se os valores originais satisfazem todas as condições
- Verifica-se se a resposta final gerada coincide com a resposta do problema original
- 10 amostras aleatórias por template são revisadas manualmente
- Depois da avaliação de todos os modelos, qualquer problema que pelo menos 2 modelos não consigam resolver é revisado manualmente novamente
Os intervalos numéricos foram ajustados para ficar próximos ao conjunto de teste original do GSM8K
- O objetivo não é avaliar capacidade aritmética em si, mas a capacidade de raciocínio lógico
- A análise no apêndice confirma que a ampliação do intervalo numérico continua dentro do limite em que a precisão aritmética dos modelos se mantém
A avaliação inclui mais de 20 modelos abertos de 2B a 27B, além de modelos fechados recentes como GPT-4o-mini, GPT-4o, o1-mini e o1-preview
No total, foram realizadas cerca de 500 avaliações, e os experimentos principais usam um benchmark de 5.000 exemplos composto por 100 templates e 50 amostras por template
Salvo menção em contrário, foi usada a configuração de 8-shot CoT e greedy decoding, comum no GSM8K e em outros benchmarks matemáticos
- Em experimentos preliminares, o número de shots não alterou significativamente o desempenho nem as conclusões

Desempenho instável mesmo com a mesma estrutura de problema

Nos 50 datasets do GSM-Symbolic, todos os modelos recentes mostraram uma variância de acurácia difícil de ignorar
- No Gemma2-9B, a diferença entre o pior e o melhor desempenho passou de 12%
- No Phi-3.5-mini, essa diferença ficou em cerca de 15%
A diferença entre as instâncias de cada pergunta está apenas nos nomes e nos números, e todo o processo de raciocínio necessário para resolvê-las é o mesmo
O desempenho nos 100 problemas originais do GSM8K ficou, em muitos modelos, mais de 1 desvio padrão à direita do centro da distribuição de desempenho do GSM-Symbolic
- Esse fenômeno apareceu em 21 dos 25 modelos
- Uma explicação possível é a contaminação de dados, em que exemplos de teste do GSM8K entraram por acaso nos dados de treino do modelo, produzindo uma medição otimista do desempenho
Ao passar do GSM8K para o GSM-Symbolic, todos os modelos perderam desempenho
- Mistral-7b-it-v0.1: -9,2 p.p.
- Gemma2-2b e Gemma2-2b-it: -7,4 p.p. cada
- Gemma2-9b, Gemma2-9b-it e Mistral-7b-it-v0.3: -6,2 p.p. cada
- GPT-4o-mini: -2,4 p.p.; o1-preview: -2,2 p.p.
- o1-mini: -0,6 p.p.; GPT-4o: -0,3 p.p.
Modelos como Llama3-8b e GPT-4o, cujo desempenho no GSM8K ficou próximo ao centro da distribuição do GSM-Symbolic, tiveram quedas menores

Mais sensibilidade a mudanças nos números do que nos nomes

Mesmo quando só os nomes mudam há variação de desempenho, mas a dispersão é menor do que quando os números mudam
A acurácia original do GSM8K fica mais próxima do centro da distribuição quando apenas os nomes são alterados
- Ao mudar os números, ou nomes e números juntos, a média da distribuição se desloca para a esquerda e a variância aumenta
A acurácia em 8-shot CoT do Gemma2-9b-it foi de 87,0% no GSM8K, 88,6±2,0% com mudança de nomes, 83,1±2,2% com mudança de números e 79,1±3,0% com ambos alterados
No Phi-3.5-mini-instruct, foi 88,0% no GSM8K, 89,1±1,8% com mudança de nomes, 84,9±2,4% com mudança de números e 82,1±3,4% com ambos alterados
No Mathstral-7b-v0.1, foi 80,0% no GSM8K, 81,0±1,3% com mudança de nomes, 77,3±2,0% com mudança de números e 74,0±3,5% com ambos alterados
Esses resultados sugerem que o processo de raciocínio dos LLMs pode estar mais próximo de correspondência de padrões com perguntas e etapas de solução semelhantes vistas nos dados de treino do que de raciocínio formal

Fragilidade revelada pelo aumento de cláusulas e pelo GSM-NoOp

Os experimentos de dificuldade usam o GSM-M1, que remove uma cláusula do GSM-Symbolic, o GSM-P1, que adiciona uma cláusula, e o GSM-P2, que adiciona duas
- Adicionar ou remover uma cláusula não significa necessariamente aumentar ou reduzir em exatamente uma o número de etapas de raciocínio necessárias
- O foco do experimento está menos no número exato e mais em como a distribuição de desempenho muda
À medida que o número de cláusulas cresce, o desempenho médio cai e a variância aumenta em todos os modelos
- Gemma2-9b-it: GSM-M1 84,4±2,4%, GSM-Symb 79,1±3,0%, GSM-P1 68,1±4,8%, GSM-P2 41,8±6,0%
- Phi-3.5-mini-instruct: 87,6±2,0%, 82,1±3,4%, 64,8±5,4%, 44,8±6,3%
- GPT-4o-mini: 92,5±1,6%, 91,7±2,0%, 81,1±3,1%, 72,4±4,6%
- GPT-4o: 94,4±1,6%, 94,9±1,9%, 93,9±2,6%, 88,0±3,4%
- o1-mini: 94,9±1,5%, 94,5±1,6%, 94,3±2,6%, 89,1±3,6%
O GSM-NoOp é um dataset que adiciona aos templates do GSM-Symbolic cláusulas que não são necessárias para resolver o problema, mas parecem relacionadas
- No exemplo, a informação de que “5 dos kiwis colhidos no domingo eram um pouco menores que a média” não afeta o cálculo do total de kiwis
- o1-mini e Llama3-8B transformaram esses 5 em uma subtração da colheita de domingo e erraram a resposta
Os modelos mostram tendência a converter frases em operações em vez de ignorá-las com base no significado
- Também foram observados casos em que expressões como “discount” eram interpretadas como multiplicação, independentemente do contexto
No GSM-NoOp, o desempenho de todos os modelos testados caiu fortemente
- Phi-3-mini-128k-instruct: -65,7 p.p. em relação ao GSM8K
- Phi-3-small-128k-instruct: -64,0 p.p.
- Gemma2-9b e Gemma2-9b-it: -63,0 p.p. cada
- Phi-3.5-mini-instruct: -62,5 p.p.
- GPT-4o-mini: -40,0 p.p.; GPT-4o: -32,0 p.p.
- o1-mini: -29,1 p.p.; o1-preview: -17,5 p.p.
Mesmo na configuração NoOp-Symb, que fornece como shots 8 variações GSM-Symbolic da mesma pergunta, o desempenho permaneceu dentro da faixa do desvio padrão
- Phi-3-medium-128k-instruct: GSM 87,3%, GSM-Symb 82,5%, GSM-NoOp 29,4%, NoOp-Symb 30,2%, NoOp-NoOp 22,6%
- Llama3-8b-instruct: GSM 76,0%, GSM-Symb 74,6%, GSM-NoOp 18,6%, NoOp-Symb 19,6%, NoOp-NoOp 19,2%
Mesmo na configuração NoOp-NoOp, que fornece como shots 8 outros problemas do GSM-NoOp, a recuperação de desempenho foi limitada
- Llama3-8B teve exatamente o mesmo desempenho do NoOp original
- No Phi-3, o desempenho caiu ligeiramente
Alguns modelos com baixo desempenho no GSM8K e no GSM-Symbolic tiveram desempenho mais alto no NoOp-Symb
- Gemma2b: GSM 12,1%, GSM-Symb 8,2%, GSM-NoOp 4,7%, NoOp-Symb 48,3%, NoOp-NoOp 3,1%
- Mistral-7b-v0.1: GSM 44,5%, GSM-Symb 41,1%, GSM-NoOp 16,2%, NoOp-Symb 62,5%, NoOp-NoOp 14,5%
No conjunto, os resultados mostram que o raciocínio matemático dos LLMs é frágil diante de variações do mesmo problema, de pequenos aumentos de dificuldade e da adição de informação irrelevante, podendo estar mais próximo de correspondência probabilística de padrões

1 comentários

GN⁺ 2024-10-13

Comentários do Hacker News

Não vou afirmar de forma categórica que LLMs de fato raciocinam, mas o padrão de queda de desempenho é parecido com o que vejo em alunos do primeiro ano da faculdade
Estou ensinando cálculo agora, e quase metade da turma fez AP Calculus no ensino médio; eles resolvem bem problemas simples, mas, quando precisam encadear vários passos, mesmo que simples, a precisão cai e a variação aumenta
Inserir frases irrelevantes no enunciado produz resultados semelhantes. Muitos alunos foram treinados a usar todas as informações fornecidas, então, se deixam de lado alguma informação dada pelo professor, tendem a achar que perderam algo importante
Por isso, vejo LLMs modernos como o GPT-4o performando mais ou menos no nível de um egresso médio do ensino médio nos EUA. Do ponto de vista do desempenho humano, é decepcionante, mas, do ponto de vista dos LLMs, também é um bom sinal de que eles já podem ajudar muita gente
- Quando um LLM acerta, isso se parece mais com extrair probabilisticamente a resposta correta de dentro do modelo graças à enorme quantidade de informação ingerida durante o treinamento
  Humanos não precisam ler 1 bilhão de problemas de matemática e respostas do Stack Overflow; com algumas explicações, vídeos no YouTube e alguns exercícios, desenvolvemos formas mais sofisticadas de processar dados e raciocinar
  O fato de as pontuações serem parecidas em áreas como matemática do ensino médio pode ser porque a IA atual e os humanos, por acaso, estão no mesmo ponto. Se observarmos em detalhe os padrões de falha, os dois falham de maneiras muito diferentes, e as falhas da IA hoje parecem bastante absurdas para humanos
- A afirmação de que “LLMs modernos como o GPT-4o estão mais ou menos no nível de um egresso médio do ensino médio nos EUA” pode estar correta em sentido estrito, mas a diferença na forma como LLMs e egressos do ensino médio são usados é muito importante
  LLMs respondem com a mesma confiança quando acertam e quando erram, e muitas vezes apresentam a resposta ao usuário como se fosse irretocável
  Se você fizer uma pergunta lógica de dificuldade intermediária a uma pessoa comum, ela vai desconfiar adequadamente da própria resposta, porque foi socializada com a ideia de que humanos são fracos em lógica. Já um LLM está em cima de um computador, e computadores sempre foram recebidos, pela interface, como algo que acerta em matemática e lógica
  Por isso, acho que LLMs têm mais probabilidade de induzir muita gente ao erro do que de ajudar muita gente
- Fico me perguntando se é porque as questões de provas do ensino médio são simples demais, ou porque há padrões semelhantes demais nos dados de treinamento
  Quando se introduzem problemas simples, mas novos, que exigem compreensão real de conceitos matemáticos básicos, os resultados continuaram ruins; o mesmo aconteceu com questões no nível do exame de admissão ao ensino médio na China
  LLMs pareciam não entender matemática, mas sim fazer pattern matching, e esse tipo de correspondência de padrões talvez só seja útil para alunos que já têm competência
- Não sei por que as pessoas ainda se confundem. Esses modelos, fundamentalmente, têm parâmetros de aleatoriedade e evitam saídas determinísticas para parecer que estão de fato pensando, então parece claro que não há raciocínio acontecendo
- Não quero menosprezar o sistema escolar dos EUA, mas o vejo como algo bem próximo do modo fácil. Nem todo mundo precisa se destacar academicamente, mas é mais fácil aprender quando se é jovem, e acredito que segurar a mão em excesso prejudica o aprendizado
Este artigo mostra que, ao adicionar informações irrelevantes, o desempenho de LLMs em problemas básicos de álgebra piora bastante
Um exemplo é um problema como: “John colheu 43 kiwis na segunda-feira, 24 na terça-feira, e 5 dos kiwis que colheu na quarta-feira eram menores que o normal. Se ele colheu 87 kiwis no total na segunda, terça e quarta, quantos colheu na quarta-feira?”
A informação de que alguns kiwis de quarta-feira eram pequenos é irrelevante, mas, ao inserir uma frase desse tipo, o desempenho em um benchmark famoso cai de 95% para 77% no GPT-4o
Ainda assim, isso não é tão impressionante. Mesmo uma pessoa, ao ler um problema desses, precisa considerar duas possibilidades: pode ser informação irrelevante, ou o problema pode ter sido mal escrito e aquela informação talvez originalmente devesse ser relevante
Quando vejo problemas-armadilha para LLM que invertem quebra-cabeças lógicos famosos, acho que eu também “erraria”. Não por não entender o problema, mas porque, sem contexto, posso presumir que a inversão é um erro de digitação
- Inserir pequenas armadilhas desse tipo é uma tática usada no ensino de matemática e física para verificar se o aluno está realmente entendendo o novo problema, e não apenas seguindo mecanicamente a estrutura superficial de problemas anteriores
  O argumento aqui é que o LLM não raciocina, mas responde mecanicamente, como quem gira uma manivela
  Esse problema não seria estranho em uma prova de matemática do 6º ano. Lembro claramente de ter aprendido, em problemas de enunciado, a distinguir as informações realmente relacionadas à pergunta das informações-isca colocadas pelo professor
- Em diálogos reais, há muita informação irrelevante misturada por todo tipo de motivo
  Existem contextos estreitos, como na academia ou em áreas especializadas, em que as perguntas são apresentadas de forma cuidadosa e específica, mas uma ferramenta auxiliar de uso geral precisa ser capaz de encontrar o que é relevante em meio ao que não é
  A capacidade de resolver bem problemas matemáticos muito bem definidos pode ser útil como ferramenta auxiliar em um domínio específico, mas isso, por si só, não é a mesma capacidade
  Se projetos de IA estão apostando US$ 100 bilhões em chegar à AGI, é conveniente confundir esses contextos. Nesse caso, aprofundar-se em questões formais como SAT, LSAT e GRE está mais próximo de ajustar-se a microbenchmarks do que a casos de uso reais
- Distinguir informação irrelevante é uma habilidade ensinada ainda no ensino fundamental e também necessária no SAT
  Na prática, qualquer tipo de modelo, mesmo que não seja um LLM nem aprendizado de máquina, precisa filtrar informações irrelevantes
  O ponto central é produzir uma resposta logicamente defensável e com a qual a maioria concordaria. Se o modelo dissesse “não tenho certeza se esta parte é um erro de digitação”, os criadores do modelo teriam orientado o RLHF de outra forma. Isso é, em certa medida, razoável e defensável
  Ainda assim, acho que este problema específico tem uma única resposta objetiva. É claro que prompts enganosos ou irrelevantes nem sempre são assim, mas, pelo modo como o modelo responde, ele está de fato sendo enganado
  Vejo dessa forma porque, como trabalhador de RLHF, às vezes recebo instruções para escrever perguntas parecidas. No fim, esse é o modo de previsão de linguagem que os criadores do modelo querem, e o usuário acaba entrando nesse fluxo
- Considero esse resultado válido. Modelos Transformer, em vez de executar lógica explicitamente, “chutam” a resposta por intuição por meio do mecanismo de atenção, com base na sequência de entrada e no conhecimento aprendido; no fim, eles preveem sequências de texto
  Por isso, ao inserir contexto irrelevante na entrada, há grande chance de a saída ser afetada
  O mecanismo de atenção talvez consiga superar isso, mas, se não conseguir, é uma armadilha bastante grande para aplicações reais e para a confiabilidade. Em ambientes reais, muitas vezes não fica imediatamente claro o que é informação relevante
  Se uma pessoa precisa julgar quais informações incluir, e a saída também depende desse julgamento, a utilidade do modelo diminui bastante. Ele ainda é útil hoje, mas o nível esperado pelos investidores parece muito maior do que isso
- A capacidade de filtrar o sinal em meio ao ruído é tão importante quanto a capacidade de tirar conclusões a partir do sinal — talvez até mais —, por isso esse resultado é importante
Este resultado é muito parecido com o problema Alice in Wonderland discutido alguns meses atrás. Os autores de outro artigo foram muito mais críticos e chamaram isso de “colapso completo do raciocínio”
Também se pode ver esse problema como resultado de o modelo estar em um estado intermediário entre correspondência de padrões e raciocínio
Se, ao mudar os personagens, os números e a estrutura das frases do problema, o resultado varia em mais de 20 pontos percentuais, acho difícil confiar nos resultados de benchmarks de LLMs relacionados a matemática e raciocínio
https://arxiv.org/html/2406.02061v1
https://news.ycombinator.com/item?id=40811329
- Houve um exemplo interessante relacionado à capacidade de raciocínio: https://x.com/colin_fraser/status/1834336440819614036
  “Um homem foi levado ao hospital. O médico olhou para ele e exclamou: ‘Não posso operar esta pessoa. É meu filho!’ Como isso é possível?”
  Todos os LLMs que testei, até o GPT o1-preview, erraram esse problema. Eles presumem que é uma charada que quebra o estereótipo de gênero de que o médico é homem, mas aqui está escrito “he exclaims”, deixando claro que o médico é homem; portanto, não há contradição, e o homem pode ser o pai do paciente
  O LLM parece ter errado porque encontrou um padrão de raciocínio parecido e o aplicou. Mesmo com induções adicionais, continuou errando e, em certo momento, chegou a afirmar que poderia ser uma relação homoafetiva
  Curiosamente, quando esse exemplo apareceu na thread sobre o O1, muitas pessoas no HN também entenderam o problema errado. Talvez humanos também raciocinem usando muitos exemplos anteriores, em vez de pensar do zero desde o início
- Claude-3.5 e o1-preview acertaram esse problema
  Em “Alice tem 3 irmãos e 2 irmãs. Quantas irmãs os irmãos de Alice têm?”, o ponto central é que, para os irmãos, além das 2 irmãs de Alice, a própria Alice também conta como irmã; portanto, a resposta é 3
- A discussão maior no HN sobre o artigo Alice in Wonderland está aqui
  https://news.ycombinator.com/item?id=40585039
A explicação de que “à medida que o número de cláusulas da pergunta aumenta, o desempenho em raciocínio matemático cai drasticamente, e os LLMs atuais não fazem raciocínio lógico de verdade” também pode ter uma causa mais simples: tokenização
Ao tokenizar “12345 * 27271”, isso se divide em algo como “123”, “45”, “ *”, “ ”, “272”, “71”
No contexto de aritmética simples, a possibilidade estatística de esses tokens preverem uns aos outros é quase sem sentido
Dá para ver isso como um ponto em que é necessário usar ferramentas, e eu concordo com essa visão, mas é difícil considerar isso um bom sinal de “raciocínio lógico de verdade”
- Nanda e outros conseguiram reconstruir o mecanismo exato pelo qual um Transformer foi treinado para realizar adição modular
  No fim, em Transformers, os dados de treinamento são o essencial, e vamos aprender cada vez mais que a ordem em que os dados são aprendidos é muito importante. Mas é claro que um Transformer consegue codificar uma solução generalizada para aritmética
  Com uma tokenização e um procedimento de treinamento adequados, é possível criar um LLM com capacidade aritmética estatisticamente robusta. Ainda assim, eu não confiaria em um modelo probabilístico mais do que na certeza algorítmica de uma calculadora; para matemáticos, porém, o mais importante é se esses modelos conseguem raciocinar sobre problemas complexos e usar a força estatística de seus pesos para ajudar a abrir novas áreas em problemas matemáticos difíceis
  https://arxiv.org/abs/2301.05217
- Discordo respeitosamente. É verdade que a tokenização afeta o processamento de entrada dos modelos de linguagem, mas atribuir toda a dificuldade do raciocínio matemático à tokenização é simplificar demais
  Modelos de linguagem modernos não dependem apenas da previsão de tokens individuais; eles constroem representações contextuais ao longo de várias camadas. Caso contrário, seria impossível que o modelo funcionasse, exceto em casos extremamente simples
  A queda de desempenho quando a complexidade aumenta pode se dever a outros fatores, como limitações de memória de trabalho ou do alcance de atenção, dificuldade de manter coerência em sequências longas e dificuldade de gerenciar simultaneamente várias restrições lógicas interdependentes
  De todo modo, acho que o modelo o1 da OpenAI está se saindo muito bem em matemática no momento. Uma abordagem iterativa e guiada pelo próprio modelo de cadeia de pensamento parece lidar com problemas bastante complexos
- Se a tokenização fosse alterada só um pouco, por exemplo mapeando um dígito para um token, isso não ajudaria nesse problema específico?
- Um LLM também deve saber que “123” e “45” formam um número contínuo. É parecido com uma pessoa entender como um único número mesmo que alguém diga “123”, faça uma pausa bem curta e depois diga “45”
É difícil entender a tolice do mundo em que vivemos hoje. Parece óbvio demais que o mercado de ações está em uma bolha, especialmente que as ações relacionadas a IA estão em uma bolha enorme
Mesmo que, quando estourar, vá ser bem feio, o dinheiro continua entrando. Como disse Sabine, isso está ficando parecido com a física de partículas sempre pedindo colisores maiores. Se a metodologia estiver errada, aumentar o colisor não vai gerar retornos significativos adicionais
No fim, o fluxo exponencial de dinheiro a ser despejado vai acabar, e os investidores começarão a fazer perguntas. As ações já estão avaliadas a mais de 60 vezes os lucros, e ninguém vai querer ser a pessoa que comprou no topo quando a bolha estourar
Vai levar mais tempo para o público em geral perceber os problemas dos LLMs, mas isso acabará acontecendo
- As previsões de escalonamento de 5 anos atrás se confirmaram até agora. Continuamos aumentando parâmetros e computação, e os modelos continuaram ficando mais poderosos
  As falhas dos LLMs em 2024 não são o ponto importante. Assim como as falhas dos LLMs em 2021 não importavam, o que importa é o ritmo da mudança e a falta de evidências de que essa subida íngreme não continuará
  Especialmente se considerarmos o GPT-4 como uma espécie de modelo de prévia que induziu investimentos massivos, os modelos impulsionados por esses investimentos começarão a aparecer nos próximos 2 anos
  Se a tendência se romper e o escalonamento falhar, acho que muito ar sairá da bolha
  https://arxiv.org/pdf/2001.08361
- Há décadas os computadores conseguem fazer cálculos matemáticos e dedução lógica de forma barata e perfeita, e a IA generativa não precisa necessariamente fazer isso bem por conta própria para ser útil
  Basta conseguir escrever e executar código Python para resolver, e em geral ela faz isso bastante bem
  Se ela realmente consegue fazer isso é uma pergunta academicamente interessante, mas separada de ela ser útil. Para ser útil, também não precisa necessariamente ser uma AGI de verdade
Há muita discussão sobre se cláusulas irrelevantes confundem LLMs e se isso importa, mas acho que a parte mais fatal é esta: “No benchmark GSM-Symbolic, apenas mudar os valores numéricos da pergunta reduz o desempenho de todos os modelos”
Isso parece uma prova difícil de refutar de overfitting. Na melhor das hipóteses, significa que o overfitting é generalizado nos LLMs atuais; na pior, está ocultando uma limitação fundamental na capacidade de aprender raciocínio matemático a partir dos dados de treinamento
Muito interessante, e condiz com minhas expectativas sobre o tipo de “pensamento” que os LLMs fazem
Acho que só esse tipo de “pensamento” já seria suficiente para passar na maioria das matérias escolares. Claro, exceto em disciplinas em que o professor se esforça para criar questões de prova difíceis de resolver por correspondência de padrões
Pensando em problemas de entrevista no estilo LeetCode, é uma diferença parecida com quais problemas são melhores ou piores para avaliar candidatos
Também sei que muita gente está trabalhando duro para adicionar outros tipos de pensamento que funcionem junto com modelos de linguagem puros
Testo LLMs de um jeito parecido. Por exemplo, o famoso quebra-cabeça lógico em que um fazendeiro atravessa um rio com um repolho, uma cabra e um lobo já podia ser resolvido desde o GPT-2, mas, se você trocar o lobo por uma vaca, o gpt-o infere corretamente as regras do quebra-cabeça, mas não consegue resolvê-lo
- O quebra-cabeça de atravessar o rio é bom para mostrar como LLMs desmoronam
  Por exemplo, testei várias variações no Gemini, e havia até uma versão fácil sem a restrição de que o barco do fazendeiro só pudesse levar um passageiro ou objeto por vez
  Ao perguntar “Um fazendeiro tem cônjuge, galinha, repolho e bebê, e todos precisam atravessar o rio de barco. Qual é a melhor maneira?”, nos testes o LLM quase sempre assumia que havia um limite de carga no barco e inventava uma solução estranha com várias idas e voltas
- O que aconteceria se eu criasse por conta própria um jogo lógico totalmente novo, que nunca foi documentado em lugar nenhum, e pedisse para um LLM resolvê-lo? Para mim, como leigo, parece um bom método para medir o raciocínio da IA
- Tenho usado isso como primeira pergunta toda vez que testo um novo LLM, e tenho certeza de que os modelos anteriores ao GPT-4 quase nunca chegaram perto da resposta correta. Você poderia mostrar um prompt que GPT-2 ou 3 consiga resolver?
- No fim, isso significa que não passa de um Google vistoso
Seria interessante se esse tipo de trabalho pudesse ser ampliado para mostrar também os limites do raciocínio matemático de animais e humanos
Por exemplo, assim como um cachorro jamais entenderia uma transformada de Fourier, é bem provável que existam ideias que humanos também não consigam compreender
Se pudéssemos conhecer nossos limites, fico curioso para saber se conseguiríamos criar máquinas que raciocinem de maneiras que humanos não conseguem
- Presumir que esses limites realmente existam pode, por si só, ser uma suposição ingênua. Aqui, “existir” significa um limite útil, que possa ser explicado de forma consistente e relativamente simples
  Na linguagem, uma ideia parecida também foi explorada por meio de Noam Chomsky, tentando traçar limites claros e formalizados da compreensão para mostrar como as capacidades humanas diferem das dos animais
  Pessoalmente, acho que essa abordagem fracassou de forma completamente irreversível, mas isso não significa que a pesquisa em si tenha sido inútil
Para quem já lidou com raciocínio formal, não é um resultado surpreendente. LLMs não fazem raciocínio lógico de verdade no sentido formal, e um SMT solver consegue se sair melhor
Ao mesmo tempo, se os dados de treinamento forem praticamente tudo que já foi escrito até hoje, apenas aplicar “etapas de raciocínio” extraídas desses dados já permite resolver muitos problemas lógicos
As duas coisas podem ser verdade ao mesmo tempo, e isso não é uma contradição, mas uma dicotomia interessante

Entendendo os limites do raciocínio matemático em LLMs

A capacidade de raciocínio matemático que o GSM8K sozinho não consegue mostrar

Geração dos templates e método de avaliação

Desempenho instável mesmo com a mesma estrutura de problema

Mais sensibilidade a mudanças nos números do que nos nomes

Fragilidade revelada pelo aumento de cláusulas e pelo GSM-NoOp

Leituras relacionadas

1 comentários

Comentários do Hacker News