3 pontos por GN⁺ 2024-06-06 | 1 comentários | Compartilhar no WhatsApp

Alice no País das Maravilhas: uma tarefa simples que mostra o colapso completo de raciocínio em grandes modelos de linguagem recentes

Resumo dos principais pontos

  • Grandes modelos de linguagem (LLMs): modelos que apresentam forte desempenho em diversas tarefas e condições, seguindo leis de escala segundo as quais o desempenho melhora à medida que o tamanho do pré-treinamento aumenta.
  • Problema: grandes modelos de linguagem recentes mostram um colapso grave de funcionalidade e capacidade de raciocínio em problemas simples de senso comum. Mesmo em questões que humanos resolvem com facilidade, apresentam respostas erradas com confiança e justificam essas respostas incorretas com explicações ilógicas.
  • Intervenções malsucedidas: falharam as tentativas de levar o modelo à resposta correta por meio de vários tipos de reforço de prompt ou reavaliação em múltiplas etapas.
  • Necessidade de reavaliação: é necessário reavaliar as capacidades atribuídas à geração atual de grandes modelos de linguagem e criar benchmarks padronizados capazes de detectar adequadamente essas falhas básicas de raciocínio.

Opinião do GN⁺

  • Limitações técnicas: isso mostra que grandes modelos de linguagem ainda têm limitações em certas situações. Isso sugere que são necessárias pesquisas e melhorias adicionais para aumentar a confiabilidade dos modelos.
  • Benchmarks padronizados: são necessários novos benchmarks padronizados para avaliar com precisão o desempenho dos modelos. Isso pode ajudar pesquisadores a entender melhor as fraquezas dos modelos e aprimorá-los.
  • Aplicações no mundo real: essas falhas indicam que é preciso cautela ao usar grandes modelos de linguagem em aplicações reais. Em especial, se forem usados em decisões importantes, podem surgir problemas de confiabilidade.
  • Tecnologias alternativas: pode ser necessário considerar outras tecnologias ou modelos de IA. Por exemplo, aprendizado por reforço ou modelos híbridos podem ser alternativas.
  • Direções futuras de pesquisa: este estudo aponta novas direções de pesquisa para superar as limitações dos grandes modelos de linguagem. Por exemplo, é necessário desenvolver modelos que imitem melhor o senso comum e a capacidade de raciocínio humanos.

1 comentários

 
GN⁺ 2024-06-06
Comentários do Hacker News
  • Para quem pretende ler o artigo, a parte principal pode ser lida rapidamente nas primeiras 10 páginas.
  • Os exemplos abordados no artigo são relativamente fáceis de entender, mas há dúvidas se as ferramentas realmente conseguiriam resolver os problemas.
  • Ferramentas de IA não pensam nem raciocinam de fato, mas muitas pessoas tendem a considerá-las como IA de uso geral.
  • Parece improvável que o artigo tenha impacto no hype em torno da IA.
  • Para a pergunta "Alice tem 60 irmãos e 212 irmãs. Quantas irmãs os irmãos de Alice têm?", o GPT-4 fornece a resposta correta.
  • No experimento, quando o modelo foi induzido a não "pensar em voz alta", o GPT-4 forneceu respostas erradas de forma consistente.
  • Em exemplos mais complexos, o GPT-4 tende a falhar.
  • O modelo Gemini resolveu o problema sem indução adicional, mas fica confuso quando recebe números.
  • Considero a pergunta inadequada sob a suposição de que Alice não poderia ter centenas de irmãos.
  • Como os principais conjuntos de dados de avaliação dos LLMs estão incluídos nos dados de treinamento, eles são inúteis para avaliar confiabilidade.
  • Criar novos testes para avaliar LLMs é um método melhor.
  • É improvável que o público em geral consiga resolver esses quebra-cabeças em tempo limitado.
  • O problema AIW+ é mais difícil de resolver do que o problema AIW comum.
  • Como os autores do artigo criaram centenas de problemas de árvore genealógica, as respostas podem parecer óbvias.
  • O problema apresentado no artigo é uma variação de um enigma muito básico.
  • Parece que o artigo tratou seletivamente de resultados negativos surpreendentes.
  • LLMs ainda são fracos em raciocínio relacional.
  • LLMs não têm capacidade de manter a concentração por longos períodos.
  • A ideia de que LLMs podem implementar AGI não passa de pensamento fantasioso.
  • Há uma boa palestra mostrando que LLMs são muito fracos em planejamento e raciocínio.