-
Recentemente havia um mistério sobre grandes modelos de linguagem (LLMs) não jogarem xadrez bem. No entanto, o
gpt-3.5-turbo-instructé uma exceção e joga xadrez bem em nível amador. Esse modelo é mais antigo e menor do que outros modelos mais recentes. -
Várias teorias foram propostas:
- Teoria 1: modelos base suficientemente grandes jogam xadrez bem, mas isso não se mantém após o ajuste por instrução para modelos de chat.
- Teoria 2: o
gpt-3.5-turbo-instructpode ter aprendido com mais dados de xadrez. - Teoria 3: há algo especial em uma arquitetura específica de LLM.
- Teoria 4: existe uma "competição" entre tipos de dados, de modo que, para um LLM jogar xadrez bem, precisa haver muitos dados de partidas de xadrez.
- Teoria 5: a alegação de que a OpenAI está trapaceando.
- Teoria 6: a alegação de que LLMs na verdade não conseguem jogar xadrez.
-
A alegação de que a OpenAI está trapaceando é difícil de acreditar. O
gpt-3.5-turbo-instructescolhe jogadas de forma diferente de um motor de xadrez e não é excepcional segundo critérios de especialistas. -
LLMs conseguem jogar xadrez. O
gpt-3.5-turbo-instructquase nunca sugere jogadas ilegais e também joga bem em estados novos de tabuleiro. -
O
gpt-3.5-turbo-instructé um modelo de "completar", que recebe texto e gera novo texto.gpt-4o-miniegpt-4osão modelos de "chat", que usam prompt de sistema e prompt do usuário. -
Por meio de vários experimentos, confirmou-se que ajuste de prompt, adição de exemplos e fine-tuning podem afetar o desempenho do modelo.
-
A adição de exemplos teve grande impacto no desempenho, e o fine-tuning também ajudou. Porém, fornecer jogadas legais reduziu o desempenho.
-
Quando o
gpt-4oé induzido a operar como se estivesse em modo de "completar", seu desempenho melhora. Isso sugere que ogpt-4-basepode jogar xadrez bem. -
Em conclusão, é bastante provável que os modelos base da OpenAI tenham aprendido com mais dados de xadrez, e modelos de chat podem ter desempenho inferior aos modelos de completar.
-
Encontrar o prompt, os exemplos e o fine-tuning ideais é um trabalho difícil e caro.
1 comentários
Opinião do Hacker News
O autor não fornece dados sobre a frequência de lances ilegais, então é difícil tirar conclusões significativas
O gpt-3.5-turbo-instruct quase não sugere lances ilegais nem mesmo no meio para o fim da partida
Uma forma de testar se ele entende xadrez é fazê-lo jogar o próximo lance a partir de 1000 posições legais aleatórias
Nem todo mundo está errado
LLMs passam a sensação de estar procurando feitiços
Afirma-se que treinar com exemplos de código melhora o "raciocínio"
Pode haver um caso especial em que o gpt-3.5-turbo-instruct reconhece notação de xadrez e chama um motor de xadrez externo
O resultado foi medido mesmo sem instruções explícitas para o LLM vencer a partida
Ajuste fino ajuda, e exemplos podem substituir ajuste fino
Seria divertido jogar xadrez com um LLM sem pensar no prompt