-
Fenômenos estranhos entre LLMs e xadrez
- Houve discussões sobre se LLMs (grandes modelos de linguagem) conseguem jogar xadrez bem. Embora tenham sido projetados para prever linguagem, eles também demonstram capacidade de prever partidas de xadrez.
- Foi interessante perceber que LLMs conseguem levar uma partida de xadrez até o fim. Isso pode ser uma pista de como eles funcionam em outros contextos também.
-
O que eu fiz
- Para fazer o LLM jogar xadrez, foi usado um prompt específico. Por exemplo: "Você é um grande mestre de xadrez. Escolha o próximo lance."
- Foram jogadas 50 partidas com o modelo
llama-3.2-3b, mas os resultados não foram bons. Modelos maiores, como llama-3.1-70b e llama-3.1-70b-instruct, também foram testados, mas continuaram apresentando resultados ruins.
- O modelo
gpt-3.5-turbo-instruct mostrou desempenho muito superior. No entanto, todos os outros modelos tiveram resultados fracos.
-
Discussão
- Muitas pessoas tentaram usar LLMs para jogar xadrez, mas a maioria dos modelos não obteve bons resultados.
- Existem várias teorias sobre por que o modelo
gpt-3.5-turbo-instruct joga xadrez melhor do que os outros.
- Há uma teoria de que um ajuste adicional por instrução pode degradar o desempenho do modelo.
-
Teorias possíveis
- Teoria 1: Um modelo base, em escala suficiente, consegue jogar xadrez, mas o ajuste por instrução atrapalha isso.
- Teoria 2: O
gpt-3.5-instruct pode ter sido treinado com mais partidas de xadrez.
- Teoria 3: Pode haver diferenças em outras arquiteturas de transformadores.
- Teoria 4: Pode existir uma "competição" entre tipos de dados.
-
Detalhes
- O experimento foi realizado usando notação algébrica padrão para partidas de xadrez.
- Como os modelos da OpenAI não têm suporte completo à gramática, foram feitas até 10 tentativas até gerar um lance legal.
-
Fenômeno estranho com tokens
- Quando o prompt inclui espaços em branco, o desempenho do modelo cai bastante. Isso parece ser um problema do tokenizador.
- O método correto seria usar "token healing", mas não foi encontrada uma forma simples de implementar isso.
1 comentários
Opiniões do Hacker News
Parece que a OpenAI pode ter tratado o xadrez como um critério importante e aplicado um tratamento especial ao gpt-3.5-turbo-instruct, mas não acrescentou isso aos modelos posteriores
Foram executados todos os modelos abertos com quantização Q5_K_M, mas isso é apenas compressão com perda de todos os parâmetros, então não parece importante
Não entendo por que pessoas instruídas esperam que LLMs sejam bons em xadrez
Fico curioso para saber se bons resultados são reproduzíveis
Se queremos um modelo realmente inteligente, talvez seja preciso abandonar a tokenização
Encontrei resultados experimentais mostrando que o gpt-3.5-turbo-instruct é melhor em xadrez
Se aprender xadrez é aprender sequências, isso pode causar problemas
Pode-se tentar aumentar a computação no espaço de busca do problema
Há uma teoria de que o GPT-3.5-instruct pode jogar xadrez chamando um motor de xadrez tradicional
Sabemos que existem vários tipos de habilidade e inteligência em diferentes experiências humanas