1 pontos por GN⁺ 2024-11-23 | 1 comentários | Compartilhar no WhatsApp
  • Recentemente havia um mistério sobre grandes modelos de linguagem (LLMs) não jogarem xadrez bem. No entanto, o gpt-3.5-turbo-instruct é uma exceção e joga xadrez bem em nível amador. Esse modelo é mais antigo e menor do que outros modelos mais recentes.

  • Várias teorias foram propostas:

    • Teoria 1: modelos base suficientemente grandes jogam xadrez bem, mas isso não se mantém após o ajuste por instrução para modelos de chat.
    • Teoria 2: o gpt-3.5-turbo-instruct pode ter aprendido com mais dados de xadrez.
    • Teoria 3: há algo especial em uma arquitetura específica de LLM.
    • Teoria 4: existe uma "competição" entre tipos de dados, de modo que, para um LLM jogar xadrez bem, precisa haver muitos dados de partidas de xadrez.
    • Teoria 5: a alegação de que a OpenAI está trapaceando.
    • Teoria 6: a alegação de que LLMs na verdade não conseguem jogar xadrez.
  • A alegação de que a OpenAI está trapaceando é difícil de acreditar. O gpt-3.5-turbo-instruct escolhe jogadas de forma diferente de um motor de xadrez e não é excepcional segundo critérios de especialistas.

  • LLMs conseguem jogar xadrez. O gpt-3.5-turbo-instruct quase nunca sugere jogadas ilegais e também joga bem em estados novos de tabuleiro.

  • O gpt-3.5-turbo-instruct é um modelo de "completar", que recebe texto e gera novo texto. gpt-4o-mini e gpt-4o são modelos de "chat", que usam prompt de sistema e prompt do usuário.

  • Por meio de vários experimentos, confirmou-se que ajuste de prompt, adição de exemplos e fine-tuning podem afetar o desempenho do modelo.

  • A adição de exemplos teve grande impacto no desempenho, e o fine-tuning também ajudou. Porém, fornecer jogadas legais reduziu o desempenho.

  • Quando o gpt-4o é induzido a operar como se estivesse em modo de "completar", seu desempenho melhora. Isso sugere que o gpt-4-base pode jogar xadrez bem.

  • Em conclusão, é bastante provável que os modelos base da OpenAI tenham aprendido com mais dados de xadrez, e modelos de chat podem ter desempenho inferior aos modelos de completar.

  • Encontrar o prompt, os exemplos e o fine-tuning ideais é um trabalho difícil e caro.

1 comentários

 
GN⁺ 2024-11-23
Opinião do Hacker News
  • O autor não fornece dados sobre a frequência de lances ilegais, então é difícil tirar conclusões significativas

    • Por exemplo, seria parecido com afirmar que um LLM é um médico de nível especialista enquanto se fornece dados excluindo os conselhos médicos incorretos
  • O gpt-3.5-turbo-instruct quase não sugere lances ilegais nem mesmo no meio para o fim da partida

    • Alega-se que esse modelo "entende" xadrez e faz "raciocínio"
    • Isso levanta dúvidas, já que até jogadores de xadrez "amadores avançados" raramente fazem lances ilegais
  • Uma forma de testar se ele entende xadrez é fazê-lo jogar o próximo lance a partir de 1000 posições legais aleatórias

    • Verifica-se, com posições geradas pelo projeto ChessPositionRanking, se ele não sugere lances ilegais
    • Essas posições são úteis para testar a legalidade do próximo lance, mas menos úteis para distinguir qualidade
  • Nem todo mundo está errado

    • Deve-se presumir que benchmarks publicados se tornam alvos específicos durante o treinamento
    • É natural que a OpenAI inclua partidas de xadrez nos dados de treinamento
  • LLMs passam a sensação de estar procurando feitiços

    • Espera-se que a inovação tecnológica continue, e os LLMs são impressionantes, mas às vezes parecem coisa de filme de ficção científica
  • Afirma-se que treinar com exemplos de código melhora o "raciocínio"

    • Se o artigo sobre "modelos de mundo a partir da linguagem" funcionar, o xadrez deveria ser o menor caso de teste
  • Pode haver um caso especial em que o gpt-3.5-turbo-instruct reconhece notação de xadrez e chama um motor de xadrez externo

    • Levanta-se a possibilidade de que certos modelos tenham sido treinados para trocar para outro LLM ao reconhecer notação de xadrez
  • O resultado foi medido mesmo sem instruções explícitas para o LLM vencer a partida

    • Questiona-se se isso já estaria implícito no prompt "Você é um grande mestre de xadrez"
  • Ajuste fino ajuda, e exemplos podem substituir ajuste fino

    • É interessante que fornecer exemplos possa produzir um efeito equivalente ao do ajuste fino
  • Seria divertido jogar xadrez com um LLM sem pensar no prompt

    • Isso poderia se tornar uma nova forma de sentir como o LLM "pensa"