1 pontos por GN⁺ 2024-11-15 | 1 comentários | Compartilhar no WhatsApp
  • Fenômenos estranhos entre LLMs e xadrez

    • Houve discussões sobre se LLMs (grandes modelos de linguagem) conseguem jogar xadrez bem. Embora tenham sido projetados para prever linguagem, eles também demonstram capacidade de prever partidas de xadrez.
    • Foi interessante perceber que LLMs conseguem levar uma partida de xadrez até o fim. Isso pode ser uma pista de como eles funcionam em outros contextos também.
  • O que eu fiz

    • Para fazer o LLM jogar xadrez, foi usado um prompt específico. Por exemplo: "Você é um grande mestre de xadrez. Escolha o próximo lance."
    • Foram jogadas 50 partidas com o modelo llama-3.2-3b, mas os resultados não foram bons. Modelos maiores, como llama-3.1-70b e llama-3.1-70b-instruct, também foram testados, mas continuaram apresentando resultados ruins.
    • O modelo gpt-3.5-turbo-instruct mostrou desempenho muito superior. No entanto, todos os outros modelos tiveram resultados fracos.
  • Discussão

    • Muitas pessoas tentaram usar LLMs para jogar xadrez, mas a maioria dos modelos não obteve bons resultados.
    • Existem várias teorias sobre por que o modelo gpt-3.5-turbo-instruct joga xadrez melhor do que os outros.
    • Há uma teoria de que um ajuste adicional por instrução pode degradar o desempenho do modelo.
  • Teorias possíveis

    • Teoria 1: Um modelo base, em escala suficiente, consegue jogar xadrez, mas o ajuste por instrução atrapalha isso.
    • Teoria 2: O gpt-3.5-instruct pode ter sido treinado com mais partidas de xadrez.
    • Teoria 3: Pode haver diferenças em outras arquiteturas de transformadores.
    • Teoria 4: Pode existir uma "competição" entre tipos de dados.
  • Detalhes

    • O experimento foi realizado usando notação algébrica padrão para partidas de xadrez.
    • Como os modelos da OpenAI não têm suporte completo à gramática, foram feitas até 10 tentativas até gerar um lance legal.
  • Fenômeno estranho com tokens

    • Quando o prompt inclui espaços em branco, o desempenho do modelo cai bastante. Isso parece ser um problema do tokenizador.
    • O método correto seria usar "token healing", mas não foi encontrada uma forma simples de implementar isso.

1 comentários

 
GN⁺ 2024-11-15
Opiniões do Hacker News
  • Parece que a OpenAI pode ter tratado o xadrez como um critério importante e aplicado um tratamento especial ao gpt-3.5-turbo-instruct, mas não acrescentou isso aos modelos posteriores

    • Isso pode ser porque o xadrez não gerava cobertura contínua na mídia
  • Foram executados todos os modelos abertos com quantização Q5_K_M, mas isso é apenas compressão com perda de todos os parâmetros, então não parece importante

  • Não entendo por que pessoas instruídas esperam que LLMs sejam bons em xadrez

    • Xadrez exige raciocínio real e cálculo determinístico
  • Fico curioso para saber se bons resultados são reproduzíveis

    • No passado, obtive bons resultados, mas não consegui reproduzi-los novamente
    • A economia do capital de risco implica pressão para justificar tecnologias vistas como "enganação"
  • Se queremos um modelo realmente inteligente, talvez seja preciso abandonar a tokenização

    • Ao limitar a estrutura do fluxo de informação, estamos restringindo a visão e a percepção do modelo
  • Encontrei resultados experimentais mostrando que o gpt-3.5-turbo-instruct é melhor em xadrez

  • Se aprender xadrez é aprender sequências, isso pode causar problemas

    • Motores de xadrez modernos conseguem, no mínimo, empatar com qualquer jogador
  • Pode-se tentar aumentar a computação no espaço de busca do problema

    • É possível ajustar vários parâmetros fornecendo instruções passo a passo que até um jogador iniciante de xadrez conseguiria seguir
  • Há uma teoria de que o GPT-3.5-instruct pode jogar xadrez chamando um motor de xadrez tradicional

  • Sabemos que existem vários tipos de habilidade e inteligência em diferentes experiências humanas

    • O fato de um modelo jogar bem xadrez pode ser porque, por acaso, ele tinha o 'conectoma' adequado