1 pontos por GN⁺ 2023-12-08 | 1 comentários | Compartilhar no WhatsApp

Resumo: explorando a técnica de ajuste fino em inteligência artificial

  • Efeito e dificuldade da técnica de ajuste fino
    • O ajuste fino complementa as capacidades do GPT-4 e promete mais velocidade e eficiência de custo.
    • Para suprir a falta de informações sobre quão eficaz e difícil o ajuste fino realmente é, foi realizado um experimento direto.

Escolha do problema

  • Teste da capacidade de raciocínio do modelo por meio de drafts de Magic: The Gathering (MTG)
    • MTG é um jogo de cartas estratégico, e draft é a forma de montar um deck escolhendo cartas de um conjunto aleatório.
    • O draft é adequado como tarefa complexa, pois exige raciocínio e compreensão de novos dados.
    • Foram usados grandes volumes de dados históricos fornecidos pelo serviço 17lands, tomando as escolhas de draft dos melhores jogadores como "ground truth".

Resultados e resumo

  • Desempenho do modelo 7B ajustado
    • O modelo 7B ajustado superou o GPT-4 e apresentou desempenho próximo ao nível humano.
    • Ajustar o GPT-3.5 pode gerar resultados melhores, mas o custo é muito alto.
    • O ajuste fino ainda é um processo experimental, especialmente porque a engenharia de prompts consome muito tempo.
    • Após o ajuste fino em um novo conjunto de cartas, o modelo mostrou capacidade de generalização mesmo em conjuntos não vistos.

Relato de campo: método e processo de aprendizado

  • Construção dos dados
    • Os dados em formato CSV do 17lands foram convertidos para formato de texto para se adequarem ao ajuste fino.
    • A formatação dos dados foi um processo desafiador e experimental.
  • Execução do ajuste fino
    • Devido a problemas de acesso a GPU, foi alugado tempo de GPU por hora no Runpod.
    • O axolotl foi usado para implementar com facilidade a otimização do ajuste fino.
  • Avaliação
    • É importante definir critérios de avaliação antes de iniciar o experimento.
    • Estabelecer critérios de avaliação para modelos de linguagem pode ser difícil.

Principais lições

  • Efeito do ajuste fino
    • O ajuste fino com novos dados é superior ao GPT-4 em precisão e custo.
    • O ajuste fino exige um processo experimental para ser feito corretamente e é uma habilidade especializada mais difícil de aprender do que engenharia de prompts.

Informações adicionais relacionadas a Magic

  • Desempenho do bot de draft com IA ajustado
    • Foi desenvolvido um app de assistência para draft usando um modelo de draft conectado aos logs do Magic Arena.
    • O modelo ajustado gera as escolhas, enquanto o GPT-4 fornece as explicações.
    • Ao simular vários bots de draft com IA, foi observado um desempenho semelhante ao de jogadores humanos.

Opinião do GN⁺

O ponto mais importante deste texto é que a técnica de ajuste fino tem potencial para superar o desempenho de grandes modelos de linguagem existentes, como o GPT-4, e com isso melhorar bastante a compreensão e a eficiência da inteligência artificial em tarefas específicas. O texto é interessante porque mostra, por meio de um caso de uso real, o processo concreto do ajuste fino e seus efeitos, o que pode ajudar até engenheiros de software iniciantes a entender o potencial de avanço das tecnologias de IA e como aplicá-las.

1 comentários

 
GN⁺ 2023-12-08
Opinião do Hacker News
  • É impressionante como isso mostra que, no ajuste fino de LLMs, até conceitos simples podem ser difíceis de implementar. Mesmo com um bom conjunto de dados inicial e um bom modelo, isso foi uma tarefa desafiadora.
  • Isso dá a impressão de que LLMs são adequados para problemas que não têm uma resposta naturalmente exata. Escolher a carta perfeita é computacionalmente impossível, mas escolher uma boa carta é viável, e um LLM pode se aproximar de um desempenho em nível humano.
  • Parece haver um conjunto de problemas que pode ser resolvido com ajuste fino de LLMs. Não é algo revolucionário para a vida cotidiana, mas seria interessante enfrentar bots com estilos de jogo curiosos em jogos como Magic: The Gathering.
  • Levanta-se a dúvida sobre como extrair “dados verdadeiros” analisando as escolhas de draft dos melhores jogadores. Dados ordenados por taxa de vitória podem refletir não os melhores jogadores, mas os mais sortudos.
  • Embora o LLM possa ter algum conhecimento das regras, é mais provável que ele considere principalmente a raridade da carta, o custo etc. Isso levanta dúvidas sobre a “precisão” do draft.
  • Em vez de zerar a perda do LLM, pode ser útil usar perda ponderada com Axolotl. A adaptação ao domínio pode ajudar no ajuste fino.
  • O prompt dado ao agente aparentemente inclui apenas o nome das cartas e não mantém o contexto das escolhas anteriores. Isso sugere que o bot pode estar fazendo bons drafts por puro acaso.
  • Foi compartilhado um link sobre um caso de hack no Magic the Gathering: Arena que alcançou 100% de taxa de vitória. Isso sugere que a IA virtual do MTGA, chamada Sparky, talvez não seja tão complexa.
  • Foi expressado interesse em ajuste fino de LLM para Magic: The Gathering. A pessoa está construindo um navegador de similaridade de cartas e testou vários prompts com InstructorXL, mas ainda não obteve resultados satisfatórios. Esta postagem serviu de inspiração.
  • Houve curiosidade sobre a possibilidade de usar um modelo pequeno que trate cada carta como um token e use o estado do draft como entrada para prever qual carta escolher.
  • Seria interessante comparar isso com treinar uma rede neural para fazer o draft sem usar o Mistral como ponto de partida. Não está claro por que o componente de LLM seria importante.
  • É muito interessante que seja possível representar o draft com um LLM. As melhores IAs de draft utilizam aprendizado de representação de alguma forma.