9 pontos por xguru 2024-03-22 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Simplifica o ajuste fino de agentes baseados em LLM por meio de aprendizado por reforço (RL)
  • Atualmente, o LlamaGym fornece uma única classe de abstração Agent que permite iterar e experimentar rapidamente com prompting de agentes e hiperparâmetros em ambientes Gym
  • Os usuários podem definir seus próprios agentes baseados em LLM implementando 3 métodos abstratos na classe Agent

Como usar

  • Após instalar o LlamaGym, implemente 3 métodos abstratos na classe Agent para criar um agente jogador de blackjack.
  • Defina o LLM base, instancie o agente e, em seguida, escreva o loop de RL para que o agente aja, receba recompensas e encerre o episódio.
  • O aprendizado online por meio de aprendizado por reforço é a parte difícil, portanto é necessário ajustar os hiperparâmetros, e uma etapa de ajuste fino supervisionado pode ajudar.

Ainda não há comentários.

Ainda não há comentários.