- Simplifica o ajuste fino de agentes baseados em LLM por meio de aprendizado por reforço (RL)
- Atualmente, o LlamaGym fornece uma única classe de abstração
Agent que permite iterar e experimentar rapidamente com prompting de agentes e hiperparâmetros em ambientes Gym
- Os usuários podem definir seus próprios agentes baseados em LLM implementando 3 métodos abstratos na classe
Agent
Como usar
- Após instalar o LlamaGym, implemente 3 métodos abstratos na classe
Agent para criar um agente jogador de blackjack.
- Defina o LLM base, instancie o agente e, em seguida, escreva o loop de RL para que o agente aja, receba recompensas e encerre o episódio.
- O aprendizado online por meio de aprendizado por reforço é a parte difícil, portanto é necessário ajustar os hiperparâmetros, e uma etapa de ajuste fino supervisionado pode ajudar.
Ainda não há comentários.