LlamaGym - ajuste fino de agentes LLM por meio de aprendizado por reforço online

xguru · 2024-03-22T10:16:01+09:00

Simplifica o ajuste fino de agentes baseados em LLM por meio de aprendizado por reforço (RL) Atualmente, o LlamaGym fornece uma única classe de abstração Agent que permite iterar e experimentar rapidamente com prompting de agentes e hiperparâmetros em ambientes Gym Os usuários podem definir seus próprios agentes baseados em LLM implementando 3 métodos abstratos na classe Agent Como usar Após instalar o LlamaGym, implemente 3 métodos abstratos na classe Agent para criar um agente jogador de blackjack. Defina o LLM base, instancie o agente e, em seguida, escreva o loop de RL para que o agente aja, receba recompensas e encerre o episódio. O aprendizado online por meio de aprendizado por reforço é a parte difícil, portanto é necessário ajustar os hiperparâmetros, e uma etapa de ajuste fino supervisionado pode ajudar.

(github.com/KhoomeiK)

9 pontos por xguru 2024-03-22 | Ainda não há comentários. | Compartilhar no WhatsApp

Simplifica o ajuste fino de agentes baseados em LLM por meio de aprendizado por reforço (RL)
Atualmente, o LlamaGym fornece uma única classe de abstração Agent que permite iterar e experimentar rapidamente com prompting de agentes e hiperparâmetros em ambientes Gym
Os usuários podem definir seus próprios agentes baseados em LLM implementando 3 métodos abstratos na classe Agent

Como usar

Após instalar o LlamaGym, implemente 3 métodos abstratos na classe Agent para criar um agente jogador de blackjack.
Defina o LLM base, instancie o agente e, em seguida, escreva o loop de RL para que o agente aja, receba recompensas e encerre o episódio.
O aprendizado online por meio de aprendizado por reforço é a parte difícil, portanto é necessário ajustar os hiperparâmetros, e uma etapa de ajuste fino supervisionado pode ajudar.

LlamaGym - ajuste fino de agentes LLM por meio de aprendizado por reforço online

Como usar

Leituras relacionadas

Ainda não há comentários.