- Baseado no modelo LLaMA
- Coleta de dados supervisionados
- Fine-tuning supervisionado
- Treinamento do modelo de recompensa
- Fine-tuning com Reinforcement Learning
- Conteúdo incluído
- Demo interativa executada online
- Código open source completo de treinamento RLHF, incluindo modelos 7B/13B
- Dataset bilíngue de 104k em chinês/inglês
- Quantização de 4-bit do modelo 7B. Requer apenas 4 GB de memória GPU
- Inclui pesos do modelo. Fácil de reproduzir em um único servidor
- Grandes modelos/datasets/otimizações etc. também serão adicionados continuamente
Ainda não há comentários.