10 pontos por xguru 2023-03-31 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Baseado no modelo LLaMA
    • Coleta de dados supervisionados
    • Fine-tuning supervisionado
    • Treinamento do modelo de recompensa
    • Fine-tuning com Reinforcement Learning
  • Conteúdo incluído
    • Demo interativa executada online
    • Código open source completo de treinamento RLHF, incluindo modelos 7B/13B
    • Dataset bilíngue de 104k em chinês/inglês
    • Quantização de 4-bit do modelo 7B. Requer apenas 4 GB de memória GPU
    • Inclui pesos do modelo. Fácil de reproduzir em um único servidor
    • Grandes modelos/datasets/otimizações etc. também serão adicionados continuamente

Ainda não há comentários.

Ainda não há comentários.