8 pontos por xguru 2023-05-16 | 2 comentários | Compartilhar no WhatsApp
  • Projeto open source que compõe todo o pipeline, desde a criação do dataset até tokenização, prompt tuning, LoRA e RLHF
  • O modelo pré-treinado Open-LLama-V2-pretrain também foi disponibilizado no Hugging Face
  • Segundo o método de avaliação do FastChat, apresenta cerca de 89% do desempenho do GPT-3.5 em comparação direta (para perguntas em chinês)
  • A velocidade de treinamento é de 3620 tokens/s, um pouco mais rápida que os 3370 do LLama original (modelo 7B)
  • Se for treinado com 500B de tokens, são necessárias 38300 horas de GPU
    • No Google Cloud, usar 8 GPUs A100-80G Spot por uma hora custa US$ 12,6
    • O custo total é de US$ 60300

2 comentários

 
zer0ne 2023-05-16

Fico curioso para saber quanto tempo levaria para treinar usando uma GPU de consumidor comum, como uma 4090.

 
xguru 2023-05-16

Parece um nome que eu já tinha ouvido... Aí fui procurar e vi que
OpenLLaMA - réplica aberta do LLaMA
Tem só um hífen de diferença no nome em relação a este, mas o conteúdo é de um projeto completamente diferente.