XGen-7B - LLM de 7B treinado com 1,5T de tokens e comprimento de sequência de até 8K

(blog.salesforceairesearch.com)

4 pontos por xguru 2023-07-01 | Ainda não há comentários. | Compartilhar no WhatsApp

Com o uso crescente de LLMs, tornou-se importante aplicá-los a sequências longas: resumo de documentos, escrita de código, previsão de sequências de proteínas etc.
No entanto, a maioria dos LLMs open source (LLaMA, MPT, Falcon) foi treinada com comprimento máximo de sequência de 2K tokens.
O XGen-7B foi treinado com 1,5T de tokens e comprimento de sequência de até 8K.
Em benchmarks padrão de NLP, apresenta desempenho equivalente ou superior a MPT, Falcon, LLaMA, Redpajama e OpenLLaMA do mesmo porte.
Ótimos resultados tanto em tarefas de texto (MMLU, QA) quanto de código (HumanEval).
O custo de treinamento para 1T de tokens em TPU-v4 foi de cerca de $150K.

Leituras relacionadas