- Com o uso crescente de LLMs, tornou-se importante aplicá-los a sequências longas: resumo de documentos, escrita de código, previsão de sequências de proteínas etc.
- No entanto, a maioria dos LLMs open source (LLaMA, MPT, Falcon) foi treinada com comprimento máximo de sequência de 2K tokens.
- O XGen-7B foi treinado com 1,5T de tokens e comprimento de sequência de até 8K.
- Em benchmarks padrão de NLP, apresenta desempenho equivalente ou superior a MPT, Falcon, LLaMA, Redpajama e OpenLLaMA do mesmo porte.
- Ótimos resultados tanto em tarefas de texto (MMLU, QA) quanto de código (HumanEval).
- O custo de treinamento para 1T de tokens em TPU-v4 foi de cerca de $150K.
Ainda não há comentários.