4 pontos por xguru 2023-07-01 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Com o uso crescente de LLMs, tornou-se importante aplicá-los a sequências longas: resumo de documentos, escrita de código, previsão de sequências de proteínas etc.
  • No entanto, a maioria dos LLMs open source (LLaMA, MPT, Falcon) foi treinada com comprimento máximo de sequência de 2K tokens.
  • O XGen-7B foi treinado com 1,5T de tokens e comprimento de sequência de até 8K.
  • Em benchmarks padrão de NLP, apresenta desempenho equivalente ou superior a MPT, Falcon, LLaMA, Redpajama e OpenLLaMA do mesmo porte.
  • Ótimos resultados tanto em tarefas de texto (MMLU, QA) quanto de código (HumanEval).
  • O custo de treinamento para 1T de tokens em TPU-v4 foi de cerca de $150K.

Ainda não há comentários.

Ainda não há comentários.