6 pontos por xguru 2024-05-02 | 1 comentários | Compartilhar no WhatsApp
  • O modelo desenvolvido pela Gradient expandiu o contexto do LLama-3 8B de 8k para mais de 1040K.
  • O trabalho mostra que um LLM state-of-the-art (SOTA) consegue aprender a operar com contextos longos ajustando adequadamente o theta do RoPE com o mínimo de treinamento possível.
  • Este passo foi treinado com 830M de tokens; em todas as etapas, foram usados apenas 1,4B de tokens no total, o que corresponde a apenas 0,1% dos dados de pré-treinamento originais do Llama3.
  • Nota: para usar 256k de contexto, são necessários pelo menos 64GB de memória. Para usar mais de 1M de contexto, são necessários mais de 100GB.

1 comentários

 
livekth 2024-05-02

Devido ao aumento da janela de contexto, houve comentários de que o desempenho caiu consideravelmente em comparação com o LLaMa 3 original, a ponto de ficar praticamente impraticável de usar.

https://twitter.com/ArkaPal999/status/1785611161540378707