- O modelo desenvolvido pela Gradient expandiu o contexto do LLama-3 8B de 8k para mais de 1040K.
- O trabalho mostra que um LLM state-of-the-art (SOTA) consegue aprender a operar com contextos longos ajustando adequadamente o theta do RoPE com o mínimo de treinamento possível.
- Este passo foi treinado com 830M de tokens; em todas as etapas, foram usados apenas 1,4B de tokens no total, o que corresponde a apenas 0,1% dos dados de pré-treinamento originais do Llama3.
- Nota: para usar 256k de contexto, são necessários pelo menos 64GB de memória. Para usar mais de 1M de contexto, são necessários mais de 100GB.
1 comentários
Devido ao aumento da janela de contexto, houve comentários de que o desempenho caiu consideravelmente em comparação com o LLaMa 3 original, a ponto de ficar praticamente impraticável de usar.
https://twitter.com/ArkaPal999/status/1785611161540378707