Llama3-gradient - modelo que expandiu o contexto do LLAMA de 8k para 1m

xguru · 2024-05-02T10:46:01+09:00

O modelo desenvolvido pela Gradient expandiu o contexto do LLama-3 8B de 8k para mais de 1040K. O trabalho mostra que um LLM state-of-the-art (SOTA) consegue aprender a operar com contextos longos ajustando adequadamente o theta do RoPE com o mínimo de treinamento possível. Este passo foi treinado com 830M de tokens; em todas as etapas, foram usados apenas 1,4B de tokens no total, o que corresponde a apenas 0,1% dos dados de pré-treinamento originais do Llama3. Nota: para usar 256k de contexto, são necessários pelo menos 64GB de memória. Para usar mais de 1M de contexto, são necessários mais de 100GB.

(ollama.com)

6 pontos por xguru 2024-05-02 | 1 comentários | Compartilhar no WhatsApp

O modelo desenvolvido pela Gradient expandiu o contexto do LLama-3 8B de 8k para mais de 1040K.
O trabalho mostra que um LLM state-of-the-art (SOTA) consegue aprender a operar com contextos longos ajustando adequadamente o theta do RoPE com o mínimo de treinamento possível.
Este passo foi treinado com 830M de tokens; em todas as etapas, foram usados apenas 1,4B de tokens no total, o que corresponde a apenas 0,1% dos dados de pré-treinamento originais do Llama3.
Nota: para usar 256k de contexto, são necessários pelo menos 64GB de memória. Para usar mais de 1M de contexto, são necessários mais de 100GB.

1 comentários

livekth 2024-05-02

Devido ao aumento da janela de contexto, houve comentários de que o desempenho caiu consideravelmente em comparação com o LLaMa 3 original, a ponto de ficar praticamente impraticável de usar.

https://twitter.com/ArkaPal999/status/1785611161540378707

Llama3-gradient - modelo que expandiu o contexto do LLAMA de 8k para 1m

Leituras relacionadas

1 comentários