Para usar LLMs em coreano com contexto longo, investiguei e testei vários métodos para aumentar com eficiência o comprimento de contexto de LLMs
LongLoRA
usa shifted sparse attention e fine-tuning com LoRA para expandir em até 8x
Interpolação de Posição baseada em RoPE
pode ser aplicado a modelos que usam embeddings baseados em RoPE, como o Llama, modificando os embeddings RoPE, e com fine-tuning expande o comprimento de contexto em até 16x
Dynamic NTK
aplica a teoria NTK sem fine-tuning para expandir em mais de 2x
LongLM
usa attention modificada para expandir em até 4x sem fine-tuning
ChunkLlama
divide o texto em chunks para expandir o comprimento de contexto do modelo Llama em 4x sem fine-tuning
Infini-attention
pode estender até 2M com pouco uso adicional de memória e permite inferência rápida; método aplicado no Gemini-Pro
2 comentários
Aumentando o comprimento de contexto de LLMs
Para usar LLMs em coreano com contexto longo, investiguei e testei vários métodos para aumentar com eficiência o comprimento de contexto de LLMs
LongLoRA
usa shifted sparse attention e fine-tuning com LoRA para expandir em até 8x
Interpolação de Posição baseada em RoPE
pode ser aplicado a modelos que usam embeddings baseados em RoPE, como o Llama, modificando os embeddings RoPE, e com fine-tuning expande o comprimento de contexto em até 16x
Dynamic NTK
aplica a teoria NTK sem fine-tuning para expandir em mais de 2x
LongLM
usa attention modificada para expandir em até 4x sem fine-tuning
ChunkLlama
divide o texto em chunks para expandir o comprimento de contexto do modelo Llama em 4x sem fine-tuning
Infini-attention
pode estender até 2M com pouco uso adicional de memória e permite inferência rápida; método aplicado no Gemini-Pro
É a primeira vez que vejo um texto totalmente sem resumo.