- A Meta revelou o modelo LLaMA 2 Long por meio do artigo Effective Long-Context Scaling of Foundation Models
- Link do artigo: https://arxiv.org/pdf/2309.16039.pdf
- Suporta uma janela de contexto (context window) de até 32K (32.768) tokens
- A versão 70B já supera o desempenho geral do gpt-3.5-turbo-16k em um conjunto de tarefas de contexto longo
- Mantendo a arquitetura do modelo existente, aplica RoPE (Rotary Positional Embedding) à codificação posicional (Positional Encoding) para gerar respostas melhores com menos informação
- Explicação sobre RoPE: https://blog.eleuther.ai/rotary-embeddings/
Ainda não há comentários.