Meta revela o LLaMA 2 Long, com suporte a janela de contexto de 32 mil tokens

ninebow · 2023-10-03T12:00:04+09:00

A Meta revelou o modelo LLaMA 2 Long por meio do artigo Effective Long-Context Scaling of Foundation Models Link do artigo: https://arxiv.org/pdf/2309.16039.pdf Suporta uma janela de contexto (context window) de até 32K (32.768) tokens A versão 70B já supera o desempenho geral do gpt-3.5-turbo-16k em um conjunto de tarefas de contexto longo Mantendo a arquitetura do modelo existente, aplica RoPE (Rotary Positional Embedding) à codificação posicional (Positional Encoding) para gerar respostas melhores com menos informação Explicação sobre RoPE: https://blog.eleuther.ai/rotary-embeddings/

(venturebeat.com)

10 pontos por ninebow 2023-10-03 | Ainda não há comentários. | Compartilhar no WhatsApp

A Meta revelou o modelo LLaMA 2 Long por meio do artigo Effective Long-Context Scaling of Foundation Models
- Link do artigo: https://arxiv.org/pdf/2309.16039.pdf
Suporta uma janela de contexto (context window) de até 32K (32.768) tokens
A versão 70B já supera o desempenho geral do gpt-3.5-turbo-16k em um conjunto de tarefas de contexto longo
Mantendo a arquitetura do modelo existente, aplica RoPE (Rotary Positional Embedding) à codificação posicional (Positional Encoding) para gerar respostas melhores com menos informação
- Explicação sobre RoPE: https://blog.eleuther.ai/rotary-embeddings/

Meta revela o LLaMA 2 Long, com suporte a janela de contexto de 32 mil tokens

Leituras relacionadas

Ainda não há comentários.