- Artigo sobre a implantação de aplicações de streaming com grandes modelos de linguagem (Large Language Models, LLMs), algo desafiador devido ao consumo de memória e à falta de capacidade dos LLMs de generalizar para textos mais longos do que o comprimento de sequência usado no treinamento.
- Os autores apresentam o conceito de "attention sink", que se refere ao fenômeno de fortes pontuações de atenção nos tokens iniciais, mesmo quando eles não são semanticamente importantes.
- Os autores propõem o StreamingLLM, um framework eficiente que permite que LLMs treinados com janelas de atenção de comprimento finito generalizem para comprimentos de sequência infinitos sem ajuste fino.
- O StreamingLLM permite que modelos como Llama-2, MPT, Falcon e Pythia realizem modelagem de linguagem de forma estável e eficiente com até mais de 4 milhões de tokens.
- Os autores também descobriram que adicionar tokens placeholder como attention sinks dedicados durante o pré-treinamento pode melhorar ainda mais a implantação em streaming.
- Em configurações de streaming, o StreamingLLM supera o baseline de recomputação com janela deslizante em até 22,2x de velocidade.
- Os autores deixam claro que a janela de contexto dos LLMs não é expandida no StreamingLLM, e o modelo só pode processar os tokens mais recentes.
- O StreamingLLM é ideal para aplicações de streaming, como conversas de múltiplas rodadas, nas quais o modelo precisa continuar operando sem depender de memória extensa ou de dados passados.
- Os autores planejam disponibilizar o código principal do StreamingLLM, incluindo Llama-2, MPT, Falcon e Pythia, além do código de perplexidade, da demo do Streaming Llama Chatbot, do dataset StreamEval e do código de avaliação.
Ainda não há comentários.