1 pontos por GN⁺ 2023-10-03 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Artigo sobre a implantação de aplicações de streaming com grandes modelos de linguagem (Large Language Models, LLMs), algo desafiador devido ao consumo de memória e à falta de capacidade dos LLMs de generalizar para textos mais longos do que o comprimento de sequência usado no treinamento.
  • Os autores apresentam o conceito de "attention sink", que se refere ao fenômeno de fortes pontuações de atenção nos tokens iniciais, mesmo quando eles não são semanticamente importantes.
  • Os autores propõem o StreamingLLM, um framework eficiente que permite que LLMs treinados com janelas de atenção de comprimento finito generalizem para comprimentos de sequência infinitos sem ajuste fino.
  • O StreamingLLM permite que modelos como Llama-2, MPT, Falcon e Pythia realizem modelagem de linguagem de forma estável e eficiente com até mais de 4 milhões de tokens.
  • Os autores também descobriram que adicionar tokens placeholder como attention sinks dedicados durante o pré-treinamento pode melhorar ainda mais a implantação em streaming.
  • Em configurações de streaming, o StreamingLLM supera o baseline de recomputação com janela deslizante em até 22,2x de velocidade.
  • Os autores deixam claro que a janela de contexto dos LLMs não é expandida no StreamingLLM, e o modelo só pode processar os tokens mais recentes.
  • O StreamingLLM é ideal para aplicações de streaming, como conversas de múltiplas rodadas, nas quais o modelo precisa continuar operando sem depender de memória extensa ou de dados passados.
  • Os autores planejam disponibilizar o código principal do StreamingLLM, incluindo Llama-2, MPT, Falcon e Pythia, além do código de perplexidade, da demo do Streaming Llama Chatbot, do dataset StreamEval e do código de avaliação.

Ainda não há comentários.

Ainda não há comentários.