Microsoft LLMLingua - Compactando prompts para acelerar a inferência e reduzir custos

xguru · 2023-12-22T10:02:02+09:00

Usa modelos de linguagem pequenos, alinhados e bem treinados, como GPT2-small ou LLaMA-7B, para compressão Detecta tokens não importantes no prompt e permite inferência com prompts comprimidos em LLMs de caixa-preta Comprime o prompt e o KV-Cache para aumentar a velocidade de inferência do LLM e melhorar a percepção do LLM sobre as informações principais Alcança compressão de até 20x com perda mínima de desempenho Reduz custos ao diminuir o prompt e o contexto gerado Aumenta a densidade de informações importantes no prompt, possibilitando suporte a contextos mais longos

(github.com/microsoft)

10 pontos por xguru 2023-12-22 | Ainda não há comentários. | Compartilhar no WhatsApp

Usa modelos de linguagem pequenos, alinhados e bem treinados, como GPT2-small ou LLaMA-7B, para compressão
Detecta tokens não importantes no prompt e permite inferência com prompts comprimidos em LLMs de caixa-preta
- Comprime o prompt e o KV-Cache para aumentar a velocidade de inferência do LLM e melhorar a percepção do LLM sobre as informações principais
- Alcança compressão de até 20x com perda mínima de desempenho
Reduz custos ao diminuir o prompt e o contexto gerado
Aumenta a densidade de informações importantes no prompt, possibilitando suporte a contextos mais longos

Microsoft LLMLingua - Compactando prompts para acelerar a inferência e reduzir custos

Leituras relacionadas

Ainda não há comentários.