- Usa modelos de linguagem pequenos, alinhados e bem treinados, como GPT2-small ou LLaMA-7B, para compressão
- Detecta tokens não importantes no prompt e permite inferência com prompts comprimidos em LLMs de caixa-preta
- Comprime o prompt e o KV-Cache para aumentar a velocidade de inferência do LLM e melhorar a percepção do LLM sobre as informações principais
- Alcança compressão de até 20x com perda mínima de desempenho
- Reduz custos ao diminuir o prompt e o contexto gerado
- Aumenta a densidade de informações importantes no prompt, possibilitando suporte a contextos mais longos
Ainda não há comentários.