10 pontos por xguru 2023-12-22 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Usa modelos de linguagem pequenos, alinhados e bem treinados, como GPT2-small ou LLaMA-7B, para compressão
  • Detecta tokens não importantes no prompt e permite inferência com prompts comprimidos em LLMs de caixa-preta
    • Comprime o prompt e o KV-Cache para aumentar a velocidade de inferência do LLM e melhorar a percepção do LLM sobre as informações principais
    • Alcança compressão de até 20x com perda mínima de desempenho
  • Reduz custos ao diminuir o prompt e o contexto gerado
  • Aumenta a densidade de informações importantes no prompt, possibilitando suporte a contextos mais longos

Ainda não há comentários.

Ainda não há comentários.