Até 25% mais economia que técnicas existentes de compressão de KV, com melhora de desempenho — CASK

(arxiv.org)

9 pontos por skyline23 15 일 전 | 2 comentários | Compartilhar no WhatsApp

CASK é um artigo que propõe uma abordagem estrutural (baseada em papéis),
em vez do método tradicional de pruning baseado na importância dos tokens,
para resolver o problema do crescimento do KV cache durante a inferência de LLMs.

Este estudo também chama atenção por ter sido concluído em apenas 5 dias e por ser resultado de dois pesquisadores independentes, sem orientação de um professor orientador.

📌 Definição do problema

Em inferências longas com chain-of-thought, o KV cache cresce rapidamente, causando:

aumento abrupto no uso de memória
aumento da latência de inferência
piora no desempenho de reasoning de longo prazo

Abordagem existente:

baseada em pontuação de importância dos tokens
faz eviction dos tokens com baixa pontuação

❌ Limitações da abordagem existente

Segundo os experimentos do artigo:

mesmo refinando bastante a pontuação de importância,
→ a mudança real no conjunto de tokens mantidos é limitada

Ou seja:

apenas melhorar a estratégia de eviction
não é suficiente para avançar muito em desempenho e eficiência

🔥 Ideia central

O CASK separa os tokens não por importância, mas com base em seus papéis.

Core

contribui diretamente para a geração da saída final
representa o estado central do reasoning
sempre mantido

Scratch

estados gerados durante cálculos intermediários e exploração
pode incluir informações redundantes ou desnecessárias
alvo de compressão e mesclagem

⚙️ Como funciona

Prefix Phase

trecho de entrada (prompt)
realiza parte da eviction de KV

Decode Phase

trecho em que a inferência avança
aplica compressão seletiva apenas à área Scratch

👉 Diferença em relação às abordagens anteriores:

exclusão simples → preservação seletiva + compressão estrutural

📊 Desempenho

Com base nos resultados do artigo:

em comparação com técnicas existentes de compressão de KV,
→ até 25% de economia adicional de memória
com o mesmo orçamento de KV cache,
→ mantém maior acurácia
em alguns intervalos,
→ alcança desempenho superior com menos KV cache

Exemplo:

CASK (KV 384) > abordagem existente (KV 512)

👉 Redução no uso de memória + melhora de desempenho ao mesmo tempo

📌 Características técnicas

pruning em nível de token → compressão sensível à estrutura
foco em eviction → estratégia de preservar + reutilizar
reforça a reutilização de informação durante o processo de reasoning

📌 Significado

O CASK propõe uma mudança na otimização de KV cache:

de “quanto descartar”
para “o que deve ser mantido obrigatoriamente”

🚀 Resumo

até 25% de economia adicional de KV cache
manutenção do mesmo desempenho de inferência ou até superior
proposta de um método estrutural de gerenciamento de KV

2 comentários

wogns3623 14 일 전

Se vocês usaram IA na redação do artigo, tenho curiosidade em saber como foi esse uso. Achei impressionante a parte em que vocês disseram que foram da ideação aos experimentos em apenas 5 dias, então quis perguntar.

skyline23 15 일 전

Como não consigo editar, estou deixando isto adicionalmente!

Link do artigo
https://arxiv.org/abs/2604.10900
Link do GitHub
https://github.com/Skyline-23/CASK