Até 25% mais economia que técnicas existentes de compressão de KV, com melhora de desempenho — CASK
(arxiv.org)CASK é um artigo que propõe uma abordagem estrutural (baseada em papéis),
em vez do método tradicional de pruning baseado na importância dos tokens,
para resolver o problema do crescimento do KV cache durante a inferência de LLMs.
Este estudo também chama atenção por ter sido concluído em apenas 5 dias e por ser resultado de dois pesquisadores independentes, sem orientação de um professor orientador.
📌 Definição do problema
Em inferências longas com chain-of-thought, o KV cache cresce rapidamente, causando:
- aumento abrupto no uso de memória
- aumento da latência de inferência
- piora no desempenho de reasoning de longo prazo
Abordagem existente:
- baseada em pontuação de importância dos tokens
- faz eviction dos tokens com baixa pontuação
❌ Limitações da abordagem existente
Segundo os experimentos do artigo:
- mesmo refinando bastante a pontuação de importância,
→ a mudança real no conjunto de tokens mantidos é limitada
Ou seja:
- apenas melhorar a estratégia de eviction
não é suficiente para avançar muito em desempenho e eficiência
🔥 Ideia central
O CASK separa os tokens não por importância, mas com base em seus papéis.
Core
- contribui diretamente para a geração da saída final
- representa o estado central do reasoning
- sempre mantido
Scratch
- estados gerados durante cálculos intermediários e exploração
- pode incluir informações redundantes ou desnecessárias
- alvo de compressão e mesclagem
⚙️ Como funciona
Prefix Phase
- trecho de entrada (
prompt) - realiza parte da eviction de KV
Decode Phase
- trecho em que a inferência avança
- aplica compressão seletiva apenas à área Scratch
👉 Diferença em relação às abordagens anteriores:
- exclusão simples → preservação seletiva + compressão estrutural
📊 Desempenho
Com base nos resultados do artigo:
-
em comparação com técnicas existentes de compressão de KV,
→ até 25% de economia adicional de memória -
com o mesmo orçamento de KV cache,
→ mantém maior acurácia -
em alguns intervalos,
→ alcança desempenho superior com menos KV cache
Exemplo:
- CASK (KV 384) > abordagem existente (KV 512)
👉 Redução no uso de memória + melhora de desempenho ao mesmo tempo
📌 Características técnicas
- pruning em nível de token → compressão sensível à estrutura
- foco em eviction → estratégia de preservar + reutilizar
- reforça a reutilização de informação durante o processo de reasoning
📌 Significado
O CASK propõe uma mudança na otimização de KV cache:
- de “quanto descartar”
- para “o que deve ser mantido obrigatoriamente”
🚀 Resumo
- até 25% de economia adicional de KV cache
- manutenção do mesmo desempenho de inferência ou até superior
- proposta de um método estrutural de gerenciamento de KV
2 comentários
Se vocês usaram IA na redação do artigo, tenho curiosidade em saber como foi esse uso. Achei impressionante a parte em que vocês disseram que foram da ideação aos experimentos em apenas 5 dias, então quis perguntar.
Como não consigo editar, estou deixando isto adicionalmente!
Link do artigo
https://arxiv.org/abs/2604.10900
Link do GitHub
https://github.com/Skyline-23/CASK