9 pontos por skyline23 15 일 전 | 2 comentários | Compartilhar no WhatsApp

CASK é um artigo que propõe uma abordagem estrutural (baseada em papéis),
em vez do método tradicional de pruning baseado na importância dos tokens,
para resolver o problema do crescimento do KV cache durante a inferência de LLMs.

Este estudo também chama atenção por ter sido concluído em apenas 5 dias e por ser resultado de dois pesquisadores independentes, sem orientação de um professor orientador.


📌 Definição do problema

Em inferências longas com chain-of-thought, o KV cache cresce rapidamente, causando:

  • aumento abrupto no uso de memória
  • aumento da latência de inferência
  • piora no desempenho de reasoning de longo prazo

Abordagem existente:

  • baseada em pontuação de importância dos tokens
  • faz eviction dos tokens com baixa pontuação

❌ Limitações da abordagem existente

Segundo os experimentos do artigo:

  • mesmo refinando bastante a pontuação de importância,
    → a mudança real no conjunto de tokens mantidos é limitada

Ou seja:

  • apenas melhorar a estratégia de eviction
    não é suficiente para avançar muito em desempenho e eficiência

🔥 Ideia central

O CASK separa os tokens não por importância, mas com base em seus papéis.

Core

  • contribui diretamente para a geração da saída final
  • representa o estado central do reasoning
  • sempre mantido

Scratch

  • estados gerados durante cálculos intermediários e exploração
  • pode incluir informações redundantes ou desnecessárias
  • alvo de compressão e mesclagem

⚙️ Como funciona

Prefix Phase

  • trecho de entrada (prompt)
  • realiza parte da eviction de KV

Decode Phase

  • trecho em que a inferência avança
  • aplica compressão seletiva apenas à área Scratch

👉 Diferença em relação às abordagens anteriores:

  • exclusão simples → preservação seletiva + compressão estrutural

📊 Desempenho

Com base nos resultados do artigo:

  • em comparação com técnicas existentes de compressão de KV,
    até 25% de economia adicional de memória

  • com o mesmo orçamento de KV cache,
    → mantém maior acurácia

  • em alguns intervalos,
    alcança desempenho superior com menos KV cache

Exemplo:

  • CASK (KV 384) > abordagem existente (KV 512)

👉 Redução no uso de memória + melhora de desempenho ao mesmo tempo


📌 Características técnicas

  • pruning em nível de token → compressão sensível à estrutura
  • foco em eviction → estratégia de preservar + reutilizar
  • reforça a reutilização de informação durante o processo de reasoning

📌 Significado

O CASK propõe uma mudança na otimização de KV cache:

  • de “quanto descartar”
  • para “o que deve ser mantido obrigatoriamente”

🚀 Resumo

  • até 25% de economia adicional de KV cache
  • manutenção do mesmo desempenho de inferência ou até superior
  • proposta de um método estrutural de gerenciamento de KV

2 comentários

 
wogns3623 14 일 전

Se vocês usaram IA na redação do artigo, tenho curiosidade em saber como foi esse uso. Achei impressionante a parte em que vocês disseram que foram da ideação aos experimentos em apenas 5 dias, então quis perguntar.

 
skyline23 15 일 전

Como não consigo editar, estou deixando isto adicionalmente!