- A fórmula de atenção da IA moderna contém um erro de off-by-one que dificulta a compressão e a implantação de modelos Transformer.
- Esse erro está relacionado a pesos outliers dentro do modelo, que são muito maiores que os demais e, por isso, causam degradação de desempenho e dificuldades na quantização.
- O bug está ligado à função softmax usada no mecanismo de atenção, e essa função não é adequada para essa tarefa.
- A solução proposta é fazer uma pequena modificação na função softmax, adicionando 1 ao denominador para que a cabeça de atenção “não diga nada” quando não puder acrescentar informação.
- Espera-se que essa modificação, chamada Softmax Super-Mod ou QuietAttention, resolva o loop de feedback dos outliers e melhore a quantização.
- Para verificar a eficácia dessa solução por meio de experimentos, é possível adicionar como prefixo um vetor zero ao contexto de entrada e observar a curtose dos pesos e a norma infinito das ativações.
- O autor convida à colaboração e à realização de experimentos para explorar e validar melhor essa solução.
1 comentários
Comentários do Hacker News