1 pontos por GN⁺ 2023-07-25 | 1 comentários | Compartilhar no WhatsApp
  • A fórmula de atenção da IA moderna contém um erro de off-by-one que dificulta a compressão e a implantação de modelos Transformer.
  • Esse erro está relacionado a pesos outliers dentro do modelo, que são muito maiores que os demais e, por isso, causam degradação de desempenho e dificuldades na quantização.
  • O bug está ligado à função softmax usada no mecanismo de atenção, e essa função não é adequada para essa tarefa.
  • A solução proposta é fazer uma pequena modificação na função softmax, adicionando 1 ao denominador para que a cabeça de atenção “não diga nada” quando não puder acrescentar informação.
  • Espera-se que essa modificação, chamada Softmax Super-Mod ou QuietAttention, resolva o loop de feedback dos outliers e melhore a quantização.
  • Para verificar a eficácia dessa solução por meio de experimentos, é possível adicionar como prefixo um vetor zero ao contexto de entrada e observar a curtose dos pesos e a norma infinito das ativações.
  • O autor convida à colaboração e à realização de experimentos para explorar e validar melhor essa solução.

1 comentários

 
GN⁺ 2023-07-25
Comentários do Hacker News
  • Autor propõe adicionar 1 ao denominador do softmax
  • Essa mudança permite que a rede não precise escolher alta confiança em algo ao atribuir pesos altos ou baixos.
  • Alguns comentaristas duvidam da importância dessa mudança e sugerem que truques semelhantes já foram usados antes.
  • Outros elogiam o tom não acadêmico do artigo e a disposição de explorar ideias novas.
  • Um comentarista compartilha uma experiência pessoal de ter encontrado um erro em um algoritmo popular que inicialmente foi ignorado por outras pessoas.
  • Outro comentarista elogia o autor por identificar um problema real e propor uma solução simples.
  • No entanto, pede ao autor que forneça mais evidências e explicações para a alegação de que essa solução resolveria loops de feedback de outliers.
  • Alguns comentaristas sugerem que mais experimentos e ajustes finos são necessários para validar a solução proposta.
  • Um comentarista menciona um artigo de 2020 e sugere outra fórmula de atenção que pode resolver o problema de quantização.
  • Foi mencionado que esse método de adicionar 1 ao denominador era usado com frequência antes de o uso de tokens dummy se tornar comum.
  • Alguns comentaristas criticam o tom do autor e expressam surpresa com a falta de reconhecimento dessa técnica na comunidade de pesquisa.