Transformer Diferencial
(arxiv.org)-
O Transformer muitas vezes tende a atribuir atenção excessiva a contextos irrelevantes.
-
O Diff Transformer propõe uma nova abordagem para amplificar a atenção ao contexto relevante e remover ruído.
-
Mecanismo de atenção diferencial
- Calcula as pontuações de atenção por meio da diferença entre dois mapas de atenção softmax separados.
- Essa subtração remove ruído e favorece o surgimento de padrões de atenção esparsos.
-
Resultados experimentais
- Em experimentos de modelagem de linguagem, o Diff Transformer apresentou desempenho superior ao Transformer em vários tamanhos de modelo e configurações de tokens de treinamento.
- Em aplicações práticas, oferece benefícios notáveis em modelagem de contexto longo, recuperação de informações essenciais, mitigação de alucinações, aprendizado em contexto e redução de outliers de ativação.
-
Benefícios práticos
- Por ser menos afetado por contextos irrelevantes, pode mitigar alucinações em perguntas e respostas e em sumarização de texto.
- Além de melhorar a precisão no aprendizado em contexto, também aumenta a robustez a mudanças de ordem.
-
Conclusão
- O Diff Transformer se estabelece como uma arquitetura muito eficaz e promissora para avançar os grandes modelos de linguagem.
Resumo do GN⁺
- O Diff Transformer é uma nova arquitetura proposta para superar as limitações do Transformer, com foco em amplificar a atenção ao contexto relevante e eliminar ruído desnecessário.
- Este estudo destaca a melhoria de desempenho em grandes modelos de linguagem, especialmente as vantagens em aplicações práticas como modelagem de contexto longo.
- Contribui para mitigar alucinações por sofrer menos interferência de contextos irrelevantes, além de aumentar a precisão e a robustez do aprendizado em contexto.
1 comentários
Comentários no Hacker News
O mecanismo de atenção softmax comum tem dificuldade para atribuir pesos de atenção próximos de 0 a informações irrelevantes. O novo método resolve isso, mas também pode gerar pesos de atenção negativos. É difícil entender como a rede lida com isso
Esse tipo de trabalho detalhado é muito interessante. A mudança é pequena, então outras pessoas podem aplicá-la facilmente. No entanto, a última frase da seção "2 Differential Transformer" não está clara, o que pode afetar a comparação
No novo mundo do machine learning, é confuso entender por que esse tipo de método funciona. A analogia com fones com cancelamento de ruído ajuda, mas aqui não dá para distinguir claramente entre sinal e ruído
A differential attention remove o ruído da atenção usando a diferença entre duas funções de atenção softmax. Essa arquitetura usa o dobro da memória de atenção para um modelo de maior qualidade, ou usa menos parâmetros para uma qualidade semelhante
Se os dois grupos de atenção aprenderem a mesma coisa, as máscaras de atenção se subtraem mutuamente, a atenção cai para 0 e a perda aumenta. Para reduzir a perda, eles precisam aprender coisas diferentes. Um grupo aprende a focar no contexto relevante, e o outro no contexto irrelevante
A configuração λᵢₙᵢₜ = 0.8 − 0.6 × exp(−0.3 · (l − 1)) funciona bem empiricamente. Fico curioso sobre a motivação por trás dessa fórmula
Fico curioso sobre o quanto vale a pena remover ruído posicional. Gostaria de ver uma tabela comparando a versão com alibi e o baseline com alibi. Parabéns aos pesquisadores
Fico curioso sobre o que se perde aqui. Qual é o impacto sobre criatividade ou sobre a capacidade de interpolar entre conceitos? Sinto que alucinação e criatividade estão muito relacionadas
Resolver o problema é bom, mas acho que a abordagem está errada. É preciso captar o contexto completo de forma hierárquica. Se o vetor de diferença for calculado com a mesma entrada do vetor de atenção, não dá para saber como corrigir o vetor de atenção corretamente
Fico curioso se a questão é que o softmax não consegue empurrar os valores até 0, mas ao subtrair dois mapas softmax é possível produzir 0