1 pontos por GN⁺ 2024-10-09 | 1 comentários | Compartilhar no WhatsApp
  • O Transformer muitas vezes tende a atribuir atenção excessiva a contextos irrelevantes.

  • O Diff Transformer propõe uma nova abordagem para amplificar a atenção ao contexto relevante e remover ruído.

  • Mecanismo de atenção diferencial

    • Calcula as pontuações de atenção por meio da diferença entre dois mapas de atenção softmax separados.
    • Essa subtração remove ruído e favorece o surgimento de padrões de atenção esparsos.
  • Resultados experimentais

    • Em experimentos de modelagem de linguagem, o Diff Transformer apresentou desempenho superior ao Transformer em vários tamanhos de modelo e configurações de tokens de treinamento.
    • Em aplicações práticas, oferece benefícios notáveis em modelagem de contexto longo, recuperação de informações essenciais, mitigação de alucinações, aprendizado em contexto e redução de outliers de ativação.
  • Benefícios práticos

    • Por ser menos afetado por contextos irrelevantes, pode mitigar alucinações em perguntas e respostas e em sumarização de texto.
    • Além de melhorar a precisão no aprendizado em contexto, também aumenta a robustez a mudanças de ordem.
  • Conclusão

    • O Diff Transformer se estabelece como uma arquitetura muito eficaz e promissora para avançar os grandes modelos de linguagem.

Resumo do GN⁺

  • O Diff Transformer é uma nova arquitetura proposta para superar as limitações do Transformer, com foco em amplificar a atenção ao contexto relevante e eliminar ruído desnecessário.
  • Este estudo destaca a melhoria de desempenho em grandes modelos de linguagem, especialmente as vantagens em aplicações práticas como modelagem de contexto longo.
  • Contribui para mitigar alucinações por sofrer menos interferência de contextos irrelevantes, além de aumentar a precisão e a robustez do aprendizado em contexto.

1 comentários

 
GN⁺ 2024-10-09
Comentários no Hacker News
  • O mecanismo de atenção softmax comum tem dificuldade para atribuir pesos de atenção próximos de 0 a informações irrelevantes. O novo método resolve isso, mas também pode gerar pesos de atenção negativos. É difícil entender como a rede lida com isso

  • Esse tipo de trabalho detalhado é muito interessante. A mudança é pequena, então outras pessoas podem aplicá-la facilmente. No entanto, a última frase da seção "2 Differential Transformer" não está clara, o que pode afetar a comparação

  • No novo mundo do machine learning, é confuso entender por que esse tipo de método funciona. A analogia com fones com cancelamento de ruído ajuda, mas aqui não dá para distinguir claramente entre sinal e ruído

  • A differential attention remove o ruído da atenção usando a diferença entre duas funções de atenção softmax. Essa arquitetura usa o dobro da memória de atenção para um modelo de maior qualidade, ou usa menos parâmetros para uma qualidade semelhante

    • Um DIFF Transformer de tamanho 6.8B alcança uma perda de validação parecida com a de um Transformer de 11B, precisando de apenas 62,2% dos parâmetros
    • Fico curioso se, com apenas 60% dos parâmetros, ele consegue manter um perfil de memória semelhante ao de um transformer tradicional
    • Fico curioso se esse trade-off muda de forma perceptível entre treinamento e inferência
  • Se os dois grupos de atenção aprenderem a mesma coisa, as máscaras de atenção se subtraem mutuamente, a atenção cai para 0 e a perda aumenta. Para reduzir a perda, eles precisam aprender coisas diferentes. Um grupo aprende a focar no contexto relevante, e o outro no contexto irrelevante

  • A configuração λᵢₙᵢₜ = 0.8 − 0.6 × exp(−0.3 · (l − 1)) funciona bem empiricamente. Fico curioso sobre a motivação por trás dessa fórmula

  • Fico curioso sobre o quanto vale a pena remover ruído posicional. Gostaria de ver uma tabela comparando a versão com alibi e o baseline com alibi. Parabéns aos pesquisadores

  • Fico curioso sobre o que se perde aqui. Qual é o impacto sobre criatividade ou sobre a capacidade de interpolar entre conceitos? Sinto que alucinação e criatividade estão muito relacionadas

  • Resolver o problema é bom, mas acho que a abordagem está errada. É preciso captar o contexto completo de forma hierárquica. Se o vetor de diferença for calculado com a mesma entrada do vetor de atenção, não dá para saber como corrigir o vetor de atenção corretamente

  • Fico curioso se a questão é que o softmax não consegue empurrar os valores até 0, mas ao subtrair dois mapas softmax é possível produzir 0