1 pontos por GN⁺ 2024-11-05 | 1 comentários | Compartilhar no WhatsApp
  • Se os LLMs realmente 'esquecem'

    • Grandes modelos de linguagem (LLMs) são treinados com enormes volumes de dados textuais e demonstram excelente capacidade de geração de texto
    • No entanto, devido à natureza sensível dos dados de treinamento, eles podem aprender comportamentos indesejados
    • O "esquecimento" de máquina é um método para lidar com esse problema, com o objetivo de remover conhecimentos específicos enquanto preserva ao máximo a utilidade do modelo
  • Problemas e conteúdo da pesquisa

    • Ainda há pouca pesquisa sobre se os métodos atuais de "esquecimento" realmente fazem o modelo esquecer o conhecimento ou apenas o ocultam
    • Este estudo revela que, ao aplicar quantização, informações "esquecidas" podem ser recuperadas
    • Foram realizados experimentos em vários níveis de precisão usando diferentes técnicas de quantização
  • Resultados experimentais

    • No caso de métodos de "esquecimento" com restrições de utilidade, o modelo retém em média 21% do conhecimento que deveria ter sido esquecido em precisão total
    • Após a quantização para 4 bits, essa taxa aumenta para 83%
  • Estratégia proposta

    • É fornecida uma explicação teórica para esse fenômeno
    • É proposta uma estratégia de "esquecimento" robusta à quantização para mitigar esse problema complexo
  • Importância da pesquisa

    • O trabalho traz uma contribuição importante para avaliar e melhorar a eficácia dos métodos de "esquecimento" em LLMs
    • Também ajuda a entender o impacto da quantização sobre o "esquecimento"

1 comentários

 
GN⁺ 2024-11-05
Comentários do Hacker News
  • Há resultados de pesquisa mostrando que a quantização de modelos invalida métodos de "esquecimento". Métodos de "esquecimento" atualizam os pesos para fazer o modelo esquecer fatos específicos. Esses métodos são usados principalmente para lidar com questões de direitos autorais.
    • O fato de a quantização invalidar o "esquecimento" significa, em termos de teoria da informação, que o conhecimento ainda permanece nos pesos do modelo.
    • Compara o boom da IA ao boom das impressoras 3D de 10 a 15 anos atrás e prevê que a IA terá um destino parecido.
    • Remover conhecimento em um modelo de 32 bits, mas vê-lo reaparecer ao comprimi-lo para 4 bits, é algo inesperado do ponto de vista da teoria da informação.
    • Para o "esquecimento", é comum usar uma taxa de aprendizado pequena e regularização sem prejudicar a utilidade do modelo. Por isso, os pesos do LLM alvo e do LLM "esquecido" ficam muito próximos.
    • É preciso impedir o aprendizado indesejado durante o treinamento base, ou fazer com que o "esquecimento" do modelo base seja sensível à quantização.
    • Mesmo usando um LLM quantizado, não descobriram que o modelo fica menos censurado.
    • A técnica de abliteration é mais poderosa para reforçar o comportamento "esquecido".
    • Na prática, "esquecer" é reduzir a probabilidade de amostragem em um potencial "espaço de aprendizado", e a quantização diminui o efeito dessa amostragem.
    • "Esquecer" significa que o LLM aprende a suprimir conhecimento indesejado, e a quantização quebra essa supressão.
    • Foi a primeira vez que ouviu falar em "esquecimento" de modelos e espera uma resposta sobre como o aprendizado federado evita o "esquecimento" de modelos.