Uma abordagem desconcertantemente simples para recuperar conhecimento esquecido por LLMs

(arxiv.org)

1 pontos por GN⁺ 2024-11-05 | 1 comentários | Compartilhar no WhatsApp

O artigo do ICLR 2025 mostra que o machine unlearning em LLMs pode não apagar completamente o conhecimento, mas apenas ocultá-lo, e que a quantização na etapa de implantação pode fazê-lo reaparecer
Em experimentos com várias técnicas de quantização e níveis de precisão, métodos de unlearning com restrições de utilidade mantiveram, em média, 21% do conhecimento que deveria ser esquecido em precisão total, mas esse valor subiu para 83% após quantização de 4 bits
No caso GA_KLR do conjunto de dados BOOKS, a taxa de preservação do conhecimento original no modelo em precisão total era de 13%, mas foi recuperada para cerca de 89% após a quantização
A causa é que, devido a uma taxa de aprendizado pequena e à regularização com dados de retain, a diferença de pesos entre o modelo original e o modelo com unlearning fica pequena, e a quantização pode mapeá-los para o mesmo valor
As mitigações incluem usar uma taxa de aprendizado maior e atualizar apenas os componentes de maior impacto com um module-level saliency map, mas a abordagem é sensível a hiperparâmetros e uma solução estável ainda está em aberto

O unlearning apaga conhecimento ou apenas o esconde?

LLMs obtêm forte capacidade generativa ao serem treinados em grandes corpora de texto, mas também podem aprender comportamentos indesejados presentes nos dados de treinamento
- Exemplos incluem reprodução não autorizada de conteúdo protegido por direitos autorais, geração de informações pessoais como contatos e criação de mensagens ofensivas ou prejudiciais
- Também há um contexto jurídico, como o “Right to be Forgotten” do GDPR, em que usuários podem exigir a remoção de informações pessoais de modelos treinados
Machine unlearning é uma abordagem que busca eliminar a memorização de conhecimento específico, sem retreinar tudo, para remover a influência de dados problemáticos
- Retreinar LLMs costuma ser impraticável devido ao alto custo e tempo necessários
- O objetivo é remover conhecimentos específicos enquanto se preserva ao máximo a utilidade do modelo
A pergunta central é se os métodos existentes de unlearning para LLMs realmente alcançam o esquecimento, ou se apenas escondem o conhecimento de uma forma que os benchmarks atuais não conseguem detectar

Métodos existentes de unlearning para preservar utilidade

O artigo aborda métodos representativos de unlearning, como gradient ascent(GA) e negative preference optimization(NPO)
- GA aplica gradient ascent à cross-entropy loss para reduzir a probabilidade de prever a resposta correta no dataset de forget
- NPO trata o forget set como negative preference data e ajusta o modelo modificando o objetivo de offline DPO para atribuir baixa likelihood ao forget set
Como GA e NPO não foram originalmente projetados para preservar utilidade, em geral são usados junto com técnicas de regularização
- Gradient descent sobre o dataset de retain
- Minimização da KL divergence entre as distribuições de probabilidade do modelo com unlearning e do modelo-alvo em entradas de retain
Essas combinações tentam equilibrar desempenho de esquecimento e utilidade do modelo, mas esse equilíbrio pode se romper em ambientes com quantização

Resultados experimentais: a quantização revive conhecimento esquecido

Os experimentos aplicam unlearning ao modelo-alvo e ao dataset de forget para criar um unlearned model, depois comparam o desempenho em precisão total e após a quantização
Em precisão total, o modelo com unlearning mostra forte desempenho de unlearning, mas a simples aplicação de quantização prejudica esse desempenho
Os resultados quantitativos mostram que a recuperação de conhecimento não se limita a uma única configuração
- Métodos de unlearning com restrições de utilidade mantêm, em média, 21% do conhecimento que deveria ser esquecido em precisão total
- Após quantização de 4 bits, esse valor sobe para 83%
- Ao aplicar GA_KLR no dataset BOOKS, apenas 13% do conhecimento original era mantido em precisão total, mas esse valor foi recuperado para cerca de 89% após a quantização
O mesmo fenômeno foi verificado em várias técnicas de quantização, níveis de precisão e benchmarks

A vulnerabilidade criada por pequenas mudanças nos pesos

A hipótese central é que o unlearning existente depende de pequenas mudanças nos pesos
- Para manter a utilidade do modelo, usam-se uma taxa de aprendizado pequena e regularização com o retain set
- Como resultado, os pesos do LLM-alvo e do LLM com unlearning ficam muito próximos
A quantização pode mapear pesos próximos para o mesmo valor
- O LLM-alvo e o LLM com unlearning acabam tendo pesos semelhantes após a quantização
- Como o LLM-alvo quantizado preserva a maior parte do conhecimento que deveria ser esquecido, o LLM com unlearning quantizado também pode recuperar esse conhecimento
Esse problema é importante na implantação real
- A quantização é amplamente usada para implantar LLMs em ambientes com restrições de recursos
- Se um modelo foi ajustado por fine-tuning para esquecer conteúdo malicioso ou informações pessoais, esse conteúdo não deveria ser recuperado após a quantização

Estratégias de mitigação e limitações restantes

A estratégia proposta de unlearning robusto à quantização se concentra em reduzir a discrepância de esquecimento entre o modelo full-precision e o modelo quantized
A ideia básica é aplicar uma taxa de aprendizado maior tanto à forgetting loss quanto à retaining loss
- A forgetting loss penaliza modelos que mantêm informações do forget set
- A retaining loss preserva a utilidade no dataset de retain
Uma taxa de aprendizado maior pode reduzir a recuperação de conhecimento, mas também traz efeitos colaterais significativos
- O forgetting gradient pode induzir atualizações agressivas, levando o modelo a ser ajustado em excesso
- Usar uma taxa de aprendizado alta no dataset de retain pode criar viés em direção aos retain data e degradar o desempenho em tarefas fora do retain
Para reduzir esses efeitos colaterais, constrói-se um saliency map em nível de módulo e atualizam-se seletivamente apenas os componentes de maior influência relacionados aos dados que devem ser esquecidos
- Experimentalmente, essa targeted strategy ajuda a mitigar o risco de atualizações agressivas, preservar a utilidade do modelo e produzir resultados de unlearning mais equilibrados
Ainda assim, esse framework é muito sensível à escolha de hiperparâmetros, o que pode tornar instável o modelo com unlearning
O código está disponível em FailureLLMUnlearning

1 comentários

GN⁺ 2024-11-05

Opiniões no Hacker News

Em resumo, a descoberta deste artigo é que quantizar o modelo reverte várias técnicas de “esquecimento” (unlearning)
Técnicas de esquecimento são métodos que atualizam os pesos do modelo de uma determinada forma para fazê-lo esquecer certos fatos, geralmente com o objetivo de atender a exigências de direitos autorais, embora eu não saiba bem se isso é usado na prática
Parece ser necessário aqui uma boa análise de modelo de ameaça. Por exemplo, se eu tiver um modelo fp32 ajustado finamente para esquecer um fato específico e conseguir quantizá-lo para recuperar esse fato, é preciso avaliar em quais situações isso se torna perigoso
- O esquecimento é descrito como “o processo de apagar um conhecimento específico de um LLM preservando ao máximo a utilidade do modelo”
  Ou seja, parece algo como: “sabemos que nosso modelo não tem utilidade sem o seu material de origem. Então vamos pegar as partes úteis do seu material e borrar o restante, cobrar dos usuários pela utilidade que você forneceu e não pagar nada a você”
- No futuro, devem surgir LLMs tentando encontrar “LLMs no estilo Candidato da Manchúria”
- Mais genericamente do que “esquecimento”, também fico curioso se executar um modelo fp16 em fp32 ou fp64 melhora alguma coisa
  Por exemplo, se isso revelaria conhecimento que não era acessível em precisão mais baixa
- Acho que organizações que tenham alguém com cargo de segurança de IA usarão técnicas de esquecimento para tentar fazer com que o modelo não se lembre de métodos comuns de fabricação de drogas ilegais, venenos e explosivos
  Aqui, o modelo de ameaça provavelmente é a situação em que um modelo no qual esses fatos foram “ressuscitados” por acaso seja implantado. Ainda mais porque a distribuição de modelos quantizados é comum
  A maior parte dessas informações “perigosas” já existe em livros didáticos, patentes, fóruns de química amadora etc., mas socialmente em geral se presume que pessoas inteligentes o bastante para encontrar e entender essas informações não vão abusar delas. O que não se quer é que o Mythbusters explique isso em horário nobre na TV, ou que o ChatGPT explique para qualquer pessoa
Vejo a quantização como algo que desvia do ponto central. Se existe ao menos uma forma de reverter o esquecimento, isso significa que esse conhecimento ainda está nos pesos, e isso é teoria da informação básica
Imagino que existam inúmeras formas de recuperar o conhecimento desaparecido sem usar quantização
- Acho que a própria quantização, ou downsampling, pode ser uma forma fundamental de lidar com esse problema
  1. Treina-se um modelo comum em precisão total
  2. Quantiza-se até que o desempenho fique perto do limite e então se executa o processo de esquecimento
  3. Depois, para iterações de ajuste, treina-se/converte-se/faz-se upsampling de volta para FP
    Desse jeito, talvez seja possível criar um gargalo de informação. Ecos do que foi esquecido podem ter dificuldade para atravessar um gargalo tão estreito
- É correto dizer que a quantização não é algo especial, mas a expressão “desvia do ponto central” não está certa. Como diz o título, é apenas um método constrangedoramente simples
- Isso é parecido com dizer que criptografia desvia do ponto central
  É verdade que a informação está lá, mas recuperá-la é outro problema. Neste caso, a diferença importante é que a quantização permite recuperar a informação sem conhecer a cifra que a fez ser “esquecida”
- Se existe uma forma de reverter o esquecimento, também existe uma forma de usar esse método para identificar os pesos que contêm aquela informação e impedir que ela seja transmitida. No cerne do aprendizado está a detecção
  A informação ainda pode estar lá dentro, mas pode ser indetectável por qualquer método conhecido. Se todos os pesos do modelo forem zerados, a informação com certeza é removida. O problema é que talvez seja impossível identificar quando se atingiu o objetivo de remover completamente uma informação sem destruir outras informações
  Talvez no futuro apareçam coisas como vulnerabilidades zero-day de reversão de esquecimento
É parecido com pedir a um bebê para esquecer “coisas ruins” que aprendeu. É quase certo que, em vez de esquecer, esse conhecimento fique mais reforçado.
Sempre que ouço falar da febre de IA, lembro da febre das impressoras 3D de 10 a 15 anos atrás. Diziam coisas como “um golpe fatal nas fábricas”, “vamos imprimir nosso próprio carro”, “vamos imprimir nossa própria comida”. Acho que a IA baseada em LLMs deve seguir o mesmo destino: é possível, mas, na prática, não vai bem por esse caminho.
- A “febre” atual não é tanto a ideia de que a IA baseada em LLMs seja uma única tecnologia que vai mudar tudo, mas sim a expectativa de que todas as descobertas em IA/machine learning, incluindo técnicas que ainda nem foram imaginadas, se somem e se tornem uma tecnologia teórica capaz de mudar tudo no futuro próximo.
  Além disso, 10 a 15 anos não é nada. Não vejo impressoras 3D como uma tecnologia realmente transformadora em comparação com IA, mas é bom lembrar que, tirando a exceção da Segunda Guerra Mundial, aviões e computadores também levaram 30 a 40 anos para ter um impacto social e de consumo amplo, fora do uso militar.
- Quer dizer que não vai ser nível Star Trek, mas vai ser incrível e muito útil?
- Tendemos a superestimar os efeitos de curto prazo da tecnologia e a subestimar os de longo prazo.
  Impressoras 3D podem acabar mudando radicalmente toda a manufatura, mas será preciso muitas iterações até chegar lá. Mesmo hoje, em teoria, dá para imprimir em 3D muita coisa que fabricamos, mas os métodos tradicionais continuam mais baratos e funcionam melhor, então não há um fator que force a mudança. Se criássemos um assentamento autossuficiente no espaço, seria um ambiente em que a impressão 3D poderia ir muito mais longe. Afinal, sem muita mão de obra humana nem enormes cadeias de suprimento, haveria necessidade de uma manufatura portátil, independente e de uso geral.
  LLMs não vão substituir escritores, programadores humanos etc., salvo nas tarefas mais simples, em um futuro próximo. Em vez disso, eles os reforçam. Na programação, estão mais para um autocomplete mais inteligente e versátil. Também têm sido úteis para encontrar conceitos, pesquisar, resumir e documentar código e texto. Essas coisas não me substituem, mas me permitem fazer um pouco mais, um pouco mais rápido.
  No longuíssimo prazo, LLMs podem se tornar poderosos o bastante para realmente sintetizar aplicações inteiras, indo além de exemplos forçados. Mas, assim como a impressão 3D substituir toda a manufatura, isso exigirá muitas iterações e talvez também precise de algum fator que force a mudança.
- Discordo fortemente aqui.
  Lembro dessa febre. Especialmente porque eu ouvia muito sobre isso mesmo antes de entrar em uma empresa, como a Autodesk, que levava impressão 3D bastante a sério.
  Eu não tinha experiência prévia com impressão 3D, mas levei só uns dois meses para perceber que o que a imprensa dizia era bobagem. Tecnicamente, ela não estava nem perto do que alguns artigos afirmavam, como imprimir seu próprio carro; e, do ponto de vista de negócios, era surpreendentemente raro haver pontos em que usar impressão 3D no lugar da manufatura existente trouxesse melhorias.
  Não quero exagerar. Impressão 3D é excelente e tem muitos usos reais. O problema é que a mídia em torno dela inflou demais as expectativas.
  A maioria das pessoas que realmente conhecia impressão 3D sabia que a imprensa estava, para dizer o mínimo, excessivamente entusiasmada. E, mesmo muitos anos depois, essas grandes visões ainda não se concretizaram.
  Já a IA tem duas grandes diferenças. Primeiro, ela já provou ser extremamente útil e já teve 100 vezes o impacto da impressão 3D. Basta pensar em quando foi a última vez que um produto, lançado na prática há uns 4 anos, conseguiu uma penetração de mercado tão impressionante. O ChatGPT é, de fato, o produto que cresceu mais rápido na história em número de usuários.
  Segundo, os insiders em geral estão extremamente empolgados com essa tecnologia, acreditam que ela pode ficar muito melhor e que seu potencial atual ainda está longe de ser plenamente aproveitado. Eu certamente penso assim.
Do ponto de vista da teoria da informação, isso soa um pouco inesperado. Na representação completa de 32 bits do modelo, parece que esse conhecimento foi removido, mas a história é que, ao comprimir para 4 bits, esse conhecimento reaparece
Então fica a curiosidade sobre que informação de fato desaparece na etapa de compressão/quantização
- Explicando este artigo de forma simples: a maioria dos métodos de “esquecimento” pode ser vista como adicionar algum delta w aos parâmetros da rede neural, e a maior parte desse w simplesmente é “arredondada e desaparece” durante a quantização. Ou seja, quantize(X+w) ~= quantize(X)
  É uma ideia bem inteligente, considerando que muitos dos métodos citados otimizam/regularizam explicitamente para manter w pequeno a fim de evitar queda na acurácia de avaliação
  Por isso surge a dúvida se, do ponto de vista da teoria da informação, esses métodos podem mesmo ser chamados de esquecimento, ou se são algo como colocar um if (false) em volta do conhecimento latente
- O que foi removido na versão de 32 bits provavelmente não é o conhecimento em si, mas a representação do conhecimento. E talvez uma parte do espaço tenha sido alocada para armazenar a informação de que não se deve falar sobre determinado assunto
  Por exemplo, pessoas também conhecem várias expressões racistas, mas também sabem que não devem acessar nem usar esse conhecimento
  Mas, se uma pessoa ou um modelo de IA leva uma pancada na cabeça ou passa por algo como quantização, o conhecimento sobre X pode permanecer, enquanto o conhecimento de que não se deve falar sobre X pode desaparecer. Visto assim, é bastante intuitivo
- É possível que o conhecimento não tenha desaparecido, mas tenha sido mascarado
  Se pensarmos na rede neural como código, os pesos seriam o código-fonte. O fine-tuning pode, na prática, ser uma espécie de hack para fazer esse código não retornar certas saídas
  Na realidade, fine-tuning é, em certa medida, algo próximo disso
  Então pode ser apenas a criação de um firewall em torno de certas saídas. Mas, com a quantização, essas alterações recentes podem desaparecer. São sutis demais para sobreviver
  Por outro lado, os modelos quantizados populares mostram que a quantização não destrói todo o conhecimento
  Além disso, se @simonw estiver com as notificações ativadas, este tema parece perfeito para virar um texto
- O conhecimento não foi removido; ele só nunca era usado por causa dos pesos
  A quantização muda o cálculo, e agora esse conhecimento se tornou acessível
- Na verdade, não é surpreendente
  Ponto flutuante sempre me pareceu uma forma estranha de representar linguagem. Se você ampliar uma única variável, será que há um conjunto de significados como em https://vinaire.me/2019/07/17/scn-8-8008-the-emotional-scale..., colocado sobre algum gradiente, mas com significados especiais atribuídos a determinados intervalos? Dá para imaginar circuitos neurais cuidadosamente projetados para decodificar esse tipo de variável, e até visualizar como construir uma rede com essa estrutura, mas não é intuitivo que uma rede neural aprenda tal estrutura. Uma escala que vai de “bom” a “ruim” é crível, mas é difícil acreditar que inúmeros significados específicos estejam associados a valores diferentes
  Pensando assim, alguma forma de rede neural binária pareceria muito eficaz, mas na prática não parece ser o caso. Ainda assim, parece que redes neurais internamente não usam muito mais do que algo em torno de 4 bits de precisão
  Esses sistemas de “esquecimento” parecem mais aprender um novo comportamento que suprime certas saídas do que remover de fato os “engramas” da memória dentro da rede. Não é muito diferente do problema de adicionar gradualmente novo conhecimento à rede, só que aquilo que se aprende na etapa 2 é bem diferente do aprendizado comum. Se você não quiser estragar a rede, dá para imaginar adicionar um novo comportamento por meio de um bit extra de precisão. Em baixa precisão, ela preserva o comportamento existente; em alta precisão, passa a fazer distinções importantes para o comportamento “esquecido/aprendido”
A hipótese central é que, para alcançar o esquecimento sem prejudicar a utilidade do modelo, os métodos existentes geralmente usam taxas de aprendizado pequenas e regularização sobre o conjunto de retenção, de modo a minimizar as mudanças nos pesos do modelo durante o esquecimento
Como resultado, os pesos do LLM-alvo e do LLM esquecido ficam muito próximos
Nesse caso, parece que seria preciso impedir que conteúdo indesejado seja aprendido na etapa de treinamento de base, ou fazer com que o processo de esquecimento do modelo-base seja consciente da quantização
Não sou nem um pouco especialista nessa área, então talvez seja uma pergunta boba. Se o llama3 for quantizado para 4 bits, isso significa que seria possível acessar informações ocultas, como, por exemplo, métodos para sintetizar um determinado composto? Claro que a qualidade cairia
- Eu também estava me perguntando exatamente isso. Esquecimento = guardrails? Parece que ajustaram os pesos só um pouquinho para criar autocensura, mas esse ajuste é tão sutil que não sobrevive em baixa resolução
  Mas, se contornar guardrails fosse tão fácil assim, acho que já teríamos ouvido falar
- Só é possível se a “receita para sintetizar determinado composto” já estivesse originalmente dentro do modelo
O trecho “apesar da eficácia dos métodos atuais de esquecimento, pouca atenção foi dada a saber se os métodos existentes de esquecimento em LLMs alcançam um esquecimento verdadeiro ou apenas escondem o conhecimento” é uma boa pergunta
No contexto dos LLMs, e também no contexto filosófico do conhecimento em geral, é preciso examinar o que significam esquecer e lembrar, se um LLM pode “esquecer” algo que “aprendeu” e, se puder, o que isso significa exatamente em termos matemáticos e computacionais
Também fico curioso se um LLM poderia, a partir do conhecimento existente, ensinar a si mesmo algo que havia esquecido antes por meio de processos lógicos, implicações, derivações, raciocínio indutivo, raciocínio dedutivo etc.
Se isso for possível, também surge a pergunta de qual é o menor núcleo de um LLM capaz de fazer isso, e por quê
Acho que este não será nem o primeiro nem o último artigo sobre o tema
Uso LLMs quantizados em ambiente de produção, mas nunca senti que o modelo ficasse menos censurado
Para esquecer comportamentos reforçados, a técnica de abliteration [1] parece muito mais poderosa
1 https://huggingface.co/blog/mlabonne/abliteration
- Por acaso você usou especificamente gradient ascent para usar um modelo esquecido?
O problema dos modelos atuais não é que eles aprendem, mas que são doutrinados de forma mecânica
Falta pensamento crítico na etapa de aprendizado
- Antropomorfizar LLMs não é tecnicamente correto nem particularmente útil
- Caso contrário, como você censuraria um LLM? Você realmente quer que um LLM tenha liberdade de expressão?
Nem é preciso usar quantização. A maioria dos benchmarks pode ser quebrada só com prompts
https://arxiv.org/abs/2410.02879

Uma abordagem desconcertantemente simples para recuperar conhecimento esquecido por LLMs

O unlearning apaga conhecimento ou apenas o esconde?

Métodos existentes de unlearning para preservar utilidade

Resultados experimentais: a quantização revive conhecimento esquecido

A vulnerabilidade criada por pequenas mudanças nos pesos

Estratégias de mitigação e limitações restantes

Leituras relacionadas

1 comentários

Opiniões no Hacker News