Machine Unlearning em 2024

(ai.stanford.edu)

17 pontos por GN⁺ 2024-05-06 | 2 comentários | Compartilhar no WhatsApp

Machine unlearning significa remover dados indesejados de um modelo treinado, e há um interesse crescente em editar modelos sem precisar reentreiná-los do zero
- Isso inclui, por exemplo, remover informações pessoais, conhecimento desatualizado, material protegido por direitos autorais, conteúdo nocivo/perigoso, capacidades perigosas e desinformação

Formas de unlearning

Unlearning exato (Exact unlearning)
- Exige que o modelo após o unlearning e o modelo reentreinado sejam distribucionalmente idênticos
- O ponto central é que o algoritmo de treinamento tenha componentes modulares correspondentes a diferentes conjuntos de exemplos de treinamento
"Unlearning" por meio de Differential Privacy
- Consiste em fazer com que o modelo não dependa de um ponto de dado específico
- Exige proximidade distribucional entre o modelo após o unlearning e o modelo reentreinado
Unlearning empírico com espaço de exemplos conhecido (Empirical unlearning with known example space)
- Aplica-se quando os dados a serem removidos são exatamente conhecidos
- É feito por meio de fine-tuning do modelo para realizar o unlearning
Unlearning empírico com espaço de exemplos desconhecido (Empirical unlearning with unknown example space)
- Aplica-se quando o alcance ou os limites dos dados a serem removidos não são claros
- Enquadra-se aqui o unlearning de conceitos, fatos e conhecimentos
Apenas pedir o unlearning (Just ask for unlearning)
- Método que consiste em solicitar diretamente o unlearning a um LLM poderoso

Avaliação de unlearning

Avaliar unlearning é um problema muito difícil. Em especial, a falta de métricas e benchmarks é grave
Na avaliação de unlearning, é preciso focar em três aspectos
- Eficiência: quão mais rápido o algoritmo é em comparação ao reentreinamento
- Utilidade do modelo: se há queda de desempenho nos dados que devem ser preservados ou em tarefas ortogonais
- Qualidade do esquecimento: até que ponto os dados que deveriam ser esquecidos realmente foram removidos
Os benchmarks TOFU e WMDP foram propostos recentemente e estão ajudando na avaliação de unlearning
- O TOFU foca no unlearning de informações pessoais de autores, e o WMDP foca no unlearning de conhecimento perigoso relacionado a bio/cibersegurança
- Eles fazem avaliações de nível mais alto com base na retenção de conhecimento e compreensão, e não em instâncias individuais
Parece haver necessidade de benchmarks de unlearning centrados em aplicações, como informações de identificação pessoal, direitos autorais, nocividade e backdoors

Realidade e perspectivas do unlearning

Há um espectro de dificuldade no unlearning
- Remover textos de baixa frequência é o mais fácil, e vai ficando progressivamente mais difícil com textos de alta frequência e fatos fundamentais
- Isso porque, quanto mais fundamental é o conhecimento, maior sua relação com outros conhecimentos, fazendo o escopo do unlearning crescer exponencialmente
- Exemplos aprendidos no início podem ter sido "sobrescritos" por exemplos posteriores, o que pode dificultar o unlearning
- Por outro lado, exemplos aprendidos mais tarde podem ser gradual ou catastroficamente esquecidos pelo modelo, o que também pode dificultar o unlearning
Proteção de direitos autorais
- O unlearning parece promissor para proteção de direitos autorais, mas no momento o cenário jurídico ainda é incerto
- Se o uso de conteúdo protegido por direitos autorais se enquadrar em uso justo segundo a doutrina de fair use, o unlearning pode nem ser necessário
Sistemas de IA baseados em busca
- Uma abordagem é remover do corpus de pré-treinamento os conteúdos que podem receber pedidos de unlearning e armazená-los em um banco de dados externo
- Quando chegar um pedido de unlearning, basta apagar os dados correspondentes do DB
- Mas há problemas como deduplicação, tratamento de citações/transformações e ataques de extração de dados
Segurança em IA
- O unlearning pode ser usado para remover conhecimento, comportamentos e capacidades perigosas do modelo
- No entanto, ele deve ser visto como apenas um dos mecanismos de mitigação e defesa pós-fato, reconhecendo que há trade-offs com outras ferramentas, como fine-tuning de alinhamento e filtragem de conteúdo

Opinião do GN⁺

Machine unlearning ainda está em estágio inicial de pesquisa e, especialmente em grandes modelos de linguagem, parece haver muitas dificuldades. Exceto em casos especiais em que o unlearning exato é possível, a situação atual depende majoritariamente de métodos empíricos e experimentais.
O problema da avaliação parece ser o maior obstáculo. Como a definição e os critérios de unlearning são ambíguos e variam conforme a aplicação, será difícil avançar sem benchmarks e métricas de avaliação adequados. É animador ver o surgimento recente de benchmarks centrados em aplicações, como TOFU e WMDP.
Quanto à questão dos direitos autorais, também vale considerar soluções econômicas além do unlearning. A OpenAI vem adotando um modelo em que oferece um serviço de unlearning exato por meio de reentreinamento periódico e, no intervalo, o proprietário do modelo assume responsabilidade limitada por infrações de direitos autorais ocorridas nesse período.
Sistemas baseados em busca têm muitas vantagens, mas quando se entra nos detalhes parecem menos simples do que parecem. Há muitos desafios a resolver, como deduplicação, identificação de direitos autorais e defesa contra ataques de extração de dados. À medida que a capacidade de aprendizado in-context dos LLMs aumenta, talvez retrieval por si só permita muita coisa, mas parece difícil que substitua completamente o fine-tuning.
Do ponto de vista da segurança em IA, o unlearning é uma área de pesquisa bastante interessante. No entanto, não é uma solução universal e deve ser usado em conjunto com outras técnicas de defesa, como alinhamento e filtragem. À medida que os modelos ganham autonomia, é provável que o interesse também aumente sob a ótica de políticas públicas e regulação.

2 comentários

xguru 2024-05-07

Desafio de Machine Unlearning do Google

GN⁺ 2024-05-06

Comentários no Hacker News

Mesmo que certas informações sejam removidas do modelo, existe um problema fundamental: elas podem ser reaprendidas por inferência ou prompting
Em vez de filtrar a informação proibida em si, pode haver uma solução nos pesos e incentivos que formam a camada final de inferência
Os modelos "seguros" atuais muitas vezes produzem resultados insatisfatórios, porque ainda não queremos modelos verdadeiros, e sim modelos que permitam desenvolvimento adicional
Pode haver uma forma de codificar e atribuir peso ao princípio de que o modelo foi gerado por algo externo
Excluir conjuntos de dados que violam direitos autorais pode ser a forma mais aceitável do ponto de vista legal
E se, em vez de coletar todo o conteúdo, coletássemos apenas conteúdo explicitamente marcado como utilizável para construir modelos?
Se o modelo for treinado com DP, os dados acabam tão misturados que ele não consegue mais retornar dados exatos, ou então a etapa de DP se torna inútil
Apagar conhecimento é uma tarefa problemática
Há preocupações sobre a "solidez" de IAs treinadas, destreinadas e retreinadas
Em 2014, os formuladores de políticas não previram que o deep learning se tornaria uma gigantesca mistura de dados e computação
"Desaprender" não é o objetivo real, e não se quer que o modelo, metaforicamente, enfie a cabeça na areia
As novas startups incluem uma multidão com ancinhos dentro do loop de treinamento de ML

Machine Unlearning em 2024

Formas de unlearning

Avaliação de unlearning

Realidade e perspectivas do unlearning

Opinião do GN⁺

Leituras relacionadas

2 comentários

Comentários no Hacker News