- Machine unlearning significa remover dados indesejados de um modelo treinado, e há um interesse crescente em editar modelos sem precisar reentreiná-los do zero
- Isso inclui, por exemplo, remover informações pessoais, conhecimento desatualizado, material protegido por direitos autorais, conteúdo nocivo/perigoso, capacidades perigosas e desinformação
Formas de unlearning
- Unlearning exato (Exact unlearning)
- Exige que o modelo após o unlearning e o modelo reentreinado sejam distribucionalmente idênticos
- O ponto central é que o algoritmo de treinamento tenha componentes modulares correspondentes a diferentes conjuntos de exemplos de treinamento
- "Unlearning" por meio de Differential Privacy
- Consiste em fazer com que o modelo não dependa de um ponto de dado específico
- Exige proximidade distribucional entre o modelo após o unlearning e o modelo reentreinado
- Unlearning empírico com espaço de exemplos conhecido (Empirical unlearning with known example space)
- Aplica-se quando os dados a serem removidos são exatamente conhecidos
- É feito por meio de fine-tuning do modelo para realizar o unlearning
- Unlearning empírico com espaço de exemplos desconhecido (Empirical unlearning with unknown example space)
- Aplica-se quando o alcance ou os limites dos dados a serem removidos não são claros
- Enquadra-se aqui o unlearning de conceitos, fatos e conhecimentos
- Apenas pedir o unlearning (Just ask for unlearning)
- Método que consiste em solicitar diretamente o unlearning a um LLM poderoso
Avaliação de unlearning
- Avaliar unlearning é um problema muito difícil. Em especial, a falta de métricas e benchmarks é grave
- Na avaliação de unlearning, é preciso focar em três aspectos
- Eficiência: quão mais rápido o algoritmo é em comparação ao reentreinamento
- Utilidade do modelo: se há queda de desempenho nos dados que devem ser preservados ou em tarefas ortogonais
- Qualidade do esquecimento: até que ponto os dados que deveriam ser esquecidos realmente foram removidos
- Os benchmarks TOFU e WMDP foram propostos recentemente e estão ajudando na avaliação de unlearning
- O TOFU foca no unlearning de informações pessoais de autores, e o WMDP foca no unlearning de conhecimento perigoso relacionado a bio/cibersegurança
- Eles fazem avaliações de nível mais alto com base na retenção de conhecimento e compreensão, e não em instâncias individuais
- Parece haver necessidade de benchmarks de unlearning centrados em aplicações, como informações de identificação pessoal, direitos autorais, nocividade e backdoors
Realidade e perspectivas do unlearning
- Há um espectro de dificuldade no unlearning
- Remover textos de baixa frequência é o mais fácil, e vai ficando progressivamente mais difícil com textos de alta frequência e fatos fundamentais
- Isso porque, quanto mais fundamental é o conhecimento, maior sua relação com outros conhecimentos, fazendo o escopo do unlearning crescer exponencialmente
- Exemplos aprendidos no início podem ter sido "sobrescritos" por exemplos posteriores, o que pode dificultar o unlearning
- Por outro lado, exemplos aprendidos mais tarde podem ser gradual ou catastroficamente esquecidos pelo modelo, o que também pode dificultar o unlearning
- Proteção de direitos autorais
- O unlearning parece promissor para proteção de direitos autorais, mas no momento o cenário jurídico ainda é incerto
- Se o uso de conteúdo protegido por direitos autorais se enquadrar em uso justo segundo a doutrina de fair use, o unlearning pode nem ser necessário
- Sistemas de IA baseados em busca
- Uma abordagem é remover do corpus de pré-treinamento os conteúdos que podem receber pedidos de unlearning e armazená-los em um banco de dados externo
- Quando chegar um pedido de unlearning, basta apagar os dados correspondentes do DB
- Mas há problemas como deduplicação, tratamento de citações/transformações e ataques de extração de dados
- Segurança em IA
- O unlearning pode ser usado para remover conhecimento, comportamentos e capacidades perigosas do modelo
- No entanto, ele deve ser visto como apenas um dos mecanismos de mitigação e defesa pós-fato, reconhecendo que há trade-offs com outras ferramentas, como fine-tuning de alinhamento e filtragem de conteúdo
Opinião do GN⁺
- Machine unlearning ainda está em estágio inicial de pesquisa e, especialmente em grandes modelos de linguagem, parece haver muitas dificuldades. Exceto em casos especiais em que o unlearning exato é possível, a situação atual depende majoritariamente de métodos empíricos e experimentais.
- O problema da avaliação parece ser o maior obstáculo. Como a definição e os critérios de unlearning são ambíguos e variam conforme a aplicação, será difícil avançar sem benchmarks e métricas de avaliação adequados. É animador ver o surgimento recente de benchmarks centrados em aplicações, como TOFU e WMDP.
- Quanto à questão dos direitos autorais, também vale considerar soluções econômicas além do unlearning. A OpenAI vem adotando um modelo em que oferece um serviço de unlearning exato por meio de reentreinamento periódico e, no intervalo, o proprietário do modelo assume responsabilidade limitada por infrações de direitos autorais ocorridas nesse período.
- Sistemas baseados em busca têm muitas vantagens, mas quando se entra nos detalhes parecem menos simples do que parecem. Há muitos desafios a resolver, como deduplicação, identificação de direitos autorais e defesa contra ataques de extração de dados. À medida que a capacidade de aprendizado in-context dos LLMs aumenta, talvez retrieval por si só permita muita coisa, mas parece difícil que substitua completamente o fine-tuning.
- Do ponto de vista da segurança em IA, o unlearning é uma área de pesquisa bastante interessante. No entanto, não é uma solução universal e deve ser usado em conjunto com outras técnicas de defesa, como alinhamento e filtragem. À medida que os modelos ganham autonomia, é provável que o interesse também aumente sob a ótica de políticas públicas e regulação.
2 comentários
Desafio de Machine Unlearning do Google
Comentários no Hacker News