17 pontos por GN⁺ 2024-05-06 | 2 comentários | Compartilhar no WhatsApp
  • Machine unlearning significa remover dados indesejados de um modelo treinado, e há um interesse crescente em editar modelos sem precisar reentreiná-los do zero
    • Isso inclui, por exemplo, remover informações pessoais, conhecimento desatualizado, material protegido por direitos autorais, conteúdo nocivo/perigoso, capacidades perigosas e desinformação

Formas de unlearning

  • Unlearning exato (Exact unlearning)
    • Exige que o modelo após o unlearning e o modelo reentreinado sejam distribucionalmente idênticos
    • O ponto central é que o algoritmo de treinamento tenha componentes modulares correspondentes a diferentes conjuntos de exemplos de treinamento
  • "Unlearning" por meio de Differential Privacy
    • Consiste em fazer com que o modelo não dependa de um ponto de dado específico
    • Exige proximidade distribucional entre o modelo após o unlearning e o modelo reentreinado
  • Unlearning empírico com espaço de exemplos conhecido (Empirical unlearning with known example space)
    • Aplica-se quando os dados a serem removidos são exatamente conhecidos
    • É feito por meio de fine-tuning do modelo para realizar o unlearning
  • Unlearning empírico com espaço de exemplos desconhecido (Empirical unlearning with unknown example space)
    • Aplica-se quando o alcance ou os limites dos dados a serem removidos não são claros
    • Enquadra-se aqui o unlearning de conceitos, fatos e conhecimentos
  • Apenas pedir o unlearning (Just ask for unlearning)
    • Método que consiste em solicitar diretamente o unlearning a um LLM poderoso

Avaliação de unlearning

  • Avaliar unlearning é um problema muito difícil. Em especial, a falta de métricas e benchmarks é grave
  • Na avaliação de unlearning, é preciso focar em três aspectos
    • Eficiência: quão mais rápido o algoritmo é em comparação ao reentreinamento
    • Utilidade do modelo: se há queda de desempenho nos dados que devem ser preservados ou em tarefas ortogonais
    • Qualidade do esquecimento: até que ponto os dados que deveriam ser esquecidos realmente foram removidos
  • Os benchmarks TOFU e WMDP foram propostos recentemente e estão ajudando na avaliação de unlearning
    • O TOFU foca no unlearning de informações pessoais de autores, e o WMDP foca no unlearning de conhecimento perigoso relacionado a bio/cibersegurança
    • Eles fazem avaliações de nível mais alto com base na retenção de conhecimento e compreensão, e não em instâncias individuais
  • Parece haver necessidade de benchmarks de unlearning centrados em aplicações, como informações de identificação pessoal, direitos autorais, nocividade e backdoors

Realidade e perspectivas do unlearning

  • Há um espectro de dificuldade no unlearning
    • Remover textos de baixa frequência é o mais fácil, e vai ficando progressivamente mais difícil com textos de alta frequência e fatos fundamentais
    • Isso porque, quanto mais fundamental é o conhecimento, maior sua relação com outros conhecimentos, fazendo o escopo do unlearning crescer exponencialmente
    • Exemplos aprendidos no início podem ter sido "sobrescritos" por exemplos posteriores, o que pode dificultar o unlearning
    • Por outro lado, exemplos aprendidos mais tarde podem ser gradual ou catastroficamente esquecidos pelo modelo, o que também pode dificultar o unlearning
  • Proteção de direitos autorais
    • O unlearning parece promissor para proteção de direitos autorais, mas no momento o cenário jurídico ainda é incerto
    • Se o uso de conteúdo protegido por direitos autorais se enquadrar em uso justo segundo a doutrina de fair use, o unlearning pode nem ser necessário
  • Sistemas de IA baseados em busca
    • Uma abordagem é remover do corpus de pré-treinamento os conteúdos que podem receber pedidos de unlearning e armazená-los em um banco de dados externo
    • Quando chegar um pedido de unlearning, basta apagar os dados correspondentes do DB
    • Mas há problemas como deduplicação, tratamento de citações/transformações e ataques de extração de dados
  • Segurança em IA
    • O unlearning pode ser usado para remover conhecimento, comportamentos e capacidades perigosas do modelo
    • No entanto, ele deve ser visto como apenas um dos mecanismos de mitigação e defesa pós-fato, reconhecendo que há trade-offs com outras ferramentas, como fine-tuning de alinhamento e filtragem de conteúdo

Opinião do GN⁺

  • Machine unlearning ainda está em estágio inicial de pesquisa e, especialmente em grandes modelos de linguagem, parece haver muitas dificuldades. Exceto em casos especiais em que o unlearning exato é possível, a situação atual depende majoritariamente de métodos empíricos e experimentais.
  • O problema da avaliação parece ser o maior obstáculo. Como a definição e os critérios de unlearning são ambíguos e variam conforme a aplicação, será difícil avançar sem benchmarks e métricas de avaliação adequados. É animador ver o surgimento recente de benchmarks centrados em aplicações, como TOFU e WMDP.
  • Quanto à questão dos direitos autorais, também vale considerar soluções econômicas além do unlearning. A OpenAI vem adotando um modelo em que oferece um serviço de unlearning exato por meio de reentreinamento periódico e, no intervalo, o proprietário do modelo assume responsabilidade limitada por infrações de direitos autorais ocorridas nesse período.
  • Sistemas baseados em busca têm muitas vantagens, mas quando se entra nos detalhes parecem menos simples do que parecem. Há muitos desafios a resolver, como deduplicação, identificação de direitos autorais e defesa contra ataques de extração de dados. À medida que a capacidade de aprendizado in-context dos LLMs aumenta, talvez retrieval por si só permita muita coisa, mas parece difícil que substitua completamente o fine-tuning.
  • Do ponto de vista da segurança em IA, o unlearning é uma área de pesquisa bastante interessante. No entanto, não é uma solução universal e deve ser usado em conjunto com outras técnicas de defesa, como alinhamento e filtragem. À medida que os modelos ganham autonomia, é provável que o interesse também aumente sob a ótica de políticas públicas e regulação.

2 comentários

 
GN⁺ 2024-05-06
Comentários no Hacker News
  • Mesmo que certas informações sejam removidas do modelo, existe um problema fundamental: elas podem ser reaprendidas por inferência ou prompting
  • Em vez de filtrar a informação proibida em si, pode haver uma solução nos pesos e incentivos que formam a camada final de inferência
  • Os modelos "seguros" atuais muitas vezes produzem resultados insatisfatórios, porque ainda não queremos modelos verdadeiros, e sim modelos que permitam desenvolvimento adicional
  • Pode haver uma forma de codificar e atribuir peso ao princípio de que o modelo foi gerado por algo externo
  • Excluir conjuntos de dados que violam direitos autorais pode ser a forma mais aceitável do ponto de vista legal
  • E se, em vez de coletar todo o conteúdo, coletássemos apenas conteúdo explicitamente marcado como utilizável para construir modelos?
  • Se o modelo for treinado com DP, os dados acabam tão misturados que ele não consegue mais retornar dados exatos, ou então a etapa de DP se torna inútil
  • Apagar conhecimento é uma tarefa problemática
  • Há preocupações sobre a "solidez" de IAs treinadas, destreinadas e retreinadas
  • Em 2014, os formuladores de políticas não previram que o deep learning se tornaria uma gigantesca mistura de dados e computação
  • "Desaprender" não é o objetivo real, e não se quer que o modelo, metaforicamente, enfie a cabeça na areia
  • As novas startups incluem uma multidão com ancinhos dentro do loop de treinamento de ML