Decompondo modelos de linguagem em componentes compreensíveis

(anthropic.com)

1 pontos por GN⁺ 2023-10-09 | 1 comentários | Compartilhar no WhatsApp

A Anthropic aborda um método para encontrar, em um pequeno modelo de linguagem Transformer, features mais fáceis de interpretar do que neurônios individuais, dividindo o interior da rede neural em unidades compreensíveis
Um único neurônio pode ser ativado em contextos sem relação entre si, como citações acadêmicas, conversas em inglês, requisições HTTP e texto em coreano, o que dificulta associá-lo de forma confiável ao comportamento do modelo
A pesquisa decompõe uma camada com 512 neurônios em mais de 4.000 features, revelando separadamente propriedades como sequências de DNA, estilo jurídico, requisições HTTP, texto em hebraico e tabelas nutricionais
Em avaliações humanas cegas e em avaliações de interpretabilidade automática baseadas em LLM, as features foram mais fáceis de interpretar do que neurônios; ao ativar artificialmente uma feature específica, o comportamento do modelo também mudou de forma previsível
Se as features aprendidas forem em grande parte universais entre modelos diferentes, o desafio de escalar essa abordagem para modelos de fronteira maiores passa a ser mais de engenharia do que de ciência

Por que redes neurais são difíceis de interpretar

Redes neurais são treinadas com dados, sem que humanos programem regras diretamente, e centenas de milhões a dezenas de bilhões de parâmetros são atualizados durante o treinamento
Os cálculos matemáticos de uma rede treinada podem ser rastreados
- Cada neurônio executa operações aritméticas simples
- Porém, não fica claro por que essas operações levam ao comportamento observado
Essa opacidade dificulta diagnosticar modos de falha, entender como corrigi-los e certificar a segurança dos modelos

Neurônios individuais não são unidades estáveis de interpretação

A neurociência lida com um problema parecido ao tentar entender a base biológica do comportamento humano, mas em redes neurais artificiais é muito mais fácil realizar experimentos
- É possível registrar simultaneamente as ativações de todos os neurônios
- É possível intervir silenciando ou estimulando neurônios
- É possível testar a resposta da rede a entradas possíveis
No entanto, neurônios individuais não têm uma relação consistente com o comportamento da rede
- Um único neurônio de um pequeno modelo de linguagem é ativado em vários contextos sem relação entre si, como citações acadêmicas, conversas em inglês, requisições HTTP e texto em coreano
- Um único neurônio de um modelo clássico de visão responde tanto a rostos de gatos quanto à parte dianteira de carros
Mesmo a mesma ativação de neurônio pode ter significados diferentes dependendo do contexto

A abordagem de decompor modelos em features

O artigo Towards Monosemanticity: Decomposing Language Models With Dictionary Learning trata da existência de uma unidade de análise melhor do que neurônios individuais
Essa unidade, a feature, corresponde a um padrão de ativações de neurônios, isto é, a uma combinação linear
A Anthropic construiu um mecanismo para encontrar essas features em um pequeno modelo Transformer
Essa abordagem é um caminho para dividir redes neurais complexas em partes compreensíveis, apoiando-se em trabalhos anteriores da neurociência, do machine learning e da estatística para interpretar sistemas de alta dimensionalidade

De 512 neurônios para mais de 4.000 features

Em um modelo de linguagem Transformer, uma camada com 512 neurônios foi decomposta em mais de 4.000 features
As features decompostas representam propriedades distintas separadamente
- Sequências de DNA
- Linguagem jurídica
- Requisições HTTP
- Texto em hebraico
- Tabelas nutricionais
A maioria dessas propriedades do modelo não aparece quando se observa apenas a ativação de neurônios individuais

Verificação da interpretabilidade

Avaliadores humanos cegos pontuaram a interpretabilidade de features e neurônios
- As features receberam pontuações muito mais altas do que os neurônios
Também foi usada uma avaliação de interpretabilidade automática com LLMs
- Um grande modelo de linguagem gera explicações curtas sobre as features de um modelo menor
- Outro modelo pontua quão bem consegue prever a ativação da feature usando apenas essa explicação
- Nessa avaliação, as features também receberam pontuações maiores que os neurônios
Como resultado, aumentam as evidências de que a ativação das features e os efeitos posteriores no comportamento do modelo podem ser interpretados de forma consistente

Direcionamento do modelo usando features

As features também oferecem um meio de direcionar o modelo de forma direcionada
Ao ativar artificialmente uma feature específica, o comportamento do modelo muda de maneira previsível
Portanto, as features podem ser tratadas não apenas como unidades de observação, mas como componentes internos que influenciam o comportamento do modelo

Universalidade e ajuste de resolução

As features aprendidas são, em grande parte, universais entre modelos diferentes
- O que se aprende ao estudar as features de um modelo pode se generalizar para outros modelos
Ao ajustar o número de features a serem aprendidas, é possível mudar a resolução com que se observa o modelo
- A decomposição em um conjunto pequeno de features oferece uma visão mais grosseira e fácil de entender
- A decomposição em um conjunto grande de features revela propriedades sutis do modelo em uma visão mais fina
A explicação relacionada leva ao experimento de mudança de resolução

Segurança em IA e próximos desafios

Este trabalho é resultado do investimento da Anthropic em pesquisa de interpretabilidade mecanística e é uma das direções de pesquisa de longo prazo para segurança em IA
O fato de neurônios individuais não serem interpretáveis era um grande obstáculo para entender mecanicamente modelos de linguagem
Decompor grupos de neurônios em features interpretáveis pode permitir superar esse obstáculo
No longo prazo, isso pode se conectar ao monitoramento e direcionamento do comportamento do modelo a partir de seu interior, aumentando a segurança e a confiabilidade necessárias para adoção por empresas e pela sociedade
O próximo desafio é escalar a abordagem bem-sucedida em modelos pequenos para modelos de fronteira muito maiores e mais complexos
- Pela primeira vez, o próximo grande obstáculo na interpretação de grandes modelos de linguagem é visto como mais próximo da engenharia do que da ciência
Mais detalhes estão em Towards Monosemanticity: Decomposing Language Models With Dictionary Learning

1 comentários

GN⁺ 2023-10-09

Comentários no Hacker News

Por acaso vi um texto útil comparando com outro artigo bem recente, e ele parece basicamente corroborar algumas das descobertas centrais. Acho que a comparação foi escrita pelo autor desse outro artigo: https://www.lesswrong.com/posts/F4iogK5xdNd7jDNyw/comparing-...
Coincidentemente, eu estava fazendo quase exatamente isso como projeto paralelo. Começou por pura curiosidade e, embora não seja exatamente igual, estou refinando um algoritmo que recebe várias saídas cuidadosamente calibradas de um determinado LLM e infere um conjunto de parâmetros que provavelmente estaria por trás delas
Eu esperava ver agrupamentos de parâmetros parecidos com os observados. Informalmente, chamo esse problema de “inversão de LLM”; claro que não é fácil de resolver. Ainda assim, não é totalmente impossível, e até agora encontrei aproximações bem boas
Também é interessante a hipótese, no fim do manuscrito linkado, de que “algumas características são, na verdade, variedades de características de alta dimensão, e dictionary learning pode estar aproximando isso”. Faz sentido no aspecto de que há algo se comportando como um espaço contínuo e suave, então é possível definir variedades conforme necessário. Deixando de lado o rigor excessivo, acho que é isso que está acontecendo de fato e que esse é o enquadramento correto para abordar o problema
A constatação surpreendente aqui é qual seria o correspondente conceitual de uma função de transição que conecta diferentes variedades dentro desse espaço de LLM. Ao ver isso, sua cabeça vai explodir não por ser complexo, mas justamente por ser excepcionalmente simples
- Você poderia explicar melhor o que exatamente quer dizer com “função de transição” aqui?
- Fiquei curioso sobre qual abordagem você usou para começar. Também quero aprender mais sobre como LLMs funcionam
- Você quis dizer no sentido de ser hierárquico? Ou eu perdi completamente o ponto?
Isso parece um grande avanço em pesquisa de alinhamento. Até agora, o grande problema era que LLMs eram montes de números difíceis de interpretar, e sabíamos muito pouco sobre o que acontecia internamente
Se essa técnica escalar para modelos maiores, a Anthropic terá corrigido uma parte considerável desse problema. Dá para descobrir o que diferentes grupos de neurônios realmente fazem e usar isso para controlar o comportamento do LLM. Isso pode ajudar a evitar IA desalinhada sem intenção
- Para mim, soa mais como uma boa pista para poda
- Eu gostaria que tivessem detalhado mais a parte: “as características aprendidas são em grande parte universais entre diferentes modelos, de modo que lições obtidas ao estudar as características de um modelo podem se generalizar para outros”
  Isso quer dizer que, ao treinar com os mesmos dados, eles encontraram os mesmos reconhecedores de características? Ou é outra coisa? Isso indica algo, mas fica ambíguo exatamente o quê
Fico imaginando o que aconteceria se colocássemos componentes programados manualmente dentro de uma rede neural. Componentes simples, como detecção de sequências de DNA, parecem algo que poderia ser inserido definindo diretamente os pesos
Do mesmo modo, poderíamos fornecer componentes matemáticos a uma rede neural. Durante o treinamento, a rede descobriria e usaria esses componentes predefinidos, ou os ignoraria e criaria sua própria forma de detectar sequências de DNA?
- Se quiser pesquisar mais, a história e o uso dessa ideia são chamados de engenharia de características
  Tokenização também é uma forma disso, porque transforma os dados de antemão para que o modelo não precise aprender diretamente padrões que já sabemos serem importantes
- Dá para programar manualmente um Transformer: https://srush.github.io/raspy/
  Só não sei se isso poderia ser integrado dentro do modelo. Acho que coisas assim, por não serem polissêmicas, ocupam muito mais “espaço” do que neurônios aprendidos, então o espaço poderia acabar faltando
- Também dá para ver isso como adicionar uma transformação especulativa da entrada como parte da entrada de alguma camada, deixando a rede decidir se usa ou não essa transformação. É parecido com uma camada convolucional de CNN, mas muito mais ajustado a um domínio específico
  Só não sei quanto já se pesquisou sobre essas camadas estranhas
- Em alguns casos de uso em que a precisão é muito importante, pode-se optar por código escrito à mão para os cálculos. Assim, dá para ter confiança na eficiência de um método criado por humanos em vez de delegar uma tarefa específica ao LLM
  Mas ainda não está claro se isso seria integrado diretamente à rede ou se seria uma ferramenta que o LLM poderia usar. Curiosamente, isso parece semelhante à escolha entre aprimorar o cérebro humano com algo como Neuralink ou simplesmente entregar uma calculadora à pessoa
Espero que esse tipo de pesquisa leve a uma forma de criar modelos muito menores e mais eficientes, mas ainda assim ajustáveis com precisão e steerable
Se conseguirmos ver o que cada parte faz, em teoria poderíamos encontrar uma forma de construir apenas o conjunto de características desejado. Ou talvez ajustar características que tenham capacidade redundante
Ao estudar características, talvez se chegue ao ponto de destilar conhecimento em algo próximo de um grafo de conhecimento extremamente rico e definido em alto nível de detalhe
- A Anthropic deve estar fazendo um equilibrismo multidimensional. Quer segurança em IA e provavelmente também quer evitar que qualquer pessoa tenha modelos poderosos
  Mas, se os resultados dessa pesquisa forem absorvidos pela Meta ou por vários grupos no Discord, os LLMs meio peludos de hoje podem virar concorrentes poderosos, e todos terão acesso a esse poder. Não tenho uma convicção forte sobre o que é melhor, mas tendo um pouco para o lado dos modelos abertos
  De qualquer forma, pessoas comuns como nós já temos permissão para usar computadores, CPUs modernas e a internet. Coisas ruins, como golpes, e coisas ainda piores acontecem, mas acho melhor do que restringir o que as pessoas podem fazer
Um único modelo gigantesco não é como o cérebro funciona. Também não é como um organograma funciona
O fato de LLMs mostrarem esse nível de capacidade com a densidade computacional atual me parece um forte sinal de que a tarefa de criar trabalhadores do conhecimento produtivos já entrou numa zona de potencial excedente
A peça que falta não é o avanço dos LLMs, mas a gestão de LLMs. Internamente, o ponto central é fazer com que um organograma de LLMs adversariais se reporte a mim e construir confiança dentro dele
- A forma como um sistema desses funciona parece absurdamente ineficiente
  Nós não reavaliamos um modelo de astrofísica toda vez que lemos um livro de receitas
Fico curioso sobre quão polissêmico é cada neurônio do cérebro humano. O que realmente queremos, e talvez o cérebro humano tenha, parece ser uma rede neural monossêmica de alta densidade informacional, isto é, uma rede baseada em características, conceitos e macropadrões
Mesmo que existam neurônios polissêmicos, imagino que eles compartilhem informações semelhantes ou iguais dentro das características às quais pertencem, ganhando eficiência espacial e computacional. Já nesses modelos Transformer, parece que estamos sobrepondo um milhão de cérebros humanos na mesma rede e, de algum modo, calculando uma média de todas as características do conjunto de treinamento para transformá-las em neurônios únicos. Naturalmente, isso resulta num “cérebro” muito maior
O artigo diz que neurônios monossêmicos dentro da rede não funcionam bem, mas minha intuição é que talvez seja porque eles são “de alta precisão” demais e não codificam informação suficiente no nível das características. As características podem ser de baixa dimensão, enquanto neurônios monossêmicos de alta dimensão codificariam pouca informação. Mas estou pensando nisso com pouco conhecimento sobre o cérebro humano, então pode haver muito mais semelhanças que eu desconheço
Acho isso realmente incrível. Todos os LLMs parecem convergir em torno dessas características comuns
Como leigo, meu entendimento é que um modelo treinado descreve as transições de um símbolo para o próximo como probabilidades entre nós. Esse grafo tem estrutura. Se não tivesse, nem seria possível treiná-lo
Mas essa estrutura é como uma folha de papel em que as definições de cada nó foram sobrepostas em camadas com tintas de cores diferentes. Esta pesquisa e os artigos pais e irmãos mencionados no texto do LessWrong parecem ser um trabalho de separar componentes de grafos de cores diferentes dentro dessa sopa de ponto flutuante

Decompondo modelos de linguagem em componentes compreensíveis

Por que redes neurais são difíceis de interpretar

Neurônios individuais não são unidades estáveis de interpretação

A abordagem de decompor modelos em features

De 512 neurônios para mais de 4.000 features

Verificação da interpretabilidade

Direcionamento do modelo usando features

Universalidade e ajuste de resolução

Segurança em IA e próximos desafios

Leituras relacionadas

1 comentários

Comentários no Hacker News