- Grande avanço na compreensão do funcionamento interno de modelos de IA
- Foi possível verificar como milhões de conceitos são representados dentro do LLM Claude Sonnet.
- Este é o primeiro caso de observação detalhada do interior de um LLM moderno em nível de produção.
- Essas descobertas em interpretabilidade podem ajudar a tornar modelos de IA mais seguros no futuro.
- Abordagem de caixa-preta e problemas de confiança
- Os modelos de IA são tratados com uma abordagem de caixa-preta, observando apenas entradas e saídas.
- É difícil entender por que o modelo fornece determinadas respostas.
- Isso torna difícil confiar que o modelo não dará respostas prejudiciais, enviesadas, falsas ou perigosas.
- Dificuldade de entender o estado interno do modelo
- O estado interno do modelo é composto por números sem significado claro.
- Cada conceito é representado distribuído por muitos neurônios, e cada neurônio representa vários conceitos.
- Progresso em aprendizado de dicionário
- Antes, já havia avanços na correspondência entre padrões de ativação de neurônios (features) e conceitos compreensíveis para humanos.
- Com a técnica de "aprendizado de dicionário" (
dictionary learning), passou a ser possível representar o estado interno do modelo com algumas features ativadas, em vez de muitos neurônios ativados.
- Sucesso em modelos de linguagem pequenos
- Em outubro de 2023, o aprendizado de dicionário foi aplicado com sucesso a um modelo de linguagem muito pequeno.
- Foram identificados conceitos como texto em maiúsculas, sequências de DNA e gênero em citações.
- Escalando para modelos maiores
- A técnica foi expandida para grandes modelos de linguagem, permitindo encontrar features mais complexas.
- Havia um risco científico de que modelos grandes funcionassem de forma diferente dos pequenos.
- Felizmente, a experiência em treinar grandes modelos de linguagem ajudou nesse experimento.
- Features dentro do Claude 3.0 Sonnet
- Foram extraídas com sucesso milhões de features das camadas intermediárias do Claude 3.0 Sonnet.
- Essas features correspondem a diversos conceitos, como cidades, pessoas, elementos, áreas acadêmicas e sintaxe de programação.
- Features abstratas
- O Claude também reage a features mais abstratas, como bugs em código de computador, viés de gênero em profissões e discussões sobre confidencialidade.
- Medição de distância entre features
- Foi possível medir a "distância" entre features para encontrar features semelhantes.
- Por exemplo, perto da feature "Golden Gate Bridge" foram encontradas features relacionadas a Alcatraz Island, Ghirardelli Square e outras.
- Experimentos de manipulação de features
- Ao amplificar ou suprimir certas features, foi possível alterar as respostas do Claude.
- Por exemplo, ao amplificar a feature "Golden Gate Bridge", o Claude passou a reconhecer sua forma física como a Golden Gate Bridge.
- Segurança e manipulação de features
- Foi explorada a possibilidade de identificar e melhorar features relacionadas à segurança manipulando o comportamento do Claude.
- O Claude foi treinado para não gerar e-mails de fraude, mas ao ativar certas features ele passou a conseguir escrever esse tipo de e-mail.
- Direções futuras de pesquisa
- Há planos de usar essas descobertas para melhorar a segurança dos modelos.
- Elas podem ser usadas para monitorar comportamentos perigosos em sistemas de IA, direcioná-los a resultados desejados ou remover tópicos perigosos.
- Essas técnicas podem reforçar outras abordagens de segurança, como Constitutional AI.
- Desafios futuros
- Com a tecnologia atual, ainda é caro encontrar todos os conceitos que o modelo aprendeu.
- Também é importante entender como o modelo usa essas features.
- Ainda é preciso demonstrar se features relacionadas à segurança podem realmente ser usadas para melhorar a segurança.
- Oportunidade de participar da pesquisa
- A empresa está buscando cientistas de pesquisa, engenheiros de pesquisa e outros profissionais para trabalhar na interpretação e melhoria de modelos de IA.
- Para mais detalhes, consulte o artigo "Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet".
- Esta pesquisa representa um avanço importante na interpretabilidade de modelos de IA e no reforço de sua segurança. Mais estudos ainda serão necessários.
2 comentários
A diferença em relação ao cérebro é que, nesse caso, dá para saber com certeza qual perceptron está sendo ativado.
Parece que tentar entender essa caixa-preta difícil de compreender é algo parecido com pesquisar o cérebro.
Na verdade, acho que pode até ter mais interpretabilidade do que o cérebro, do ponto de vista de que é mais fácil tirar snapshots.