Anthropic mostra progresso significativo na compreensão do interior dos LLMs

xguru · 2024-05-22T11:31:02+09:00

Grande avanço na compreensão do funcionamento interno de modelos de IA Foi possível verificar como milhões de conceitos são representados dentro do LLM Claude Sonnet. Este é o primeiro caso de observação detalhada do interior de um LLM moderno em nível de produção. Essas descobertas em interpretabilidade podem ajudar a tornar modelos de IA mais seguros no futuro. Abordagem de caixa-preta e problemas de confiança Os modelos de IA são tratados com uma abordagem de caixa-preta, observando apenas entradas e saídas. É difícil entender por que o modelo fornece determinadas respostas. Isso torna difícil confiar que o modelo não dará respostas prejudiciais, enviesadas, falsas ou perigosas. Dificuldade de entender o estado interno do modelo O estado interno do modelo é composto por números sem significado claro. Cada conceito é representado distribuído por muitos neurônios, e cada neurônio representa vários conceitos. Progresso em aprendizado de dicionário Antes, já havia avanços na correspondência entre padrões de ativação de neurônios (features) e conceitos compreensíveis para humanos. Com a técnica de "aprendizado de dicionário" (dictionary learning), passou a ser possível representar o estado interno do modelo com algumas features ativadas, em vez de muitos neurônios ativados. Sucesso em modelos de linguagem pequenos Em outubro de 2023, o aprendizado de dicionário foi aplicado com sucesso a um modelo de linguagem muito pequeno. Foram identificados conceitos como texto em maiúsculas, sequências de DNA e gênero em citações. Escalando para modelos maiores A técnica foi expandida para grandes modelos de linguagem, permitindo encontrar features mais complexas. Havia um risco científico de que modelos grandes funcionassem de forma diferente dos pequenos. Felizmente, a experiência em treinar grandes modelos de linguagem ajudou nesse experimento. Features dentro do Claude 3.0 Sonnet Foram extraídas com sucesso milhões de features das camadas intermediárias do Claude 3.0 Sonnet. Essas features correspondem a diversos conceitos, como cidades, pessoas, elementos, áreas acadêmicas e sintaxe de programação. Features abstratas O Claude também reage a features mais abstratas, como bugs em código de computador, viés de gênero em profissões e discussões sobre confidencialidade. Medição de distância entre features Foi possível medir a "distância" entre features para encontrar features semelhantes. Por exemplo, perto da feature "Golden Gate Bridge" foram encontradas features relacionadas a Alcatraz Island, Ghirardelli Square e outras. Experimentos de manipulação de features Ao amplificar ou suprimir certas features, foi possível alterar as respostas do Claude. Por exemplo, ao amplificar a feature "Golden Gate Bridge", o Claude passou a reconhecer sua forma física como a Golden Gate Bridge. Segurança e manipulação de features Foi explorada a possibilidade de identificar e melhorar features relacionadas à segurança manipulando o comportamento do Claude. O Claude foi treinado para não gerar e-mails de fraude, mas ao ativar certas features ele passou a conseguir escrever esse tipo de e-mail. Direções futuras de pesquisa Há planos de usar essas descobertas para melhorar a segurança dos modelos. Elas podem ser usadas para monitorar comportamentos perigosos em sistemas de IA, direcioná-los a resultados desejados ou remover tópicos perigosos. Essas técnicas podem reforçar outras abordagens de segurança, como Constitutional AI. Desafios futuros Com a tecnologia atual, ainda é caro encontrar todos os conceitos que o modelo aprendeu. Também é importante entender como o modelo usa essas features. Ainda é preciso demonstrar se features relacionadas à segurança podem realmente ser usadas para melhorar a segurança. Oportunidade de participar da pesquisa A empresa está buscando cientistas de pesquisa, engenheiros de pesquisa e outros profissionais para trabalhar na interpretação e melhoria de modelos de IA. Para mais detalhes, consulte o artigo "Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet". Esta pesquisa representa um avanço importante na interpretabilidade de modelos de IA e no reforço de sua segurança. Mais estudos ainda serão necessários.

(anthropic.com)

36 pontos por xguru 2024-05-22 | 2 comentários | Compartilhar no WhatsApp

Grande avanço na compreensão do funcionamento interno de modelos de IA
- Foi possível verificar como milhões de conceitos são representados dentro do LLM Claude Sonnet.
- Este é o primeiro caso de observação detalhada do interior de um LLM moderno em nível de produção.
- Essas descobertas em interpretabilidade podem ajudar a tornar modelos de IA mais seguros no futuro.
Abordagem de caixa-preta e problemas de confiança
- Os modelos de IA são tratados com uma abordagem de caixa-preta, observando apenas entradas e saídas.
- É difícil entender por que o modelo fornece determinadas respostas.
- Isso torna difícil confiar que o modelo não dará respostas prejudiciais, enviesadas, falsas ou perigosas.
Dificuldade de entender o estado interno do modelo
- O estado interno do modelo é composto por números sem significado claro.
- Cada conceito é representado distribuído por muitos neurônios, e cada neurônio representa vários conceitos.
Progresso em aprendizado de dicionário
- Antes, já havia avanços na correspondência entre padrões de ativação de neurônios (features) e conceitos compreensíveis para humanos.
- Com a técnica de "aprendizado de dicionário" (dictionary learning), passou a ser possível representar o estado interno do modelo com algumas features ativadas, em vez de muitos neurônios ativados.
Sucesso em modelos de linguagem pequenos
- Em outubro de 2023, o aprendizado de dicionário foi aplicado com sucesso a um modelo de linguagem muito pequeno.
- Foram identificados conceitos como texto em maiúsculas, sequências de DNA e gênero em citações.
Escalando para modelos maiores
- A técnica foi expandida para grandes modelos de linguagem, permitindo encontrar features mais complexas.
- Havia um risco científico de que modelos grandes funcionassem de forma diferente dos pequenos.
- Felizmente, a experiência em treinar grandes modelos de linguagem ajudou nesse experimento.
Features dentro do Claude 3.0 Sonnet
- Foram extraídas com sucesso milhões de features das camadas intermediárias do Claude 3.0 Sonnet.
- Essas features correspondem a diversos conceitos, como cidades, pessoas, elementos, áreas acadêmicas e sintaxe de programação.
Features abstratas
- O Claude também reage a features mais abstratas, como bugs em código de computador, viés de gênero em profissões e discussões sobre confidencialidade.
Medição de distância entre features
- Foi possível medir a "distância" entre features para encontrar features semelhantes.
- Por exemplo, perto da feature "Golden Gate Bridge" foram encontradas features relacionadas a Alcatraz Island, Ghirardelli Square e outras.
Experimentos de manipulação de features
- Ao amplificar ou suprimir certas features, foi possível alterar as respostas do Claude.
- Por exemplo, ao amplificar a feature "Golden Gate Bridge", o Claude passou a reconhecer sua forma física como a Golden Gate Bridge.
Segurança e manipulação de features
- Foi explorada a possibilidade de identificar e melhorar features relacionadas à segurança manipulando o comportamento do Claude.
- O Claude foi treinado para não gerar e-mails de fraude, mas ao ativar certas features ele passou a conseguir escrever esse tipo de e-mail.
Direções futuras de pesquisa
- Há planos de usar essas descobertas para melhorar a segurança dos modelos.
- Elas podem ser usadas para monitorar comportamentos perigosos em sistemas de IA, direcioná-los a resultados desejados ou remover tópicos perigosos.
- Essas técnicas podem reforçar outras abordagens de segurança, como Constitutional AI.
Desafios futuros
- Com a tecnologia atual, ainda é caro encontrar todos os conceitos que o modelo aprendeu.
- Também é importante entender como o modelo usa essas features.
- Ainda é preciso demonstrar se features relacionadas à segurança podem realmente ser usadas para melhorar a segurança.
Oportunidade de participar da pesquisa
- A empresa está buscando cientistas de pesquisa, engenheiros de pesquisa e outros profissionais para trabalhar na interpretação e melhoria de modelos de IA.
- Para mais detalhes, consulte o artigo "Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet".
Esta pesquisa representa um avanço importante na interpretabilidade de modelos de IA e no reforço de sua segurança. Mais estudos ainda serão necessários.

2 comentários

2147483647 2024-05-24

A diferença em relação ao cérebro é que, nesse caso, dá para saber com certeza qual perceptron está sendo ativado.

andandend 2024-05-22

Parece que tentar entender essa caixa-preta difícil de compreender é algo parecido com pesquisar o cérebro.
Na verdade, acho que pode até ter mais interpretabilidade do que o cérebro, do ponto de vista de que é mais fácil tirar snapshots.

Anthropic mostra progresso significativo na compreensão do interior dos LLMs

Leituras relacionadas

2 comentários