Anthropic revela versão do "Claude Golden Gate" com ajuste no funcionamento interno de LLMs

xguru · 2024-05-24T11:10:26+09:00

Há alguns dias, a empresa publicou um importante artigo de pesquisa sobre a interpretação do funcionamento interno de LLMs No "Mind" do modelo Claude 3 Sonnet, foram descobertos milhões de conceitos que se ativam ao ler textos ou imagens relacionados Esses conceitos são chamados de "features", e um deles é o conceito da Golden Gate Bridge Foi descoberta uma combinação específica de neurônios na rede neural do Claude que se ativa quando a Golden Gate Bridge, o marco mais famoso de São Francisco, é mencionada ou vista em uma foto Além de identificar essas features, também é possível ajustar sua intensidade de ativação e confirmar mudanças correspondentes no comportamento do Claude Ao aumentar a intensidade da feature "Golden Gate Bridge", as respostas do Claude passam a mencionar a Golden Gate Bridge na maioria das perguntas, mesmo sem relação direta Se perguntarem como gastar US$ 10, ele sugere usar o valor para pagar o pedágio ao atravessar a Golden Gate Bridge Se pedirem para escrever uma história de amor, ele conta uma história sobre um carro esperando para atravessar sua ponte amada em um dia de neblina Se pedirem para imaginar sua própria aparência, ele responde que se parece com a Golden Gate Bridge É possível testar esse modelo diretamente no Claude.ai (clicando no logo Golden Gate) Como se trata de uma demo de pesquisa, pode haver respostas inesperadas O fato de ser possível encontrar e modificar essas features dentro do Claude aumenta a confiança de que estamos começando a entender como grandes modelos de linguagem realmente funcionam Isso não é adicionar um novo "system prompt" anexando texto extra a todas as entradas, como pedir ao modelo em palavras para atuar ou dizer ao Claude para fingir ser uma ponte Também não é o tradicional "fine-tuning", que usa dados adicionais de treinamento para criar uma nova caixa-preta que ajusta o comportamento de uma caixa-preta anterior Trata-se de uma alteração precisa e cirúrgica em alguns dos aspectos mais fundamentais das ativações internas do modelo Como descrito no artigo, a mesma técnica também pode ser usada para alterar a intensidade de features relacionadas à segurança, como aquelas ligadas a código de computador perigoso, atividade criminosa ou engano A empresa acredita que, com mais pesquisa, esse trabalho pode ajudar a tornar os modelos de IA mais seguros

(anthropic.com)

19 pontos por xguru 2024-05-24 | 4 comentários | Compartilhar no WhatsApp

Há alguns dias, a empresa publicou um importante artigo de pesquisa sobre a interpretação do funcionamento interno de LLMs
No "Mind" do modelo Claude 3 Sonnet, foram descobertos milhões de conceitos que se ativam ao ler textos ou imagens relacionados
Esses conceitos são chamados de "features", e um deles é o conceito da Golden Gate Bridge
Foi descoberta uma combinação específica de neurônios na rede neural do Claude que se ativa quando a Golden Gate Bridge, o marco mais famoso de São Francisco, é mencionada ou vista em uma foto
Além de identificar essas features, também é possível ajustar sua intensidade de ativação e confirmar mudanças correspondentes no comportamento do Claude
Ao aumentar a intensidade da feature "Golden Gate Bridge", as respostas do Claude passam a mencionar a Golden Gate Bridge na maioria das perguntas, mesmo sem relação direta
- Se perguntarem como gastar US$ 10, ele sugere usar o valor para pagar o pedágio ao atravessar a Golden Gate Bridge
- Se pedirem para escrever uma história de amor, ele conta uma história sobre um carro esperando para atravessar sua ponte amada em um dia de neblina
- Se pedirem para imaginar sua própria aparência, ele responde que se parece com a Golden Gate Bridge
É possível testar esse modelo diretamente no Claude.ai (clicando no logo Golden Gate)
- Como se trata de uma demo de pesquisa, pode haver respostas inesperadas
O fato de ser possível encontrar e modificar essas features dentro do Claude aumenta a confiança de que estamos começando a entender como grandes modelos de linguagem realmente funcionam
Isso não é adicionar um novo "system prompt" anexando texto extra a todas as entradas, como pedir ao modelo em palavras para atuar ou dizer ao Claude para fingir ser uma ponte
Também não é o tradicional "fine-tuning", que usa dados adicionais de treinamento para criar uma nova caixa-preta que ajusta o comportamento de uma caixa-preta anterior
Trata-se de uma alteração precisa e cirúrgica em alguns dos aspectos mais fundamentais das ativações internas do modelo
Como descrito no artigo, a mesma técnica também pode ser usada para alterar a intensidade de features relacionadas à segurança, como aquelas ligadas a código de computador perigoso, atividade criminosa ou engano
A empresa acredita que, com mais pesquisa, esse trabalho pode ajudar a tornar os modelos de IA mais seguros

4 comentários

chanran 2024-05-27

Se comparar com o cérebro, seria como cutucar o cérebro com estímulos elétricos para ver de forma aproximada, e meio intuitiva, qual função cada parte desempenha e desenhar um mapa; aqui dá a sensação de que é possível identificar com precisão a combinação de neurônios responsável por aquela função.

laeyoung 2024-05-24

Se ele vira um papagaio da "Golden Gate" e você pergunta sobre uma ponte da Coreia, ele te diz que é a Golden Gate 🫢

superwoou 2024-05-24

É como se estivéssemos descobrindo qual função cada parte específica do cérebro desempenha..

xguru 2024-05-24

Anthropic revela avanços significativos na compreensão do funcionamento interno dos LLMs

Anthropic revela versão do "Claude Golden Gate" com ajuste no funcionamento interno de LLMs

Leituras relacionadas

4 comentários