19 pontos por xguru 2024-05-24 | 4 comentários | Compartilhar no WhatsApp
  • Há alguns dias, a empresa publicou um importante artigo de pesquisa sobre a interpretação do funcionamento interno de LLMs
  • No "Mind" do modelo Claude 3 Sonnet, foram descobertos milhões de conceitos que se ativam ao ler textos ou imagens relacionados
  • Esses conceitos são chamados de "features", e um deles é o conceito da Golden Gate Bridge
  • Foi descoberta uma combinação específica de neurônios na rede neural do Claude que se ativa quando a Golden Gate Bridge, o marco mais famoso de São Francisco, é mencionada ou vista em uma foto
  • Além de identificar essas features, também é possível ajustar sua intensidade de ativação e confirmar mudanças correspondentes no comportamento do Claude
  • Ao aumentar a intensidade da feature "Golden Gate Bridge", as respostas do Claude passam a mencionar a Golden Gate Bridge na maioria das perguntas, mesmo sem relação direta
    • Se perguntarem como gastar US$ 10, ele sugere usar o valor para pagar o pedágio ao atravessar a Golden Gate Bridge
    • Se pedirem para escrever uma história de amor, ele conta uma história sobre um carro esperando para atravessar sua ponte amada em um dia de neblina
    • Se pedirem para imaginar sua própria aparência, ele responde que se parece com a Golden Gate Bridge
  • É possível testar esse modelo diretamente no Claude.ai (clicando no logo Golden Gate)
    • Como se trata de uma demo de pesquisa, pode haver respostas inesperadas
  • O fato de ser possível encontrar e modificar essas features dentro do Claude aumenta a confiança de que estamos começando a entender como grandes modelos de linguagem realmente funcionam
  • Isso não é adicionar um novo "system prompt" anexando texto extra a todas as entradas, como pedir ao modelo em palavras para atuar ou dizer ao Claude para fingir ser uma ponte
  • Também não é o tradicional "fine-tuning", que usa dados adicionais de treinamento para criar uma nova caixa-preta que ajusta o comportamento de uma caixa-preta anterior
  • Trata-se de uma alteração precisa e cirúrgica em alguns dos aspectos mais fundamentais das ativações internas do modelo
  • Como descrito no artigo, a mesma técnica também pode ser usada para alterar a intensidade de features relacionadas à segurança, como aquelas ligadas a código de computador perigoso, atividade criminosa ou engano
  • A empresa acredita que, com mais pesquisa, esse trabalho pode ajudar a tornar os modelos de IA mais seguros

4 comentários

 
chanran 2024-05-27

Se comparar com o cérebro, seria como cutucar o cérebro com estímulos elétricos para ver de forma aproximada, e meio intuitiva, qual função cada parte desempenha e desenhar um mapa; aqui dá a sensação de que é possível identificar com precisão a combinação de neurônios responsável por aquela função.

 
laeyoung 2024-05-24

Se ele vira um papagaio da "Golden Gate" e você pergunta sobre uma ponte da Coreia, ele te diz que é a Golden Gate 🫢

 
superwoou 2024-05-24

É como se estivéssemos descobrindo qual função cada parte específica do cérebro desempenha..