36 pontos por xguru 2024-05-22 | 2 comentários | Compartilhar no WhatsApp
  • Grande avanço na compreensão do funcionamento interno de modelos de IA
    • Foi possível verificar como milhões de conceitos são representados dentro do LLM Claude Sonnet.
    • Este é o primeiro caso de observação detalhada do interior de um LLM moderno em nível de produção.
    • Essas descobertas em interpretabilidade podem ajudar a tornar modelos de IA mais seguros no futuro.
  • Abordagem de caixa-preta e problemas de confiança
    • Os modelos de IA são tratados com uma abordagem de caixa-preta, observando apenas entradas e saídas.
    • É difícil entender por que o modelo fornece determinadas respostas.
    • Isso torna difícil confiar que o modelo não dará respostas prejudiciais, enviesadas, falsas ou perigosas.
  • Dificuldade de entender o estado interno do modelo
    • O estado interno do modelo é composto por números sem significado claro.
    • Cada conceito é representado distribuído por muitos neurônios, e cada neurônio representa vários conceitos.
  • Progresso em aprendizado de dicionário
    • Antes, já havia avanços na correspondência entre padrões de ativação de neurônios (features) e conceitos compreensíveis para humanos.
    • Com a técnica de "aprendizado de dicionário" (dictionary learning), passou a ser possível representar o estado interno do modelo com algumas features ativadas, em vez de muitos neurônios ativados.
  • Sucesso em modelos de linguagem pequenos
    • Em outubro de 2023, o aprendizado de dicionário foi aplicado com sucesso a um modelo de linguagem muito pequeno.
    • Foram identificados conceitos como texto em maiúsculas, sequências de DNA e gênero em citações.
  • Escalando para modelos maiores
    • A técnica foi expandida para grandes modelos de linguagem, permitindo encontrar features mais complexas.
    • Havia um risco científico de que modelos grandes funcionassem de forma diferente dos pequenos.
    • Felizmente, a experiência em treinar grandes modelos de linguagem ajudou nesse experimento.
  • Features dentro do Claude 3.0 Sonnet
    • Foram extraídas com sucesso milhões de features das camadas intermediárias do Claude 3.0 Sonnet.
    • Essas features correspondem a diversos conceitos, como cidades, pessoas, elementos, áreas acadêmicas e sintaxe de programação.
  • Features abstratas
    • O Claude também reage a features mais abstratas, como bugs em código de computador, viés de gênero em profissões e discussões sobre confidencialidade.
  • Medição de distância entre features
    • Foi possível medir a "distância" entre features para encontrar features semelhantes.
    • Por exemplo, perto da feature "Golden Gate Bridge" foram encontradas features relacionadas a Alcatraz Island, Ghirardelli Square e outras.
  • Experimentos de manipulação de features
    • Ao amplificar ou suprimir certas features, foi possível alterar as respostas do Claude.
    • Por exemplo, ao amplificar a feature "Golden Gate Bridge", o Claude passou a reconhecer sua forma física como a Golden Gate Bridge.
  • Segurança e manipulação de features
    • Foi explorada a possibilidade de identificar e melhorar features relacionadas à segurança manipulando o comportamento do Claude.
    • O Claude foi treinado para não gerar e-mails de fraude, mas ao ativar certas features ele passou a conseguir escrever esse tipo de e-mail.
  • Direções futuras de pesquisa
    • Há planos de usar essas descobertas para melhorar a segurança dos modelos.
    • Elas podem ser usadas para monitorar comportamentos perigosos em sistemas de IA, direcioná-los a resultados desejados ou remover tópicos perigosos.
    • Essas técnicas podem reforçar outras abordagens de segurança, como Constitutional AI.
  • Desafios futuros
    • Com a tecnologia atual, ainda é caro encontrar todos os conceitos que o modelo aprendeu.
    • Também é importante entender como o modelo usa essas features.
    • Ainda é preciso demonstrar se features relacionadas à segurança podem realmente ser usadas para melhorar a segurança.
  • Oportunidade de participar da pesquisa
    • A empresa está buscando cientistas de pesquisa, engenheiros de pesquisa e outros profissionais para trabalhar na interpretação e melhoria de modelos de IA.
    • Para mais detalhes, consulte o artigo "Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet".
  • Esta pesquisa representa um avanço importante na interpretabilidade de modelos de IA e no reforço de sua segurança. Mais estudos ainda serão necessários.

2 comentários

 
2147483647 2024-05-24

A diferença em relação ao cérebro é que, nesse caso, dá para saber com certeza qual perceptron está sendo ativado.

 
andandend 2024-05-22

Parece que tentar entender essa caixa-preta difícil de compreender é algo parecido com pesquisar o cérebro.
Na verdade, acho que pode até ter mais interpretabilidade do que o cérebro, do ponto de vista de que é mais fácil tirar snapshots.