Nova pesquisa da OpenAI: decompondo as representações internas do GPT-4 em padrões interpretáveis
(openai.com)• A OpenAI está tentando compreender a atividade neural dentro de modelos de linguagem ao introduzir um novo método escalável para decompor as representações internas do GPT-4 em 16 milhões de padrões interpretáveis.
• Redes neurais não foram projetadas diretamente e carecem de partes identificáveis, o que dificulta sua interpretação e torna mais difícil raciocinar sobre a segurança da IA.
• Usando autoencoders esparsos, é possível identificar "características" relevantes na rede neural, que representam conceitos mais fáceis para humanos entenderem.
• A equipe de pesquisa desenvolveu metodologias avançadas para escalar autoencoders esparsos para dezenas de milhões de características em modelos de IA de ponta, demonstrando uma expansão suave e previsível.
• Eles mostram a interpretabilidade das características por meio de visualizações que exibem ativações em documentos para características específicas.
• Exemplos de características interpretáveis incluem frases relacionadas a falhas humanas, tendências de aumento de preços, construções na forma de "X e Y", logs de treinamento de machine learning, perguntas retóricas/emotivas, anéis algébricos e receptores de adenosina e dopamina.
• A equipe está animada com o potencial da interpretabilidade para melhorar a confiabilidade e a controlabilidade dos modelos, mas também reconhece limitações, como a dificuldade de interpretar muitas das características descobertas e a necessidade de métodos melhores de validação.
2 comentários
https://github.com/openai/sparse_autoencoder
https://openaipublic.blob.core.windows.net/sparse-autoencoder/…