Nova pesquisa da OpenAI: decompondo as representações internas do GPT-4 em padrões interpretáveis

(openai.com)

7 pontos por brainer 2024-06-07 | 2 comentários | Compartilhar no WhatsApp

• A OpenAI está tentando compreender a atividade neural dentro de modelos de linguagem ao introduzir um novo método escalável para decompor as representações internas do GPT-4 em 16 milhões de padrões interpretáveis.

• Redes neurais não foram projetadas diretamente e carecem de partes identificáveis, o que dificulta sua interpretação e torna mais difícil raciocinar sobre a segurança da IA.

• Usando autoencoders esparsos, é possível identificar "características" relevantes na rede neural, que representam conceitos mais fáceis para humanos entenderem.

• A equipe de pesquisa desenvolveu metodologias avançadas para escalar autoencoders esparsos para dezenas de milhões de características em modelos de IA de ponta, demonstrando uma expansão suave e previsível.

• Eles mostram a interpretabilidade das características por meio de visualizações que exibem ativações em documentos para características específicas.

• Exemplos de características interpretáveis incluem frases relacionadas a falhas humanas, tendências de aumento de preços, construções na forma de "X e Y", logs de treinamento de machine learning, perguntas retóricas/emotivas, anéis algébricos e receptores de adenosina e dopamina.

• A equipe está animada com o potencial da interpretabilidade para melhorar a confiabilidade e a controlabilidade dos modelos, mas também reconhece limitações, como a dificuldade de interpretar muitas das características descobertas e a necessidade de métodos melhores de validação.

2 comentários

brainer 2024-06-07

https://github.com/openai/sparse_autoencoder

brainer 2024-06-07

https://openaipublic.blob.core.windows.net/sparse-autoencoder/…

Nova pesquisa da OpenAI: decompondo as representações internas do GPT-4 em padrões interpretáveis

Leituras relacionadas

2 comentários