- Este artigo discute a complexidade de treinar com dados e de entender redes neurais, em vez de regras, o que leva à atualização de milhões ou bilhões de parâmetros.
- O desafio é entender por que as operações matemáticas de cada neurônio resultam no comportamento observado, o que dificulta diagnosticar e corrigir modos de falha e certificar a segurança do modelo.
- Este artigo traça paralelos entre entender redes neurais artificiais e entender as bases biológicas do comportamento humano.
- Os autores apontam que neurônios individuais não têm uma relação consistente com o comportamento da rede, e que um único neurônio é ativado em muitos contextos não relacionados.
- O artigo "Towards Monosemanticity: Decomposing Language Models With Dictionary Learning" propõe que existe uma unidade de análise melhor do que neurônios individuais, chamada de característica, que corresponde a padrões de ativação de neurônios.
- Os autores decompõem uma camada composta por 512 neurônios em mais de 4.000 características que representam coisas diversas como sequências de DNA, linguagem jurídica, requisições HTTP, texto em hebraico e informações nutricionais.
- Descobriu-se que essas características são muito mais interpretáveis do que os neurônios do modelo, conforme validado por avaliadores humanos em teste cego.
- Os autores também usam uma abordagem de "interpretação automática", em que um grande modelo de linguagem gera descrições curtas para as características de um modelo menor, obtendo pontuações mais altas do que neurônios.
- As características oferecem uma forma orientada por objetivos de ajustar o modelo, e ativações artificiais causam mudanças previsíveis no comportamento do modelo.
- As características aprendidas são em grande parte universais entre diferentes modelos, sugerindo que lições obtidas ao estudar características em um modelo podem ser generalizadas para outros.
- Os autores veem este trabalho como um passo importante em direção à compreensão dos mecanismos dos modelos de linguagem, o que pode permitir monitorar e ajustar o comportamento do modelo por dentro, melhorando segurança e confiabilidade.
- O próximo desafio é expandir essa abordagem do modelo pequeno em que foi demonstrada para modelos maiores e mais complexos; no momento, o principal obstáculo é a engenharia, não a ciência.
Ainda não há comentários.