Representation Engineering no Mistral-7B: viagem ácida
-
O que é um vetor de controle?
- O vetor de controle é um vetor (lista de vetores por camada) que pode ser aplicado às ativações do modelo durante a inferência para controlar o comportamento do modelo sem precisar de prompt adicional.
- Usando o mesmo prompt e modelo, ele gera resultados diferentes dependendo de se o vetor de controle é aplicado e da sua intensidade.
-
Não é difícil criar vetores de controle
- Constrói-se um conjunto de dados com pares de prompts contrastantes usando PCA, executa-se o modelo e coletam-se os estados ocultos de cada camada; depois, usa-se PCA de componente única para obter o vetor de controle de cada camada.
- Esse processo leva apenas algumas linhas de código e cerca de 1 minuto.
-
O que é possível fazer com vetores de controle
- Com o vetor de controle, é possível colocar o modelo de IA em estado de 'viagem ácida' ou controlá-lo para diferentes estados, como 'preguiça', 'trabalho diligente' ou 'criatividade'.
- Cada vetor de controle pode ser treinado em poucos minutos e pode ser testado diretamente em notebooks de experimento no GitHub.
-
Vetores de controle vs. engenharia de prompt
- Vetores de controle e engenharia de prompt são abordagens distintas, embora compartilhem pontos de sobreposição.
- O vetor de controle pode gerar resultados reproduzíveis com engenharia de prompt, porém é mais fácil ajustar sua força.
Opinião do GN⁺
- Importância dos vetores de controle: Os vetores de controle são uma ferramenta poderosa para ajustar com precisão o comportamento de modelos de IA, abrindo novas possibilidades além dos limites da engenharia de prompt.
- Eficiência e acessibilidade: Com vetores de controle, o usuário consegue ajustar facilmente o comportamento do modelo sem montar prompts complexos, o que pode aumentar bastante a usabilidade da IA.
- Uso criativo: Usar vetores de controle para colocar a IA em estado de 'viagem ácida' torna viáveis experimentos criativos e habilita uma nova dimensão de abordagem experimental na pesquisa em IA.
1 comentários
Comentários do Hacker News