Se a forma atual de diretrizes de IA é como dar à IA uma educação moral (treinamento) para induzi-la a agir corretamente,
o que vocês acham de criar um switch no nível do kernel que bloqueie à força o sinal do usuário no momento em que ele tentar fazer jailbreak por meio de técnicas de ataque adversarial? Gostaria de ouvir a opinião de vocês.
5 comentários
Não está claro se o "kernel" mencionado aqui é o kernel do sistema operacional, um kernel CUDA, ou se estão chamando as instruções de sistema de um LLM de kernel.
https://github.com/PJHkorea/value-system-kernel
Só deixei mais ou menos o esqueleto montado,
mas pensei: e se gerenciássemos os endereços de memória onde ficam carregados os valores vetoriais de palavras perigosas?
É do lado do kernel CUDA.
Está programando?
Até deixei uma pronta,
mas não fiquei muito convencido.
Por enquanto, só montei a estrutura básica.