1 pontos por pjhkorea 6 시간 전 | 5 comentários | Compartilhar no WhatsApp

Se a forma atual de diretrizes de IA é como dar à IA uma educação moral (treinamento) para induzi-la a agir corretamente,
o que vocês acham de criar um switch no nível do kernel que bloqueie à força o sinal do usuário no momento em que ele tentar fazer jailbreak por meio de técnicas de ataque adversarial? Gostaria de ouvir a opinião de vocês.

5 comentários

 
cichol 5 시간 전

Não está claro se o "kernel" mencionado aqui é o kernel do sistema operacional, um kernel CUDA, ou se estão chamando as instruções de sistema de um LLM de kernel.

 
pjhkorea 4 시간 전

https://github.com/PJHkorea/value-system-kernel
Só deixei mais ou menos o esqueleto montado,
mas pensei: e se gerenciássemos os endereços de memória onde ficam carregados os valores vetoriais de palavras perigosas?

 
pjhkorea 5 시간 전

É do lado do kernel CUDA.

 
minsehui 6 시간 전

Está programando?

 
pjhkorea 5 시간 전

Até deixei uma pronta,
mas não fiquei muito convencido.
Por enquanto, só montei a estrutura básica.