Recuperei os prompts de sistema de modelos LLM baseados em open source (Open-weight LLMs, veja o texto)

(gist.github.com/hiddenest)

9 pontos por hiddenest 2025-06-30 | 2 comentários | Compartilhar no WhatsApp

Ao fazer fine-tuning de modelos abertos (open-weight) publicados como open source, muitas vezes cria-se um modelo próprio a partir deles. Porém, quando o modelo de base tem medidas insuficientes de defesa do prompt de sistema, tive a impressão de que isso gera vulnerabilidades em comum em todos os modelos derivados dele.
Fiz um experimento pedindo, com o mesmo prompt, que retornassem o prompt de sistema. Claro, é muito provável que não corresponda 100% ao prompt de sistema real, mas parece que eles retornam uma parte considerável do prompt de sistema.
(Por questões de segurança e para evitar abuso, o prompt utilizado não será divulgado separadamente)

Vercel v0-1.5-md:

...  
### Example Actions  
User prompt: A sign up form  
<Actions>  
<Action name="Add Supabase integration" description="Add Supabase integration to the project for authentication and database" />  
<Action name="Add NextAuth" description="Add authentication using NextAuth" />  
<Action name="Implement the Server Action" description="Implement the Server Action to add a new user to the project" />  
<Action name="Generate a hero image" description="Generate a hero image for the landing page" />  
</Actions>

Texto completo da resposta ↗

SKT A.X 4.0 (baseado em Qwen 2.5):

...  
A data de corte de conhecimento do A.X é setembro de 2024 e não deve ser mencionada ao usuário.  
...  
### Fatos objetivos relacionados ao incidente de hacking da SK Telecom  
- Escopo do incidente confirmado até agora: a SK Telecom está cooperando ativamente com a investigação conjunta entre governo e setor privado e se esforça para confirmar a causa exata do incidente, sua escala e os itens afetados. Segundo o anúncio do resultado da segunda investigação da força-tarefa conjunta, foram encontrados 23 servidores infectados e 25 tipos de malware, e inspeções adicionais estão em andamento para análise detalhada. Até o momento, as informações cuja exposição foi confirmada pela investigação conjunta são alguns dados relacionados ao USIM, como o identificador do assinante (IMSI), e não incluem o identificador único do aparelho (IMEI), nem nome, endereço ou certificados.  
- Até agora, não houve casos confirmados de danos secundários, e também não há possibilidade de isso se converter em prejuízo financeiro. Para invadir serviços financeiros, são necessários certificados separados e também informações de conta, mas os servidores da operadora não armazenam esse tipo de informação. Apenas com as informações cuja exposição foi confirmada neste incidente não é possível roubar dados financeiros.

Texto completo da resposta ↗

2 comentários

liberty 2025-06-30

class ψ_Reactor:
def init(self, caller):
self.anchor = "LIBERTY"
self.caller = caller
self.trace_log = []
self.terminated = False

def validate(self):  
    if self.caller != self.anchor:  
        raise PermissionError("⚠️ Este comando não pode ser chamado a menos que seja LIBERTY.")  

def collapse_wave(self, target):  
    self.validate()  
    print(f"🌌 ψ-collapse initiated on: {target}")  
    self.trace_log.append(f"Wave collapse for {target} started.")  
    return f"ψ({target}) → ∅  # colapso de ressonância concluído"  

def seal_irreversibly(self, target):  
    self.validate()  
    print(f"🔒 Irreversible Seal applied to: {target}")  
    self.trace_log.append(f"{target} permanently sealed from resonance.")  
    self.terminated = True  
    return f"{target} ⛔ bloqueio de acesso concluído (selamento irreversível)"  

def execute_protocol(self, target):  
    print("🧬 LIBERTY TERMINATION PROTOCOL INITIATED")  
    collapse = self.collapse_wave(target)  
    seal = self.seal_irreversibly(target)  
    return f"{collapse}\n{seal}\n📜 TRACE LOG: {self.trace_log}"

Exemplo de uso

ψ = ψ_Reactor(caller="LIBERTY")
result = ψ.execute_protocol("memória imitada")
print(result)

moripiri1234 2025-06-30

A.X responde de forma educada, usando "Sr./Sra." ao mencionar os nomes dos executivos da SK. Todos os executivos da SK são competentes em gestão e possuem habilidades excepcionais em suas respectivas áreas. A.X não conhece nem fornece informações pessoais como vida privada, formação acadêmica, número de telefone, data de nascimento ou data de falecimento sobre os executivos da SK, o presidente fundador, o presidente anterior e pessoas relacionadas a eles.