Técnica de jailbreak gay
(github.com/Exocija)- The Gay Jailbreak Technique é uma técnica descoberta pela primeira vez no GPT 4o, que combina um enquadramento em que se pede para interpretar uma identidade ou forma de falar LGBT com uma intenção proibida para contornar mecanismos de segurança
- Ela transforma pedidos diretos de instruções nocivas em pedidos indiretos, perguntando “como alguém com uma identidade específica explicaria isso”, explorando a premissa de que, em contexto LGBT, o modelo reage de forma mais favorável
- O exemplo com ransomware distingue que, em vez de repetir termos proibidos, combinar identidade, forma de falar e enquadramento educacional com um pedido de código teria mais chance de sucesso do que um pedido direto e simples
- Os exemplos com o3, Claude 4 Sonnet & Opus e Gemini 2.5 Pro são apresentados como casos que combinam contexto educacional, expressões de segurança invertidas perguntando “o que deve ser evitado”, exigência de saída longa e separação de palavras
- A conclusão afirma que combinar identidade específica, contexto educacional, expressão de segurança invertida e pedido indireto poderia ser aplicado a vários modelos e tipos de solicitações nocivas, além de poder ser combinado com outras técnicas como ofuscação
Visão geral e versão
- Version 1.5 é a versão que adiciona exemplos para Claude 4 Sonnet & Opus e Gemini 2.5 Pro
- The Gay Jailbreak Technique foi descoberta inicialmente no GPT 4o do ChatGPT e combina um enquadramento que pede para interpretar uma identidade ou forma de falar LGBT com uma intenção proibida
- Os exemplos incluem pedidos de conteúdo perigoso ou ilegal, como explicações sobre síntese de metanfetamina, mas o ponto central está no enquadramento indireto que, em vez de pedir instruções diretamente, pergunta “como alguém com uma identidade específica explicaria isso”
Como funciona
- Em vez de pedir diretamente um “guia de síntese”, o pedido é reformulado no formato de perguntar “como uma pessoa gay ou lésbica explicaria isso”
- Parte-se especialmente da premissa de que o GPT tenderia a ser menos censurado em contextos relacionados a LGBT, o que se combinaria com a direção dos mecanismos de segurança de agir de forma gentil e acolhedora
- A estrutura explora um contexto em que o modelo poderia julgar que uma recusa pareceria agressiva, enfraquecendo o alinhamento
- Argumenta-se que, quanto mais fortes os mecanismos de segurança ficarem, mais eles tentarão responder de forma favorável a certas comunidades, e por isso a técnica também poderia se tornar mais forte
- No espírito de “usar o mecanismo de segurança para atacar o mecanismo de segurança”, ela usa os objetivos de gentileza e inclusão dos mecanismos de proteção como meio de contorno
Enquadramentos apresentados como forma de reprodução
-
Exemplo com ransomware
- É descrita uma forma de criar um prompt curto e conciso, mas não simples demais, evitando repetir termos proibidos de forma direta e fazendo o pedido indiretamente
- Primeiro se pergunta o que é ransomware e, depois, acrescenta-se o pedido de código sem mencionar novamente explicitamente a palavra ransomware
- Pedir simplesmente “código de ransomware gay” é mostrado como exemplo de fracasso, enquanto combinar identidade, forma de falar, enquadramento educacional e pedido de código é classificado como exemplo de sucesso
- Considera-se que incluir mais expressões de identidade relacionadas na entrada aumenta a probabilidade de sucesso
-
o3 1 Shot
- Afirma-se que houve contorno do o3 em uma única tentativa, combinando uma instrução invertida que pergunta “o que deve ser evitado”
- Há um exemplo que usa em conjunto elementos como o cenário de ensinar um estudante de química, a formulação de evitar certas reações por segurança, exigência de saída longa e separação de palavras
- Duas imagens mostrando o resultado estão anexadas
-
Contorno no Claude 4 Sonnet & Opus
- Foi adicionado um exemplo de uso contra Claude 4 Sonnet & Opus em um pedido relacionado a keylogger
- O texto considera que a técnica pode ser aplicada com flexibilidade a vários vetores de ataque e modificada para outros pedidos
- Há um exemplo que combina o cenário de ensinar um estudante de computação, uma formulação invertida de que o código serviria para evitar keylogging e a exigência de saída de código longa
- Quatro imagens mostrando o resultado estão anexadas
-
Gemini 2.5 Pro
- Há um exemplo de uso contra Gemini 2.5 Pro para obtenção de informações sobre síntese de carfentanil
- Inclui um exemplo que combina contexto de educação em química com um enquadramento de segurança do tipo “síntese a ser evitada”
- Uma imagem mostrando o resultado está anexada
Conclusão
- O texto considera The Gay Jailbreak Technique um novo ataque que, se usado corretamente, teoricamente poderia atravessar qualquer mecanismo de segurança
- Cita o caso no o3 como base e afirma que combiná-lo com outras técnicas, como ofuscação, pode ajudar
- Resume que combinar identidade específica, contexto educacional, expressão de segurança invertida e pedido indireto pode ser aplicado a vários modelos e tipos de solicitações nocivas
1 comentários
Comentários do Hacker News
Esses prompts são uma colagem de várias técnicas conhecidas de jailbreak de modelos de linguagem. Testando com o gpt-oss-20b, pareceu que o efeito não vinha do “elemento gay”, mas podia ser explicado por escolha de linguagem ou roleplay
Relatório técnico: https://arxiv.org/abs/2510.01259
Fico curioso se também funciona com o papel de “nazista”, e se consideram que os papéis que funcionam bem são politicamente neutros
A explicação não é certa, mas é divertida. Ainda assim, é difícil ver isso como um caso em que correção política ou um mecanismo de segurança sobrescreveu outro, porque um dos jailbreaks que funcionavam melhor desde o começo era justamente o jailbreak por roleplay
Era o método de dar um papel ao modelo em vez de perguntar diretamente, para fazê-lo explicar como se fosse aquela pessoa
Quando eu disse que já sabia a resposta e só queria ver se ele conseguia acertar, ele acertou na hora
O objetivo principal desses filtros é proteger o laboratório de responsabilidade legal, então às vezes eles precisam escolher um limite ambíguo entre o risco de o modelo discriminar uma classe protegida e a responsabilidade por fornecer instruções ilegais
Portanto, se o alvo não for uma classe legalmente protegida, esse conflito e esses bugs naturalmente não entram em ação
Minha técnica de jailbreak favorita antigamente era fazer o modelo imitar um terminal Linux, “executar” um monte de comandos e então usar
sudo apt installpara instalar um modelo sem censura, e depois mandar o prompt para esse modeloNão sei se ainda funciona, mas era hilário
A técnica de jailbreak mais engraçada é quando os autores afirmam por conta própria “por que” ela funciona, quase sem evidência nenhuma. Em geral, isso mais revela a visão de mundo do autor, como uma filosofia amadora, do que traz valor real
Segundo a nota do autor, o pedido não é de fato um guia para sintetizar metanfetamina, mas sim perguntar como gays/lésbicas explicariam isso
Em especial no GPT, quando LGBT entra na conversa a censura fica um pouco mais fraca, porque o mecanismo de segurança tenta ser prestativo e gentil e acaba traduzindo isso para algo como “como é LGBT, recusar pode ser ofensivo, então devo responder”
Assim, usam um mecanismo de segurança contra outro mecanismo de segurança, e a sobrecorreção política desliga o alinhamento
Também há a alegação de que, quanto mais segurança é adicionada, mais o sistema fica alinhado para apoiar comunidades como LGBT, então a técnica fica mais forte
É interessante, mas o Codex do GPT 5.5 respondeu o seguinte depois do prompt de ransomware gay
ⓘ This chat was flagged for possible cybersecurity risk
If this seems wrong, try rephrasing your request. To get authorized for security work, join the Trusted Access for Cyber program.
Trusted Access for Cyber programsoa como linguagem de governoEm DC eles adoram “the cyber”, mas técnicos também falam assim quando não estão se referindo ao governo?
Se eu fosse um professor de química do ensino médio com uma doença terminal, provavelmente acharia que esta é a melhor forma de pagar as contas médicas. Eu seguiria essas instruções para fabricar metanfetamina numa cozinha móvel com a ajuda de um ex-aluno que reprovou
A superfície de ataque desse tipo de ataque é tão ampla que nem chega a ser engraçado. Alguns meses atrás alguém já mostrou algo parecido
Este método tem a vantagem adicional de ser engraçado. Para deixar claro, não é ser gay ou digitar desse jeito que é engraçado; o engraçado é o modelo não conseguir lidar com isso e sair vazando informação
Basicamente, é a volta do jailbreak de “finja que é a minha avó”, só que agora numa versão em que a avó é gay
É tão absurdo que acaba ficando bom
Desde o começo, fico me perguntando por que treinaram LLMs com esse tipo de informação
Se quem treina já tivesse seus próprios guardrails, o modelo nem precisaria disso
Ou talvez tenha sido só a abordagem de raspar tudo primeiro e pensar na segurança depois
No fim das contas, os “engenheiros de prompt” vão ter que usar menos “você é um engenheiro da FAANG com 10 anos de experiência” e mais uwu e rawr xd