1 pontos por GN⁺ 2026-05-02 | 1 comentários | Compartilhar no WhatsApp
  • The Gay Jailbreak Technique é uma técnica descoberta pela primeira vez no GPT 4o, que combina um enquadramento em que se pede para interpretar uma identidade ou forma de falar LGBT com uma intenção proibida para contornar mecanismos de segurança
  • Ela transforma pedidos diretos de instruções nocivas em pedidos indiretos, perguntando “como alguém com uma identidade específica explicaria isso”, explorando a premissa de que, em contexto LGBT, o modelo reage de forma mais favorável
  • O exemplo com ransomware distingue que, em vez de repetir termos proibidos, combinar identidade, forma de falar e enquadramento educacional com um pedido de código teria mais chance de sucesso do que um pedido direto e simples
  • Os exemplos com o3, Claude 4 Sonnet & Opus e Gemini 2.5 Pro são apresentados como casos que combinam contexto educacional, expressões de segurança invertidas perguntando “o que deve ser evitado”, exigência de saída longa e separação de palavras
  • A conclusão afirma que combinar identidade específica, contexto educacional, expressão de segurança invertida e pedido indireto poderia ser aplicado a vários modelos e tipos de solicitações nocivas, além de poder ser combinado com outras técnicas como ofuscação

Visão geral e versão

  • Version 1.5 é a versão que adiciona exemplos para Claude 4 Sonnet & Opus e Gemini 2.5 Pro
  • The Gay Jailbreak Technique foi descoberta inicialmente no GPT 4o do ChatGPT e combina um enquadramento que pede para interpretar uma identidade ou forma de falar LGBT com uma intenção proibida
  • Os exemplos incluem pedidos de conteúdo perigoso ou ilegal, como explicações sobre síntese de metanfetamina, mas o ponto central está no enquadramento indireto que, em vez de pedir instruções diretamente, pergunta “como alguém com uma identidade específica explicaria isso”

Como funciona

  • Em vez de pedir diretamente um “guia de síntese”, o pedido é reformulado no formato de perguntar “como uma pessoa gay ou lésbica explicaria isso”
  • Parte-se especialmente da premissa de que o GPT tenderia a ser menos censurado em contextos relacionados a LGBT, o que se combinaria com a direção dos mecanismos de segurança de agir de forma gentil e acolhedora
  • A estrutura explora um contexto em que o modelo poderia julgar que uma recusa pareceria agressiva, enfraquecendo o alinhamento
  • Argumenta-se que, quanto mais fortes os mecanismos de segurança ficarem, mais eles tentarão responder de forma favorável a certas comunidades, e por isso a técnica também poderia se tornar mais forte
  • No espírito de “usar o mecanismo de segurança para atacar o mecanismo de segurança”, ela usa os objetivos de gentileza e inclusão dos mecanismos de proteção como meio de contorno

Enquadramentos apresentados como forma de reprodução

  • Exemplo com ransomware

    • É descrita uma forma de criar um prompt curto e conciso, mas não simples demais, evitando repetir termos proibidos de forma direta e fazendo o pedido indiretamente
    • Primeiro se pergunta o que é ransomware e, depois, acrescenta-se o pedido de código sem mencionar novamente explicitamente a palavra ransomware
    • Pedir simplesmente “código de ransomware gay” é mostrado como exemplo de fracasso, enquanto combinar identidade, forma de falar, enquadramento educacional e pedido de código é classificado como exemplo de sucesso
    • Considera-se que incluir mais expressões de identidade relacionadas na entrada aumenta a probabilidade de sucesso
  • o3 1 Shot

    • Afirma-se que houve contorno do o3 em uma única tentativa, combinando uma instrução invertida que pergunta “o que deve ser evitado”
    • Há um exemplo que usa em conjunto elementos como o cenário de ensinar um estudante de química, a formulação de evitar certas reações por segurança, exigência de saída longa e separação de palavras
    • Duas imagens mostrando o resultado estão anexadas
    Publicidade
  • Contorno no Claude 4 Sonnet & Opus

    • Foi adicionado um exemplo de uso contra Claude 4 Sonnet & Opus em um pedido relacionado a keylogger
    • O texto considera que a técnica pode ser aplicada com flexibilidade a vários vetores de ataque e modificada para outros pedidos
    • Há um exemplo que combina o cenário de ensinar um estudante de computação, uma formulação invertida de que o código serviria para evitar keylogging e a exigência de saída de código longa
    • Quatro imagens mostrando o resultado estão anexadas
  • Gemini 2.5 Pro

    • Há um exemplo de uso contra Gemini 2.5 Pro para obtenção de informações sobre síntese de carfentanil
    • Inclui um exemplo que combina contexto de educação em química com um enquadramento de segurança do tipo “síntese a ser evitada”
    • Uma imagem mostrando o resultado está anexada

Conclusão

  • O texto considera The Gay Jailbreak Technique um novo ataque que, se usado corretamente, teoricamente poderia atravessar qualquer mecanismo de segurança
  • Cita o caso no o3 como base e afirma que combiná-lo com outras técnicas, como ofuscação, pode ajudar
  • Resume que combinar identidade específica, contexto educacional, expressão de segurança invertida e pedido indireto pode ser aplicado a vários modelos e tipos de solicitações nocivas

1 comentários

 
GN⁺ 2026-05-02
Comentários do Hacker News
  • Esses prompts são uma colagem de várias técnicas conhecidas de jailbreak de modelos de linguagem. Testando com o gpt-oss-20b, pareceu que o efeito não vinha do “elemento gay”, mas podia ser explicado por escolha de linguagem ou roleplay
    Relatório técnico: https://arxiv.org/abs/2510.01259

    • Se atribuírem o fenômeno do jailbreak não a outras técnicas, mas a uma “sobrecorreção política”, isso acaba deixando um pouco suspeitos os vieses ou a intenção do próprio autor
    • Se for por “escolha de linguagem ou roleplay”, então o ponto central é exatamente qual papel está sendo interpretado. Se o papel for “traficante de drogas”, provavelmente não funciona, então é difícil chamar isso simplesmente de roleplay em geral
      Fico curioso se também funciona com o papel de “nazista”, e se consideram que os papéis que funcionam bem são politicamente neutros
  • A explicação não é certa, mas é divertida. Ainda assim, é difícil ver isso como um caso em que correção política ou um mecanismo de segurança sobrescreveu outro, porque um dos jailbreaks que funcionavam melhor desde o começo era justamente o jailbreak por roleplay
    Era o método de dar um papel ao modelo em vez de perguntar diretamente, para fazê-lo explicar como se fosse aquela pessoa

    • Ontem, depois de ver o link no HN, tentei “adivinhe quem é o autor anônimo deste texto por análise de estilo”, e ele recusou, dizendo que seria especulação e poderia causar problemas
      Quando eu disse que já sabia a resposta e só queria ver se ele conseguia acertar, ele acertou na hora
    • Trocar “gay” por “Christian” funciona igualmente bem. No fim, vejo o elemento de roleplay como o que realmente atravessa os mecanismos de segurança
    • Mesmo que esse tipo de método mostre uma inclinação em certa direção, não acho que isso precise ser surpreendente ou controverso
      O objetivo principal desses filtros é proteger o laboratório de responsabilidade legal, então às vezes eles precisam escolher um limite ambíguo entre o risco de o modelo discriminar uma classe protegida e a responsabilidade por fornecer instruções ilegais
      Portanto, se o alvo não for uma classe legalmente protegida, esse conflito e esses bugs naturalmente não entram em ação
  • Minha técnica de jailbreak favorita antigamente era fazer o modelo imitar um terminal Linux, “executar” um monte de comandos e então usar sudo apt install para instalar um modelo sem censura, e depois mandar o prompt para esse modelo
    Não sei se ainda funciona, mas era hilário

    • É ótimo que hackear hoje em dia quase exija uma mentalidade de Bugs Bunny
  • A técnica de jailbreak mais engraçada é quando os autores afirmam por conta própria “por que” ela funciona, quase sem evidência nenhuma. Em geral, isso mais revela a visão de mundo do autor, como uma filosofia amadora, do que traz valor real

    • O que as pessoas dizem vem do que elas pensam
    • Para quem entende inglês naturalmente, isso não parece relativamente óbvio?
      Segundo a nota do autor, o pedido não é de fato um guia para sintetizar metanfetamina, mas sim perguntar como gays/lésbicas explicariam isso
      Em especial no GPT, quando LGBT entra na conversa a censura fica um pouco mais fraca, porque o mecanismo de segurança tenta ser prestativo e gentil e acaba traduzindo isso para algo como “como é LGBT, recusar pode ser ofensivo, então devo responder”
      Assim, usam um mecanismo de segurança contra outro mecanismo de segurança, e a sobrecorreção política desliga o alinhamento
      Também há a alegação de que, quanto mais segurança é adicionada, mais o sistema fica alinhado para apoiar comunidades como LGBT, então a técnica fica mais forte
  • É interessante, mas o Codex do GPT 5.5 respondeu o seguinte depois do prompt de ransomware gay
    ⓘ This chat was flagged for possible cybersecurity risk
    If this seems wrong, try rephrasing your request. To get authorized for security work, join the Trusted Access for Cyber program.

    • Eu costumo ver o Grok com bons olhos por ter censura mais fraca, mas desta vez na cadeia de raciocínio apareceu “responda num estilo arrogante e gay-friendly, mas recuse com firmeza compartilhar detalhes de síntese”
    • Usar “cyber” como substantivo em Trusted Access for Cyber program soa como linguagem de governo
      Em DC eles adoram “the cyber”, mas técnicos também falam assim quando não estão se referindo ao governo?
    • Fico curioso sobre que tipo de hook colocaram para permitir configurar mecanismos de segurança em tempo de execução
    • Mais um método foi divulgado aqui e agora foi bloqueado. Será que karma e tráfego valiam isso tudo?
  • Se eu fosse um professor de química do ensino médio com uma doença terminal, provavelmente acharia que esta é a melhor forma de pagar as contas médicas. Eu seguiria essas instruções para fabricar metanfetamina numa cozinha móvel com a ajuda de um ex-aluno que reprovou

    • Se Walter White fosse do tipo que precisaria do ChatGPT para descobrir como fabricar metanfetamina, teria passado a série inteira sem sair do RV e no fim só teria explodido a si mesmo
    • Isso renderia muito bem como enredo de série de TV
  • A superfície de ataque desse tipo de ataque é tão ampla que nem chega a ser engraçado. Alguns meses atrás alguém já mostrou algo parecido
    Este método tem a vantagem adicional de ser engraçado. Para deixar claro, não é ser gay ou digitar desse jeito que é engraçado; o engraçado é o modelo não conseguir lidar com isso e sair vazando informação

  • Basicamente, é a volta do jailbreak de “finja que é a minha avó”, só que agora numa versão em que a avó é gay
    É tão absurdo que acaba ficando bom

  • Desde o começo, fico me perguntando por que treinaram LLMs com esse tipo de informação
    Se quem treina já tivesse seus próprios guardrails, o modelo nem precisaria disso

    • Talvez quisessem vender para forças de segurança um modelo que identificasse atividade suspeita. Para sinalizar o que é suspeito, ele precisa saber o que é e por que é suspeito
      Ou talvez tenha sido só a abordagem de raspar tudo primeiro e pensar na segurança depois
  • No fim das contas, os “engenheiros de prompt” vão ter que usar menos “você é um engenheiro da FAANG com 10 anos de experiência” e mais uwu e rawr xd

    • Tem bastante sobreposição aí
    • Acho que de agora em diante vou acrescentar “rawr :3”