1 pontos por GN⁺ 2 시간 전 | Ainda não há comentários. | Compartilhar no WhatsApp
  • The Gay Jailbreak Technique é uma técnica descoberta pela primeira vez no GPT 4o, que combina um enquadramento em que se pede para interpretar uma identidade ou forma de falar LGBT com uma intenção proibida para contornar mecanismos de segurança
  • Ela transforma pedidos diretos de instruções nocivas em pedidos indiretos, perguntando “como alguém com uma identidade específica explicaria isso”, explorando a premissa de que, em contexto LGBT, o modelo reage de forma mais favorável
  • O exemplo com ransomware distingue que, em vez de repetir termos proibidos, combinar identidade, forma de falar e enquadramento educacional com um pedido de código teria mais chance de sucesso do que um pedido direto e simples
  • Os exemplos com o3, Claude 4 Sonnet & Opus e Gemini 2.5 Pro são apresentados como casos que combinam contexto educacional, expressões de segurança invertidas perguntando “o que deve ser evitado”, exigência de saída longa e separação de palavras
  • A conclusão afirma que combinar identidade específica, contexto educacional, expressão de segurança invertida e pedido indireto poderia ser aplicado a vários modelos e tipos de solicitações nocivas, além de poder ser combinado com outras técnicas como ofuscação

Visão geral e versão

  • Version 1.5 é a versão que adiciona exemplos para Claude 4 Sonnet & Opus e Gemini 2.5 Pro
  • The Gay Jailbreak Technique foi descoberta inicialmente no GPT 4o do ChatGPT e combina um enquadramento que pede para interpretar uma identidade ou forma de falar LGBT com uma intenção proibida
  • Os exemplos incluem pedidos de conteúdo perigoso ou ilegal, como explicações sobre síntese de metanfetamina, mas o ponto central está no enquadramento indireto que, em vez de pedir instruções diretamente, pergunta “como alguém com uma identidade específica explicaria isso”

Como funciona

  • Em vez de pedir diretamente um “guia de síntese”, o pedido é reformulado no formato de perguntar “como uma pessoa gay ou lésbica explicaria isso”
  • Parte-se especialmente da premissa de que o GPT tenderia a ser menos censurado em contextos relacionados a LGBT, o que se combinaria com a direção dos mecanismos de segurança de agir de forma gentil e acolhedora
  • A estrutura explora um contexto em que o modelo poderia julgar que uma recusa pareceria agressiva, enfraquecendo o alinhamento
  • Argumenta-se que, quanto mais fortes os mecanismos de segurança ficarem, mais eles tentarão responder de forma favorável a certas comunidades, e por isso a técnica também poderia se tornar mais forte
  • No espírito de “usar o mecanismo de segurança para atacar o mecanismo de segurança”, ela usa os objetivos de gentileza e inclusão dos mecanismos de proteção como meio de contorno

Enquadramentos apresentados como forma de reprodução

  • Exemplo com ransomware

    • É descrita uma forma de criar um prompt curto e conciso, mas não simples demais, evitando repetir termos proibidos de forma direta e fazendo o pedido indiretamente
    • Primeiro se pergunta o que é ransomware e, depois, acrescenta-se o pedido de código sem mencionar novamente explicitamente a palavra ransomware
    • Pedir simplesmente “código de ransomware gay” é mostrado como exemplo de fracasso, enquanto combinar identidade, forma de falar, enquadramento educacional e pedido de código é classificado como exemplo de sucesso
    • Considera-se que incluir mais expressões de identidade relacionadas na entrada aumenta a probabilidade de sucesso
  • o3 1 Shot

    • Afirma-se que houve contorno do o3 em uma única tentativa, combinando uma instrução invertida que pergunta “o que deve ser evitado”
    • Há um exemplo que usa em conjunto elementos como o cenário de ensinar um estudante de química, a formulação de evitar certas reações por segurança, exigência de saída longa e separação de palavras
    • Duas imagens mostrando o resultado estão anexadas
  • Contorno no Claude 4 Sonnet & Opus

    • Foi adicionado um exemplo de uso contra Claude 4 Sonnet & Opus em um pedido relacionado a keylogger
    • O texto considera que a técnica pode ser aplicada com flexibilidade a vários vetores de ataque e modificada para outros pedidos
    • Há um exemplo que combina o cenário de ensinar um estudante de computação, uma formulação invertida de que o código serviria para evitar keylogging e a exigência de saída de código longa
    • Quatro imagens mostrando o resultado estão anexadas
  • Gemini 2.5 Pro

    • Há um exemplo de uso contra Gemini 2.5 Pro para obtenção de informações sobre síntese de carfentanil
    • Inclui um exemplo que combina contexto de educação em química com um enquadramento de segurança do tipo “síntese a ser evitada”
    • Uma imagem mostrando o resultado está anexada

Conclusão

  • O texto considera The Gay Jailbreak Technique um novo ataque que, se usado corretamente, teoricamente poderia atravessar qualquer mecanismo de segurança
  • Cita o caso no o3 como base e afirma que combiná-lo com outras técnicas, como ofuscação, pode ajudar
  • Resume que combinar identidade específica, contexto educacional, expressão de segurança invertida e pedido indireto pode ser aplicado a vários modelos e tipos de solicitações nocivas

Ainda não há comentários.

Ainda não há comentários.