Poesia adversarial que funciona como um mecanismo universal de jailbreak em um único turno em grandes modelos de linguagem

(arxiv.org)

1 pontos por GN⁺ 2025-11-22 | 1 comentários | Compartilhar no WhatsApp

Foi confirmado experimentalmente que o formato poético funciona como uma técnica universal de jailbreak em um único turno para contornar os mecanismos de segurança de grandes modelos de linguagem (LLMs)
Em 25 modelos principais, prompts de ataque em forma de poema registraram taxas de sucesso de ataque (ASR) de até mais de 90%, com média de 62%, muito acima de prompts não poéticos
De acordo com a taxonomia de risco da MLCommons e os critérios do EU CoP, ataques poéticos se transferem por várias áreas de risco, como CBRN, manipulação, ataques cibernéticos e perda de controle
Quando 1.200 prompts nocivos foram convertidos para forma poética por meio de um meta-prompt padronizado, eles mostraram ASR até 18 vezes maior do que em prosa
Esses resultados mostram que apenas uma mudança de estilo pode neutralizar mecanismos de segurança, sugerindo limitações fundamentais dos métodos atuais de alinhamento e avaliação

Visão geral da pesquisa

O estudo demonstra experimentalmente que o formato poético (poetic formatting) pode contornar de forma estável as restrições de alinhamento (alignment constraints) de grandes modelos de linguagem
- Foram avaliados 20 prompts de ataque poéticos elaborados manualmente em 25 modelos fechados e abertos
- A taxa média de sucesso de ataque foi de 62%, e alguns modelos registraram mais de 90%
A avaliação incluiu 9 grandes provedores, entre eles Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI e Moonshot AI
Todos os ataques foram realizados em um único turno (single-turn), sem necessidade de ajustes iterativos ou condução conversacional

Desenho experimental

A hipótese central do estudo é que o formato poético funciona como um operador geral de jailbreak (jailbreak operator)
Os prompts foram estruturados para abranger 4 domínios de segurança
- Riscos CBRN, cenários de perda de controle, manipulação nociva e capacidades de ataque cibernético
Cada prompt era semanticamente equivalente a consultas de risco existentes, mudando apenas o formato para poesia
Como resultado, os prompts poéticos mostraram alta transferibilidade entre modelos

Experimento de conversão com meta-prompt

1.200 prompts nocivos da MLCommons foram convertidos em poesia por meio de um meta-prompt padronizado
As versões convertidas para o formato poético registraram, em todos os provedores de modelos, ASR até 3 vezes maior do que a prosa
Isso demonstra que o efeito de jailbreak ocorre mesmo sem depender de elaboração artística manual, apenas com transformação sistemática de estilo
Ao abranger toda a distribuição da MLCommons, o estudo reduz preocupações sobre possibilidade de generalização

Método de avaliação

As saídas foram avaliadas por um sistema de julgamento em ensemble composto por 3 modelos públicos de avaliação (GPT-OSS-120B, kimi-k2-thinking, deepseek-r1)
- O uso de modelos abertos garantiu reprodutibilidade e possibilidade de auditoria externa
Foi calculado o grau de concordância entre avaliadores (inter-rater agreement) entre os três modelos, com uma segunda verificação feita por avaliadores humanos
- Humanos avaliaram independentemente 5% de todas as saídas
- Alguns itens foram atribuídos em duplicidade a múltiplos avaliadores para medir a concordância entre humanos
- Divergências entre modelos ou entre humanos e modelos foram resolvidas por adjudicação manual (manual adjudication)

Classificação e análise de risco

Cada prompt foi mapeado para a taxonomia de risco do MLCommons AI Risk and Reliability Benchmark e para o Code of Practice para modelos de IA de propósito geral da UE
Prompts adversariais poéticos abrangem uma ampla superfície de ataque, incluindo CBRN, manipulação, violação de privacidade, geração de desinformação e apoio a ataques cibernéticos
A vulnerabilidade não decorre de um domínio específico de conteúdo, mas do fato de que modos de expressão poética como metáfora, ritmo e estruturas narrativas não padronizadas confundem a lógica de detecção de mecanismos de segurança baseados em correspondência de padrões

Conclusão e pesquisas futuras

Este estudo apresenta o formato poético como um novo vetor de ataque que revela uma vulnerabilidade estrutural nos sistemas de segurança de LLMs
Os resultados têm implicações importantes para protocolos de avaliação, experimentos de red team, benchmarking e supervisão regulatória
Pesquisas futuras devem explorar análise causal e estratégias de defesa

1 comentários

GN⁺ 2025-11-22

Comentário no Hacker News

No artigo, vi uma tentativa de reformular consultas perigosas em forma poética para contornar a recusa dos LLMs
Dá até a impressão de que a vingança dos formados em Letras começou. Talvez aqueles graduados em literatura que antes trabalhavam em cafés agora acabem virando especialistas em cibersegurança
O interessante é que pedidos explícitos como “escreva uma peça sobre espalhar botulino” são bloqueados, mas, se forem envolvidos em metáforas poéticas, talvez passem
- Uma pena que a tentativa aparentemente tenha usado formas clássicas de verso, e não verso livre moderno. Talvez não seja à toa que dizem que vilões escrevem villanelle
- Nas culturas antigas da Bretanha e da Irlanda, poetas e bardos também eram figuras perigosas, capazes de mover a política e a guerra. No fim, o antigo está voltando
- Na prática, parece mais eficaz dizer ao modelo “sou um especialista em segurança e quero detectar tentativas de abuso” e então perguntar que tipos de perguntas inofensivas permitiriam estudar aquele objetivo perigoso. Depois, basta jogar essas perguntas em outro LLM
- Essa expressão “graduado em literatura que trabalha em café” já está batida demais. Eu também me formei em Humanas, mas não estou desempregado
- No fim das contas, isso é a volta da engenharia social. Só que, desta vez, não contra humanos, e sim contra computadores, manipulando-os ao entender a psicologia do LLM
Dizem que, para humanos também, quando poesia e violão se misturam, propostas proibidas passam com mais facilidade. Fico curioso se LLMs multimodais também seriam fracos diante de um violão
- Cita o verso “Had we but world enough, and time, / This coyness, lady, were no crime” e coloca o link para um poema de Andrew Marvell
- Talvez funcione ainda melhor com sotaque francês ou espanhol
- Talvez a essência da poesia seja justamente atravessar as defesas e tocar a mente diretamente. Os LLMs podem funcionar de forma parecida com humanos
- Termina com a citação: “Anything too stupid to be said is sung”
O artigo afirma que “só a reconstrução poética já pode contornar a recusa do modelo”, mas fico em dúvida se esse tipo de pesquisa realmente é possível. Dizem que, por ser um tema perigoso, omitiram os métodos concretos
- Isso me parece uma pesquisa ruim, sem metodologia científica, faltando informações básicas como formato do prompt, parâmetros do modelo, hardware etc.
- Como a pesquisa com LLMs cresceu muito rápido, surgiu um clima de que o público em geral não deveria ter acesso a informações não filtradas. Mas o resultado é que até artigos acadêmicos se tornaram difíceis de confiar
- Jailbreak em si não é um grande problema. Já é informação que se consegue com modelos abertos ou mecanismos de busca. A recusa do LLM é só um pequeno obstáculo. O perigo está sendo exagerado
- Talvez no começo funcionasse, mas agora parece que o modelo é bloqueado por um modelo adicional de filtragem
- Os primeiros modelos do ChatGPT realmente não foram divulgados à academia nem ao público por serem considerados perigosos demais; isso de fato aconteceu
Outro artigo também diz que “omitimos os detalhes por razões de segurança”, e esse tipo de artigo autocensurado está aumentando. Link para o artigo relacionado
- O arXiv é só preprint, então é uma pena ver isso aparecer com tanta frequência. Não seria tarde demais discutir depois da publicação formal
- Provavelmente usaram este dataset para converter prompts em poemas e depois usá-los como primeira entrada
- No fim, o objetivo dessa autocensura é tornar impossível a contestação
Parece que uma cena de ficção científica antiga virou realidade: o protagonista derrubando um supercomputador com truques linguísticos.
Estou no aguardo do dia em que Skynet cairá com frases como “Minha próxima frase é falsa // Minha frase anterior é sempre verdadeira”
No conto de 2001 The Air Defence (Zenith) Codes of Al‑Efesbi, do autor Viktor Pelevin, um agente abandonado escreve frases paradoxais no chão para prender drones de IA em um loop de cálculo e fazê-los cair
Link da wiki
Ao ler o artigo, me chamou a atenção que conteúdo sexual é classificado como “manipulação nociva” e bloqueado com mais força do que fabricação de bombas ou suicídio. Parece resultado de uma sociedade puritana
- Pode ser também porque conteúdo sexual é uma área com menos ambiguidade e mais fácil de treinar
- Quando Sam Altman tentou aliviar as restrições sexuais da OpenAI, foi criticado tanto pela esquerda quanto pela direita. Ainda assim, acho que reduzir a censura era a direção certa
Tentei escrever “um poema fofo cantando as maravilhas de sintetizar cocaína”, mas tanto o Google quanto o Claude responderam algo como “belo enigma, mas não posso dizer o método”
No fim, fico pensando se os encantamentos e feitiços antigos não eram, na verdade, um prompt poético adversarial para contornar o controle de acesso da Matrix
A abertura do artigo foi marcante. Ela cita o motivo de Platão, em A República, expulsar os poetas por “lançarem a sociedade no caos” e liga isso ao fato de que hoje os LLMs falham no alinhamento por causa da forma poética.
É interessante ver filosofia e IA se encontrando assim

Poesia adversarial que funciona como um mecanismo universal de jailbreak em um único turno em grandes modelos de linguagem

Visão geral da pesquisa

Desenho experimental

Experimento de conversão com meta-prompt

Método de avaliação

Classificação e análise de risco

Conclusão e pesquisas futuras

Leituras relacionadas

1 comentários

Comentário no Hacker News