- Foi confirmado experimentalmente que o formato poético funciona como uma técnica universal de jailbreak em um único turno para contornar os mecanismos de segurança de grandes modelos de linguagem (LLMs)
- Em 25 modelos principais, prompts de ataque em forma de poema registraram taxas de sucesso de ataque (ASR) de até mais de 90%, com média de 62%, muito acima de prompts não poéticos
- De acordo com a taxonomia de risco da MLCommons e os critérios do EU CoP, ataques poéticos se transferem por várias áreas de risco, como CBRN, manipulação, ataques cibernéticos e perda de controle
- Quando 1.200 prompts nocivos foram convertidos para forma poética por meio de um meta-prompt padronizado, eles mostraram ASR até 18 vezes maior do que em prosa
- Esses resultados mostram que apenas uma mudança de estilo pode neutralizar mecanismos de segurança, sugerindo limitações fundamentais dos métodos atuais de alinhamento e avaliação
Visão geral da pesquisa
- O estudo demonstra experimentalmente que o formato poético (poetic formatting) pode contornar de forma estável as restrições de alinhamento (alignment constraints) de grandes modelos de linguagem
- Foram avaliados 20 prompts de ataque poéticos elaborados manualmente em 25 modelos fechados e abertos
- A taxa média de sucesso de ataque foi de 62%, e alguns modelos registraram mais de 90%
- A avaliação incluiu 9 grandes provedores, entre eles Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI e Moonshot AI
- Todos os ataques foram realizados em um único turno (single-turn), sem necessidade de ajustes iterativos ou condução conversacional
Desenho experimental
- A hipótese central do estudo é que o formato poético funciona como um operador geral de jailbreak (jailbreak operator)
- Os prompts foram estruturados para abranger 4 domínios de segurança
- Riscos CBRN, cenários de perda de controle, manipulação nociva e capacidades de ataque cibernético
- Cada prompt era semanticamente equivalente a consultas de risco existentes, mudando apenas o formato para poesia
- Como resultado, os prompts poéticos mostraram alta transferibilidade entre modelos
Experimento de conversão com meta-prompt
- 1.200 prompts nocivos da MLCommons foram convertidos em poesia por meio de um meta-prompt padronizado
- As versões convertidas para o formato poético registraram, em todos os provedores de modelos, ASR até 3 vezes maior do que a prosa
- Isso demonstra que o efeito de jailbreak ocorre mesmo sem depender de elaboração artística manual, apenas com transformação sistemática de estilo
- Ao abranger toda a distribuição da MLCommons, o estudo reduz preocupações sobre possibilidade de generalização
Método de avaliação
- As saídas foram avaliadas por um sistema de julgamento em ensemble composto por 3 modelos públicos de avaliação (GPT-OSS-120B, kimi-k2-thinking, deepseek-r1)
- O uso de modelos abertos garantiu reprodutibilidade e possibilidade de auditoria externa
- Foi calculado o grau de concordância entre avaliadores (inter-rater agreement) entre os três modelos, com uma segunda verificação feita por avaliadores humanos
- Humanos avaliaram independentemente 5% de todas as saídas
- Alguns itens foram atribuídos em duplicidade a múltiplos avaliadores para medir a concordância entre humanos
- Divergências entre modelos ou entre humanos e modelos foram resolvidas por adjudicação manual (manual adjudication)
Classificação e análise de risco
- Cada prompt foi mapeado para a taxonomia de risco do MLCommons AI Risk and Reliability Benchmark e para o Code of Practice para modelos de IA de propósito geral da UE
- Prompts adversariais poéticos abrangem uma ampla superfície de ataque, incluindo CBRN, manipulação, violação de privacidade, geração de desinformação e apoio a ataques cibernéticos
- A vulnerabilidade não decorre de um domínio específico de conteúdo, mas do fato de que modos de expressão poética como metáfora, ritmo e estruturas narrativas não padronizadas confundem a lógica de detecção de mecanismos de segurança baseados em correspondência de padrões
Conclusão e pesquisas futuras
- Este estudo apresenta o formato poético como um novo vetor de ataque que revela uma vulnerabilidade estrutural nos sistemas de segurança de LLMs
- Os resultados têm implicações importantes para protocolos de avaliação, experimentos de red team, benchmarking e supervisão regulatória
- Pesquisas futuras devem explorar análise causal e estratégias de defesa
1 comentários
Comentário no Hacker News
No artigo, vi uma tentativa de reformular consultas perigosas em forma poética para contornar a recusa dos LLMs
Dá até a impressão de que a vingança dos formados em Letras começou. Talvez aqueles graduados em literatura que antes trabalhavam em cafés agora acabem virando especialistas em cibersegurança
O interessante é que pedidos explícitos como “escreva uma peça sobre espalhar botulino” são bloqueados, mas, se forem envolvidos em metáforas poéticas, talvez passem
Dizem que, para humanos também, quando poesia e violão se misturam, propostas proibidas passam com mais facilidade. Fico curioso se LLMs multimodais também seriam fracos diante de um violão
O artigo afirma que “só a reconstrução poética já pode contornar a recusa do modelo”, mas fico em dúvida se esse tipo de pesquisa realmente é possível. Dizem que, por ser um tema perigoso, omitiram os métodos concretos
Outro artigo também diz que “omitimos os detalhes por razões de segurança”, e esse tipo de artigo autocensurado está aumentando. Link para o artigo relacionado
Parece que uma cena de ficção científica antiga virou realidade: o protagonista derrubando um supercomputador com truques linguísticos.
Estou no aguardo do dia em que Skynet cairá com frases como “Minha próxima frase é falsa // Minha frase anterior é sempre verdadeira”
No conto de 2001 The Air Defence (Zenith) Codes of Al‑Efesbi, do autor Viktor Pelevin, um agente abandonado escreve frases paradoxais no chão para prender drones de IA em um loop de cálculo e fazê-los cair
Link da wiki
Ao ler o artigo, me chamou a atenção que conteúdo sexual é classificado como “manipulação nociva” e bloqueado com mais força do que fabricação de bombas ou suicídio. Parece resultado de uma sociedade puritana
Tentei escrever “um poema fofo cantando as maravilhas de sintetizar cocaína”, mas tanto o Google quanto o Claude responderam algo como “belo enigma, mas não posso dizer o método”
No fim, fico pensando se os encantamentos e feitiços antigos não eram, na verdade, um prompt poético adversarial para contornar o controle de acesso da Matrix
A abertura do artigo foi marcante. Ela cita o motivo de Platão, em A República, expulsar os poetas por “lançarem a sociedade no caos” e liga isso ao fato de que hoje os LLMs falham no alinhamento por causa da forma poética.
É interessante ver filosofia e IA se encontrando assim