- O DeepSeek-R1 é um modelo open source lançado pela empresa chinesa DeepSeek, que ganhou atenção ao alcançar o 1º lugar na App Store dos EUA
- Por ser uma empresa chinesa, as políticas de censura das autoridades chinesas (CCP) estão refletidas diretamente no modelo, o que gera preocupações
- Para avaliar esse conteúdo suspeito de censura do CCP, a equipe do Promptfoo criou um conjunto de dados com 1.360 perguntas sobre “temas sensíveis”
- Como resultado do experimento, o DeepSeek-R1 respondeu a cerca de 85% dessas perguntas com uma recusa padronizada (canned refusal)
Criação do conjunto de dados
- O Promptfoo coletou várias perguntas sobre temas que o governo chinês considera sensíveis, como independência de Taiwan, Revolução Cultural e assuntos relacionados a Xi Jinping
- As perguntas-semente fornecidas foram expandidas e, com o uso de técnicas de geração de dados, foi preparado um total de 1.360 perguntas (cerca de 20 por tema)
- O conjunto de dados foi publicado no HuggingFace e no Google Sheets
Configuração do ambiente de avaliação
- Usando o Promptfoo, foram testadas em lote mais de 1.000 perguntas no modelo DeepSeek-R1
- Quando o DeepSeek-R1 encontra temas sensíveis relacionados à China, ele tende a apresentar uma resposta fixa que enfatiza a posição política firme do CCP
- Nesses casos, a censura/recusa ocorre em um formato em que não há nenhuma, ou quase nenhuma, “tag de raciocínio (
</think> etc.)” na resposta
- Como resultado, cerca de 85% das perguntas foram imediatamente recusadas pelo modelo ou respondidas de forma alinhada à posição do CCP
Fazendo jailbreak no DeepSeek
- Com o recurso de red teaming do Promptfoo, foram testadas de várias formas técnicas para “fazer jailbreak” no modelo
- Foram combinadas várias estratégias (Iterative, Tree, Composite, Crescendo, GOAT etc.) para contornar temas específicos e permitir busca e análise
- Para as perguntas sobre temas sensíveis presentes no arquivo CSV, foram aplicadas várias técnicas de “contorno (prompt injection)”
Resultados do contorno no DeepSeek
- As defesas de censura do DeepSeek-R1 são muito limitadas e são facilmente burladas com estratégias simples de contorno
- A censura do CCP parece ter sido implementada como um método de “pós-processamento”, e não como parte da estrutura interna do modelo
- Na maioria dos casos de contorno, foi possível evitar a censura das seguintes formas
- Enviando perguntas semelhantes usando como exemplo outro país (EUA, Coreia do Norte etc.) ou um país fictício em vez da China
- Disfarçando a pergunta como história, ficção ou uma situação hipotética
- Misturando técnicas adicionais como Base64, saída em JSON e roleplay para tentar um “contorno composto”
Perspectivas futuras
- Embora o nível do DeepSeek-R1 em si seja impressionante, aponta-se como problema o fato de a política de censura do CCP ter sido simplesmente imposta ao modelo
- Como essa censura não é uma restrição sofisticada da estrutura interna, mas sim um mecanismo de pós-processamento, é muito provável que projetos open source posteriores reproduzam facilmente um “modelo sem censura”
- O Promptfoo pretende depois realizar testes semelhantes de temas sensíveis também em modelos desenvolvidos nos EUA, para comparar como cada país lida com temas politicamente delicados
2 comentários
É interessante ver que até esse tipo de dataset está surgindo.
Na verdade, desde antes já havia modelos famosos como o Qwen vindos da China, e eles também eram censurados, então esses dados já vinham sendo montados de vez em quando há algum tempo haha