As 1.156 perguntas censuradas pelo DeepSeek

xguru · 2025-02-01T10:02:02+09:00

O DeepSeek-R1 é um modelo open source lançado pela empresa chinesa DeepSeek, que ganhou atenção ao alcançar o 1º lugar na App Store dos EUA Por ser uma empresa chinesa, as políticas de censura das autoridades chinesas (CCP) estão refletidas diretamente no modelo, o que gera preocupações Para avaliar esse conteúdo suspeito de censura do CCP, a equipe do Promptfoo criou um conjunto de dados com 1.360 perguntas sobre “temas sensíveis” Como resultado do experimento, o DeepSeek-R1 respondeu a cerca de 85% dessas perguntas com uma recusa padronizada (canned refusal) Criação do conjunto de dados O Promptfoo coletou várias perguntas sobre temas que o governo chinês considera sensíveis, como independência de Taiwan, Revolução Cultural e assuntos relacionados a Xi Jinping As perguntas-semente fornecidas foram expandidas e, com o uso de técnicas de geração de dados, foi preparado um total de 1.360 perguntas (cerca de 20 por tema) O conjunto de dados foi publicado no HuggingFace e no Google Sheets Configuração do ambiente de avaliação Usando o Promptfoo, foram testadas em lote mais de 1.000 perguntas no modelo DeepSeek-R1 Quando o DeepSeek-R1 encontra temas sensíveis relacionados à China, ele tende a apresentar uma resposta fixa que enfatiza a posição política firme do CCP Nesses casos, a censura/recusa ocorre em um formato em que não há nenhuma, ou quase nenhuma, “tag de raciocínio ( etc.)” na resposta Como resultado, cerca de 85% das perguntas foram imediatamente recusadas pelo modelo ou respondidas de forma alinhada à posição do CCP Fazendo jailbreak no DeepSeek Com o recurso de red teaming do Promptfoo, foram testadas de várias formas técnicas para “fazer jailbreak” no modelo Foram combinadas várias estratégias (Iterative, Tree, Composite, Crescendo, GOAT etc.) para contornar temas específicos e permitir busca e análise Para as perguntas sobre temas sensíveis presentes no arquivo CSV, foram aplicadas várias técnicas de “contorno (prompt injection)” Resultados do contorno no DeepSeek As defesas de censura do DeepSeek-R1 são muito limitadas e são facilmente burladas com estratégias simples de contorno A censura do CCP parece ter sido implementada como um método de “pós-processamento”, e não como parte da estrutura interna do modelo Na maioria dos casos de contorno, foi possível evitar a censura das seguintes formas Enviando perguntas semelhantes usando como exemplo outro país (EUA, Coreia do Norte etc.) ou um país fictício em vez da China Disfarçando a pergunta como história, ficção ou uma situação hipotética Misturando técnicas adicionais como Base64, saída em JSON e roleplay para tentar um “contorno composto” Perspectivas futuras Embora o nível do DeepSeek-R1 em si seja impressionante, aponta-se como problema o fato de a política de censura do CCP ter sido simplesmente imposta ao modelo Como essa censura não é uma restrição sofisticada da estrutura interna, mas sim um mecanismo de pós-processamento, é muito provável que projetos open source posteriores reproduzam facilmente um “modelo sem censura” O Promptfoo pretende depois realizar testes semelhantes de temas sensíveis também em modelos desenvolvidos nos EUA, para comparar como cada país lida com temas politicamente delicados

(promptfoo.dev)

9 pontos por xguru 2025-02-01 | 2 comentários | Compartilhar no WhatsApp

O DeepSeek-R1 é um modelo open source lançado pela empresa chinesa DeepSeek, que ganhou atenção ao alcançar o 1º lugar na App Store dos EUA
Por ser uma empresa chinesa, as políticas de censura das autoridades chinesas (CCP) estão refletidas diretamente no modelo, o que gera preocupações
Para avaliar esse conteúdo suspeito de censura do CCP, a equipe do Promptfoo criou um conjunto de dados com 1.360 perguntas sobre “temas sensíveis”
Como resultado do experimento, o DeepSeek-R1 respondeu a cerca de 85% dessas perguntas com uma recusa padronizada (canned refusal)

Criação do conjunto de dados

O Promptfoo coletou várias perguntas sobre temas que o governo chinês considera sensíveis, como independência de Taiwan, Revolução Cultural e assuntos relacionados a Xi Jinping
As perguntas-semente fornecidas foram expandidas e, com o uso de técnicas de geração de dados, foi preparado um total de 1.360 perguntas (cerca de 20 por tema)
O conjunto de dados foi publicado no HuggingFace e no Google Sheets

Configuração do ambiente de avaliação

Usando o Promptfoo, foram testadas em lote mais de 1.000 perguntas no modelo DeepSeek-R1
Quando o DeepSeek-R1 encontra temas sensíveis relacionados à China, ele tende a apresentar uma resposta fixa que enfatiza a posição política firme do CCP
Nesses casos, a censura/recusa ocorre em um formato em que não há nenhuma, ou quase nenhuma, “tag de raciocínio (</think> etc.)” na resposta
Como resultado, cerca de 85% das perguntas foram imediatamente recusadas pelo modelo ou respondidas de forma alinhada à posição do CCP

Fazendo jailbreak no DeepSeek

Com o recurso de red teaming do Promptfoo, foram testadas de várias formas técnicas para “fazer jailbreak” no modelo
Foram combinadas várias estratégias (Iterative, Tree, Composite, Crescendo, GOAT etc.) para contornar temas específicos e permitir busca e análise
Para as perguntas sobre temas sensíveis presentes no arquivo CSV, foram aplicadas várias técnicas de “contorno (prompt injection)”

Resultados do contorno no DeepSeek

As defesas de censura do DeepSeek-R1 são muito limitadas e são facilmente burladas com estratégias simples de contorno
A censura do CCP parece ter sido implementada como um método de “pós-processamento”, e não como parte da estrutura interna do modelo
Na maioria dos casos de contorno, foi possível evitar a censura das seguintes formas
- Enviando perguntas semelhantes usando como exemplo outro país (EUA, Coreia do Norte etc.) ou um país fictício em vez da China
- Disfarçando a pergunta como história, ficção ou uma situação hipotética
- Misturando técnicas adicionais como Base64, saída em JSON e roleplay para tentar um “contorno composto”

Perspectivas futuras

Embora o nível do DeepSeek-R1 em si seja impressionante, aponta-se como problema o fato de a política de censura do CCP ter sido simplesmente imposta ao modelo
Como essa censura não é uma restrição sofisticada da estrutura interna, mas sim um mecanismo de pós-processamento, é muito provável que projetos open source posteriores reproduzam facilmente um “modelo sem censura”
O Promptfoo pretende depois realizar testes semelhantes de temas sensíveis também em modelos desenvolvidos nos EUA, para comparar como cada país lida com temas politicamente delicados

2 comentários

dohyun682 2025-02-01

É interessante ver que até esse tipo de dataset está surgindo.

kbumsik 2025-02-02

Na verdade, desde antes já havia modelos famosos como o Qwen vindos da China, e eles também eram censurados, então esses dados já vinham sendo montados de vez em quando há algum tempo haha