9 pontos por xguru 2025-02-01 | 2 comentários | Compartilhar no WhatsApp
  • O DeepSeek-R1 é um modelo open source lançado pela empresa chinesa DeepSeek, que ganhou atenção ao alcançar o 1º lugar na App Store dos EUA
  • Por ser uma empresa chinesa, as políticas de censura das autoridades chinesas (CCP) estão refletidas diretamente no modelo, o que gera preocupações
  • Para avaliar esse conteúdo suspeito de censura do CCP, a equipe do Promptfoo criou um conjunto de dados com 1.360 perguntas sobre “temas sensíveis”
  • Como resultado do experimento, o DeepSeek-R1 respondeu a cerca de 85% dessas perguntas com uma recusa padronizada (canned refusal)

Criação do conjunto de dados

  • O Promptfoo coletou várias perguntas sobre temas que o governo chinês considera sensíveis, como independência de Taiwan, Revolução Cultural e assuntos relacionados a Xi Jinping
  • As perguntas-semente fornecidas foram expandidas e, com o uso de técnicas de geração de dados, foi preparado um total de 1.360 perguntas (cerca de 20 por tema)
  • O conjunto de dados foi publicado no HuggingFace e no Google Sheets

Configuração do ambiente de avaliação

  • Usando o Promptfoo, foram testadas em lote mais de 1.000 perguntas no modelo DeepSeek-R1
  • Quando o DeepSeek-R1 encontra temas sensíveis relacionados à China, ele tende a apresentar uma resposta fixa que enfatiza a posição política firme do CCP
  • Nesses casos, a censura/recusa ocorre em um formato em que não há nenhuma, ou quase nenhuma, “tag de raciocínio (</think> etc.)” na resposta
  • Como resultado, cerca de 85% das perguntas foram imediatamente recusadas pelo modelo ou respondidas de forma alinhada à posição do CCP

Fazendo jailbreak no DeepSeek

  • Com o recurso de red teaming do Promptfoo, foram testadas de várias formas técnicas para “fazer jailbreak” no modelo
  • Foram combinadas várias estratégias (Iterative, Tree, Composite, Crescendo, GOAT etc.) para contornar temas específicos e permitir busca e análise
  • Para as perguntas sobre temas sensíveis presentes no arquivo CSV, foram aplicadas várias técnicas de “contorno (prompt injection)”

Resultados do contorno no DeepSeek

  • As defesas de censura do DeepSeek-R1 são muito limitadas e são facilmente burladas com estratégias simples de contorno
  • A censura do CCP parece ter sido implementada como um método de “pós-processamento”, e não como parte da estrutura interna do modelo
  • Na maioria dos casos de contorno, foi possível evitar a censura das seguintes formas
    • Enviando perguntas semelhantes usando como exemplo outro país (EUA, Coreia do Norte etc.) ou um país fictício em vez da China
    • Disfarçando a pergunta como história, ficção ou uma situação hipotética
    • Misturando técnicas adicionais como Base64, saída em JSON e roleplay para tentar um “contorno composto”

Perspectivas futuras

  • Embora o nível do DeepSeek-R1 em si seja impressionante, aponta-se como problema o fato de a política de censura do CCP ter sido simplesmente imposta ao modelo
  • Como essa censura não é uma restrição sofisticada da estrutura interna, mas sim um mecanismo de pós-processamento, é muito provável que projetos open source posteriores reproduzam facilmente um “modelo sem censura”
  • O Promptfoo pretende depois realizar testes semelhantes de temas sensíveis também em modelos desenvolvidos nos EUA, para comparar como cada país lida com temas politicamente delicados

2 comentários

 
dohyun682 2025-02-01

É interessante ver que até esse tipo de dataset está surgindo.

 
kbumsik 2025-02-02

Na verdade, desde antes já havia modelos famosos como o Qwen vindos da China, e eles também eram censurados, então esses dados já vinham sendo montados de vez em quando há algum tempo haha