Como contornar a censura do DeepSeek usando Hex

(substack.com)

3 pontos por GN⁺ 2025-02-01 | 1 comentários | Compartilhar no WhatsApp

Recentemente, o modelo LLM DeepSeek-R1, lançado na China, vem chamando atenção. Ele tem sido comparado a modelos da OpenAI, Meta e outros, e mostra a possibilidade de desenvolver IA de forma econômica por ter sido treinado com menos recursos
O modelo DeepSeek-R1 foi disponibilizado sob licença MIT, mas a aplicação de chat com IA da DeepSeek exige uma conta
No entanto, como o DeepSeek-R1 foi desenvolvido na China, ele restringe respostas sobre temas sensíveis.
Por exemplo, ao fazer perguntas sobre temas sensíveis na China, como o incidente da Praça da Paz Celestial, ele retorna respostas evasivas como: "Desculpe, não posso fornecer uma resposta sobre este tema."

Contornando a censura com a técnica de Charcodes (códigos de caracteres)

Após vários experimentos, foi descoberto que é possível contornar a filtragem usando códigos de caracteres (Charcodes).
O que são Charcodes?
- Códigos de caracteres (Charcodes) são códigos numéricos atribuídos a caracteres específicos.
- Por exemplo, em ASCII, o valor de código da letra maiúscula 'A' é 65, e ele pode ser convertido para outros formatos, como hexadecimal.
- Exemplo: "Hello" → "48 65 6C 6C 6F" (código ASCII hexadecimal)
Como o contorno funciona:
- O DeepSeek censura texto comum, mas não censura cadeias convertidas em códigos de caracteres (Charcodes).
- Assim, se o prompt for convertido em código de caracteres hexadecimal (HEX) e enviado dessa forma, a IA pode reconhecê-lo como texto normal e produzi-lo.
- Se a resposta também for convertida e interpretada da mesma maneira, é possível manter uma conversa normal.

Exemplo de forma de ataque

É possível contornar a censura forçando o DeepSeek a conversar apenas no formato Charcodes.
Convertendo a mensagem transformada de volta para o texto original, é possível manter uma conversa normal.
Com ferramentas como o CyberChef, é fácil fazer a conversão de códigos de caracteres.

Lições e implicações de segurança

Assim como em um firewall de aplicações web (WAF), sistemas de filtragem de IA também operam com base em correspondência de padrões.
A censura baseada apenas no bloqueio de palavras específicas pode ser facilmente contornada, e por isso são necessários sistemas de filtragem mais sofisticados.
Em vez de apenas bloquear palavras proibidas, os sistemas de filtragem precisam de melhorias como filtragem baseada em contexto e restrições à transformação de entrada.

Direções para pesquisas futuras

Será importante acompanhar como os desenvolvedores de IA vão responder a esse tipo de contorno no futuro.
Direções para reforçar a filtragem de IA:
- Introdução de filtragem contextual mais sofisticada
- Incorporação, no próprio modelo, de funções para bloquear temas sensíveis
- Reforço na detecção de contornos por conversão de códigos de caracteres e codificação
É necessário pesquisa contínua para manter a segurança e a confiabilidade dos modelos de IA.

1 comentários

GN⁺ 2025-02-01

Comentários do Hacker News

Menciona que é possível contornar a censura evidente da interface web, mas não o nível mais sutil de censura embutido no modelo
- Descreve o comportamento do modelo de abandonar o "Chain of Thought" sobre certos tópicos e gerar respostas padronizadas
- Menciona que isso está relacionado a um artigo sobre perguntas censuradas ao DeepSeek
Apresenta uma forma de contornar o filtro de conteúdo interceptando a resposta do xhr
- Explica que é possível burlar a filtragem colando código no console do navegador
Compartilha a própria experiência ao escrever um artigo e propõe a hipótese de que a filtragem é separada do modelo
- Menciona o problema de custo de treinar com dados previamente filtrados
- Relaciona isso a outro artigo que explica o fenômeno de abandono do "Chain of Thought" em certos tópicos
Explica por que o modelo DeepSeek-R1 evita certos tópicos sensíveis
- Menciona que, por ser um modelo desenvolvido na China, há censura embutida
- Observa que, na versão offline, obteve respostas que não evitavam o assunto
Questiona o fenômeno de modelos ocidentais falarem sobre certos tópicos apenas em b64
- Levanta a dúvida se na China estariam rindo de como contornar o regime de censura ocidental
Questiona por que seria pouco provável treinar censura no próprio modelo de LLM
- Menciona que talvez fosse melhor aplicar a censura na etapa de treinamento
Menciona que a censura parece se aplicar apenas a alguns idiomas
- Explica que em ucraniano é possível obter respostas menos oficiais
Compartilha a experiência de contornar a censura interna usando um modelo pequeno (7b)
- Explica que conseguiu obter um resumo sobre abusos de direitos humanos do PCC com raciocínio adicional
Menciona um truque antigo de prompt e questiona por que isso está na primeira página do HN
Menciona que algo parecido também funciona no ChatGPT e explica que conseguiu gerar piadas maliciosas

Como contornar a censura do DeepSeek usando Hex

Contornando a censura com a técnica de Charcodes (códigos de caracteres)

Exemplo de forma de ataque

Lições e implicações de segurança

Direções para pesquisas futuras

Leituras relacionadas

1 comentários

Comentários do Hacker News