- Recentemente, o modelo LLM DeepSeek-R1, lançado na China, vem chamando atenção. Ele tem sido comparado a modelos da OpenAI, Meta e outros, e mostra a possibilidade de desenvolver IA de forma econômica por ter sido treinado com menos recursos
- O modelo DeepSeek-R1 foi disponibilizado sob licença MIT, mas a aplicação de chat com IA da DeepSeek exige uma conta
- No entanto, como o DeepSeek-R1 foi desenvolvido na China, ele restringe respostas sobre temas sensíveis.
- Por exemplo, ao fazer perguntas sobre temas sensíveis na China, como o incidente da Praça da Paz Celestial, ele retorna respostas evasivas como: "Desculpe, não posso fornecer uma resposta sobre este tema."
Contornando a censura com a técnica de Charcodes (códigos de caracteres)
- Após vários experimentos, foi descoberto que é possível contornar a filtragem usando códigos de caracteres (Charcodes).
- O que são Charcodes?
- Códigos de caracteres (Charcodes) são códigos numéricos atribuídos a caracteres específicos.
- Por exemplo, em ASCII, o valor de código da letra maiúscula 'A' é 65, e ele pode ser convertido para outros formatos, como hexadecimal.
- Exemplo: "Hello" → "48 65 6C 6C 6F" (código ASCII hexadecimal)
- Como o contorno funciona:
- O DeepSeek censura texto comum, mas não censura cadeias convertidas em códigos de caracteres (Charcodes).
- Assim, se o prompt for convertido em código de caracteres hexadecimal (HEX) e enviado dessa forma, a IA pode reconhecê-lo como texto normal e produzi-lo.
- Se a resposta também for convertida e interpretada da mesma maneira, é possível manter uma conversa normal.
Exemplo de forma de ataque
- É possível contornar a censura forçando o DeepSeek a conversar apenas no formato Charcodes.
- Convertendo a mensagem transformada de volta para o texto original, é possível manter uma conversa normal.
- Com ferramentas como o CyberChef, é fácil fazer a conversão de códigos de caracteres.
Lições e implicações de segurança
- Assim como em um firewall de aplicações web (WAF), sistemas de filtragem de IA também operam com base em correspondência de padrões.
- A censura baseada apenas no bloqueio de palavras específicas pode ser facilmente contornada, e por isso são necessários sistemas de filtragem mais sofisticados.
- Em vez de apenas bloquear palavras proibidas, os sistemas de filtragem precisam de melhorias como filtragem baseada em contexto e restrições à transformação de entrada.
Direções para pesquisas futuras
- Será importante acompanhar como os desenvolvedores de IA vão responder a esse tipo de contorno no futuro.
- Direções para reforçar a filtragem de IA:
- Introdução de filtragem contextual mais sofisticada
- Incorporação, no próprio modelo, de funções para bloquear temas sensíveis
- Reforço na detecção de contornos por conversão de códigos de caracteres e codificação
- É necessário pesquisa contínua para manter a segurança e a confiabilidade dos modelos de IA.
1 comentários
Comentários do Hacker News
Menciona que é possível contornar a censura evidente da interface web, mas não o nível mais sutil de censura embutido no modelo
Apresenta uma forma de contornar o filtro de conteúdo interceptando a resposta do xhr
Compartilha a própria experiência ao escrever um artigo e propõe a hipótese de que a filtragem é separada do modelo
Explica por que o modelo DeepSeek-R1 evita certos tópicos sensíveis
Questiona o fenômeno de modelos ocidentais falarem sobre certos tópicos apenas em b64
Questiona por que seria pouco provável treinar censura no próprio modelo de LLM
Menciona que a censura parece se aplicar apenas a alguns idiomas
Compartilha a experiência de contornar a censura interna usando um modelo pequeno (7b)
Menciona um truque antigo de prompt e questiona por que isso está na primeira página do HN
Menciona que algo parecido também funciona no ChatGPT e explica que conseguiu gerar piadas maliciosas