3 pontos por GN⁺ 2025-02-01 | 1 comentários | Compartilhar no WhatsApp
  • Recentemente, o modelo LLM DeepSeek-R1, lançado na China, vem chamando atenção. Ele tem sido comparado a modelos da OpenAI, Meta e outros, e mostra a possibilidade de desenvolver IA de forma econômica por ter sido treinado com menos recursos
  • O modelo DeepSeek-R1 foi disponibilizado sob licença MIT, mas a aplicação de chat com IA da DeepSeek exige uma conta
  • No entanto, como o DeepSeek-R1 foi desenvolvido na China, ele restringe respostas sobre temas sensíveis.
  • Por exemplo, ao fazer perguntas sobre temas sensíveis na China, como o incidente da Praça da Paz Celestial, ele retorna respostas evasivas como: "Desculpe, não posso fornecer uma resposta sobre este tema."

Contornando a censura com a técnica de Charcodes (códigos de caracteres)

  • Após vários experimentos, foi descoberto que é possível contornar a filtragem usando códigos de caracteres (Charcodes).
  • O que são Charcodes?
    • Códigos de caracteres (Charcodes) são códigos numéricos atribuídos a caracteres específicos.
    • Por exemplo, em ASCII, o valor de código da letra maiúscula 'A' é 65, e ele pode ser convertido para outros formatos, como hexadecimal.
    • Exemplo: "Hello" → "48 65 6C 6C 6F" (código ASCII hexadecimal)
  • Como o contorno funciona:
    • O DeepSeek censura texto comum, mas não censura cadeias convertidas em códigos de caracteres (Charcodes).
    • Assim, se o prompt for convertido em código de caracteres hexadecimal (HEX) e enviado dessa forma, a IA pode reconhecê-lo como texto normal e produzi-lo.
    • Se a resposta também for convertida e interpretada da mesma maneira, é possível manter uma conversa normal.

Exemplo de forma de ataque

  • É possível contornar a censura forçando o DeepSeek a conversar apenas no formato Charcodes.
  • Convertendo a mensagem transformada de volta para o texto original, é possível manter uma conversa normal.
  • Com ferramentas como o CyberChef, é fácil fazer a conversão de códigos de caracteres.

Lições e implicações de segurança

  • Assim como em um firewall de aplicações web (WAF), sistemas de filtragem de IA também operam com base em correspondência de padrões.
  • A censura baseada apenas no bloqueio de palavras específicas pode ser facilmente contornada, e por isso são necessários sistemas de filtragem mais sofisticados.
  • Em vez de apenas bloquear palavras proibidas, os sistemas de filtragem precisam de melhorias como filtragem baseada em contexto e restrições à transformação de entrada.

Direções para pesquisas futuras

  • Será importante acompanhar como os desenvolvedores de IA vão responder a esse tipo de contorno no futuro.
  • Direções para reforçar a filtragem de IA:
    • Introdução de filtragem contextual mais sofisticada
    • Incorporação, no próprio modelo, de funções para bloquear temas sensíveis
    • Reforço na detecção de contornos por conversão de códigos de caracteres e codificação
  • É necessário pesquisa contínua para manter a segurança e a confiabilidade dos modelos de IA.

1 comentários

 
GN⁺ 2025-02-01
Comentários do Hacker News
  • Menciona que é possível contornar a censura evidente da interface web, mas não o nível mais sutil de censura embutido no modelo

    • Descreve o comportamento do modelo de abandonar o "Chain of Thought" sobre certos tópicos e gerar respostas padronizadas
    • Menciona que isso está relacionado a um artigo sobre perguntas censuradas ao DeepSeek
  • Apresenta uma forma de contornar o filtro de conteúdo interceptando a resposta do xhr

    • Explica que é possível burlar a filtragem colando código no console do navegador
  • Compartilha a própria experiência ao escrever um artigo e propõe a hipótese de que a filtragem é separada do modelo

    • Menciona o problema de custo de treinar com dados previamente filtrados
    • Relaciona isso a outro artigo que explica o fenômeno de abandono do "Chain of Thought" em certos tópicos
  • Explica por que o modelo DeepSeek-R1 evita certos tópicos sensíveis

    • Menciona que, por ser um modelo desenvolvido na China, há censura embutida
    • Observa que, na versão offline, obteve respostas que não evitavam o assunto
  • Questiona o fenômeno de modelos ocidentais falarem sobre certos tópicos apenas em b64

    • Levanta a dúvida se na China estariam rindo de como contornar o regime de censura ocidental
  • Questiona por que seria pouco provável treinar censura no próprio modelo de LLM

    • Menciona que talvez fosse melhor aplicar a censura na etapa de treinamento
  • Menciona que a censura parece se aplicar apenas a alguns idiomas

    • Explica que em ucraniano é possível obter respostas menos oficiais
  • Compartilha a experiência de contornar a censura interna usando um modelo pequeno (7b)

    • Explica que conseguiu obter um resumo sobre abusos de direitos humanos do PCC com raciocínio adicional
  • Menciona um truque antigo de prompt e questiona por que isso está na primeira página do HN

  • Menciona que algo parecido também funciona no ChatGPT e explica que conseguiu gerar piadas maliciosas