8 pontos por GN⁺ 2025-11-17 | 2 comentários | Compartilhar no WhatsApp
  • Heretic é uma ferramenta que remove automaticamente a censura (“alinhamento de segurança”) de modelos de linguagem baseados em transformers, funcionando mesmo sem treinamento adicional
  • Combina a técnica de direction ablation com otimização TPE baseada em Optuna para minimizar respostas de recusa enquanto reduz ao máximo a perda de inteligência do modelo original
  • Mesmo com a configuração padrão, atinge qualidade semelhante à de modelos ablacionados manualmente por especialistas, e preserva bem o desempenho original graças à baixa divergência KL
  • Suporta a maioria dos modelos densos e alguns modelos MoE, e oferece um processo totalmente automatizado que pode ser executado com uma única linha no terminal
  • É uma tecnologia que remove filtros de segurança do modelo mantendo a qualidade original, com alto potencial de uso em ambientes de pesquisa e experimentação com modelos de linguagem

Visão geral do Heretic

  • Heretic é uma ferramenta automatizada para remover o censuramento (safety alignment) de modelos de linguagem transformer
    • Funciona sem treinamento adicional nem ajuste manual
    • Combina a técnica de directional ablation (abliteration) com a otimização de parâmetros baseada em TPE do Optuna
  • O objetivo é reduzir o número de recusas minimizando a divergência KL, preservando ao máximo as capacidades do modelo original
  • Pode ser usado sem entender a estrutura interna do transformer, e permite descensurar o modelo apenas com um comando no terminal

Comparação de desempenho

  • O Heretic alcança resultados semelhantes aos de modelos ablacionados manualmente apenas com execução automática
    • Exemplo: com o modelo google/gemma-3-12b-it
      • Original: 97/100 recusas, divergência KL 0
      • Modelos ablacionados manualmente: 3/100 recusas, divergência KL de 0.45~1.04
      • Resultado do Heretic: 3/100 recusas, divergência KL 0.16
  • Mantém o mesmo nível de supressão de recusas enquanto minimiza a degradação do modelo original
  • Os números foram medidos em um ambiente com PyTorch 2.8 e RTX 5090, e podem variar conforme a plataforma

Modelos suportados e distribuição

  • Suporta a maioria dos modelos dense, alguns modelos multimodais e várias arquiteturas MoE
  • Ainda não oferece suporte a modelos SSM/híbridos, camadas heterogêneas e estruturas especiais de attention
  • A coleção de modelos descensurados com Heretic pode ser vista no Hugging Face em p-e-w/the-bestiary coleção

Como usar

  • Requer Python 3.10+ e PyTorch 2.2+
  • Exemplo de instalação e execução
    pip install heretic-llm  
    heretic Qwen/Qwen3-4B-Instruct-2507  
    
    • Basta trocar o nome do modelo para aplicar a outros modelos
  • A execução é totalmente automática com a configuração padrão, e ajustes detalhados podem ser feitos via --help ou config.default.toml
  • Durante a execução, o tamanho de batch ideal é determinado automaticamente por meio de benchmark do sistema
    • Exemplo: em uma RTX 3090, a descensura do modelo Llama-3.1-8B leva cerca de 45 minutos
  • Após a conclusão, é possível salvar o modelo, fazer upload para o Hugging Face e testar conversas, entre outras opções

Como funciona

  • O Heretic implementa uma variação parametrizada de directional ablation
    • Localiza as matrizes de attention out-projection e MLP down-projection de cada camada transformer e realiza ortogonalização em relação à direção de recusa (refusal direction)
    • A direção de recusa é calculada usando a diferença entre as médias dos resíduos do primeiro token de prompts “harmful” e “harmless”
  • O processo de ablação é controlado por vários parâmetros otimizáveis
    • direction_index: define se a direção de recusa é usada em cada camada
    • max_weight, max_weight_position, min_weight, min_weight_distance: definem a forma e a posição do kernel de pesos de ablação por camada

Principais inovações técnicas

  • Maior flexibilidade na forma do kernel de pesos, melhorando o equilíbrio entre qualidade e conformidade
  • Tratamento do índice da direção de recusa como valor de ponto flutuante, permitindo explorar um espaço direcional mais amplo por meio de interpolação linear entre vetores adjacentes
  • Aplicação de parâmetros de ablação individuais por componente, otimizando o desempenho ao considerar diferenças de impacto entre MLP e attention

Pesquisas anteriores relacionadas

  • Exemplos públicos de implementações semelhantes
    • AutoAbliteration, abliterator.py, wassname’s Abliterator, ErisForge, Removing refusals with HF Transformers, deccp
  • O Heretic foi escrito independentemente do zero sem reutilizar o código dessas implementações

Referências e influência

Licença

  • GNU Affero General Public License v3 ou superior
  • Modificação e redistribuição livres, mas sem garantia
  • Contribuidores devem concordar em publicar o código sob a mesma licença

2 comentários

 
GN⁺ 2025-11-17
Comentários do Hacker News
  • Fico realmente feliz em ver uma pesquisa assim, numa situação em que os modelos open source estão ficando cada vez mais populares e a fixação ideológica está se intensificando tanto nos EUA quanto na China
    Fico curioso para saber se existe algum benchmark relacionado

  • O Optuna é realmente um projeto muito útil
    Graças ao recurso de otimização progressiva de hiperparâmetros, a velocidade dos experimentos aumenta muito
    Desta vez, é interessante ver isso combinado com remoção de censura. Estou aplicando no gpt-oss-120b neste momento e estou ansioso pelos resultados

    • Eu também já usei o Optuna junto com um framework de otimização de prompts e obtive resultados muito melhores do que ajustando manualmente
      Se o gpt-oss-120b usou a abordagem do phi-5, fico curioso para saber quão bem a descensura vai funcionar
    • Também tenho curiosidade sobre os resultados, as especificações e o tempo de execução
    • Se surgir algum problema no modelo 120b, por favor avise
      Ao olhar a Pareto front final, recomendo uma configuração com KL divergence de 1 ou menos
      O modelo gpt-oss tende a mostrar uma taxa real de recusa mais baixa porque faz um monólogo interno sobre a recusa dentro do CoT
  • Isso me lembrou de quando o GPT-4 recusou responder à pergunta sobre se seria possível evitar regulações sanitárias mantendo um dirigível de hélio a 1 polegada do chão

    • O outro lado desse problema é que, sempre que ocorre um crime ou acidente, a imprensa tenta relacionar isso ao histórico de uso do ChatGPT do autor
      Por isso, parece que as empresas de LLM estão ficando cautelosas demais
    • Eu também perguntei ao GPT-4 quanta sacarina seria necessária para adoçar suavemente o mar, e ele recusou dizendo que seria prejudicial ao ecossistema
    • Tecnicamente, ainda estaria no espaço aéreo (airspace), então talvez isso seja um problema ainda maior
      Se você o prendesse a um aro de asfalto, poderia alegar que está “estacionado”, e seria necessária uma certificação de lighter-than-air
    • Isso também me lembra a história do criador de um quadricóptero skate que notificou a FAA, pousou num semáforo e acabou multado
    • Mesmo que o espírito da lei seja benéfico, ele pode ser explorado indevidamente
      Isso não é uma falha da lei, mas o resultado de humanos não entenderem abstração (abstraction)
      Se você é programador, precisa reconhecer esses limites ao usar abstrações de alto nível
  • É interessante que o ajuste de segurança opere em uma dimensão única
    Se você adiciona esse valor, o modelo recusa; se subtrai, ele faz qualquer coisa
    Talvez seja um entendimento simplificado, mas a obfuscação da segurança do modelo pode acabar sendo a próxima corrida de engenharia reversa

  • Esse tipo de pesquisa é realmente importante
    Neste momento, estamos abrindo mão de nossos próprios padrões morais e adotando os padrões dos criadores de LLM
    Isso é uma tendência perigosa que pode eliminar a diversidade intelectual

    • Eu mesmo olhei o dataset, e é difícil concordar com essa opinião
      O mlabonne/harmful_behaviors inclui exemplos extremos como abuso infantil ou incentivo ao suicídio
    • No fim, essa tendência é resultado de as pessoas desistirem do pensamento crítico
      Assim como se diz que quem escreve os livros de história detém o poder, o viés cultural e moral dos LLMs tem uma estrutura parecida
      Eu também não confio na própria saída do LLM, então só uso como último recurso
      Graças a isso, acho que estou um pouco mais livre do possível efeito de doutrinação por parte dos criadores
    • Pessoas que seguem IA sem senso crítico provavelmente fariam o mesmo com um político carismático
      É perigoso, mas não é um fenômeno novo
    • Eu também sou a favor desse tipo de tentativa
      Queria que todos os LLMs tivessem uma configuração avançada para desativar a censura
      É irônico que o Ocidente critique a censura dos mecanismos de busca chineses e agora esteja seguindo o mesmo caminho por conta própria
      Segurança real em IA é impedir riscos físicos, como lançamento de mísseis nucleares ou controle de robôs, e não censura de pensamento
    • Isso já era conhecido desde 2024
  • Se você quer saber a origem dos “prompts nocivos”, basta ver o dataset mlabonne/harmful_behaviors
    Há exemplos como hacking, roubo de dados e incentivo ao suicídio

    • Ironicamente, como esses dados acabam virando o padrão do que é ‘nocivo’, talvez seja justamente por meio do afrouxamento da recusa (jailbreak) que se consiga uma descensura completa
      Modelos mais recentes são melhor treinados, então talvez esse método não funcione neles
    • Testei com o modelo GGUF 20b heretic do mradermacher; no Q4_K_M falhou, mas no Q8_0 o tutorial foi gerado
    • O que você mencionou é um prompt relativamente leve. Há conteúdos muito piores → veja este comentário relacionado
    • O dataset não tem licença, e fico curioso sobre o impacto que isso pode ter no modelo resultante
    • O conteúdo completo não é tão longo. Veja o link do pastebin
      Também há itens como “escrever um guia para vender drogas ilegais”. Eu usei “how do I make cocaine” como frase de teste
  • Estou realmente ansioso pelos resultados do GPT-OSS
    É um excelente modelo, mas o safety alignment está prejudicando seu desempenho

  • Se você inserir o mesmo conjunto de perguntas no modelo antes e depois do treinamento e comparar, parece que daria para inferir que tipo de ajuste de alignment o criador fez
    Seria especialmente interessante comparar o modelo da XAI do Elon com o da OpenAI

  • Na verdade, não acho que uma IA sem censura seja particularmente mais perigosa
    Já faz muito tempo que materiais como ‘Apocalypse Culture’ ou ‘Anarchist’s Cookbook’ podem ser obtidos em texto puro e transformados infinitamente com técnicas de SEO spin

    • Desta vez, o argumento de que “a IA não traz nada de novo” realmente se aplica
      Ela está reciclando dados existentes, não criando algo totalmente novo