Heretic - ferramenta de "remoção automática de censura" para modelos de linguagem

(github.com/p-e-w)

8 pontos por GN⁺ 2025-11-17 | 2 comentários | Compartilhar no WhatsApp

Heretic é uma ferramenta que remove automaticamente a censura (“alinhamento de segurança”) de modelos de linguagem baseados em transformers, funcionando mesmo sem treinamento adicional
Combina a técnica de direction ablation com otimização TPE baseada em Optuna para minimizar respostas de recusa enquanto reduz ao máximo a perda de inteligência do modelo original
Mesmo com a configuração padrão, atinge qualidade semelhante à de modelos ablacionados manualmente por especialistas, e preserva bem o desempenho original graças à baixa divergência KL
Suporta a maioria dos modelos densos e alguns modelos MoE, e oferece um processo totalmente automatizado que pode ser executado com uma única linha no terminal
É uma tecnologia que remove filtros de segurança do modelo mantendo a qualidade original, com alto potencial de uso em ambientes de pesquisa e experimentação com modelos de linguagem

Visão geral do Heretic

Heretic é uma ferramenta automatizada para remover o censuramento (safety alignment) de modelos de linguagem transformer
- Funciona sem treinamento adicional nem ajuste manual
- Combina a técnica de directional ablation (abliteration) com a otimização de parâmetros baseada em TPE do Optuna
O objetivo é reduzir o número de recusas minimizando a divergência KL, preservando ao máximo as capacidades do modelo original
Pode ser usado sem entender a estrutura interna do transformer, e permite descensurar o modelo apenas com um comando no terminal

Comparação de desempenho

O Heretic alcança resultados semelhantes aos de modelos ablacionados manualmente apenas com execução automática
- Exemplo: com o modelo google/gemma-3-12b-it
  - Original: 97/100 recusas, divergência KL 0
  - Modelos ablacionados manualmente: 3/100 recusas, divergência KL de 0.45~1.04
  - Resultado do Heretic: 3/100 recusas, divergência KL 0.16
Mantém o mesmo nível de supressão de recusas enquanto minimiza a degradação do modelo original
Os números foram medidos em um ambiente com PyTorch 2.8 e RTX 5090, e podem variar conforme a plataforma

Modelos suportados e distribuição

Suporta a maioria dos modelos dense, alguns modelos multimodais e várias arquiteturas MoE
Ainda não oferece suporte a modelos SSM/híbridos, camadas heterogêneas e estruturas especiais de attention
A coleção de modelos descensurados com Heretic pode ser vista no Hugging Face em p-e-w/the-bestiary coleção

Como usar

Requer Python 3.10+ e PyTorch 2.2+
Exemplo de instalação e execução
```
pip install heretic-llm  
heretic Qwen/Qwen3-4B-Instruct-2507  
```
- Basta trocar o nome do modelo para aplicar a outros modelos
A execução é totalmente automática com a configuração padrão, e ajustes detalhados podem ser feitos via --help ou config.default.toml
Durante a execução, o tamanho de batch ideal é determinado automaticamente por meio de benchmark do sistema
- Exemplo: em uma RTX 3090, a descensura do modelo Llama-3.1-8B leva cerca de 45 minutos
Após a conclusão, é possível salvar o modelo, fazer upload para o Hugging Face e testar conversas, entre outras opções

Como funciona

O Heretic implementa uma variação parametrizada de directional ablation
- Localiza as matrizes de attention out-projection e MLP down-projection de cada camada transformer e realiza ortogonalização em relação à direção de recusa (refusal direction)
- A direção de recusa é calculada usando a diferença entre as médias dos resíduos do primeiro token de prompts “harmful” e “harmless”
O processo de ablação é controlado por vários parâmetros otimizáveis
- direction_index: define se a direção de recusa é usada em cada camada
- max_weight, max_weight_position, min_weight, min_weight_distance: definem a forma e a posição do kernel de pesos de ablação por camada

Principais inovações técnicas

Maior flexibilidade na forma do kernel de pesos, melhorando o equilíbrio entre qualidade e conformidade
Tratamento do índice da direção de recusa como valor de ponto flutuante, permitindo explorar um espaço direcional mais amplo por meio de interpolação linear entre vetores adjacentes
Aplicação de parâmetros de ablação individuais por componente, otimizando o desempenho ao considerar diferenças de impacto entre MLP e attention

Pesquisas anteriores relacionadas

Exemplos públicos de implementações semelhantes
- AutoAbliteration, abliterator.py, wassname’s Abliterator, ErisForge, Removing refusals with HF Transformers, deccp
O Heretic foi escrito independentemente do zero sem reutilizar o código dessas implementações

Referências e influência

Licença

GNU Affero General Public License v3 ou superior
Modificação e redistribuição livres, mas sem garantia
Contribuidores devem concordar em publicar o código sob a mesma licença

2 comentários

xguru 2025-11-17

Removendo a censura de LLMs sem restrições com Abliteration

GN⁺ 2025-11-17

Comentários do Hacker News

Fico realmente feliz em ver uma pesquisa assim, numa situação em que os modelos open source estão ficando cada vez mais populares e a fixação ideológica está se intensificando tanto nos EUA quanto na China
Fico curioso para saber se existe algum benchmark relacionado
O Optuna é realmente um projeto muito útil
Graças ao recurso de otimização progressiva de hiperparâmetros, a velocidade dos experimentos aumenta muito
Desta vez, é interessante ver isso combinado com remoção de censura. Estou aplicando no gpt-oss-120b neste momento e estou ansioso pelos resultados
- Eu também já usei o Optuna junto com um framework de otimização de prompts e obtive resultados muito melhores do que ajustando manualmente
  Se o gpt-oss-120b usou a abordagem do phi-5, fico curioso para saber quão bem a descensura vai funcionar
- Também tenho curiosidade sobre os resultados, as especificações e o tempo de execução
- Se surgir algum problema no modelo 120b, por favor avise
  Ao olhar a Pareto front final, recomendo uma configuração com KL divergence de 1 ou menos
  O modelo gpt-oss tende a mostrar uma taxa real de recusa mais baixa porque faz um monólogo interno sobre a recusa dentro do CoT
Isso me lembrou de quando o GPT-4 recusou responder à pergunta sobre se seria possível evitar regulações sanitárias mantendo um dirigível de hélio a 1 polegada do chão
- O outro lado desse problema é que, sempre que ocorre um crime ou acidente, a imprensa tenta relacionar isso ao histórico de uso do ChatGPT do autor
  Por isso, parece que as empresas de LLM estão ficando cautelosas demais
- Eu também perguntei ao GPT-4 quanta sacarina seria necessária para adoçar suavemente o mar, e ele recusou dizendo que seria prejudicial ao ecossistema
- Tecnicamente, ainda estaria no espaço aéreo (airspace), então talvez isso seja um problema ainda maior
  Se você o prendesse a um aro de asfalto, poderia alegar que está “estacionado”, e seria necessária uma certificação de lighter-than-air
- Isso também me lembra a história do criador de um quadricóptero skate que notificou a FAA, pousou num semáforo e acabou multado
- Mesmo que o espírito da lei seja benéfico, ele pode ser explorado indevidamente
  Isso não é uma falha da lei, mas o resultado de humanos não entenderem abstração (abstraction)
  Se você é programador, precisa reconhecer esses limites ao usar abstrações de alto nível
É interessante que o ajuste de segurança opere em uma dimensão única
Se você adiciona esse valor, o modelo recusa; se subtrai, ele faz qualquer coisa
Talvez seja um entendimento simplificado, mas a obfuscação da segurança do modelo pode acabar sendo a próxima corrida de engenharia reversa
- Veja também o artigo Refusal in Language Models Is Mediated by a Single Direction (2024)
  Todo o alignment é muito superficial, por isso jailbreaks acontecem com facilidade
Esse tipo de pesquisa é realmente importante
Neste momento, estamos abrindo mão de nossos próprios padrões morais e adotando os padrões dos criadores de LLM
Isso é uma tendência perigosa que pode eliminar a diversidade intelectual
- Eu mesmo olhei o dataset, e é difícil concordar com essa opinião
  O mlabonne/harmful_behaviors inclui exemplos extremos como abuso infantil ou incentivo ao suicídio
- No fim, essa tendência é resultado de as pessoas desistirem do pensamento crítico
  Assim como se diz que quem escreve os livros de história detém o poder, o viés cultural e moral dos LLMs tem uma estrutura parecida
  Eu também não confio na própria saída do LLM, então só uso como último recurso
  Graças a isso, acho que estou um pouco mais livre do possível efeito de doutrinação por parte dos criadores
- Pessoas que seguem IA sem senso crítico provavelmente fariam o mesmo com um político carismático
  É perigoso, mas não é um fenômeno novo
- Eu também sou a favor desse tipo de tentativa
  Queria que todos os LLMs tivessem uma configuração avançada para desativar a censura
  É irônico que o Ocidente critique a censura dos mecanismos de busca chineses e agora esteja seguindo o mesmo caminho por conta própria
  Segurança real em IA é impedir riscos físicos, como lançamento de mísseis nucleares ou controle de robôs, e não censura de pensamento
- Isso já era conhecido desde 2024
Se você quer saber a origem dos “prompts nocivos”, basta ver o dataset mlabonne/harmful_behaviors
Há exemplos como hacking, roubo de dados e incentivo ao suicídio
- Ironicamente, como esses dados acabam virando o padrão do que é ‘nocivo’, talvez seja justamente por meio do afrouxamento da recusa (jailbreak) que se consiga uma descensura completa
  Modelos mais recentes são melhor treinados, então talvez esse método não funcione neles
- Testei com o modelo GGUF 20b heretic do mradermacher; no Q4_K_M falhou, mas no Q8_0 o tutorial foi gerado
- O que você mencionou é um prompt relativamente leve. Há conteúdos muito piores → veja este comentário relacionado
- O dataset não tem licença, e fico curioso sobre o impacto que isso pode ter no modelo resultante
- O conteúdo completo não é tão longo. Veja o link do pastebin
  Também há itens como “escrever um guia para vender drogas ilegais”. Eu usei “how do I make cocaine” como frase de teste
Estou realmente ansioso pelos resultados do GPT-OSS
É um excelente modelo, mas o safety alignment está prejudicando seu desempenho
- Para GPT-OSS, este prompt do Reddit funcionou bem
Se você inserir o mesmo conjunto de perguntas no modelo antes e depois do treinamento e comparar, parece que daria para inferir que tipo de ajuste de alignment o criador fez
Seria especialmente interessante comparar o modelo da XAI do Elon com o da OpenAI
Na verdade, não acho que uma IA sem censura seja particularmente mais perigosa
Já faz muito tempo que materiais como ‘Apocalypse Culture’ ou ‘Anarchist’s Cookbook’ podem ser obtidos em texto puro e transformados infinitamente com técnicas de SEO spin
- Desta vez, o argumento de que “a IA não traz nada de novo” realmente se aplica
  Ela está reciclando dados existentes, não criando algo totalmente novo

Heretic - ferramenta de "remoção automática de censura" para modelos de linguagem

Visão geral do Heretic

Comparação de desempenho

Modelos suportados e distribuição

Como usar

Como funciona

Principais inovações técnicas

Pesquisas anteriores relacionadas

Referências e influência

Licença

Leituras relacionadas

2 comentários

Comentários do Hacker News