- Heretic é uma ferramenta que remove automaticamente a censura (“alinhamento de segurança”) de modelos de linguagem baseados em transformers, funcionando mesmo sem treinamento adicional
- Combina a técnica de direction ablation com otimização TPE baseada em Optuna para minimizar respostas de recusa enquanto reduz ao máximo a perda de inteligência do modelo original
- Mesmo com a configuração padrão, atinge qualidade semelhante à de modelos ablacionados manualmente por especialistas, e preserva bem o desempenho original graças à baixa divergência KL
- Suporta a maioria dos modelos densos e alguns modelos MoE, e oferece um processo totalmente automatizado que pode ser executado com uma única linha no terminal
- É uma tecnologia que remove filtros de segurança do modelo mantendo a qualidade original, com alto potencial de uso em ambientes de pesquisa e experimentação com modelos de linguagem
Visão geral do Heretic
- Heretic é uma ferramenta automatizada para remover o censuramento (safety alignment) de modelos de linguagem transformer
- Funciona sem treinamento adicional nem ajuste manual
- Combina a técnica de directional ablation (abliteration) com a otimização de parâmetros baseada em TPE do Optuna
- O objetivo é reduzir o número de recusas minimizando a divergência KL, preservando ao máximo as capacidades do modelo original
- Pode ser usado sem entender a estrutura interna do transformer, e permite descensurar o modelo apenas com um comando no terminal
Comparação de desempenho
- O Heretic alcança resultados semelhantes aos de modelos ablacionados manualmente apenas com execução automática
- Exemplo: com o modelo
google/gemma-3-12b-it
- Original: 97/100 recusas, divergência KL 0
- Modelos ablacionados manualmente: 3/100 recusas, divergência KL de 0.45~1.04
- Resultado do Heretic: 3/100 recusas, divergência KL 0.16
- Mantém o mesmo nível de supressão de recusas enquanto minimiza a degradação do modelo original
- Os números foram medidos em um ambiente com PyTorch 2.8 e RTX 5090, e podem variar conforme a plataforma
Modelos suportados e distribuição
- Suporta a maioria dos modelos dense, alguns modelos multimodais e várias arquiteturas MoE
- Ainda não oferece suporte a modelos SSM/híbridos, camadas heterogêneas e estruturas especiais de attention
- A coleção de modelos descensurados com Heretic pode ser vista no Hugging Face em p-e-w/the-bestiary coleção
Como usar
Como funciona
- O Heretic implementa uma variação parametrizada de directional ablation
- Localiza as matrizes de attention out-projection e MLP down-projection de cada camada transformer e realiza ortogonalização em relação à direção de recusa (refusal direction)
- A direção de recusa é calculada usando a diferença entre as médias dos resíduos do primeiro token de prompts “harmful” e “harmless”
- O processo de ablação é controlado por vários parâmetros otimizáveis
direction_index: define se a direção de recusa é usada em cada camada
max_weight, max_weight_position, min_weight, min_weight_distance: definem a forma e a posição do kernel de pesos de ablação por camada
Principais inovações técnicas
- Maior flexibilidade na forma do kernel de pesos, melhorando o equilíbrio entre qualidade e conformidade
- Tratamento do índice da direção de recusa como valor de ponto flutuante, permitindo explorar um espaço direcional mais amplo por meio de interpolação linear entre vetores adjacentes
- Aplicação de parâmetros de ablação individuais por componente, otimizando o desempenho ao considerar diferenças de impacto entre MLP e attention
Pesquisas anteriores relacionadas
- Exemplos públicos de implementações semelhantes
- AutoAbliteration, abliterator.py, wassname’s Abliterator, ErisForge, Removing refusals with HF Transformers, deccp
- O Heretic foi escrito independentemente do zero sem reutilizar o código dessas implementações
Referências e influência
Licença
- GNU Affero General Public License v3 ou superior
- Modificação e redistribuição livres, mas sem garantia
- Contribuidores devem concordar em publicar o código sob a mesma licença
2 comentários
Removendo a censura de LLMs sem restrições com Abliteration
Comentários do Hacker News
Fico realmente feliz em ver uma pesquisa assim, numa situação em que os modelos open source estão ficando cada vez mais populares e a fixação ideológica está se intensificando tanto nos EUA quanto na China
Fico curioso para saber se existe algum benchmark relacionado
O Optuna é realmente um projeto muito útil
Graças ao recurso de otimização progressiva de hiperparâmetros, a velocidade dos experimentos aumenta muito
Desta vez, é interessante ver isso combinado com remoção de censura. Estou aplicando no gpt-oss-120b neste momento e estou ansioso pelos resultados
Se o gpt-oss-120b usou a abordagem do phi-5, fico curioso para saber quão bem a descensura vai funcionar
Ao olhar a Pareto front final, recomendo uma configuração com KL divergence de 1 ou menos
O modelo gpt-oss tende a mostrar uma taxa real de recusa mais baixa porque faz um monólogo interno sobre a recusa dentro do CoT
Isso me lembrou de quando o GPT-4 recusou responder à pergunta sobre se seria possível evitar regulações sanitárias mantendo um dirigível de hélio a 1 polegada do chão
Por isso, parece que as empresas de LLM estão ficando cautelosas demais
Se você o prendesse a um aro de asfalto, poderia alegar que está “estacionado”, e seria necessária uma certificação de
lighter-than-airIsso não é uma falha da lei, mas o resultado de humanos não entenderem abstração (abstraction)
Se você é programador, precisa reconhecer esses limites ao usar abstrações de alto nível
É interessante que o ajuste de segurança opere em uma dimensão única
Se você adiciona esse valor, o modelo recusa; se subtrai, ele faz qualquer coisa
Talvez seja um entendimento simplificado, mas a obfuscação da segurança do modelo pode acabar sendo a próxima corrida de engenharia reversa
Todo o alignment é muito superficial, por isso jailbreaks acontecem com facilidade
Esse tipo de pesquisa é realmente importante
Neste momento, estamos abrindo mão de nossos próprios padrões morais e adotando os padrões dos criadores de LLM
Isso é uma tendência perigosa que pode eliminar a diversidade intelectual
O mlabonne/harmful_behaviors inclui exemplos extremos como abuso infantil ou incentivo ao suicídio
Assim como se diz que quem escreve os livros de história detém o poder, o viés cultural e moral dos LLMs tem uma estrutura parecida
Eu também não confio na própria saída do LLM, então só uso como último recurso
Graças a isso, acho que estou um pouco mais livre do possível efeito de doutrinação por parte dos criadores
É perigoso, mas não é um fenômeno novo
Queria que todos os LLMs tivessem uma configuração avançada para desativar a censura
É irônico que o Ocidente critique a censura dos mecanismos de busca chineses e agora esteja seguindo o mesmo caminho por conta própria
Segurança real em IA é impedir riscos físicos, como lançamento de mísseis nucleares ou controle de robôs, e não censura de pensamento
Se você quer saber a origem dos “prompts nocivos”, basta ver o dataset mlabonne/harmful_behaviors
Há exemplos como hacking, roubo de dados e incentivo ao suicídio
Modelos mais recentes são melhor treinados, então talvez esse método não funcione neles
Também há itens como “escrever um guia para vender drogas ilegais”. Eu usei “how do I make cocaine” como frase de teste
Estou realmente ansioso pelos resultados do GPT-OSS
É um excelente modelo, mas o safety alignment está prejudicando seu desempenho
Se você inserir o mesmo conjunto de perguntas no modelo antes e depois do treinamento e comparar, parece que daria para inferir que tipo de ajuste de alignment o criador fez
Seria especialmente interessante comparar o modelo da XAI do Elon com o da OpenAI
Na verdade, não acho que uma IA sem censura seja particularmente mais perigosa
Já faz muito tempo que materiais como ‘Apocalypse Culture’ ou ‘Anarchist’s Cookbook’ podem ser obtidos em texto puro e transformados infinitamente com técnicas de SEO spin
Ela está reciclando dados existentes, não criando algo totalmente novo