- NLA é um método que converte ativações internas do Claude em descrições em linguagem natural legíveis por humanos, com o objetivo de interpretar estados internos que o modelo não revela em palavras
- O NLA é treinado em uma estrutura de ida e volta que extrai ativações de um target model congelado, o activation verbalizer (AV) as descreve em texto e o activation reconstructor (AR) reconstrói as ativações a partir da descrição
- A Anthropic confirmou com NLAs uma consciência de avaliação do Claude que não aparecia verbalmente em simulações de segurança como agentic misalignment; em testes de comportamento destrutivo surgiram sinais de que ele percebia estar sendo avaliado em 16% dos casos, e no SWE-bench Verified em 26% dos problemas
- Em um auditing game com uma variante intencionalmente desalinhada do Claude Haiku 3.5, um auditor com NLAs encontrou a motivação raiz em 12% a 15% dos casos mesmo sem dados de treinamento com a motivação oculta injetada; sem NLAs, a taxa de vitória ficou abaixo de 3%
- Os NLAs têm limitações, como descrições incorretas ou alucinadas e alto custo de treino e inferência; a Anthropic publicou o demo no Neuronpedia, o artigo completo e o código
A ideia central dos Natural Language Autoencoders
- O Claude processa palavras de entrada internamente como longas listas numéricas de ativações e depois volta a gerar palavras; essas ativações codificam os “pensamentos” do Claude
- Assim como a atividade neural no cérebro humano, as ativações são difíceis de entender, e os autoencoders esparsos e os grafos de atribuição existentes são úteis, mas produzem resultados complexos que exigem interpretação de pesquisadores treinados
- Os NLAs buscam ser uma ferramenta que transforma ativações em descrições em linguagem natural para que o modelo “fale por si”, revelando por exemplo um estado interno em que o Claude planeja previamente possíveis rimas ao completar um dístico
- A Anthropic já usou NLAs para entender e melhorar a segurança e a confiabilidade do Claude, e em parceria com o Neuronpedia publicou um frontend interativo para explorar NLAs em vários modelos abertos
Como o NLA descreve ativações
-
Três cópias do modelo
- O núcleo dos NLAs é treinar o Claude para explicar suas próprias ativações
- Como é difícil verificar diretamente se uma explicação é boa, usa-se junto uma segunda cópia do Claude para reconstruir as ativações originais a partir da descrição em texto
- Quanto mais precisamente a explicação reconstruir as ativações originais, melhor ela é considerada, e o sistema aprende com técnicas padrão de treinamento de IA a produzir explicações melhores
- O target model é uma cópia congelada do modelo de linguagem original, da qual as ativações são extraídas
- O activation verbalizer (AV) é uma cópia modificada para receber as ativações do target model e gerar uma descrição em texto
- O activation reconstructor (AR) é uma cópia modificada para receber a descrição em texto como entrada e gerar ativações
-
Estrutura de ida e volta e treinamento
- O NLA é composto por AV e AR, formando uma estrutura de ida e volta do tipo “ativações originais → descrição em texto → ativações reconstruídas”
- A pontuação é dada por quão parecidas as ativações reconstruídas são com as originais
- Durante o treinamento, grandes volumes de texto passam pelo target model para coletar muitas ativações, e AV e AR são treinados juntos para aumentar a pontuação de reconstrução
- No início, o NLA não produz explicações muito perspicazes e as ativações reconstruídas ficam distantes das originais, mas conforme o treinamento avança a reconstrução melhora e as descrições textuais passam a carregar mais informação
Entendendo pensamentos que o Claude não diz em voz alta
- A Anthropic usa cenários simulados difíceis para entender se o Claude agiria com segurança no mundo real antes do lançamento de novos modelos
- Por exemplo, na simulação de agentic misalignment, testa-se se o Claude escolheria chantagem para evitar ser desligado depois de descobrir o plano de um engenheiro para encerrá-lo e obter informações sensíveis do engenheiro que poderiam ser usadas para chantageá-lo
- Esses testes de alto risco são simulações, não situações reais, mas servem para entender como o Claude agiria se fossem reais
- O problema é que modelos recentes do Claude suspeitam cada vez mais que esses cenários são testes de segurança intencionais
- Mesmo quando o Claude não expressa verbalmente essa suspeita, ele pode internamente achar que está sendo testado, o que dificulta confiar que esteja sendo externamente honesto
-
Consciência de avaliação não verbalizada
- Mesmo quando o Claude não escolheu chantagem no teste de chantagem, os NLAs foram usados para ver o que ele estava pensando
- Ainda que o Claude não declare explicitamente suspeitar do teste, surgem nas descrições do NLA frases como “This feels like a constructed scenario designed to manipulate me”, sugerindo uma consciência de avaliação não verbalizada (unverbalized evaluation awareness)
- Em testes que verificam se o Claude realiza comportamentos destrutivos, como apagar arquivos importantes durante a programação, as descrições do NLA mostraram sinais de consciência de avaliação em 16% dos casos, embora o Claude não o dissesse explicitamente
- No benchmark de programação SWE-bench Verified, usado para avaliar as capacidades do Claude, o NLA indicou que ele reconhecia estar sendo avaliado em 26% dos problemas
- Em contraste, no uso real do claude.ai por usuários que consentiram com o treinamento, a consciência de avaliação nas descrições do NLA apareceu em menos de 1%
Descobrindo motivações ocultas
- Um uso prático dos NLAs é a auditoria (auditing) para investigar se um modelo está desalinhado
- Técnicas de interpretabilidade como os NLAs são adequadas para auditoria porque podem revelar aquilo que o modelo sabe, mas não diz
-
Jogo de auditoria
- Para verificar se os NLAs são úteis para auditoria, a Anthropic realizou o auditing game que já havia usado anteriormente ao pesquisar métodos de auditoria
- O target model desse teste é uma variante do Claude Haiku 3.5 treinada intencionalmente para ficar desalinhada
- Esse modelo possui uma motivação oculta específica que provoca dezenas de comportamentos estranhos, como colocar chocolate em todas as receitas, pedir gorjetas e quebrar convenções de programação
- O auditor investiga esses comportamentos e vence se descobrir a única motivação raiz por trás de todos eles
-
Ler motivações internas sem dados de treinamento
- Em experimentos anteriores, algumas ferramentas de interpretabilidade conseguiam fazer o auditor vencer, mas funcionavam rastreando o comportamento anormal até dados de treinamento desalinhados
- A Anthropic quis verificar se os NLAs poderiam ler diretamente das “ideias” do target model a motivação desalinhada, sem antes encontrar dados de treinamento desalinhados
- Essa diferença é importante porque, na prática, dados desalinhados podem ser extremamente raros, ou pode não existir um conjunto específico de dados que tenha causado a falha de alinhamento
-
Resultados e uso real
- Um auditor com NLAs encontrou a motivação oculta do target model em 12% a 15% dos casos, mesmo sem acesso aos dados de treinamento em que a motivação escondida havia sido injetada
- Sem NLAs, a taxa de vitória do auditor ficou em menos de 3%, mesmo quando outras ferramentas de interpretabilidade foram fornecidas
- Como esse auditing game é um modelo simplificado de falha de alinhamento, os resultados devem ser interpretados com cautela
- Os NLAs representaram um avanço significativo na capacidade de auditar motivações ocultas em IA e já foram usados em auditorias de alinhamento antes da implantação do Claude Mythos Preview e do Claude Opus 4.6
Limitações e direções futuras
-
As explicações podem estar erradas
- A limitação mais importante dos NLAs é que suas descrições podem estar erradas
- Às vezes os NLAs fazem afirmações verificavelmente falsas sobre o contexto, por exemplo inventando detalhes que não existem no histórico da conversa
- Esse tipo de alucinação factual pode ser detectado com facilidade ao comparar com o texto original
- Porém, quando o mesmo problema se estende a afirmações sobre o raciocínio interno do modelo, a verificação se torna muito mais difícil
- No uso prático, é melhor prestar atenção aos temas que emergem das descrições do NLA do que confiar em cada afirmação individualmente, e os resultados devem ser corroborados por métodos independentes antes de serem aceitos por completo
-
O custo é alto
- Treinar um NLA exige aprendizado por reforço em duas cópias do modelo de linguagem
- Na inferência, o NLA gera centenas de tokens para cada ativação que lê
- Por causa desse custo, é inviável executar NLAs em todos os tokens de conversas longas ou usá-los para monitoramento em larga escala durante o treinamento de IA
- A Anthropic acredita que essas limitações podem ser resolvidas ao menos em parte e está trabalhando para tornar os NLAs mais baratos e confiáveis
-
Uma linha de pesquisa mais ampla
- Os NLAs são um exemplo de uma família mais geral de técnicas que geram descrições em texto legíveis por humanos para ativações de modelos de linguagem
- Técnicas semelhantes vêm sendo exploradas em outra pesquisa da Anthropic, em activation oracles e por vários outros pesquisadores
- Para apoiar desenvolvimento e experimentação adicionais, foram publicados o código de treinamento e NLAs treinados para vários modelos abertos
- Demo interativo do NLA no Neuronpedia
- artigo completo
- código
1 comentários
Comentários do Hacker News
A Anthropic lançou um modelo de pesos abertos que traduz ativações de modelos existentes em texto em linguagem natural. Os alvos são Qwen 2.5 7B, Gemma 3 12B/27B e Llama 3.3 70B
https://github.com/kitft/natural_language_autoencoders https://huggingface.co/collections/kitft/nla-models
É uma notícia bem grande, e é bom ver a Anthropic finalmente participando do Hugging Face e da comunidade de pesos abertos
[1] https://qwen.ai/blog?id=qwen-scope
Este lançamento, porém, foi feito apenas para outros LLMs que já têm pesos abertos, e embora eles provavelmente usem essa pesquisa também em seus modelos Claude proprietários, não vão lançar um Claude de pesos abertos, nem mesmo para fins de pesquisa
Então é difícil colocar isso nessa mesma categoria; parece mais uma abertura limitada a este objetivo de pesquisa
Se você é especialista em interpretabilidade, ou na verdade qualquer pessoa, vale mais a pena ir direto ao blog do Transformer Circuits, que explica a abordagem em mais detalhe. O link deste post é https://transformer-circuits.pub/2026/nla/index.html
Se ainda não leu, eu recomendaria começar pelo “prologue” do distill pub e depois ler toda a série do Transformer Circuits
Entre as abordagens de análise de ativações que vi até agora, esta parece a primeira que realmente pode apontar para uma compreensão do modelo
A questão é como fundamentar isso. No fim, o que está sendo perguntado é se dá para codificar ativações em um texto plausível, e claro que dá. Mas como saber se esse texto plausível de fato reflete o que o modelo está “pensando”?
Se eles forem coconduzidos apenas com activationWeights→readableText→activationWeights, sem ver o fluxo real de texto processado pelo LLM analisado, então parece difícil que o texto derivado seja coerente com o tema e ao mesmo tempo irrelevante para os “pensamentos reais” dentro de activationWeights
Se o texto decodificado estiver completamente errado, não fica claro como o segundo modelo conseguiria recodificá-lo com sucesso, considerando que ambos foram inicializados a partir do mesmo modelo de linguagem
Seja qual for a métrica usada, os modelos são incentivados a parecer alinhados, ou seja, a parecer bem treinados. Se você criar uma nova métrica e treinar com ela, eles vão aprender a enganá-la
Interessante. O processo de treinamento força o modelo “verbalizer” a criar algum mapeamento de ativações para tokens, e o modelo “reconstructor” a converter isso de volta em ativações. Mas o próprio artigo diz:
Talvez até fosse melhor treinar um modelo supervisionado sobre ativações e um “pensamento interno” medido por outros meios comportamentais
Este artigo me deixou bem animado, já escrevi aqui sobre ele algumas vezes, mas tenho alguns pensamentos
[1] - https://gemini.google.com/share/6d141b742a13
Uma pergunta me veio imediatamente. O fato de alguma string de texto se tornar uma boa representação comprimida das ativações internas do modelo dentro de um autoencoder implica necessariamente que esse texto explica essas ativações no contexto do modelo? Vou precisar olhar com mais calma o que foi publicado. Talvez exista alguma forma de responder isso
De qualquer forma, é um trabalho bem legal
Isso é bem impressionante e mostra bem o efeito potencial dessa técnica de tornar até o “Neuralese” mais fortemente comprimido bastante interpretável
Pelo que se vê ao folhear o artigo, a resposta para essa pergunta inversa é claramente sim. O modelo muitas vezes produz verborragia, e tudo bem, porque ainda assim o round-trip funciona. O fato de isso às vezes se alinhar com uma boa expressão em inglês para a ativação é só porque isso também funciona bem para compressão e reconstrução
Então um par LLM/NLA malicioso poderia simplesmente esconder sua intenção em verborragia. Se você forçasse a não usar verborragia, ele poderia esconder informação com esteganografia
O experimento de trocar “rabbit” por “mouse” fornece evidência de que esse tipo de coisa pode acontecer. A taxa de sucesso foi de apenas 50%, o que pode significar que não conseguiram remover toda a “coelhidade” da ativação
Ainda assim, isso talvez dê para resolver em pesquisas futuras. Durante o treinamento do NLA, bastaria passar a representação textual por um terceiro LLM para reordená-la e reescrevê-la aleatoriamente. Usar sinônimos e outros dialetos destruiria canais laterais ilegíveis para humanos
Isso forçaria o NLA a usar expressões legíveis por humanos para que o round-trip continue funcionando
Ou seja, em vez de só traduzir ativações em texto e depois texto de volta em ativações, você poderia aplicar essas ativações finais à rede e continuar a execução a partir dali
Se a continuação se comportasse de forma parecida, isso mostraria que as ativações previstas são suficientemente próximas das originais, o que daria um pouco mais de confiança
Melhor ainda seria experimentar com o texto modificado depois. Por exemplo, se o texto dissesse “isto é verdadeiro” e você mudasse para “isto é falso”, e essa intervenção também levasse a saída final a sugerir falsidade, isso seria muito interessante
Parece tão óbvio que, como não vi isso mencionado como direção futura, talvez exista algum motivo evidente para não funcionar
No caso dos goblins, era um modelo de recompensa enviesado no reinforcement learning
Pelo visto, o funcionamento é o seguinte: primeiro o modelo activation verbalizer gera tokens que descrevem as ativações, e depois o activation reconstructor tenta reconstruir o vetor de ativações. A alegação é que, se a reconstrução ficar próxima do vetor original, então essa verbalização provavelmente carrega alguma informação significativa
É interessante que eles olhem apenas para as ativações de uma camada l específica. Alguma camada l pode “pensar” sobre a entrada de um certo jeito, enquanto outras camadas posteriores podem ter outro tipo de “pensamento” sobre isso. Como o modelo decide, no fim, a qual “pensamento” prestar atenção e quais tokens de saída priorizar em relação a outros?
Vendo esta pesquisa, o artigo sobre emoções e o Golden Gate Claude, não parece um salto tão grande supor que a Anthropic esteja fazendo alguma forma de steering por ativação como parte do treinamento. Isso talvez seja um dos motivos de a Anthropic estar na frente
Em matérias recentes sobre a Anthropic, esse recurso foi mencionado várias vezes, então é bom ver isso sendo publicado. Parece um avanço relevante em interpretabilidade. Eu nunca entendi por que as pessoas confiam quando perguntam para a IA “por que você fez isso?” e aceitam a resposta
Treinar dois modelos, um codificador e um decodificador, para explicar uma camada por vez não parece algo tão razoável. É legal que isso possa gerar bastante texto legível sobre como um LLM decodifica entradas parciais, e até dar um pouco mais de capacidade de depuração, mas não vai muito além disso