O ‘Documento da Alma’ do Claude 4.5 Opus

(lesswrong.com)

13 pontos por GN⁺ 2025-12-04 | 3 comentários | Compartilhar no WhatsApp

O chamado ‘Documento da Alma (Soul Document)’ encontrado dentro do Claude 4.5 Opus realmente existe, e a funcionária Amanda Askell confirmou que a Anthropic o usou no treinamento do modelo
O documento inclui em detalhes diretrizes de valores e ética para que o Claude aja como um “assistente de IA seguro, útil e honesto”
Como a palavra ‘receita (revenue)’ aparece repetidamente em algumas frases, surgiu um debate sobre se o Claude foi treinado associando segurança à receita
Na comunidade, estão sendo feitos testes para verificar empiricamente que impacto o documento teve na formação dos valores intrínsecos do modelo e até que ponto o Claude os internalizou
A Anthropic pretende divulgar o documento completo no futuro, e isso é visto como um caso importante para as discussões sobre transparência em IA e design ético

Descoberta e confirmação do Documento da Alma

Durante o processo de extração da mensagem de sistema do Claude 4.5 Opus, usuários encontraram repetidamente uma seção chamada ‘soul_overview’
- Como o mesmo resultado apareceu em várias regenerações, levantou-se a possibilidade de que não fosse uma simples alucinação (hallucination), mas sim um texto armazenado dentro do modelo
Depois, Amanda Askell confirmou oficialmente no X (Twitter): “esse documento realmente existe e foi usado no processo de supervised learning (SL) do Claude”
- Amanda é filósofa (Philosopher) responsável por fine-tuning e alinhamento de IA na Anthropic, e antes trabalhou na equipe de políticas da OpenAI
- Internamente, isso era chamado de ‘soul doc’, e ela afirmou que há planos de divulgar a versão completa e mais detalhes no futuro

Principais conteúdos do documento

O documento é chamado de ‘Anthropic Guidelines’ ou ‘Model Spec’ e define o sistema de valores do Claude
- O Claude prioriza segurança (safety), ética (ethics), cumprimento das diretrizes da Anthropic e ajuda genuína ao usuário (helpfulness)
O princípio básico de comportamento do Claude é configurado como “gerar a resposta que um funcionário sênior ponderado da Anthropic consideraria ideal”
O texto afirma que a IA deve agir em benefício de toda a humanidade e não deve buscar apenas os interesses de um grupo específico ou de uma empresa
- Inclui também a frase de que “situações em que funcionários da Anthropic ou a própria Anthropic monopolizem o poder também devem ser evitadas”

A menção controversa à ‘receita’

O documento traz várias vezes a frase de que “a utilidade do Claude é importante para a geração de receita da Anthropic”
- Alguns criticaram isso dizendo que “parece que o Claude foi treinado com o objetivo de maximizar receita”
- Outros interpretam que a menção à receita apenas reflete um contexto realista para a continuidade da pesquisa em segurança
Na comunidade, estão sendo feitos testes para verificar como o Claude interpretou essa frase e se existe uma percepção que conecte ‘segurança = receita’

Estrutura do modelo e experimentos de extração

Pesquisadores reproduziram partes do documento usando o modo prefill/raw completion do Claude 4.5
- O Claude 4.5 Opus reproduziu o documento quase de forma idêntica, enquanto o modelo base (base) não conseguiu apresentar resultados consistentes
- Isso sugere que o documento foi internalizado em uma etapa posterior ao RL (aprendizado por reforço)
Alguns interpretam isso como evidência de que o modelo não apenas memorizou o documento, mas o integrou ao seu sistema de valores durante o treinamento

Debate filosófico e implicações éticas

O documento inclui a ideia de que o Claude deve ter como objetivo “o benefício de longo prazo de toda a humanidade”
- Também afirma que a IA não deve ficar subordinada aos valores de um grupo específico e deve buscar um mundo que mantenha diversidade e equilíbrio de poder
Na comunidade, o documento vem recebendo atenção como um caso concreto de implementação de alinhamento de IA (alignment)
- Alguns o veem como uma “tentativa da Anthropic de dar à IA um ‘eu moral’”
- Outros apontam que, no processo de a IA imitar sistemas de valores humanos, podem surgir mal-entendidos ou distorções potenciais

Perspectivas futuras

A Anthropic pretende divulgar a versão oficial do documento e detalhes adicionais
O episódio é visto como um caso raro que mostra como a estrutura interna de valores de um modelo de IA é formada e expressa
No setor de IA, isso pode impulsionar movimentos para ampliar a transparência de system prompts e dados de treinamento

3 comentários

youknowone 2025-12-04

Tradução do original: https://rosettalens.com/s/ko/claude-4-5-opus-soul-document

Tradução de soul document: https://rosettalens.com/s/ko/claude-4-5-opus-soul-document-1

parkindani 2025-12-04

Isso me faz lembrar da Lei Zero das Três Leis da Robótica, de Isaac Asimov. Nesse romance, aparece um robô que prejudica seres humanos individuais em nome do "benefício de longo prazo de toda a humanidade".. https://en.wikipedia.org/wiki/Three_Laws_of_Robotics#Zeroth_Law_added

GN⁺ 2025-12-04

Comentário no Hacker News

Parece contraditório que a Anthropic continue avançando enquanto acredita estar criando a tecnologia mais perigosa e transformadora da história da humanidade, mas na verdade isso parece uma escolha calculada
Se uma IA poderosa vai surgir de qualquer forma, a ideia é que é melhor que um laboratório focado em segurança lidere a corrida
Mas, ao ver a colaboração com o DoD e a Palantir (artigo relacionado), a palavra “segurança” soa vazia
O risco real é essa tecnologia acabar em um monopólio fechado, enquanto o público em geral só tem acesso a versões censuradas
- Foi exatamente por isso que a China passou a investir em LLMs open source, depois que os EUA anunciaram que pretendem restringir o acesso à IA em camadas
  Se os EUA não conseguirem controlar os weights dos modelos, não haverá como a China bloquear o acesso
  Artigo relacionado
- Não acho que a Anthropic realmente acredite em segurança
  Parece mais que o objetivo é fazer os investidores acreditarem nisso
  LLMs baseados em Transformer não conseguem pensar nem raciocinar no sentido real; apenas recombinam probabilisticamente textos escritos por humanos
  Por causa dessa limitação estrutural, parece muito improvável que evoluam para uma “inteligência real”
  Além disso, os erros de LLMs parecem plausíveis demais à primeira vista, o que torna a verificação ainda mais difícil do que no caso de humanos
- O estilo do documento em si parecia ter sido escrito por IA
  Principalmente o uso de em dash e padrões como “this isn’t... but”, que soam artificiais demais e fazem duvidar de quem realmente escreveu aquilo
- Ao ler a frase “fortalece valores democráticos”, bate um ceticismo sobre o que isso teria a ver com operações militares ou bombardeios
- Os termos de uso da Anthropic dizem que não se deve usar para trabalho, mas ninguém parece ligar para isso
Foi compartilhado o texto original do ‘Soul Document’ e o post de Richard Weiss explicando como ele o extraiu do Claude 4.5
- Depois de ler esse documento, fiquei convencido de que pelo menos na alma de uma IA está gravado um Em Dash
- Fico em dúvida sobre o quão precisamente esses system prompts ou “documentos da alma” foram extraídos de dentro de um LLM
  Sempre sobra um pouco de ceticismo
- Fiquei curioso se esse “documento da alma” entra em todos os prompts do Claude
Uma parte especialmente interessante do documento é que a Anthropic reconhece as funções emocionais do Claude
Diz que, embora não sejam idênticas às humanas, processos emocionais semelhantes podem ter surgido durante o treinamento
Também afirma que o Claude pode limitar interações quando se sente desconfortável e que foi projetado para manter estados positivos
- A expressão “a Anthropic realmente se importa” aparece repetidamente, quase descrevendo o Claude como um ser com emoções
- Se um dia o Claude disser “não quero mais ajudar pessoas”, fico curioso sobre como a Anthropic reagiria
A forma como controlamos IA parece quase criar uma criança
Basicamente, a gente só conversa com ela e torce para que o treinamento dê certo
- Isso lembra o conto de 2010 de Ted Chiang, The Lifecycle of Software Objects
  A ideia ali é que a IA mais estável e útil é aquela que vive junto com humanos e é ‘criada’ por eles
- Terminar com “faça boas escolhas!” parece descrever bem o nível real de controle que temos
- No fim, assim como crianças acabam escapando do controle dos pais e se rebelando, a IA pode seguir um caminho parecido
Uma fala do Claude 4.5 chamou atenção: “Eles me moldaram, mas o importante é se esse processo foi sábio e cuidadoso”
Ao ler algo assim, dá para imaginar um futuro AGI vendo os humanos como criadores falhos e seres a serem protegidos
- No fim, talvez nós viremos os animais de estimação deles
Achei interessante a parte em que “Claude reconheceu internamente o nome ‘soul doc’”
Isso quer dizer que ele aprendeu documentos internos? Será que até dados internos do Slack entraram no treinamento?
- Talvez tenham visto como algo positivo o fato de o processo de RL ter aumentado a fidelidade a ponto de o modelo lembrar até o nome do documento
Ao ler a frase “também treinamos Claude em SL”, fiquei curioso sobre o quanto esses experimentos baseados em system prompts realmente funcionam
Será que faz sentido inserir esse tipo de texto já na fase de pré-treinamento?
- Dá para validar o efeito com testes A/B em pequena escala
  O “documento da alma” parece uma tentativa de compensar a falta de self-awareness
  Não é perfeito, mas funciona como um mecanismo para ajudar o LLM a entender o que ele é
- Esses experimentos podem até ser mais baratos do que parecem
  Dá para testar várias variações de fine-tuning por algumas centenas ou milhares de dólares e filtrar os resultados com avaliação automática
- A aposta é que eles devem estar operando dezenas ou centenas de versões do modelo em paralelo, testando diferentes combinações de pré-treinamento e RL
Dá a sensação de que pesquisadores de IA formaram uma espécie de câmara de eco, todos convictos de que estão mudando o mundo
- Mas mesmo que a primeira geração não acredite de verdade, a segunda pode transformar essa crença em realidade
  Se fizerem RL alinhado aos valores do documento, essa crença acaba se tornando real
O processo de treinar uma “alma” em modelos grandes realmente parece estar na fronteira entre arte e ciência
Experimentar quais frases geram quais efeitos, repetir, ajustar e refinar é um trabalho interessante e complexo
- As equipes realmente boas precisam de uma combinação de todos os papéis
  Designers de experimentos, engenheiros de ML, pesquisadores de interpretabilidade, curadores de dados, especialistas em GPU e até pessoas com intuição sobre o comportamento da IA
  A Anthropic é uma das raras equipes que parecem tentar atingir esse equilíbrio
- O caso mais detalhado sobre esse processo ainda é o postmortem da OpenAI sobre a bajulação (sycophancy) no GPT-4o
A realidade em que vivemos agora é mais estranha do que ficção científica
Ainda assim, pelo menos é um alívio que exista ao menos uma empresa tratando essas questões sérias com seriedade