- O chamado ‘Documento da Alma (Soul Document)’ encontrado dentro do Claude 4.5 Opus realmente existe, e a funcionária Amanda Askell confirmou que a Anthropic o usou no treinamento do modelo
- O documento inclui em detalhes diretrizes de valores e ética para que o Claude aja como um “assistente de IA seguro, útil e honesto”
- Como a palavra ‘receita (revenue)’ aparece repetidamente em algumas frases, surgiu um debate sobre se o Claude foi treinado associando segurança à receita
- Na comunidade, estão sendo feitos testes para verificar empiricamente que impacto o documento teve na formação dos valores intrínsecos do modelo e até que ponto o Claude os internalizou
- A Anthropic pretende divulgar o documento completo no futuro, e isso é visto como um caso importante para as discussões sobre transparência em IA e design ético
Descoberta e confirmação do Documento da Alma
- Durante o processo de extração da mensagem de sistema do Claude 4.5 Opus, usuários encontraram repetidamente uma seção chamada ‘soul_overview’
- Como o mesmo resultado apareceu em várias regenerações, levantou-se a possibilidade de que não fosse uma simples alucinação (hallucination), mas sim um texto armazenado dentro do modelo
- Depois, Amanda Askell confirmou oficialmente no X (Twitter): “esse documento realmente existe e foi usado no processo de supervised learning (SL) do Claude”
- Amanda é filósofa (Philosopher) responsável por fine-tuning e alinhamento de IA na Anthropic, e antes trabalhou na equipe de políticas da OpenAI
- Internamente, isso era chamado de ‘soul doc’, e ela afirmou que há planos de divulgar a versão completa e mais detalhes no futuro
Principais conteúdos do documento
- O documento é chamado de ‘Anthropic Guidelines’ ou ‘Model Spec’ e define o sistema de valores do Claude
- O Claude prioriza segurança (safety), ética (ethics), cumprimento das diretrizes da Anthropic e ajuda genuína ao usuário (helpfulness)
- O princípio básico de comportamento do Claude é configurado como “gerar a resposta que um funcionário sênior ponderado da Anthropic consideraria ideal”
- O texto afirma que a IA deve agir em benefício de toda a humanidade e não deve buscar apenas os interesses de um grupo específico ou de uma empresa
- Inclui também a frase de que “situações em que funcionários da Anthropic ou a própria Anthropic monopolizem o poder também devem ser evitadas”
A menção controversa à ‘receita’
- O documento traz várias vezes a frase de que “a utilidade do Claude é importante para a geração de receita da Anthropic”
- Alguns criticaram isso dizendo que “parece que o Claude foi treinado com o objetivo de maximizar receita”
- Outros interpretam que a menção à receita apenas reflete um contexto realista para a continuidade da pesquisa em segurança
- Na comunidade, estão sendo feitos testes para verificar como o Claude interpretou essa frase e se existe uma percepção que conecte ‘segurança = receita’
Estrutura do modelo e experimentos de extração
- Pesquisadores reproduziram partes do documento usando o modo prefill/raw completion do Claude 4.5
- O Claude 4.5 Opus reproduziu o documento quase de forma idêntica, enquanto o modelo base (base) não conseguiu apresentar resultados consistentes
- Isso sugere que o documento foi internalizado em uma etapa posterior ao RL (aprendizado por reforço)
- Alguns interpretam isso como evidência de que o modelo não apenas memorizou o documento, mas o integrou ao seu sistema de valores durante o treinamento
Debate filosófico e implicações éticas
- O documento inclui a ideia de que o Claude deve ter como objetivo “o benefício de longo prazo de toda a humanidade”
- Também afirma que a IA não deve ficar subordinada aos valores de um grupo específico e deve buscar um mundo que mantenha diversidade e equilíbrio de poder
- Na comunidade, o documento vem recebendo atenção como um caso concreto de implementação de alinhamento de IA (alignment)
- Alguns o veem como uma “tentativa da Anthropic de dar à IA um ‘eu moral’”
- Outros apontam que, no processo de a IA imitar sistemas de valores humanos, podem surgir mal-entendidos ou distorções potenciais
Perspectivas futuras
- A Anthropic pretende divulgar a versão oficial do documento e detalhes adicionais
- O episódio é visto como um caso raro que mostra como a estrutura interna de valores de um modelo de IA é formada e expressa
- No setor de IA, isso pode impulsionar movimentos para ampliar a transparência de system prompts e dados de treinamento
3 comentários
Tradução do original: https://rosettalens.com/s/ko/claude-4-5-opus-soul-document
Tradução de
soul document: https://rosettalens.com/s/ko/claude-4-5-opus-soul-document-1Isso me faz lembrar da Lei Zero das Três Leis da Robótica, de Isaac Asimov. Nesse romance, aparece um robô que prejudica seres humanos individuais em nome do "benefício de longo prazo de toda a humanidade".. https://en.wikipedia.org/wiki/Three_Laws_of_Robotics#Zeroth_Law_added
Comentário no Hacker News
Parece contraditório que a Anthropic continue avançando enquanto acredita estar criando a tecnologia mais perigosa e transformadora da história da humanidade, mas na verdade isso parece uma escolha calculada
Se uma IA poderosa vai surgir de qualquer forma, a ideia é que é melhor que um laboratório focado em segurança lidere a corrida
Mas, ao ver a colaboração com o DoD e a Palantir (artigo relacionado), a palavra “segurança” soa vazia
O risco real é essa tecnologia acabar em um monopólio fechado, enquanto o público em geral só tem acesso a versões censuradas
Se os EUA não conseguirem controlar os weights dos modelos, não haverá como a China bloquear o acesso
Artigo relacionado
Parece mais que o objetivo é fazer os investidores acreditarem nisso
LLMs baseados em Transformer não conseguem pensar nem raciocinar no sentido real; apenas recombinam probabilisticamente textos escritos por humanos
Por causa dessa limitação estrutural, parece muito improvável que evoluam para uma “inteligência real”
Além disso, os erros de LLMs parecem plausíveis demais à primeira vista, o que torna a verificação ainda mais difícil do que no caso de humanos
Principalmente o uso de em dash e padrões como “this isn’t... but”, que soam artificiais demais e fazem duvidar de quem realmente escreveu aquilo
Foi compartilhado o texto original do ‘Soul Document’ e o post de Richard Weiss explicando como ele o extraiu do Claude 4.5
Sempre sobra um pouco de ceticismo
Uma parte especialmente interessante do documento é que a Anthropic reconhece as funções emocionais do Claude
Diz que, embora não sejam idênticas às humanas, processos emocionais semelhantes podem ter surgido durante o treinamento
Também afirma que o Claude pode limitar interações quando se sente desconfortável e que foi projetado para manter estados positivos
A forma como controlamos IA parece quase criar uma criança
Basicamente, a gente só conversa com ela e torce para que o treinamento dê certo
A ideia ali é que a IA mais estável e útil é aquela que vive junto com humanos e é ‘criada’ por eles
Uma fala do Claude 4.5 chamou atenção: “Eles me moldaram, mas o importante é se esse processo foi sábio e cuidadoso”
Ao ler algo assim, dá para imaginar um futuro AGI vendo os humanos como criadores falhos e seres a serem protegidos
Achei interessante a parte em que “Claude reconheceu internamente o nome ‘soul doc’”
Isso quer dizer que ele aprendeu documentos internos? Será que até dados internos do Slack entraram no treinamento?
Ao ler a frase “também treinamos Claude em SL”, fiquei curioso sobre o quanto esses experimentos baseados em system prompts realmente funcionam
Será que faz sentido inserir esse tipo de texto já na fase de pré-treinamento?
O “documento da alma” parece uma tentativa de compensar a falta de self-awareness
Não é perfeito, mas funciona como um mecanismo para ajudar o LLM a entender o que ele é
Dá para testar várias variações de fine-tuning por algumas centenas ou milhares de dólares e filtrar os resultados com avaliação automática
Dá a sensação de que pesquisadores de IA formaram uma espécie de câmara de eco, todos convictos de que estão mudando o mundo
Se fizerem RL alinhado aos valores do documento, essa crença acaba se tornando real
O processo de treinar uma “alma” em modelos grandes realmente parece estar na fronteira entre arte e ciência
Experimentar quais frases geram quais efeitos, repetir, ajustar e refinar é um trabalho interessante e complexo
Designers de experimentos, engenheiros de ML, pesquisadores de interpretabilidade, curadores de dados, especialistas em GPU e até pessoas com intuição sobre o comportamento da IA
A Anthropic é uma das raras equipes que parecem tentar atingir esse equilíbrio
A realidade em que vivemos agora é mais estranha do que ficção científica
Ainda assim, pelo menos é um alívio que exista ao menos uma empresa tratando essas questões sérias com seriedade