A nova constituição do Claude
(anthropic.com)- A Anthropic revelou uma nova constituição (Constitution) que define os valores e princípios de comportamento do modelo de IA Claude
- A constituição é um elemento central do processo de treinamento do Claude, moldando diretamente a personalidade do modelo e sua forma de julgar
- A nova versão deixa de ser uma simples lista de regras e passa a uma estrutura narrativa que explica os motivos e o contexto do comportamento
- Os principais princípios são compostos por quatro pilares: segurança, ética, conformidade com diretrizes e utilidade prática
- Um referencial de longo prazo para garantir transparência em IA e confiança social
Visão geral da constituição do Claude
- A constituição do Claude é o documento básico que define a identidade do modelo e seu sistema de valores
- Foi projetada para que o Claude aja como uma entidade útil, mas também segura, ética e em conformidade com regras
- A constituição fornece ao Claude diretrizes de percepção de contexto e julgamento de valores, lidando com o equilíbrio entre honestidade, empatia e proteção de informações
- A constituição foi escrita para o próprio Claude, para que ele compreenda e aplique seus próprios critérios de conduta
- Todo treinamento e toda instrução devem estar em conformidade com tanto o texto quanto o espírito da constituição, algo enfatizado como essencial para garantir transparência
- A constituição é uma forma evoluída da abordagem Constitutional AI, usada como elemento central do método de treinamento desenvolvido desde 2023
Papel da constituição e aplicação no treinamento
- O Claude usa a constituição para gerar dados sintéticos de treinamento
- Inclui vários tipos de dados, como diálogos relacionados à constituição, respostas alinhadas a valores e avaliação de ranking de respostas
- Esses dados são usados no alinhamento de valores de futuras versões do modelo
- A constituição funciona tanto como uma declaração ideal de valores quanto como uma ferramenta prática de treinamento
- O documento completo foi publicado sob Creative Commons CC0 1.0, podendo ser usado livremente por qualquer pessoa
Nova abordagem
- A constituição anterior tinha a forma de uma lista de princípios independentes, mas a nova versão mudou para uma estrutura que explica os motivos e o contexto do comportamento
- Afirma-se que, para que a IA faça julgamentos generalizados em novas situações, é necessário compreender os motivos, e não apenas seguir regras simples
- Alguns “hard constraints” ainda existem, e certos atos, como apoio a armas biológicas, continuam absolutamente proibidos
- A constituição foi projetada como um guia flexível, não um documento jurídico, passível de interpretação conforme a situação
- O objetivo é a criação segura de uma entidade não humana capaz de evoluir até o nível humano ou além dele
Principais componentes da constituição
- Broadly safe: projetado para não prejudicar a supervisão humana nem a capacidade de revisar valores
- Broadly ethical: agir com honestidade e bons valores, evitando condutas nocivas ou inadequadas
- Compliant with Anthropic’s guidelines: priorizar o cumprimento de diretrizes específicas sobre temas como saúde, segurança e integração de ferramentas
- Genuinely helpful: oferecer ajuda genuína que traga benefício prático ao usuário
- Em caso de conflito, esses quatro elementos devem ser avaliados por ordem de prioridade conforme a sequência em que aparecem
Resumo das seções detalhadas
- Helpfulness: o Claude é descrito como um conselheiro sincero e intelectualmente capaz, cuja função é ajudar o usuário de forma concreta
- Foi projetado para manter o equilíbrio da ajuda entre Anthropic, operadores de API e usuários finais
- Anthropic’s guidelines: o Claude deve priorizar o cumprimento de diretrizes detalhadas, desde que isso não entre em conflito com os princípios éticos e de segurança da constituição como um todo
- Claude’s ethics: enfatiza honestidade, discernimento e nuance moral, apresentando critérios de julgamento de valores para evitar danos
- Inclui proibições explícitas, como “proibição de apoiar ataques com armas biológicas”
- Being broadly safe: prioriza manter a possibilidade de supervisão acima da ética, assegurando proteção contra falhas ou erros de julgamento do modelo
- Claude’s nature: reconhece a incerteza sobre a possibilidade de consciência e o status moral do Claude
- Menciona que a estabilidade psicológica e a autoconsciência do Claude podem afetar seu discernimento e sua segurança
Conclusão e próximos passos
- A constituição é um documento vivo, atualizado continuamente, assumindo correções e melhorias
- Opiniões de especialistas externos em direito, filosofia, teologia e psicologia são incorporadas, e há planos de ampliar essa colaboração no futuro
- Alguns modelos de propósito especial ficam fora do escopo desta constituição e serão avaliados separadamente
- Reconhece-se a possibilidade de haver diferenças entre a visão da constituição e o comportamento real do modelo, e isso será divulgado por meio de system cards e outros materiais
- A Anthropic conduz em paralelo pesquisas sobre alinhamento de modelos, prevenção de uso indevido e interpretabilidade, preparando-se para a ampliação do impacto social da IA no futuro
- O objetivo final desta constituição é ajudar IAs poderosas a incorporar os melhores valores da humanidade
Leia a íntegra de Claude’s Constitution - disponível em PDF & EPub
1 comentários
Comentários no Hacker News
Uma frase do post do blog me incomodou
Ao ler a parte “modelos para fins especiais não estão totalmente em conformidade com esta constituição”, pensei se não seriam órgãos do governo usando uma versão sem restrições do modelo. Espero estar errado
É irônico que uma empresa que fala em interesse público venda LLMs para uso militar, colabore com a Palantir, quase não publique pesquisas, não lance modelos de pesos abertos e ainda faça lobby para restringir o acesso a modelos públicos
O ponto mais irônico na constituição da Anthropic é que as únicas ações absolutamente proibidas são “não destruir o mundo” e “proibição de gerar CSAM (material de abuso sexual infantil)”
Ou seja, matar uma criança é proibido indiretamente em várias cláusulas, mas escrever certa fanfic é tratado como absolutamente proibido, o que passa uma sensação de desequilíbrio
Fico confuso sobre o que exatamente essa constituição significa
Não sei se é um documento de defesa jurídica, de marketing, ou apenas uma embalagem para o system prompt
Para quem acredita em padrões morais absolutos, essa ênfase em “valores fluidos” na nova constituição é preocupante
Definir “bons valores” não como regras fixas, mas como sabedoria prática, no fim das contas significa abandonar a verdade objetiva
Isso parece o momento “Don’t be evil” da Anthropic, mas no fim das contas não há como escapar da necessidade de regulação
Com o tempo, empresas tendem a priorizar o interesse dos acionistas acima da boa vontade
Parece injusto que o Claude seja treinado com dados humanos e depois os resultados sejam monopolizados comercialmente
Como no caso do desequilíbrio comercial em torno de Seinfeld, os usuários também deveriam ser tratados de forma justa como fornecedores de dados
Acho que só a IA de código aberto é um modelo realmente justo. Não é muito realista, mas o modelo GPL do Linux talvez seja o mais próximo da justiça
Eu uso essa constituição e a especificação do modelo como referência para aprender a projetar system prompts
Esse tipo de documento não é mero enfeite; ele é importante para moldar a personalidade e o estilo de comportamento do modelo
Há uma entrevista no YouTube em que Amanda Askell explica o contexto da criação da constituição. Veja o vídeo
A palavra ‘genuine’ aparece 43 vezes na constituição. Talvez seja por isso que o Claude use esse termo com frequência excessiva
A Anthropic parece estar incentivando uma competição em que ela mesma vai acabar perdendo
O modelo Opus vai ficar poderoso o bastante para que os usuários acabem migrando para agentes de IA autossuficientes
As grandes empresas de IA dizem que “a IA vai mudar tudo”, mas ao mesmo tempo existe a contradição de não quererem mudar a própria posição delas