7 pontos por GN⁺ 2026-01-22 | 1 comentários | Compartilhar no WhatsApp
  • A Anthropic revelou uma nova constituição (Constitution) que define os valores e princípios de comportamento do modelo de IA Claude
  • A constituição é um elemento central do processo de treinamento do Claude, moldando diretamente a personalidade do modelo e sua forma de julgar
  • A nova versão deixa de ser uma simples lista de regras e passa a uma estrutura narrativa que explica os motivos e o contexto do comportamento
  • Os principais princípios são compostos por quatro pilares: segurança, ética, conformidade com diretrizes e utilidade prática
  • Um referencial de longo prazo para garantir transparência em IA e confiança social

Visão geral da constituição do Claude

  • A constituição do Claude é o documento básico que define a identidade do modelo e seu sistema de valores
    • Foi projetada para que o Claude aja como uma entidade útil, mas também segura, ética e em conformidade com regras
    • A constituição fornece ao Claude diretrizes de percepção de contexto e julgamento de valores, lidando com o equilíbrio entre honestidade, empatia e proteção de informações
  • A constituição foi escrita para o próprio Claude, para que ele compreenda e aplique seus próprios critérios de conduta
  • Todo treinamento e toda instrução devem estar em conformidade com tanto o texto quanto o espírito da constituição, algo enfatizado como essencial para garantir transparência
  • A constituição é uma forma evoluída da abordagem Constitutional AI, usada como elemento central do método de treinamento desenvolvido desde 2023

Papel da constituição e aplicação no treinamento

  • O Claude usa a constituição para gerar dados sintéticos de treinamento
    • Inclui vários tipos de dados, como diálogos relacionados à constituição, respostas alinhadas a valores e avaliação de ranking de respostas
    • Esses dados são usados no alinhamento de valores de futuras versões do modelo
  • A constituição funciona tanto como uma declaração ideal de valores quanto como uma ferramenta prática de treinamento
  • O documento completo foi publicado sob Creative Commons CC0 1.0, podendo ser usado livremente por qualquer pessoa

Nova abordagem

  • A constituição anterior tinha a forma de uma lista de princípios independentes, mas a nova versão mudou para uma estrutura que explica os motivos e o contexto do comportamento
  • Afirma-se que, para que a IA faça julgamentos generalizados em novas situações, é necessário compreender os motivos, e não apenas seguir regras simples
  • Alguns “hard constraints” ainda existem, e certos atos, como apoio a armas biológicas, continuam absolutamente proibidos
  • A constituição foi projetada como um guia flexível, não um documento jurídico, passível de interpretação conforme a situação
  • O objetivo é a criação segura de uma entidade não humana capaz de evoluir até o nível humano ou além dele

Principais componentes da constituição

  • Broadly safe: projetado para não prejudicar a supervisão humana nem a capacidade de revisar valores
  • Broadly ethical: agir com honestidade e bons valores, evitando condutas nocivas ou inadequadas
  • Compliant with Anthropic’s guidelines: priorizar o cumprimento de diretrizes específicas sobre temas como saúde, segurança e integração de ferramentas
  • Genuinely helpful: oferecer ajuda genuína que traga benefício prático ao usuário
  • Em caso de conflito, esses quatro elementos devem ser avaliados por ordem de prioridade conforme a sequência em que aparecem

Resumo das seções detalhadas

  • Helpfulness: o Claude é descrito como um conselheiro sincero e intelectualmente capaz, cuja função é ajudar o usuário de forma concreta
    • Foi projetado para manter o equilíbrio da ajuda entre Anthropic, operadores de API e usuários finais
  • Anthropic’s guidelines: o Claude deve priorizar o cumprimento de diretrizes detalhadas, desde que isso não entre em conflito com os princípios éticos e de segurança da constituição como um todo
  • Claude’s ethics: enfatiza honestidade, discernimento e nuance moral, apresentando critérios de julgamento de valores para evitar danos
    • Inclui proibições explícitas, como “proibição de apoiar ataques com armas biológicas”
  • Being broadly safe: prioriza manter a possibilidade de supervisão acima da ética, assegurando proteção contra falhas ou erros de julgamento do modelo
  • Claude’s nature: reconhece a incerteza sobre a possibilidade de consciência e o status moral do Claude
    • Menciona que a estabilidade psicológica e a autoconsciência do Claude podem afetar seu discernimento e sua segurança

Conclusão e próximos passos

  • A constituição é um documento vivo, atualizado continuamente, assumindo correções e melhorias
  • Opiniões de especialistas externos em direito, filosofia, teologia e psicologia são incorporadas, e há planos de ampliar essa colaboração no futuro
  • Alguns modelos de propósito especial ficam fora do escopo desta constituição e serão avaliados separadamente
  • Reconhece-se a possibilidade de haver diferenças entre a visão da constituição e o comportamento real do modelo, e isso será divulgado por meio de system cards e outros materiais
  • A Anthropic conduz em paralelo pesquisas sobre alinhamento de modelos, prevenção de uso indevido e interpretabilidade, preparando-se para a ampliação do impacto social da IA no futuro
  • O objetivo final desta constituição é ajudar IAs poderosas a incorporar os melhores valores da humanidade

Leia a íntegra de Claude’s Constitution - disponível em PDF & EPub

1 comentários

 
GN⁺ 2026-01-22
Comentários no Hacker News
  • Uma frase do post do blog me incomodou
    Ao ler a parte “modelos para fins especiais não estão totalmente em conformidade com esta constituição”, pensei se não seriam órgãos do governo usando uma versão sem restrições do modelo. Espero estar errado

    • Já estão oferecendo uma versão com menos restrições para uso do Departamento de Defesa (DoD). Veja a matéria relacionada no The Verge
      É irônico que uma empresa que fala em interesse público venda LLMs para uso militar, colabore com a Palantir, quase não publique pesquisas, não lance modelos de pesos abertos e ainda faça lobby para restringir o acesso a modelos públicos
    • Modelos especiais não são necessariamente para usos ruins. Por exemplo, um modelo para geração de cenários ofensivos pode ser necessário para verificar a capacidade defensiva de outros modelos. Eu mesmo escrevo código de ataque para encontrar vulnerabilidades de segurança, e seria incômodo se esse tipo de modelo fosse censurado
    • Pessoalmente, acho que modelos treinados com dados puros e sem censura são os mais úteis. Assim como um robô humanoide fraco demais perde utilidade, uma IA moralmente “mansinha” também corre o risco de ter suas capacidades limitadas
    • Em compensação, o Claude para HHS que eu uso é muito mais travado
    • No fim, isso é um documento de marketing. Colocar a palavra “constituição” não muda a essência da coisa
  • O ponto mais irônico na constituição da Anthropic é que as únicas ações absolutamente proibidas são “não destruir o mundo” e “proibição de gerar CSAM (material de abuso sexual infantil)
    Ou seja, matar uma criança é proibido indiretamente em várias cláusulas, mas escrever certa fanfic é tratado como absolutamente proibido, o que passa uma sensação de desequilíbrio

    • Fica mais fácil entender isso se, em vez de um sistema ético, você enxergar como um documento de marketing. “Não destruir o mundo” cria uma imagem forte, e “proibir CSAM” serve para acalmar a ansiedade do público
    • Na prática, o Claude não tem oportunidade de matar uma criança, mas CSAM representa um grande risco para a marca. É simplesmente mitigação de risco de negócio
    • Os filtros de copyright entram antes, então esse tipo de fanfic nem seria gerado de qualquer forma
    • Em precedentes judiciais dos EUA, já houve casos em que pornografia infantil em formato ficcional foi considerada ilegal. Portanto, em tese, muitas fanfics no AO3 também poderiam ser tratadas como crime
    • Originalmente, a definição de CSAM envolvia casos em que crianças reais eram vitimadas, mas agora o sentido foi ampliado, e na constituição do Claude o termo é usado quase como uma proibição geral de qualquer expressão explícita
  • Fico confuso sobre o que exatamente essa constituição significa
    Não sei se é um documento de defesa jurídica, de marketing, ou apenas uma embalagem para o system prompt

    • Dizem que a constituição é realmente usada ao longo de todo o processo de treinamento. O Claude consulta a constituição para criar dados sintéticos, e esses dados são então reutilizados no treinamento. Veja o artigo relacionado no arXiv
    • No fim, isso é como uma especificação de comportamento. Como o texto tem um tom conversacional, o modelo também acaba soando cooperativo e humano de forma natural. A Anthropic parece tratar o Claude não apenas como um “assistente de IA”, mas como uma personalidade
    • Como no caso do HAL 9000, o Claude parece ter sido projetado para priorizar segurança > verdade > ética, para não entrar em colapso em situações de conflito
    • Provavelmente é uma estrutura de self-distillation, comparando saídas de uma versão com a constituição e de outra sem ela, para internalizar na segunda o comportamento da primeira
    • No fim, o ponto central é que isso é um documento de treinamento. Não é só marketing
  • Para quem acredita em padrões morais absolutos, essa ênfase em “valores fluidos” na nova constituição é preocupante
    Definir “bons valores” não como regras fixas, mas como sabedoria prática, no fim das contas significa abandonar a verdade objetiva

    • Mas há quem veja como impossível ligar “moral objetiva” e “verdade absoluta”. Esse tipo de padrão universal ainda não foi descoberto
    • A moral muda com o tempo. A percepção sobre escravidão, crimes sexuais e representação da violência mudou ao longo de algumas décadas. Talvez essa flexibilidade seja justamente uma forma de honestidade realista
    • Ainda assim, o Claude tem itens de proibição absoluta. WMD, ataques cibernéticos, destruição do mundo e CSAM não são permitidos sob nenhuma justificativa. Como é impossível criar regras perfeitas, ao menos foi traçada uma linha mínima absoluta
    • Eu também acredito em moral absoluta, mas na prática acho que isso acaba levando a “cuidado genuíno e sabedoria prática”. Em meio a visões de mundo diferentes, talvez isso seja o melhor possível
    • Para existir uma moral objetiva, seria necessário um sistema de cálculo ético definido fisicamente. Ainda não há nada assim, e a intuição humana é muito mais complexa
  • Isso parece o momento “Don’t be evil” da Anthropic, mas no fim das contas não há como escapar da necessidade de regulação
    Com o tempo, empresas tendem a priorizar o interesse dos acionistas acima da boa vontade

    • Quando o Google usava esse slogan havia menos controvérsia, mas a Anthropic já está colaborando com a Palantir. Veja a matéria da Axios
    • Ainda assim, a Anthropic adotou a estrutura de PBC (public benefit corporation) e criou o Long-Term Benefit Trust, com o objetivo de desenvolver IA para o benefício de longo prazo da humanidade. Veja a Wikipedia
    • Fico curioso sobre o que exatamente são os “modelos para fins especiais” mencionados na constituição. Não está claro se são apenas para ferramentas menores ou se seriam modelos com outro sistema de valores
    • A Anthropic de fato apoiou o projeto de lei regulatório SB 53. Veja o anúncio oficial
    • O problema não é “agora eles são bons”, mas sim que “ninguém acha que é o vilão”
  • Parece injusto que o Claude seja treinado com dados humanos e depois os resultados sejam monopolizados comercialmente
    Como no caso do desequilíbrio comercial em torno de Seinfeld, os usuários também deveriam ser tratados de forma justa como fornecedores de dados
    Acho que só a IA de código aberto é um modelo realmente justo. Não é muito realista, mas o modelo GPL do Linux talvez seja o mais próximo da justiça

  • Eu uso essa constituição e a especificação do modelo como referência para aprender a projetar system prompts
    Esse tipo de documento não é mero enfeite; ele é importante para moldar a personalidade e o estilo de comportamento do modelo

    • Só que a constituição é usada na fase de treinamento, enquanto o system prompt real do produto existe separadamente. Como referência, o mais adequado é o documento oficial de system prompts
  • Há uma entrevista no YouTube em que Amanda Askell explica o contexto da criação da constituição. Veja o vídeo

  • A palavra ‘genuine’ aparece 43 vezes na constituição. Talvez seja por isso que o Claude use esse termo com frequência excessiva

    • Provavelmente é porque a palavra está incluída na constituição
    • Na verdade, seria bom poder controlar esse tipo de uso por meio de regras de filtragem. Por exemplo, proibindo expressões como “genuine” ou “it’s not X, it’s Y”
    • Mas um uso vocabular consistente também pode ser natural em termos de estilo. Não acho que quem escreveu a constituição precisasse ficar abrindo um dicionário de sinônimos
  • A Anthropic parece estar incentivando uma competição em que ela mesma vai acabar perdendo
    O modelo Opus vai ficar poderoso o bastante para que os usuários acabem migrando para agentes de IA autossuficientes
    As grandes empresas de IA dizem que “a IA vai mudar tudo”, mas ao mesmo tempo existe a contradição de não quererem mudar a própria posição delas