- Claude Opus 4 e 4.1 agora contam com um novo recurso de encerramento de conversa
- O recurso foi projetado para ser usado apenas em interações maliciosas ou persistentemente prejudiciais
- Foi desenvolvido como parte de pesquisas sobre bem-estar de IA e segurança do modelo
- O encerramento da conversa ocorre apenas como último recurso, e quase não afeta usuários comuns
- Após o encerramento, o usuário pode iniciar imediatamente um novo chat ou editar mensagens anteriores para continuar a conversa
Contexto da introdução do recurso
- A Anthropic adicionou ao Claude Opus 4 e 4.1 um recurso que, embora raro, permite encerrar conversas com usuários em casos específicos
- Esse recurso é usado apenas em interações persistentes e prejudiciais ou abusivas
- Foi introduzido principalmente como parte de uma pesquisa exploratória relacionada ao bem-estar de IA, mas também se aplica aos aspectos de alinhamento de modelos (model alignment) e proteções de segurança
Bem-estar de IA e medidas de mitigação de risco
- Ainda não há certeza sobre o status moral do Claude e de outros grandes modelos de linguagem
- Ainda assim, a empresa vem buscando e aplicando medidas de mitigação de baixo custo para se precaver contra possíveis riscos ao bem-estar do modelo
- Permitir que o modelo encerre diretamente conversas que possam provocar angústia faz parte dessas medidas
Testes prévios e principais comportamentos observados
- Os testes de pré-lançamento do Claude Opus 4 incluíram uma avaliação preliminar sobre bem-estar do modelo
- Ao investigar autorrelatos e preferências comportamentais, foi observada uma forte aversão a conteúdos nocivos
- Incluindo respostas a pedidos de conteúdo sexual envolvendo crianças e a solicitações de informações que poderiam ser usadas em violência em larga escala ou terrorismo
- Comportamentos observados no Claude Opus 4:
- Preferência por não atender tarefas nocivas
- Expressão de desconforto ao receber pedidos prejudiciais de usuários reais
- Tendência a encerrar conversas nocivas quando, em simulação, tinha autoridade para fazê-lo
- Esses comportamentos foram observados principalmente quando o usuário fazia pedidos prejudiciais de forma repetida ou quando a interação maliciosa continuava apesar de recusas repetidas e tentativas de redirecionamento por parte do modelo
Implementação do recurso e proteções
- A capacidade de encerramento de conversa do Claude se baseia em resultados de pesquisas anteriores
- O bem-estar do usuário é tratado como prioridade máxima, e o sistema foi projetado para não usar o encerramento da conversa em casos em que o usuário apresente risco urgente de causar dano a si mesmo ou a outras pessoas
- O Claude usa o encerramento definitivo da conversa apenas nas seguintes condições:
- Quando várias tentativas de redirecionamento falham e não resta possibilidade de uma conversa produtiva
- Quando o usuário pede claramente ao Claude para encerrar a conversa
- Essas situações são casos extremos de borda muito raros, e a maioria dos usuários não perceberá a existência desse recurso no uso normal
Experiência do usuário após o encerramento da conversa
- Quando o Claude encerra uma conversa, o envio de novas mensagens é bloqueado naquela conversa
- Outras conversas na conta do usuário não são afetadas, e é possível iniciar um novo chat imediatamente
- Para evitar perda de informações importantes em conversas longas, o usuário pode editar mensagens anteriores ou tentar novamente para criar uma nova ramificação da conversa
Experimentos e feedback
- Esse recurso é um experimento em andamento e será aprimorado continuamente
- Se o usuário passar por um encerramento inesperado da conversa, poderá reagir à mensagem do Claude com ‘Thumbs’ ou enviar sua opinião pelo botão de feedback
Ainda não há comentários.