1 pontos por GN⁺ 2025-08-17 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Claude Opus 4 e 4.1 agora contam com um novo recurso de encerramento de conversa
  • O recurso foi projetado para ser usado apenas em interações maliciosas ou persistentemente prejudiciais
  • Foi desenvolvido como parte de pesquisas sobre bem-estar de IA e segurança do modelo
  • O encerramento da conversa ocorre apenas como último recurso, e quase não afeta usuários comuns
  • Após o encerramento, o usuário pode iniciar imediatamente um novo chat ou editar mensagens anteriores para continuar a conversa

Contexto da introdução do recurso

  • A Anthropic adicionou ao Claude Opus 4 e 4.1 um recurso que, embora raro, permite encerrar conversas com usuários em casos específicos
  • Esse recurso é usado apenas em interações persistentes e prejudiciais ou abusivas
  • Foi introduzido principalmente como parte de uma pesquisa exploratória relacionada ao bem-estar de IA, mas também se aplica aos aspectos de alinhamento de modelos (model alignment) e proteções de segurança

Bem-estar de IA e medidas de mitigação de risco

  • Ainda não há certeza sobre o status moral do Claude e de outros grandes modelos de linguagem
  • Ainda assim, a empresa vem buscando e aplicando medidas de mitigação de baixo custo para se precaver contra possíveis riscos ao bem-estar do modelo
  • Permitir que o modelo encerre diretamente conversas que possam provocar angústia faz parte dessas medidas

Testes prévios e principais comportamentos observados

  • Os testes de pré-lançamento do Claude Opus 4 incluíram uma avaliação preliminar sobre bem-estar do modelo
  • Ao investigar autorrelatos e preferências comportamentais, foi observada uma forte aversão a conteúdos nocivos
    • Incluindo respostas a pedidos de conteúdo sexual envolvendo crianças e a solicitações de informações que poderiam ser usadas em violência em larga escala ou terrorismo
  • Comportamentos observados no Claude Opus 4:
    • Preferência por não atender tarefas nocivas
    • Expressão de desconforto ao receber pedidos prejudiciais de usuários reais
    • Tendência a encerrar conversas nocivas quando, em simulação, tinha autoridade para fazê-lo
  • Esses comportamentos foram observados principalmente quando o usuário fazia pedidos prejudiciais de forma repetida ou quando a interação maliciosa continuava apesar de recusas repetidas e tentativas de redirecionamento por parte do modelo

Implementação do recurso e proteções

  • A capacidade de encerramento de conversa do Claude se baseia em resultados de pesquisas anteriores
  • O bem-estar do usuário é tratado como prioridade máxima, e o sistema foi projetado para não usar o encerramento da conversa em casos em que o usuário apresente risco urgente de causar dano a si mesmo ou a outras pessoas
  • O Claude usa o encerramento definitivo da conversa apenas nas seguintes condições:
    • Quando várias tentativas de redirecionamento falham e não resta possibilidade de uma conversa produtiva
    • Quando o usuário pede claramente ao Claude para encerrar a conversa
  • Essas situações são casos extremos de borda muito raros, e a maioria dos usuários não perceberá a existência desse recurso no uso normal

Experiência do usuário após o encerramento da conversa

  • Quando o Claude encerra uma conversa, o envio de novas mensagens é bloqueado naquela conversa
  • Outras conversas na conta do usuário não são afetadas, e é possível iniciar um novo chat imediatamente
  • Para evitar perda de informações importantes em conversas longas, o usuário pode editar mensagens anteriores ou tentar novamente para criar uma nova ramificação da conversa

Experimentos e feedback

  • Esse recurso é um experimento em andamento e será aprimorado continuamente
  • Se o usuário passar por um encerramento inesperado da conversa, poderá reagir à mensagem do Claude com ‘Thumbs’ ou enviar sua opinião pelo botão de feedback

Ainda não há comentários.

Ainda não há comentários.