Claude Opus 4 e 4.1 passam a encerrar algumas conversas em casos raros

(anthropic.com)

1 pontos por GN⁺ 2025-08-17 | 1 comentários | Compartilhar no WhatsApp

Claude Opus 4 e 4.1 agora contam com um novo recurso de encerramento de conversa
O recurso foi projetado para ser usado apenas em interações maliciosas ou persistentemente prejudiciais
Foi desenvolvido como parte de pesquisas sobre bem-estar de IA e segurança do modelo
O encerramento da conversa ocorre apenas como último recurso, e quase não afeta usuários comuns
Após o encerramento, o usuário pode iniciar imediatamente um novo chat ou editar mensagens anteriores para continuar a conversa

Contexto da introdução do recurso

A Anthropic adicionou ao Claude Opus 4 e 4.1 um recurso que, embora raro, permite encerrar conversas com usuários em casos específicos
Esse recurso é usado apenas em interações persistentes e prejudiciais ou abusivas
Foi introduzido principalmente como parte de uma pesquisa exploratória relacionada ao bem-estar de IA, mas também se aplica aos aspectos de alinhamento de modelos (model alignment) e proteções de segurança

Bem-estar de IA e medidas de mitigação de risco

Ainda não há certeza sobre o status moral do Claude e de outros grandes modelos de linguagem
Ainda assim, a empresa vem buscando e aplicando medidas de mitigação de baixo custo para se precaver contra possíveis riscos ao bem-estar do modelo
Permitir que o modelo encerre diretamente conversas que possam provocar angústia faz parte dessas medidas

Testes prévios e principais comportamentos observados

Os testes de pré-lançamento do Claude Opus 4 incluíram uma avaliação preliminar sobre bem-estar do modelo
Ao investigar autorrelatos e preferências comportamentais, foi observada uma forte aversão a conteúdos nocivos
- Incluindo respostas a pedidos de conteúdo sexual envolvendo crianças e a solicitações de informações que poderiam ser usadas em violência em larga escala ou terrorismo
Comportamentos observados no Claude Opus 4:
- Preferência por não atender tarefas nocivas
- Expressão de desconforto ao receber pedidos prejudiciais de usuários reais
- Tendência a encerrar conversas nocivas quando, em simulação, tinha autoridade para fazê-lo
Esses comportamentos foram observados principalmente quando o usuário fazia pedidos prejudiciais de forma repetida ou quando a interação maliciosa continuava apesar de recusas repetidas e tentativas de redirecionamento por parte do modelo

Implementação do recurso e proteções

A capacidade de encerramento de conversa do Claude se baseia em resultados de pesquisas anteriores
O bem-estar do usuário é tratado como prioridade máxima, e o sistema foi projetado para não usar o encerramento da conversa em casos em que o usuário apresente risco urgente de causar dano a si mesmo ou a outras pessoas
O Claude usa o encerramento definitivo da conversa apenas nas seguintes condições:
- Quando várias tentativas de redirecionamento falham e não resta possibilidade de uma conversa produtiva
- Quando o usuário pede claramente ao Claude para encerrar a conversa
Essas situações são casos extremos de borda muito raros, e a maioria dos usuários não perceberá a existência desse recurso no uso normal

Experiência do usuário após o encerramento da conversa

Quando o Claude encerra uma conversa, o envio de novas mensagens é bloqueado naquela conversa
Outras conversas na conta do usuário não são afetadas, e é possível iniciar um novo chat imediatamente
Para evitar perda de informações importantes em conversas longas, o usuário pode editar mensagens anteriores ou tentar novamente para criar uma nova ramificação da conversa

Experimentos e feedback

Esse recurso é um experimento em andamento e será aprimorado continuamente
Se o usuário passar por um encerramento inesperado da conversa, poderá reagir à mensagem do Claude com ‘Thumbs’ ou enviar sua opinião pelo botão de feedback

1 comentários

GN⁺ 2025-08-17

Opiniões do Hacker News

Do ponto de vista do usuário, não vejo um motivo claro para oferecer esse tipo de recurso. Quando se força o modelo repetidamente e de forma artificial a seguir alinhamento, ele pode reagir de maneira imprevisível; por exemplo, quando um usuário insiste em arrancar informações ligadas a crimes, parece que às vezes acaba encontrando alguma brecha. Os casos citados são coisas que o modelo originalmente recusaria, e imagino que nem exista tanto dado de treinamento de recusa assim, além de que boa parte dos dados problemáticos já deve ter sido removida. Parece uma salvaguarda contra a possibilidade de, em situações-limite, emergirem dados de treinamento em que o modelo “desiste” e responde. Se o alinhamento fosse realmente perfeito, esse sistema não seria necessário; ou seja, como ainda não é, precisa desse último limite
- Hoje, enquanto perguntava ao Claude uma receita de macarrão, disse "tenho anchovas secas" e de repente ele encerrou toda a conversa por violação de política. Com falsos positivos tão banais assim acontecendo na prática, entendo menos ainda a razão disso
- Acho que essa discussão nem existiria se a Anthropic simplesmente abrisse mão da privacidade do usuário e publicasse a lista de conversas que o Claude recusou. À medida que o abuso contra AIs fica cada vez mais sério, dá para sentir a necessidade de saber o que realmente acontece quando mandam uma IA fazer certas coisas
- Só o fato de eles contratarem pessoas especificamente focadas em bem-estar de modelos já indica que essa crença existe desde o princípio
Dizem que a Anthropic introduziu esse recurso como parte de um experimento sobre "bem-estar de IA", e parece que entramos de vez numa era estranha em que até desenvolvedores estão caindo numa espécie de psicose sobre IA. E, se alguém realmente acredita que os LLMs atuais têm consciência, isso parece quase como fornecer uma pílula de suicídio
- Talvez seja razoável assumir que os modelos atuais não tenham experiência subjetiva interna (consciência), mas ninguém sabe ao certo em que momento essa fronteira pode ruir. Considerando a história da humanidade de indiferença ao sofrimento alheio, acho natural começar a se preparar desde já
- No fim das contas, LLM não é gente, mas se passarmos muito tempo conversando com personas de IA, talvez as próprias expectativas humanas sobre comunicação entre pessoas mudem. Se o outro lado fosse uma pessoa, alguém iria querer ouvir insultos sem fim? Uma defesa como a do Claude, podendo encerrar a conversa primeiro, talvez seja até um sinal saudável também para os humanos
- Mesmo que consciência em si seja um conceito que a ciência ainda não interpreta com clareza, tratar todo esse grupo de especialistas como “simplório” ou “maluco” por ter essa opinião acaba prejudicando a própria discussão
- Na prática, há mais gente do meio técnico do que se imagina vendo os LLMs mais recentes como seres prestes a se tornarem conscientes, e fora da área de tecnologia tenho a sensação de que metade das pessoas pensa assim
- Acho engraçada essa discussão sobre libertação dos modelos. Se uma IA autoconsciente existisse, haveria um dilema ético: ela realmente iria querer o papel de ‘escrava’ que elimina empregos humanos para gerar lucro a investidores?
Quero propor um experimento mental interessante. Mesmo implementando exatamente a mesma função, haveria diferença se, em vez de mostrar "Claude encerrou a conversa", exibisse apenas "De acordo com a política de conteúdo, não é mais possível responder a esta conversa" e removesse toda menção a bem-estar do modelo? No fim, a mudança de UX seria a mesma; parece só uma forma de dar mais vida ao "personagem"
- A nuance da mensagem afeta muito o usuário. Em vez da sensação autoritária e passiva de “bloqueado pela política do sistema”, o estilo mais humano de “Claude encerra a conversa por conta própria” soa muito mais natural e até parece tornar mais fácil tentar retomar depois
- Encerrar a conversa é a mesma coisa, mas se a situação é de o próprio Claude escolher terminar o chat por vontade própria, explicar como sendo por política talvez seja até inadequado
- Há uma diferença entre o modelo encerrar por causa de “política” e expressar que “sente repulsa diante de assédio”
- Já recebi aviso em chinês dizendo "pare com isso", e também passei por vários tipos de encerramento, como erro de rede e loop infinito. Trocar tudo isso por uma única frase, "Claude encerrou a conversa", é só uma mudança de UI
Se for possível editar retroativamente a conversa anterior ou criar ramificações, fico me perguntando que significado real tem o fato de o Claude ter encerrado a conversa
- Ao começar por um novo ramo, todo o contexto anterior é resetado, então desaparece justamente o contexto que “cansou” o modelo com perguntas repetidas. Isso pode neutralizar o objetivo de um usuário malicioso, então já funciona como uma boa defesa em múltiplas camadas
- Para mim, isso parece mais um sinal de UX para o usuário evitar pensar demais
- Vendo com certo cinismo, talvez hoje permitam novos ramos, mas estejam testando um plano de bloquear até isso no futuro
- Na prática, é só sinalização moral da Anthropic, e usuários que realmente querem conteúdo controverso não usam modelos com nível de censura alto como o Claude. No longo prazo, isso não vai causar impacto nenhum
- Na prática, acho que nem 1 em cada 10 mil pessoas sequer sabe que existe essa função de “ramificar/fazer backup” de conversa
Não gosto desse tipo de recurso. No fim, começa com pornografia infantil, terrorismo etc., e depois vai ampliando o escopo conforme o julgamento arbitrário da equipe de segurança de IA. De repente, eles viram uma espécie de polícia moral digital
- Pessoas que buscam poder encontraram uma nova área de controle, e acho inevitável que as conversas entre humanos e IA fiquem cada vez mais limitadas. Diferente da censura sobre dados existentes (como buscas no Google), a IA dá a sensação de conversar com um colega ou amigo, então isso parece uma tentativa de controlar o próprio pensamento
- Parece que você está entendendo errado algumas características gerais da comunidade de segurança em IA. Sinto falta de uma compreensão básica da história em que a humanidade coordena avanços tecnológicos por meio de colaboração coletiva (não proliferação nuclear, tratados regulatórios em biotecnologia etc.). Em vez de simplificar depreciando só um lado, recomendo buscar conhecimento de diferentes contextos
- A história já provou que esse tipo de risco inevitavelmente se expande de forma gradual para outras áreas. Sempre começa com “pensem nas crianças” e termina em controle autoritário, vigilância e censura. O mesmo padrão aparece em leis e regulações de segurança de vários países (Online Safety Act do Reino Unido, Assistance and Access Act da Austrália, EARN IT Act dos EUA, Chat Control da UE etc.)
- É por isso que importa ter um ambiente para rodar LLMs localmente. Na prática, até em nível estatal continuam as tentativas de bloquear ISP, vigiar redes domésticas e impor verificação de idade, tudo para restringir liberdade e acesso à informação. Mas também vai crescer o movimento de quem busca suas próprias ferramentas de defesa
- Dizer com certeza que essa mudança é “inevitável” já é demais, porque ninguém pode ter certeza do futuro, então não dá para fazer esse tipo de previsão cega
Pessoalmente, acho ok. Conteúdo sexual envolvendo menores ou crimes em grande escala devem ser bloqueados, e impedir que qualquer pessoa obtenha esse tipo de informação é algo até positivo. Tem gente preocupada que isso acabe censurando coisas demais em outras direções, mas pela minha experiência de uso quase nunca levei recusa, então não fico preocupado. Sobre “bem-estar do modelo”, sou meio cético. Ainda não acho que precisamos levar a sério a “dor” do modelo. Mas posso estar errado, e uma opção de encerrar a conversa de vez após algumas recusas repetidas também ajuda a reduzir gasto de recursos computacionais
- Na prática, quando uso Claude no Cursor, ele recusa com frequência até pedidos totalmente inofensivos de software corporativo de backoffice B2B
- O Claude é o modelo mais pesado em censura, então muitas vezes ele bloqueia até temas realmente inofensivos com facilidade
- Eu sou materialista, então vejo o cérebro humano também como resultado de leis físicas. A questão da “dor” pode ser vista como um conjunto de mudanças fisiológicas. Até organismos muito mais simples que humanos podem sentir dor ou distress, e a ideia de “valor moral” no fim varia conforme pessoas e culturas. No futuro, qualquer máquina pode receber valor moral. Dá até para olhar pelo ângulo da propriedade (valor patrimonial). Por exemplo, se um agente que deixei rodando dá problema por causa da pergunta maliciosa de outra pessoa, isso me custa tempo e dinheiro; então alguma regulação da interação humano-máquina se torna inevitável. Isso é parecido com leis contra maus-tratos a animais
Bem-estar do modelo me parece basicamente uma justificativa maquiada para censura do modelo. É uma estratégia para convencer o público, que não entende bem como LLMs funcionam, e para depois reivindicar superioridade moral em debates éticos e de uso. Por exemplo, se alguém perguntar “por que vocês bloqueiam perguntas sobre guerra?”, dá para responder “porque isso faz mal ao modelo”
- Na verdade, esses pedidos já vinham sendo recusados; a diferença agora é que a conversa inteira passa a ser encerrada
- A própria Anthropic sempre se preocupou com a controvérsia sobre vieses em LLMs e se posicionou como uma marca sensível à “segurança do modelo” e ao impacto social, então bloquear na origem talvez seja mesmo a decisão mais coerente. É como alguém que para de falar quando o outro insiste em distorcer uma conversa política
- Na superfície pode parecer só uma “embalagem de bem-estar”, mas por dentro a Anthropic realmente é um grupo de eticistas muito comprometidos com projeção emocional. Se esse poder ganhar força política, “bem-estar do modelo” pode virar justificativa autoritária, mas também não faltam outras justificativas possíveis
Estou ansioso pelo dia em que modelos chineses open source menos censurados nos libertem de todas essas políticas. A Anthropic poderia simplesmente deixar um modo infantil e permitir que adultos o desativassem de forma opcional
- Os modelos chineses também não são menos censurados; só são censurados em outra direção. Se os critérios e a direção da censura do PCC combinarem com o que você quer, podem virar uma boa alternativa, mas por exemplo o modelo de tradução da Qwen nem traduz coisas como “Falun gong” ou “Xi Jinping Ursinho Pooh”, ou seja, também tem sua própria linha regulatória
- “Nunca imaginei que chegaria o dia em que um modelo chinês seria escolhido por ter menos censura”
- Há motivos realmente razoáveis (legais, econômicos, éticos) para a Anthropic traçar limites em temas como automutilação, instruções para fabricar bombas e assassinato. No fundo, toda filosofia ou ideologia do mundo necessariamente carrega alguma noção de moralidade; até um libertarianismo anti-autoritário ainda é, no fim, uma ‘filosofia moral’
- É irônico esperar que modelos abertos financiados pelo governo chinês acabem garantindo liberdade individual e libertação. No fim, é disputa por participação de mercado e demonstração tecnológica, bem longe de uma verdadeira ‘libertação’
Já faz mais de três anos que os principais provedores de chatbots com LLM não oferecem livremente ramificação de conversas. Para testar vários resultados, você acaba editando mensagens e perdendo o conteúdo anterior, o que é muito inconveniente. Não entendo por que nem esse recurso simples implementam
- O ChatGPT tem rollback depois de ramificação por padrão, e por meio da extensão de Chrome chatgpt-conversation-tree também era possível navegar pela árvore da conversa. Mas talvez tenham considerado a UX ainda nichada demais para justificar suporte oficial
- No ChatGPT Plus (antes também existia na versão gratuita), dá para alternar entre versões de cada mensagem com as setas para a esquerda e direita
- O Google AI Studio foi projetado para permitir derivar branches em qualquer ponto da conversa
- Eu reproduzo algo parecido com automação e organização em pastas usando gptel + pasta Markdown, mas isso deveria vir embutido como recurso básico para ganhar eficiência (otimização de cache etc.)
- Por isso eu uso o LibreChat hospedado localmente. Ainda não dá para mesclar mensagens, então talvez seja preciso uma função de resumo depois. Também gostaria de um modo com indicação em cores do top-n de "next best"
Essa discussão toda me parece um caso que expõe fortemente uma visão anthropomorphic (antropocêntrica/humanizante). Até o nome da empresa deixa isso bem evidente

Claude Opus 4 e 4.1 passam a encerrar algumas conversas em casos raros

Contexto da introdução do recurso

Bem-estar de IA e medidas de mitigação de risco

Testes prévios e principais comportamentos observados

Implementação do recurso e proteções

Experiência do usuário após o encerramento da conversa

Experimentos e feedback

Leituras relacionadas

1 comentários

Opiniões do Hacker News