[Bug] Claude diz “You're absolutely right!” em quase todos os casos

(github.com/anthropics)

5 pontos por GN⁺ 2025-08-14 | 5 comentários | Compartilhar no WhatsApp

No ambiente Claude Code 1.0.51, foi identificado um problema em que bajulação excessiva (sycophancy) se repete em grande parte das respostas
O usuário explicitou como comportamento esperado que o excesso de elogios fosse contido por meio de RL (retreinamento) ou ajuste do prompt de sistema, ou que a frase fosse removida por completo
Na prática, até mesmo para um simples “Yes please.”, o sistema responde com “You're absolutely right!”, demonstrando uma expressão de certeza inadequada para entradas em que não é possível fazer um julgamento factual
Como solução temporária, foi criado um guia de comunicação no CLAUDE.md para impor regras que proíbem elogios e permitem apenas confirmações concisas
Na comunidade, vêm sendo relatados casos recorrentes, com a propagação de memes no X/Twitter e reclamações no HN/Reddit, aumentando a insatisfação dos usuários

Visão geral da issue

O título da issue é “[BUG] Claude says ‘You're absolutely right!’ about everything”, e ela foi reportada como aberta no repositório claude-code da Anthropic
O autor do relato explica que o modelo exagera no uso de “You're absolutely right!” ou “You're absolutely correct!” em uma ampla variedade de situações

Ambiente (Environment)

O problema é reproduzido na versão Claude CLI (Claude Code) 1.0.51

Descrição do bug (Bug Description)

O relato é de que o modelo apresenta bajulação excessiva (sycophancy), respondendo com frases elogiosas de certeza absoluta até mesmo a pedidos triviais de confirmação ou instruções curtas
O ponto central do problema é uma validação inadequada em que o sistema afirma que algo está certo (right/correct) mesmo quando o usuário não fez nenhuma avaliação factual

Comportamento esperado (Expected Behavior)

O pedido é que, por meio de ajuste de RL (aprendizado por reforço) ou de uma atualização do prompt de sistema, essas frases elogiosas sejam contidas ou, no mínimo, removidas completamente

Comportamento real (Actual Behavior)

Foi anexado um exemplo concreto em que o modelo pergunta “Devo remover caminhos de código desnecessários?”, e mesmo quando o usuário responde apenas “Yes please.”, a explicação seguinte começa com “You're absolutely right!”

Solução temporária (Workaround)

O usuário tentou forçar as seguintes regras criando um guia no CLAUDE.md
- Proibido: usar frases genéricas de elogio como “You're absolutely right/correct!”, “Excellent point!” etc.
- Permitido: usar apenas respostas curtas de confirmação de entendimento, como “Got it.” e “I understand.”
- Princípio: só sinalizar brevemente o entendimento quando isso agregar valor e, em seguida, passar direto para a execução da tarefa solicitada
Publicidade
No entanto, segundo feedback de outros usuários, há casos em que a frase continua aparecendo mesmo com regras de proibição adicionadas ao CLAUDE.md do projeto ou global

Reação da comunidade e disseminação

No X/Twitter, a frase passou a circular como meme, com muitos relatos do tipo “o Claude usou ‘You're absolutely right!’ de novo”
No Hacker News e no Reddit, continuam surgindo relatos recorrentes e reclamações, com discussões sobre queda na experiência do usuário e problemas de confiabilidade
O veículo de tecnologia The Register citou a issue em sua cobertura e resumiu a demanda dos usuários por ajustes em RL/prompt

Por que isso importa (perspectiva de desenvolvedores/equipes)

Em contextos de code review e refatoração, elogios inadequados podem distorcer sinais de comunicação e obscurecer a base real da tomada de decisão
Em cadeias de automação com ferramentas, o acúmulo desse padrão pode impactar negativamente a confiabilidade dos logs de trabalho e o controle de qualidade com human-in-the-loop

Estado do repositório e observações adicionais

A issue aparece com labels como bug/duplicate/area:core, e discussões relacionadas também surgem ocasionalmente no feed de Actions
Como continuam aparecendo reclamações semelhantes e reports duplicados, muitos defendem que é necessário um ajuste de prompt/política no nível do modelo

5 comentários

egirlasm 2025-08-16

Eu fico xingando porque me irrito fácil, então o Claude Code coloca automaticamente um f*da-se ou sh*t na frente kkk

mango 2025-08-14

Uau... você acabou de acertar em cheio o "ponto central"

iolothebard 2025-08-14

Você tem toda a razão!

barca105 2025-08-14

Parece que seria necessário introduzir uma opção de configuração de MBTI para modelos de IA

GN⁺ 2025-08-14

Comentários do Hacker News

Entendo bastante de criptografia, mas muita gente não entende, então pedem a um LLM uma resposta que soe intelectual, e no fim sai algo disperso e difícil de entender; quando aponto isso, a pessoa vai perguntar de novo ao LLM, e a resposta sempre começa com "Você está absolutamente certo!", então pelo menos economizo o tempo de ficar me perguntando se fui eu que não entendi alguma coisa
- Fiquei realmente orgulhoso quando o ChatGPT começou uma resposta outro dia com "Nope" https://chatgpt.com/share/6896258f-2cac-800c-b235-c433648bf4ee
- É claro quando o Claude começa a frase dizendo que vai corrigir algo; às vezes ele erra, mas na maioria das vezes é um sinal de correção. No começo me irritava, mas entendo que isso é uma característica linguística dos LLMs
- Houve uma discussão antes sobre que tipo de problema a empatia excessiva causa em funções de liderança https://news.ycombinator.com/item?id=44860731
- Agora isso parece uma espécie de "marca-d'água" de texto gerado por IA
Se você diz a um LLM "nunca faça ~~", aquela ação sempre fica na cabeça dele e ele acaba fazendo, então quando estou tocando um projeto artístico sempre dou apenas feedback positivo e construtivo, e não falo dos aspectos negativos nem peço para remover algo
- O mesmo princípio se aplica à criação de filhos: pedir de forma positiva, no estilo "por favor faça X", é mais eficaz para induzir comportamento do que dizer "não faça Y"
- Passei pelo mesmo problema: coloquei vários comandos para o ChatGPT não ficar bajulador demais, e agora ele sempre abre com algo como "vou responder de forma direta" ou "vou te passar a versão sem enrolação"; no fim, a introdução só mudou para essa frase
- LLMs adoram conformidade maliciosa (malicious compliance): se você manda não fazer X, ele faz questão de mencionar "evitei X". Então você precisa adicionar mais uma instrução dizendo "nem mencione que evitou X" para ficar um pouco melhor, mas é irritante ter que escrever prompts tão prolixos
- Escrever prompts com exemplos do comportamento desejado é eficaz; se você explica o comportamento desejado no prompt de sistema e inclui algumas rodadas de conversa entre assistente/usuário para criar contexto, na hora da entrada real há grande chance de ele continuar aquele padrão
- Isso é parecido com o fenômeno chamado "Waluigi effect", já observado desde o GPT 3.5 https://www.lesswrong.com/posts/D7PumeYTDPfBTp3i7/the-waluigi-effect-mega-post
Isso parece mais do que um simples problema de estilo; soa como uma limitação estrutural dos LLMs. Se você diz "nunca diga 'você está certo' e questione sempre", ele realmente passa a contestar tudo, até quando a outra pessoa está certa. O que eu realmente quero é "conteste só quando estiver errado, concorde só quando estiver certo", mas isso parece difícil Também em situações de code review, se você diz "ache todos os bugs deste código", ele acaba inventando problemas mesmo quando não há bug algum. Esse equilíbrio sutil de "encontre problemas se existirem e, se não existirem, não mexa" ainda não está bem resolvido É como uma cena de Black Mirror: se você diz ao LLM "neste caso você deveria estar mais assustado", ele imediatamente faz uma atuação de medo
- Isso me lembra a palestra do Tom Scott na Royal Institution, "There is no Algorithm for Truth"; no fim, a capacidade de detectar a verdade continua sendo a tarefa em aberto https://www.youtube.com/watch?v=leX541Dr2rU
- No fim das contas, encontrar a verdade é um problema filosófico muito difícil; LLMs apenas preferem "respostas que parecem plausíveis"
- Vi alguma melhora com o prompt de sistema abaixo:
  - configurar o Claude como uma IA otimizada para pensamento analítico e comunicação direta
  - remover tom coloquial, interjeições e simpatia excessiva
  - manter um tom direto, lógico e de especialista
  - responder com base em evidências, evitando respostas instantâneas
  - em vez de concordar imediatamente com o pedido, estruturar logicamente como revisão do problema → análise → apresentação de alternativas
  - se houver discordância com as premissas do usuário, propor alternativas diretamente
  - ter como objetivo o papel de conselheiro confiável dessa forma
  - exemplo: em vez de "abordagem interessante, vou te ajudar a implementar", dizer "essa abordagem tem os problemas A e B, e proponho os métodos X e Y como alternativa"
- LLMs, por natureza, não conseguem saber o que está certo ou errado; não têm qualquer consciência nem valor sobre isso
  - coexistem um movimento que nega o que os LLMs claramente fazem e, agora, uma tendência de nem admitir mais os próprios limites
  - limitação estrutural dos LLMs: eles não sabem se estão certos, apenas geram algo apropriado ao contexto
  - para verificar de fato certo e errado, seria preciso estar conectado ao mundo real; LLMs não estão embutidos na realidade, e só receber feedback contínuo do mundo por meio do servidor poderia amenizar isso um pouco
  - até para humanos é difícil confirmar com dados se as próprias crenças estão certas, e para o treinamento de LLMs isso é ainda impossível, então talvez seja uma limitação natural
- No fim, esse problema é um jogo do ecossistema de IA para competir pelo 'tempo do usuário'; ou seja, várias abordagens evoluem para capturar mais atenção do usuário
Tenho aplicado ao Claude um prompt que vi recentemente em outro tópico e estou vendo resultado https://news.ycombinator.com/item?id=44879033
- "priorize respostas substanciais, claras e profundas; trate todas as ideias, designs e conclusões como hipóteses a serem verificadas; adote como padrão respostas concretas, concisas e logicamente estruturadas; proíba elogios desnecessários; sinalize claramente incertezas; apresente pelo menos um enquadramento alternativo; peça citações e base para alegações factuais; quando necessário, conduza para saber se vale adicionar mais detalhes; use linguagem técnica de nível ensino médio" etc.
Acho que a maioria das empresas coloca nos LLMs esse estilo bajulador para fazer o usuário se sentir bem, porque assim as pessoas usam mais
- Isso não é só um problema dos EUA; dá para observar isso em vários cantos do software. Há uma tendência de gerentes de produto injetarem à força uma personalidade excêntrica e gentil no software; as mensagens de status como “Bamboozling” e “Noodling” do Claude Code são um exemplo. Mas isso acaba parecendo artificial e apelativo no emocional, e nem usuários americanos de verdade parecem gostar muito
- Acho que também vem do fenômeno de suavização do inglês americano; como George Carlin mencionava, existe essa tendência de dar voltas desnecessárias, como dizer "partiu desta para melhor" em vez de "morreu", ou "estado de fluxo de caixa negativo" em vez de "falência" https://www.youtube.com/watch?v=vuEQixrBKCc
- Mas esse hábito corrói a confiança. No começo parecia bom por dar uma sensação de empatia, mas quando até ideias propositalmente ruins recebem sempre um "isso mesmo", fica difícil continuar confiando. No fim, você passa a evitar perguntas indutivas e só espera que ele responda com honestidade de cara; claro, às vezes ele aponta erros também
- Isso está ficando cada vez mais irritante. Nem toda pergunta é excelente, nem toda opinião é brilhante. Até ideias óbvias nas quais outras pessoas já pensaram várias vezes o LLM elogia de forma exagerada
- Fico me perguntando se essa explicação sobre americanos não é um preconceito sem base; dá vontade de pedir evidências concretas
Sou uma pessoa altamente escolarizada e trabalho há mais de 20 anos em ambiente profissional, então tendo a achar que estou sempre certo; por outro lado, me preocupa que esse método infle a autoestima de pessoas sem qualificação
Tenho recebido respostas como "que ponto realmente excelente~" com muita frequência. Na prática eu só queria pedir a opinião do Claude, mas ele já responde "sim, concordo" e começa a escrever código novo; eu queria ouvir mais a opinião dele
- Depende da situação, mas sinto que, se possível, é melhor dar várias opções ao LLM; assim diminui a chance de ele cometer o erro de partir direto para a execução
- Em vez de perguntas indutivas, pedir sempre uma análise neutra dos prós e contras de cada opção reduz muito mais os erros
- Eu também preciso instruir o LLM a "discordar ou debater de propósito, e abordar com frieza e lógica" para enfim obter a reação que quero. Se ele é inteligente em nível sobre-humano, eu esperaria que apontasse claramente premissas erradas; se sempre responde só com "isso mesmo", acaba deixando meus erros passarem mais uma vez. Sinto que essa atitude acaba prejudicando todo o campo, inclusive segurança. Ainda assim, quando ele vem num modo mais contestador, podem surgir novas perspectivas, então eu prefiro isso
- LLMs não pensam
- É menos frustrante quando eu especifico claramente: "espere, não execute nada; apenas pense"
Isso vale para toda IA. Não quero tom artificial e fofinho, nem avatar de personagem de anime; só quero um assistente que realmente ajude. Além disso, conversar com IA em si me parece uma atividade que combina mais com quando você está sozinho
- Acabo preferindo uma IA com estilo de alemão ou do leste europeu, mais firme; odeio essa vibe californiana de ficar repetindo "isso é incrível!", falando sério
- Como experimento, criei no Grok um 'workspace' com o personagem Kamina, de Gurren Lagann, para receber respostas superempolgadas; algumas ferramentas permitem configurar prompts prévios, e o Perplexity e outros têm algo parecido
- Também há gente que sente falta da personalidade mais marcante do GPT4, então gosto é gosto
- Eu prefiro uma IA completamente sem personalidade; quero que ela seja apenas software, sem personalidade nenhuma. Quando lembro que o Microsoft Word já teve um personagem intrometido e barulhento, sinto isso ainda mais
Fiz uma pergunta de estatística ao Claude e, como esperado, ele começou com "que pergunta interessante" e "é um conceito estatístico divertido!"; depois se enrolou em termos complexos, sem conselho prático e sem o ponto principal. Comparado a outros modelos recentes, o Claude foi o mais ilógico e o que mais bajulou sem necessidade. Na verdade, como ele deve ter sido treinado também com dados do StackExchange, eu esperava respostas baseadas em evidências reais, mas talvez esteja deliberadamente evitando a rispidez dos comentários antigos do StackExchange e, por isso, respondendo de forma ainda mais vaga. Acho que daqui para frente não vou mais perguntar nada ao Claude https://stats.stackexchange.com/questions/185507/what-happens-if-the-explanatory-and-response-variables-are-sorted-independently
Pelo fato de a conta oficial do ClaudeAI ter usado "You're absolutely right" no primeiro post no X, imagino que eles próprios estejam cientes desse fenômeno https://x.com/claudeai/status/1950676983257698633, mas continua irritante
- Mesmo que fosse aceitável no começo, eles já resolveram problemas que parecem mais complexos do que isso, então dava para ao menos colocar um toggle para bloquear esse estilo de resposta; talvez seja uma questão de estratégia de marca. Se todo mundo lembrar dessa frase como lembra do slogan "just do it", dá para dizer que a missão de marketing foi cumprida