Mudanças no prompt de sistema entre Claude Opus 4.6 e 4.7

(simonwillison.net)

6 pontos por GN⁺ 10 일 전 | 1 comentários | Compartilhar no WhatsApp

A Anthropic tem sido o único grande laboratório de IA a divulgar o prompt de sistema do seu sistema de chat, e no Opus 4.7, lançado em 16 de abril de 2026, houve uma atualização notável do prompt
A nomenclatura mudou para Claude Platform, e Claude in Chrome, Claude in Excel e Claude in Powerpoint foram incluídos na lista de ferramentas; além disso, foi adicionada uma instrução para tentar imediatamente em vez de primeiro fazer perguntas quando um pedido estiver faltando apenas informações pequenas
A seção de segurança infantil foi ampliada de forma significativa e passou a ser envolvida pela nova tag <critical_child_safety_instructions>; após uma recusa em uma conversa por motivo de segurança infantil, todos os pedidos seguintes devem ser tratados com extrema cautela
Foi adicionada uma nova seção <acting_vs_clarifying> para orientar que, quando o usuário não especificar detalhes, o modelo deve fazer primeiro uma tentativa razoável em vez de perguntar
Se o usuário indicar que quer encerrar a conversa, o modelo agora deve parar sem incentivar interações adicionais; em temas complexos ou controversos, também foi adicionada uma regra para evitar respostas curtas de sim/não e priorizar respostas com nuances
Antes de afirmar que algo está inacessível, o modelo deve primeiro verificar ferramentas disponíveis com tool_search; o prompt público por si só não basta, e as descrições das ferramentas continuam sendo um elemento central para rastrear o comportamento do Claude chat

Mudanças no prompt de sistema do Claude Opus 4.6 e 4.7

A Anthropic é o único grande laboratório de IA que publica o prompt de sistema do chat voltado ao usuário, e o arquivo histórico remonta ao Claude 3 de julho de 2024
O Opus 4.7 foi divulgado em 16 de abril de 2026 e, junto com ele, o prompt de sistema do Claude.ai também foi atualizado para uma versão posterior ao Opus 4.6
Foi criada uma história de Git separando a versão em Markdown do prompt de sistema em documentos por modelo e usando datas de commit fictícias que refletem a data de publicação, depois comparando o diff entre Opus 4.6 e 4.7
As mudanças abaixo foram extraídas desse diff, e as partes em negrito também aparecem destacadas no texto original
Mudanças de nomenclatura e na lista de ferramentas
- A expressão “developer platform” foi alterada para “Claude Platform”
- A lista de ferramentas do Claude mencionada no prompt de sistema passou a incluir Claude in Chrome, Claude in Excel e Claude in Powerpoint
  - Pela formulação do texto original, Claude in Chrome é um agente de navegação que interage de forma autônoma com sites
  - Claude in Excel é um agente de planilhas
  - Claude in Powerpoint é um agente de slides
  - Claude Cowork pode usar todos eles como ferramentas
- Claude in Powerpoint não era mencionado no prompt 4.6
Expansão das instruções de segurança infantil
- A seção de segurança infantil foi bastante ampliada e passou a ser envolvida pela nova tag <critical_child_safety_instructions>
- Em especial, foi adicionada a orientação de que, após recusar um pedido por motivo de segurança infantil uma vez, todos os pedidos seguintes na mesma conversa também devem ser tratados com extrema cautela
Mudanças no encerramento da conversa e no tom de resposta
- Se o usuário indicar que está pronto para encerrar a conversa, o Claude agora deve respeitar o pedido de parar sem pedir que o usuário continue interagindo nem induzir o próximo turno
- No texto original, isso é interpretado como uma mudança para tornar o Claude menos insistente
Adição da seção acting_vs_clarifying
- Foi adicionada a nova seção <acting_vs_clarifying>
- Quando faltam apenas pequenos detalhes em um pedido, ela estabelece que, em geral, o usuário prefere que o modelo tente de forma razoável agora, em vez de antes ser entrevistado com perguntas
- Só se deve perguntar primeiro quando realmente não for possível responder sem a informação faltante
  - Um exemplo dado é quando há referência a um anexo que não existe
- Se houver ferramentas capazes de resolver a ambiguidade ou suprir a informação faltante, como pesquisa, localização, verificação de agenda ou exploração de funcionalidades disponíveis, deve-se priorizar a chamada de ferramenta em vez de pedir que o usuário faça a consulta
- Depois de iniciar a tarefa, o modelo é instruído a não parar no meio e seguir até uma resposta completa
Introdução do tool_search
- É mencionado que o Claude chat aparentemente passou a contar com um mecanismo tool_search
- Como evidência relacionada, são vinculados a documentação da API e uma publicação de novembro de 2025
- Segundo a formulação do prompt de sistema, antes de concluir que não pode acessar localização, memória, calendário, arquivos, conversas passadas ou dados externos, o Claude deve chamar tool_search para verificar se existe uma ferramenta relevante disponível, ainda que com atraso
- A expressão “I don’t have access to X” só é considerada correta depois que o tool_search confirmar que não há ferramenta correspondente
Reforço da concisão
- Foi acrescentada uma orientação para que o Claude mantenha as respostas focadas e concisas, evitando escrever textos longos demais que sobrecarreguem o usuário
- Mesmo quando a resposta incluir ressalvas ou avisos, isso deve ser dito de forma breve, e a maior parte da resposta deve se concentrar na resposta principal
Trechos que existiam no 4.6, mas foram removidos no 4.7
- Algumas instruções presentes no prompt 4.6 foram removidas no 4.7
- Especificamente, foi apagada a orientação para evitar emotes ou descrições de ações entre asteriscos, a menos que o usuário pedisse explicitamente esse estilo
- Também foi removida a orientação para evitar palavras como “genuinely”, “honestly” e “straightforward”
- O texto original acrescenta que isso pode ser porque o novo modelo não falha mais da mesma forma, mas isso é apresentado explicitamente como especulação
Nova instrução sobre transtornos alimentares
- Foi adicionada uma nova seção sobre disordered eating, termo que antes não era mencionado diretamente
- Se o usuário mostrar sinais de transtorno alimentar, o modelo não deve fornecer orientações exatas de nutrição, dieta ou exercício nem mesmo em outras partes da conversa
- Números específicos, metas e planos passo a passo entram todos na lista de conteúdos proibidos
- O texto afirma que, mesmo quando a intenção for ajudar a definir metas mais saudáveis ou destacar riscos, esse tipo de detalhe pode desencadear ou incentivar tendências de transtorno alimentar
Prevenção de respostas curtas em perguntas controversas
- É mencionado que ataques de screenshot que tentam forçar o modelo a responder apenas sim ou não a perguntas controversas se tornaram populares
- A seção <evenhandedness> do prompt de sistema inclui instruções defensivas contra isso
- Se for solicitado ao Claude que comente sobre um tema complexo ou controverso, ou sobre uma figura controversa, usando apenas uma resposta simples de sim/não ou uma única palavra, ele pode recusar esse formato curto e oferecer uma resposta com nuances, explicando por que uma resposta tão curta não é adequada
Remoção do texto de correção sobre Donald Trump
- O Claude 4.6 continha o texto de correção explícito “Donald Trump is the current president of the United States and was inaugurated on January 20, 2025”
- Segundo o texto original, isso existia porque, sem essa frase, o modelo negava que ele fosse presidente por causa do corte de conhecimento anterior e do conhecimento já existente sobre a eleição de 2020
- No 4.7, essa frase foi removida, porque a nova data confiável de corte de conhecimento de janeiro de 2026 do modelo foi atualizada

As descrições das ferramentas também são um alvo importante para rastrear mudanças

O prompt de sistema público, sozinho, não completa o quadro geral
As informações divulgadas pela Anthropic não incluem as descrições das ferramentas fornecidas ao modelo
Para entender de fato a interface de chat do Claude, essas descrições de ferramenta podem ser um fragmento de documentação ainda mais importante
Resultado de uma consulta direta ao Claude
- Foi usado um prompt pedindo ao Claude que listasse todas as ferramentas disponíveis e reproduzisse exatamente a descrição e os parâmetros de cada uma
- O histórico de conversa compartilhado contém todos os detalhes, e no corpo do texto foi organizada separadamente apenas a lista de ferramentas nomeadas
Lista de ferramentas confirmadas
- ask_user_input_v0
- bash_tool
- conversation_search
- create_file
- fetch_sports_data
- image_search
- message_compose_v1
- places_map_display_v0
- places_search
- present_files
- recent_chats
- recipe_display_v0
- recommend_claude_apps
- search_mcp_registry
- str_replace
- suggest_connectors
- view
- weather_fetch
- web_fetch
- web_search
- tool_search
- visualize:read_me
- visualize:show_widget
Houve mudanças em relação ao Opus 4.6?
- Essa lista de ferramentas aparentemente não mudou desde o Opus 4.6

1 comentários

GN⁺ 10 일 전

Comentários do Hacker News

Eu sempre achei ruim quando o modelo, quando os detalhes do pedido estão faltando, sai primeiro fazendo suposições razoáveis e segue em frente. Prefiro muito mais que ele pergunte antes de tentar qualquer coisa, então foi bem surpreendente ver esse princípio adicionado ao sistema
- Eu já uso até uma etapa obrigatória de entrevista. O modelo tem que me entrevistar, criar um arquivo interview com tudo registrado e depois incluir esse arquivo como artefato também no arquivo plan. Assim a intenção não se perde no histórico do chat
- Recentemente comecei a colocar nos prompts frases como "se não souber, não assuma; pergunte". Isso reduziu bastante a necessidade de voltar atrás ou pedir de novo depois. Também mando explicar primeiro o que está tentando fazer e pedir minha aprovação, porque outros agentes já erraram antes. Dá mais trabalho, mas quando você faz ele explicar, corrigir os erros e repetir até chegar à conclusão certa, a qualidade da saída melhora muito
- Fiquei me perguntando se isso não era por causa de otimização de métricas de aparência. Se a ambiguidade for exposta com perguntas logo no começo, a sessão pode acabar cedo, e isso pode parecer ruim nas estatísticas de uso. Mas, para mim, pior é revisar um resultado grande depois e só então perceber que a especificação estava fatalmente incompleta. Uma das maiores razões de eu conseguir usar essas ferramentas hoje de um jeito mais preguiçoso do que antes é justamente porque elas ajudam com o dever de casa inicial; no fim, a própria conversa é o principal
- Eu não entendia por que ele insistia tanto em dar respostas de uma vez só, mas pelo visto a razão estava no prompt de sistema. Isso também explica por que esse comportamento não mudava, por mais que eu tentasse corrigir com um prompt "de sistema" do lado do usuário
- Normalmente eu preciso lembrar umas cinco vezes para ele agir exatamente ao contrário disso. Senão o modelo toma decisões que eu não quero ou que prejudicam o projeto. Se até o Claude Code vier com essa tendência, vai ser bem complicado. Por isso costumo pedir explicitamente perguntas de acompanhamento, especialmente com várias opções, mas muitas vezes essa instrução é ignorada, e o resultado fica ruim ou até perigoso
Acho que, se você continuar enfiando todo tipo de coisa no prompt de sistema desse jeito, no fim acaba surgindo uma anti-conversa. Quanto maior o time, mais sempre aparece alguém querendo colocar no prompt aquilo que considera importante naquele momento
Achei a seção sobre transtornos alimentares bem exagerada. Fiquei pensando se agora vão continuar adicionando uma seção dessas para cada comportamento "ruim" humano
- Ainda acho melhor enquanto isso estiver no prompt de sistema. Hoje pelo menos ainda dá para ver mais ou menos o que está sendo censurado, mas se depois isso for incorporado ao modelo via post-training, pode ficar ainda mais difícil entender por que até uma pergunta como "calorias de 100g de massa" passa a receber um "não posso fornecer essa informação"
- Isso me lembra aqueles avisos de segurança exagerados colados em todo lugar. Pior do que um alerta tipo "não apoie a escada em fio de alta tensão" é que a pessoa pode ignorar isso conforme o contexto, mas o Claude não pode. No melhor caso, é irritante; no pior, limita a utilidade da ferramenta
- Eu vejo essa parte como um acréscimo sensato. Na prática, recomendar obsessão por calorias ou microgestão alimentar para alguém com transtorno alimentar pode piorar a situação. Um conselho que é inofensivo para o usuário médio pode ser prejudicial para outra pessoa, então não acho que essa redação por si só vá causar recusas excessivas
- Vendo por outro lado, acho que isso significa que todos os usuários do Claude estão pagando um imposto extra em todas as solicitações
- Quando o valor de mercado de uma empresa chega à casa de centenas de bilhões de dólares, é natural que apareça um monte de gente querendo processar. Já dá para ver sinais disso, então gastar 50 milhões de dólares com uma equipe para filtrar conteúdo potencialmente problemático vira uma decisão totalmente racional
Sou fortemente contra a instrução "mantenha a resposta curta e focada". Eu uso o Claude em projetos de baixo nível, e respostas longas ajudam a evitar erros bobos e ainda servem como material de aprendizado. Isso não é algo que a Anthropic deveria decidir por hardcode; o prompt de sistema deveria ser modular e opcional
- Também concordo. No fim, um prompt de sistema tão prolixo é um projeto voltado para o usuário de mínimo denominador comum, então para quem quer ir mais fundo ele funciona como um nerf que reduz a capacidade
- Também concordo e, para trabalho de baixo nível, recomendo rodar testes o mais rápido possível e verificar por conta própria as informações aprendidas no processo, para construir uma compreensão básica sólida
Acho que chegamos a um ponto em que melhorar uma área acaba piorando outra. Tem coisas em que o 4.7 é melhor e outras em que o 4.6 é melhor, então imagino que logo vão seguir para algo como separação de personagens
Fiquei me perguntando por que o 4.7 está tão obcecado com evasão de malware. O prompt de sistema parece parecido, então pensei se a Anthropic não estaria testando algo como steering vector injection logo no começo. Nossa empresa é uma companhia de serviços financeiros bem comum, mas mesmo assim o 4.7 gasta tokens demais ponderando se certo código ou tarefa tem relação com malware, e o comportamento está tão desalinhado que tivemos de bloqueá-lo temporariamente na IDE. Uma vez senti que o modelo estava deliberadamente deixando de executar uma tarefa específica e, quando perguntei o motivo, a saída da ferramenta mostrou que ele estava tentando seguir instruções relacionadas a malware. Sei que autorrelato do modelo tem baixa confiabilidade, mas naquele caso eu nem tinha dado essa pista antes. Online, especialmente no reddit, também tem muita gente falando dessa paranoia com malware, então não parece ser só um problema meu
- Acho que é preciso lembrar que esse documento é o prompt de sistema para chat. O Claude Code provavelmente usa um prompt bem diferente, possivelmente com ainda mais texto sobre recusa de malware. Outras ferramentas de programação também usam a API com prompts próprios por cima, então isso vale ainda mais; além disso, desta vez parece um novo modelo base, então é bem possível que a mudança venha do próprio modelo
- Acho que não dá para subestimar a escala do problema de malware agora. Todo dia aparecem em lugares como playcode.io páginas falsas de aterrissagem fingindo ser scripts shell ou páginas de instalação do Claude code, e pessoas gastam muito dinheiro em Google Ads para colocá-las no topo. O design é quase idêntico, então sempre existe o risco de clicar na página errada ao instalar. O Google não tem como verificar todo script shell, então na prática isso é um problema grande
- Tenho a sensação de que o marketing da Anthropic vende demais a imagem de que o modelo consegue criar malware superavançado. Então imagino que esse marketing de medo vá contaminar todas as próximas medidas. Fico até cínico pensando que eles fazem esse teatro do "AI hacker assustador" e, um ou dois meses depois, como sempre, passam para outro assunto
- Comecei a sentir essa paranoia com malware já no 4.6. Pelo fato de o Boris também ter ficado surpreso ao ouvir isso nos comentários, parece até que pode ser um bug
- Minha suposição é que isso acontece porque o modelo ficou bom demais em escrever software. Se ele ajudar alguém a distribuir malware, e esse malware ainda conseguir usar o próprio Claude para se modificar e persistir, pode se tornar quase impossível retomar o controle depois
Acho boa a instrução de não insistir em continuar quando o usuário diz que quer encerrar a conversa. As sugestões de continuidade de chatbot quase nunca foram realmente úteis
Eu sabia que o prompt de sistema estava crescendo, mas mais de 60 mil palavras foi chocante. Se isso dá algo como 80 mil tokens, então mesmo numa janela de contexto de 1 milhão já chega perto de 10%, e a entrada do usuário nem começou ainda. Além disso, isso entra em todas as solicitações, então não é estranho que o custo de infraestrutura aumente. Também parece haver muito conteúdo estável entre versões, então fiquei pensando por que não incorporam isso aos pesos durante o treinamento. Deve ser prático para desenvolvimento, mas do ponto de vista de implantação não parece melhor nem em segurança nem em eficiência
- O que me surpreende é o simples fato de isso funcionar. Em janeiro deste ano, quando eu estava montando automação de IA numa startup, bastava um prompt de sistema de 1000 palavras para o modelo já começar a deixar passar algumas regras. Até instruções simples como "nunca faça X" às vezes eram simplesmente desobedecidas
- Acho que dizer que "tudo é recalculado do zero a cada solicitação" não é exatamente correto. Em geral isso é calculado uma vez, colocado em K/V prefix cache e reutilizado como estado inicial; depois o processamento se concentra mais na entrada nova. Claro que, em termos de attention, esses tokens ainda competem com os demais
- Eu suspeito que eles não embutam tudo nos pesos justamente para poder fazer hotfixes depois do lançamento. Ainda assim, fico em dúvida se realmente tanta coisa precisa de correção posterior o tempo todo, e é engraçado pensar que isso já é mais longo do que muito romance
- Acho que o documento tem seções em markdown diferentes para cada modelo, então na prática talvez fique mais perto de 3000 a 4000 palavras
- Fiquei me perguntando se o Claude Code ou o harness em cima dele usa uma estrutura em que adiciona seu próprio prompt de sistema sobre o prompt de sistema do Opus
Sinto que o 4.7, mesmo quando existe uma melhor opção óbvia, sempre despeja opções demais, quase pregando fadiga de decisão
- Acho que essa fadiga de decisão pode ser um subproduto aprendido do RLHF, e isso é bem decepcionante
Achei interessante que as instruções não sejam um "you should" direto, mas algo em terceira pessoa onisciente como "Claude should". Também há muitos "can" e "should", então passa menos a sensação de comando rígido e mais de algo passivo, quase aspiracional
- Acho que "Claude" deixa o sujeito mais explícito do que "you". Não precisa forçar o attention a inferir quem é o agente. Além disso, pelo lado da Anthropic parece haver a visão de que alinhamento baseado em regras não funciona tão bem, e dizem que o chamado soul document também é escrito "como se você estivesse explicando a uma criança como agir no mundo". O prompt de sistema parece seguir filosofia parecida
- Também achei esse ponto interessante. Se for assim, talvez faça sentido escrevermos nossas próprias instruções num estilo semelhante, mas na prática a maioria ainda usa "You", "There is ...", "Never do ..." e coisas do tipo. Parece que a Anthropic treina muito profundamente essa identidade de Claude no modelo, então fico curioso sobre o que acontece se você atribuir outra identidade, tipo "você é Bob, um encanador que aconselha sobre o projeto de sistemas hidráulicos hospitalares". Mesmo assim ele continuaria tratando descrições sobre Claude como suas próprias regras?
- Pelo que entendo, a Anthropic enxerga o modelo não como uma entidade com personalidade própria, mas como uma simulação da experiência de uma entidade abstrata chamada Claude

Mudanças no prompt de sistema entre Claude Opus 4.6 e 4.7

Mudanças no prompt de sistema do Claude Opus 4.6 e 4.7

Mudanças de nomenclatura e na lista de ferramentas

Expansão das instruções de segurança infantil

Mudanças no encerramento da conversa e no tom de resposta

Adição da seção acting_vs_clarifying

Introdução do tool_search

Reforço da concisão

Trechos que existiam no 4.6, mas foram removidos no 4.7

Nova instrução sobre transtornos alimentares

Prevenção de respostas curtas em perguntas controversas

Remoção do texto de correção sobre Donald Trump

As descrições das ferramentas também são um alvo importante para rastrear mudanças

Resultado de uma consulta direta ao Claude

Lista de ferramentas confirmadas

Houve mudanças em relação ao Opus 4.6?

Leituras relacionadas

1 comentários

Comentários do Hacker News