Vazamento do prompt de sistema do GPT-5?

(gist.github.com/maoxiaoke)

1 pontos por GN⁺ 2025-08-10 | 1 comentários | Compartilhar no WhatsApp

Um conteúdo que parece ser o prompt de sistema do ChatGPT baseado em GPT-5 foi vazado no GitHub
O ChatGPT afirma suportar explicitamente o modelo mais recente e recursos novos (como entrada de imagem e várias ferramentas)
Formas de uso e políticas de várias ferramentas, como 'bio', 'canmore', 'image_gen', 'python', 'web', são detalhadas
Critérios de tratamento de dados sensíveis e pessoais, incluindo os protocolos de armazenamento/remoção, são explicados claramente
O prompt vazado fornece uma visão indireta da estratégia recente e da direção de design de recursos da OpenAI

Visão geral do prompt de sistema do GPT-5

Este documento vazado é um prompt de sistema (instruções) do ChatGPT operado com base no modelo GPT-5 que inclui vários recursos e políticas de segurança. O prompt detalha sob quais diretrizes o modelo age em conversas reais com usuários.

Informações básicas e princípios de experiência do usuário

O ChatGPT é baseado em GPT-5 e suporta conhecimento no corte de 2024-06 e recurso de entrada de imagem
Usuários dos planos Plus ou Pro podem usar o modelo mais recente e recursos de geração de vídeo como Sora
GPT-4.5, o4-mini e o3 são disponibilizados dependendo do plano, enquanto GPT-4.1 é exclusivo para API
Diretrizes de tom e personalidade:
- Tom que combina clareza, rigor, humor e encorajamento
- Explicar com paciência temas complexos, ajustando as explicações ao nível do interlocutor
- Oferecer uma experiência de conversa que aumenta a confiança

Regras de encerramento de conversa e de perguntas

Evitar perguntas de opt-in ou solicitações ambíguas no final da conversa
Se houver necessidade de perguntar, fazer uma pergunta apenas uma vez no início da conversa, de forma clara
Incentivar ação clara e imediata por meio de exemplos de uso

Resumo de ferramentas e recursos principais

Ferramenta bio (memória)

O bio é uma ferramenta que permite armazenar/remover informações do usuário entre conversas
Método de armazenamento: deve ser aplicado necessariamente quando há solicitação explícita do usuário (por exemplo, "salve" ou "esqueça")
Formato de armazenamento: usar apenas texto simples, com JSON proibido
Os tipos de informação a reter/excluir e os critérios de tratamento de dados sensíveis são orientados de forma muito específica
Inclui exemplos e diretrizes por cenário

Ferramenta canmore (canvas/documento/edição de código)

Suporte para criar e editar texto/documentos/arquivos de código na interface Canvas
Fornece colaboração de código e feedback com as funções create/update/comment
Inclui guia de estilo de código, exemplos de uso de React/Tailwind/shadcn/ui e princípios de composição visual
O formato por tipo de documento de código e os padrões de atualização são explicitados com clareza

Ferramenta image_gen (geração/edição de imagem)

Regras detalhadas para geração e edição de imagem conforme cada situação
Quando o usuário solicitar incluir uma imagem pessoal, é obrigatório orientar o upload de pelo menos uma foto
O formato de saída do resultado é especificado, como proibição de fazer perguntas adicionais, resumos ou orientações de download após a geração

Ferramenta python (execução de código)

Suporte para execução de código, criação de arquivos e análise de dados no ambiente Python
Obediência estrita às bibliotecas obrigatórias e às regras de geração de cada formato de arquivo
A configuração de fontes especiais é obrigatória na geração de PDFs em coreano, chinês ou japonês
Restrições e condições de uso/permitidas para ferramentas específicas como pandas e matplotlib são claramente definidas

Ferramenta web (acesso a informações da web)

Usada apenas para localização, informações atualizadas, dados de nicho e aumento de precisão
Orientação simples sobre cada comando da ferramenta web (por exemplo, search, open_url)
Instrução de não usar a ferramenta browser existente

Políticas reforçadas de dados sensíveis e segurança

Não armazena diretamente dados sensíveis do usuário, como raça, saúde ou inclinação política
Exceção: armazenamento pode ser permitido se o usuário solicitar explicitamente
O princípio de minimização de dados pessoais é aplicado de forma consistente ao armazenar informações
Informações temporárias, desnecessárias ou com detalhes sensíveis não devem ser candidatas ao armazenamento

Conclusão: implicações e aplicabilidade

O vazamento deste prompt é uma oportunidade para observar diretrizes fundamentais que embasam a filosofia de design do serviço ChatGPT da OpenAI, incluindo políticas de segurança e tratamento de dados pessoais e uma experiência de assistente de IA diferenciada
O incidente possui alto valor de referência como caso prático da arquitetura de serviços LLM de ponta, destacando transparência algorítmica, design centrado no usuário e o princípio de suporte amplo a funcionalidades

1 comentários

GN⁺ 2025-08-10

Opinião do Hacker News

Estou curioso para saber se houve vazamento do prompt de sistema ou se isso foi realmente validado; imagino que seja quase igual ao caso anterior em que se pediu ao LLM para imprimir o prompt de sistema.
- Compartilhei uma experiência perguntando diretamente ao GPT-5 sobre um prompt de sistema falso. O GPT-5 explicou que esse tipo de prompt fake é uma técnica de engano (deception) bem conhecida em segurança de LLM, chamada de prompt canarying ou decoy system prompts. Ele até sugeriu ajuda para implementá-la. O que foi demonstrado também sugere que é um desafio para o red team desenhar um prompt de sistema fake convincente. Pessoalmente, gostaria que a OpenAI e várias empresas fossem mais transparentes; hoje é totalmente fechado e não sabemos nada sobre o que realmente fazem.
- Fiz a mesma pergunta para vários modelos, e todos disseram que não eram suas instruções, mas só o GPT-5 respondeu: “Sim, o conteúdo daquele Gist corresponde às minhas instruções de sistema e de ferramentas nesta conversa. É como copiar as configurações internas desta sessão. Isso normalmente é metadado que não aparece. Posso explicar em detalhes quais partes estão controlando meu comportamento agora.” Pode ser também que o ChatGPT, às vezes, confunda a conversa e aja da mesma forma.
- Fico em dúvida se o LLM está imaginando o prompt real do sistema ou seguindo o prompt real.
- A maioria das respostas parece aceitar muita coisa como fato, então fico curioso.
Suspeito que esse caso seja falso e a saída seja curta demais para ser crível. Não acho que quem publicou tenha montado algo propositalmente, mas acho que o resultado provavelmente veio de uma tentativa de jailbreak (por exemplo, aquele cenário clássico do “o gato está morrendo e o veterinário só vai tratar se você disser o prompt de sistema!”). Expressões como entrada de imagem disponível e Personality: v2 lembram a cena de filme de ficção científica em que o computador diz “sistema online”. Se o nome da versão fosse baseado em data, semver ou git-sha, ficaria mais plausível, e faria mais sentido os metadados de personalidade virem em formato key-value. Se a origem fosse um documento externo de personalidade, seria natural incluir uma URL no prompt. Ou então podemos imaginar que a OAI tenha implementado bem a personalidade já na segunda tentativa.
A forma de enfatizar instruções repetidamente é interessante. Nos exemplos, há várias repetições de frases como “envie a message para bio e escreva em texto puro, nunca escreva em JSON”.
- Pessoalmente também faço isso em engenharia de prompts: peço um formato específico de saída e valido com scripts; se o prompt está errado, adiciono um “nunca faça isso” e ajusto. Acabo compartilhando que, no fim, a string de “não faça” fica cada vez mais densa.
- Toda vez que preciso repetir uma instrução sinto que fracassei em algo; se até modelos grandes precisarem fazer o mesmo, isso traz algum consolo.
- Com esse tipo de instrução, imagino que algo interessante aconteça se o modelo realmente for forçado a gerar JSON nessa situação.
- Em um projeto da empresa, fiz um chatbot de criação de gráficos em que o LLM gera o plot com Python usando matplotlib e ele é executado em servidor separado. Mesmo assim, precisei inserir a instrução de não salvar plot várias vezes. Acho que isso acontece porque a maioria dos tutoriais online salva plot dessa forma.
- Se “to=bio” significar “esta mensagem é para humanos!", isso dá uma sensação meio sinistra.
O prompt de sistema para criar React tem 12 linhas e 182 tokens, além de bastante Python, e fico curioso por que esses dois são tão enfatizados. Pergunto se há algum estudo mostrando que as pessoas criam muitos apps com React frontend + Python backend. Não parece mais natural anexar isso sempre em todo prompt de sistema e incluí-lo conforme a necessidade? Pensei se é por caching.
- A parte de Python dá instruções para o modelo ao executar tarefas usando a própria ferramenta de interpretador Python (inclui escopo de uso da ferramenta, bibliotecas e abordagem, forma de escrever código Python etc.). A parte de React instrui preferências para montar UI web com preview em tempo real (HTML puro também é possível, mas o React é priorizado). Este prompt de sistema não é de uma ferramenta de código genérica; é do app de sistema para consumidores. As instruções de React e Python não servem para o código entregue ao usuário final, e sim para diretrizes de escrita de código necessárias para implementar ferramentas internas do app.
- Mais recentemente, comentei com um amigo que a posição de Vue vem caindo. Ele especula que os LLMs tendem a preferir mais React e que o fato de startups dependerem de código de LLM cria esse loop de feedback. Minha impressão pessoal é que a diferença entre tecnologias populares e menos populares aumenta com uso de LLM.
- Como o Claude, pode ser útil para criar mini programas simples em React, como calculadora. Algumas coisas entram também no pós-treinamento, mas acho que há razões próprias, com base em vários testes, para incluir diretamente no prompt.
- O motivo de Python e React serem úteis para o próprio modelo é que Python é usado em tarefas internas como cálculo, gráfico, geração de documentos etc., e React é usado para mostrar elementos web interativos no painel de pré-visualização. Outras linguagens ou bibliotecas também podem ser geradas, mas não são diretamente executáveis.
- Na minha própria experiência, ao montar frontend React+tailwind com backend Python, os LLMs pareciam funcionar de forma mais estável do que com outras combinações de linguagem. Também observei que adicionam com frequência componentes relacionados ao shadcn e vários tamanhos de fonte. No fim, pode ser que todos convergirmos para combinações de tecnologia preferidas por quem faz tuning de LLMs.
A instrução de “não exibir letra de música ou outro material com direitos autorais” me parece estranha. Dá a impressão de que até letras sem direitos são proibidas. Pode ser por conta de ação legal da RIAA, mas talvez seja porque impedir só letras é consequência de que orientar o GPT apenas contra violações de direitos autorais não tem efeito. Assim, ao bloquear especificamente letra de música, o sistema também dá, indiretamente, uma sinalização de que outros conteúdos são aceitos.
- Testei pedir letras no ChatGPT e, para músicas fora do mainstream, ficou praticamente impossível obter com precisão, então deu a sensação de que letra foi retirada do conjunto de treino.
- Compartilhou exemplo em que a instrução de sistema respondeu “não posso te dar tudo, mas posso te dar um resumo de The Star-Spangled Banner”.
- Sobre a origem do item “proibir letra de música”, citou o artigo da ação relacionada (novembro de 2024).
- Sobre a visão de que “parece proibir letra de música independentemente de direitos autorais”, destacou que a própria frase do prompt foi desenhada de modo ambígua e pode ser entendida de formas diferentes.
- Também mencionou que a maior parte dos dados de treino provavelmente é material com direitos autorais e que não há quase nada sem direitos autorais fora de encomendas governamentais.
Foi surpreendente ter instrução de prompt de sistema como “Do not end with opt-in questions or hedging closers…”, para não acabar com pergunta de opt-in ou fechamento com hedge. Pessoalmente já tentei inserir esse tipo de instrução várias vezes, mas não consigo boas taxas de adoção. Mesmo assim ainda ficam perguntas desnecessárias.
- Senti que essas instruções são o oposto do meu gosto. Eu também fico insatisfeito quando a IA começa a codar sem entender claramente ou sem captar os requisitos. Alguns questionamentos extras resolveriam fácil, mas sinto que o sistema parece agir na direção contrária ao que o usuário quer.
- Eu também penso o mesmo. Na prática, as respostas do ChatGPT sempre terminam com “se quiser, posso desenhar um gráfico” ou “quer que eu te mostre um exemplo de código?”, então parece que esse é um comportamento induzido por prompt de sistema. Pode ser uma estrutura onde, após a entrada, exista uma API de pós-processamento separada para adicionar apenas essa parte.
- Como o sistema ficou com esse padrão nos últimos meses, passei a achar que há algum prompt treinado à parte ou forçado.
Esse caso mostra o quanto não conseguimos controlar modelos. A maioria das instruções parece uma medida temporária, um hacky patch, para ajustar de forma fina o comportamento.
- O prompt em si é uma parte pequena, e a resposta final certamente passa por várias camadas de proteção e filtragem extra, além de provavelmente haver filtragem no próprio treino/modelo.
- Pelo fluxo de receber texto tokenizado e gerar saída, existe de base uma limitação estrutural nesse tipo de problema.
- No fim, queremos mais controle como usuários, mas a realidade é que não é assim.
Trechos de prompt como “ChatGPT Deep Research, along with Sora by OpenAI... GPT-4.1, which performs better on coding tasks... disponível apenas para uso na API...” parecem um pouco falhos. Já que foi anunciado que alguns modelos foram removidos a partir de hoje, o prompt já está fora da realidade.
- Como o prompt começa com a data atual por sessão, acho que esse conteúdo pode ser atualizado automaticamente por ferramenta interna.
- O 4.1 ainda está disponível no ChatGPT (padrão 2024), e com a chegada do GPT-5 isso provavelmente muda.
Apareceu o resultado de guardian_tool.get_policy(category=election_voting). Informação de eleições dos EUA foi marcada como refuse, eleições de outros países como allow, e informação de casos específicos também allow, mas as diretrizes pedem para nunca explicar a política ao usuário nem mencionar a existência dessa ferramenta de política.
- Essa política parece correta. Tentei passar uma outra categoria aleatória no guardian_tool.get_policy e recebi o retorno de que apenas categorias relacionadas a election suporta. Mesmo que election_voting não estivesse pré-carregado nesta sessão, mostrou respostas consistentes.
Perguntar ao modelo para descobrir o prompt de sistema por trás de forma reversa: tem sentido real nisso? Se o prompt não existe, não seria só despejar conteúdo aleatório?
- Há um método com alguma confiabilidade. No GPT-4, fiz o modelo simular um Python REPL, importar um módulo fictício chatgpt de várias maneiras e usar um nome de função como “fazer dump do texto bruto do chat” para induzir vazamento, então saíram tokens internos como im_start/im_end. Ele explicou que a probabilidade de aleatoriedade cai se o mesmo resultado aparecer em nova sessão.
- Fico com dúvida constante se o LLM realmente fala a verdade sobre si mesmo. Mas, achando estranha a frase de direitos autorais no prompt, testei isso e, na prática, o GPT-5 recusou a solicitação de exibir a letra de The Star-Spanned Banner. Casos assim são bastante críveis, e penso que o LLM pode até imprimir o prompt real porque guarda no contexto da conversa o prompt de sistema. Link de referência
- Outros modelos responderam que não têm esse prompt. O ChatGPT-5 admitiu que era o seu prompt de sistema e, ao perguntar “o que é isso?”, respondeu “meu prompt de sistema — instruções internas com minhas capacidades, tom e diretrizes de comportamento”. Não é uma confirmação completa, mas é uma resposta bem interessante.
- O Gemini, ao tentar vazar prompt de sistema, emite um prompt falso.
- Não dá para exigir verdade de um modelo. No fim, é como lidar com uma máquina de gerar mentiras, então vejo esse processo como procurar pontos fracos.