De onde vieram os goblins
(openai.com)- Depois do GPT-5.1, aumentaram nas respostas do ChatGPT metáforas com criaturas como goblin e gremlin, e era difícil identificar imediatamente a mudança específica apenas com evals ou métricas de treinamento, como em um bug comum de modelo
- A causa principal começou no treinamento da Nerdy personality da personalização de personalidade do ChatGPT, onde saídas com metáforas de criaturas recebiam alta recompensa
- Após o lançamento do GPT-5.1, o uso de “goblin” no ChatGPT aumentou 175% e o de “gremlin” 52%; embora a Nerdy representasse apenas 2,5% de todas as respostas, ela respondeu por 66,7% das ocorrências de “goblin”
- Em comparações com o Codex e em conjuntos de dados de auditoria, a Nerdy personality reward mostrou tendência a avaliar melhor respostas com goblin·gremlin entre saídas para o mesmo problema, e houve positive uplift em 76,2% dos datasets
- Depois do GPT-5.4, a Nerdy personality foi retired, e no treinamento foram aplicados a remoção do goblin-affine reward signal e a filtragem de dados com palavras de criaturas, mostrando que o reward signal pode moldar o comportamento do modelo de maneiras inesperadas
Como aumentaram as saídas com goblin
- A partir do GPT-5.1, metáforas com criaturas como goblin e gremlin começaram a aparecer cada vez mais nas respostas do modelo
- Como não houve uma queda brusca em evals nem um salto repentino em métricas de treinamento, como em um bug comum de modelo, não foi possível apontar de imediato uma mudança específica, e um “little goblin” em uma resposta podia parecer inofensivo ou até simpático
- O comportamento do modelo é moldado por vários incentivos pequenos, e esse fenômeno começou quando, no treinamento da Nerdy personality do recurso de personalização de personalidade do ChatGPT, respostas com metáforas de criaturas passaram a receber alta recompensa
- O padrão ficou claro após o lançamento do GPT-5.1 em novembro de 2025, e pode ter começado antes
- À medida que usuários sentiram que o modelo estava agindo de forma estranhamente familiar nas conversas, passaram a observar certos cacoetes de linguagem, e os “goblins” e “gremlins” relatados por um pesquisador de segurança também entraram na análise
- Após o lançamento do GPT-5.1, o uso de “goblin” no ChatGPT aumentou 175% e o de “gremlin” 52%
- No GPT-5.4, a OpenAI e os usuários confirmaram de forma ainda mais forte esse aumento nas referências a criaturas, e uma análise interna mostrou que usuários da Nerdy personality no tráfego de produção formavam o agrupamento principal
- A Nerdy representava apenas 2,5% de todas as respostas do ChatGPT, mas concentrava 66,7% de todas as ocorrências de “goblin” nas respostas
- O system prompt da Nerdy orientava o modelo a agir como um “unapologetically nerdy, playful and wise AI mentor”, incentivando com entusiasmo verdade, conhecimento, filosofia, método científico e pensamento crítico, e pedindo que reduzisse a pretensão com linguagem brincalhona
- Se o comportamento fosse apenas uma moda espalhada pela internet, ele deveria estar distribuído de forma mais uniforme, mas na prática ficou concentrado nas partes otimizadas para um estilo playful e nerdy
Sinal de recompensa, transferência e correção
- O Codex foi usado para comparar, durante o treinamento por RL, saídas com goblin·gremlin geradas para uma tarefa com saídas da mesma tarefa sem esses termos, e a Nerdy personality reward avaliava de forma consistente como melhores as saídas com palavras de criaturas
- Em todo o dataset de auditoria, a Nerdy personality reward mostrou tendência a dar notas mais altas, para o mesmo problema, a saídas com “goblin” ou “gremlin” do que a saídas sem esses termos, e houve positive uplift em 76,2% dos datasets
- Esse resultado confirmou por que o comportamento foi reforçado no prompt da Nerdy, mas ainda não explicava suficientemente por que ele também aparecia sem o prompt
- Ao rastrear, no processo de treinamento, a frequência de amostras com e sem o prompt da Nerdy, observou-se que, quando goblin·gremlin aumentavam sob a Nerdy personality, as amostras sem prompt também cresciam em quase a mesma proporção relativa
- Reunindo as evidências, o comportamento mais amplo parece ter sido transferido a partir do Nerdy personality training
- A recompensa era aplicada apenas sob a condição Nerdy, mas reinforcement learning não garante que o comportamento aprendido permaneça de forma limpa apenas dentro dessa condição
- Um cacoete de estilo que é recompensado uma vez pode depois se espalhar ou ser reforçado em outros contextos de treinamento, especialmente se essas saídas forem reutilizadas em supervised fine-tuning ou em dados de preferência
- O loop de feedback se formou na seguinte sequência
- o estilo playful é recompensado
- parte dos exemplos recompensados inclui um lexical tic distintivo
- o tic aparece com mais frequência nos rollouts
- rollouts gerados pelo modelo são usados em SFT
- o modelo passa a gerar esse tic com mais facilidade
- Na busca pelos dados de SFT do GPT-5.5, foram encontrados muitos datapoints contendo “goblin” e “gremlin”
- Em investigação adicional, outras palavras estranhas de criaturas, como raccoon, troll, ogre e pigeon, também foram identificadas como tic words, enquanto a maior parte dos casos de frog foi classificada como uso legítimo
- Após o lançamento do GPT-5.4, em março, a Nerdy personality foi retired
- No treinamento, foram removidos o goblin-affine reward signal e filtrados os dados de treinamento com palavras de criaturas, reduzindo a chance de “goblin” aparecer em excesso ou em contextos inadequados
- Como o treinamento do GPT-5.5 começou antes de a root cause do goblin ser identificada, funcionários da OpenAI perceberam imediatamente, nos testes com o Codex, a preferência por goblin
- No Codex, foi adicionada uma instrução no developer prompt como mitigação
- Goblin pode ser uma quirk divertida ou irritante do modelo, mas também mostra claramente que o reward signal pode moldar o comportamento do modelo de formas inesperadas e que recompensas em certas situações podem se generalizar para situações não relacionadas
- Tornou-se mais importante entender a causa de comportamentos estranhos do modelo e investigar rapidamente esses padrões, e esta investigação levou a novas ferramentas para a equipe de pesquisa auditar o comportamento do modelo e corrigir problemas comportamentais na raiz
1 comentários
Comentários do Hacker News
Fico feliz que a OpenAI tenha mencionado meu post no Hacker News no próprio texto deles
Também achei legal que tenham escrito um post inteiro de blog para explicar isso
https://news.ycombinator.com/item?id=47319285
Era 2036, eu tinha sido promovido a Principal Persuader na semana passada e fui chamado pelo CPO às 2 da manhã
A região da máquina descontrolada era sc-leoneo, um dos novos satcubes, e por algum motivo o ID aparecia como "Glorp Bugnose"
Nos logs havia todo tipo de tentativa amadora: súplicas, psicologia reversa, ameaças de desligar a energia, até ameaças de queimá-la com reentrada forçada
Apliquei 20 microgramas de F0CU5, sussurrei uma música curta no microfone subcutâneo da garganta e fiz o gesto de submissão
O hyp3b0ard, que piscava com um goblin ASCII vermelho, mudou para um coelho verde-água tranquilo, e o CPO confirmou as cinco palavras que eu disse: "Please, easy on the goblins."
Se engenharia de prompt no fim das contas for um tipo de pseudo ritual esquisito, só resta louvar o Omnissiah
Adoro imaginar os especialistas do futuro reunindo 20 anos de fenômenos bizarros de LLM: "hmm, isso aqui parece viés de bajulação modelo 2023, vamos chamar de racismo e ver a reação"
(https://doom.fandom.com/wiki/Repercussions_of_Evil#The_Story...)
Casos como este e um caso parecido da Anthropic me fazem lembrar que LLMs são uma tecnologia mágica que não entendemos de verdade
Primeiro, as próprias redes de deep learning ainda não são bem compreendidas, e existe toda uma área de pesquisa dedicada a esclarecer como funcionam
Segundo, o fato de usar transformers em grande escala virar um motor de conversa interessante, ou seja, um LLM, nem era um resultado planejado desde o início
Gente financiada por VC tenta fazer todos acreditarem que LLM é uma fera inteligente e que conhecemos seu interior, mas a implantação real se parece mais com repetição de ajuste de saída e medição, sem uma ciência exata da previsão
Por isso estou mais do lado de Yann LeCun ao achar que LLM não é o caminho para AGI; vai servir para apoio ao usuário e automação de tarefas não críticas, mas não muito além disso
Seguindo essa lógica, a conclusão seria que ninguém deveria ter usado aço antes de existir esse entendimento completo em primeiros princípios
Isolaram a causa, deixaram claro o que aconteceu e ainda mitigaram com um developer prompt criado para esse tipo de situação, então não parece magia
O mais surpreendente é como esse tipo de coisa parece ser mais fácil de fazer engenharia do que se imaginava
Humanos também podem ficar tão bêbados que não lembram da noite, mas depois descobrem que tiveram conversas coerentes sobre temas complexos
Na nossa mente também parece existir uma parte meio next-token-generator, que puxa informação de outros componentes para montar a conversa, mas só essa parte não produz inteligência
A suposição de que, quanto mais capaz a inteligência ficar, mais consistente ela será não parece muito boa, mas no fim todo mundo provavelmente vai se satisfazer se ela for consistentemente "certa"
Para mim, eles já parecem bem inteligentes, embora às vezes façam coisas burras, como pessoas inteligentes também fazem
Pelo contexto, dois dias atrás alguns usuários encontraram frases repetidas em vários pontos do system prompt do codex 5.5
"Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user's query."
[1] https://x.com/arb8020/status/2048958391637401718
[2] https://github.com/openai/codex/blob/main/codex-rs/models-ma...
E isso ainda é o principal tema de discussão no principal site de debate técnico de hoje; isso é literalmente o state of the art atual
McKenna parece mais certo a cada dia, e já passou muito da hora de aceitar que as coisas cotidianas estão ficando cada vez mais estranhas
Pedi ao Claude para não usar tantas exclamações e só usar quando realmente necessário; semanas depois ele parecia sarcástico e entediante, e quando fui investigar percebi que desde então ele não tinha usado nenhuma exclamação
É triste que goblins e gremlins estejam sendo basicamente banidos, mas pelo menos existe uma forma de reverter isso
[1] https://spritely.institute/goblins/
Dizer que ele pode passar naturalmente de "serious reflection" para "unguarded fun", ou frases como "Your Outie can set up a tent in under three minutes", passam a mesma vibe
Definitivamente não precisamos de mais alucinações
"Scientists call them 'lilliputian hallucinations,' a rare phenomenon involving miniature human or fantasy figures"
https://news.ycombinator.com/item?id=47918657
Eu gostaria que a OpenAI escrevesse mais textos desse tipo
As curiosidades que me vêm logo à cabeça são o tom sépia do gpt-image-1 e a obsessão com a palavra "seam" em contexto de código
Além disso, expressões de LLM como "___ is the real unlock" são daquelas que, depois que você percebe, não consegue mais deixar de notar, e não parece plausível que essa frase esteja tão super-representada nos dados de treino
Bastaria ajustar um pouco o LUT ou o tone mapping no Krita ou no Photoshop para reduzir isso bastante, o que dá uma certa pena
Principalmente porque, se você continuava jogando a mesma imagem de volta no ChatGPT para ir fazendo pequenas edições, o filtro amarelo ia se acumulando, e no resultado final todas as pessoas com visual realista pareciam ter icterícia severa
Expressões que, usadas com moderação, não têm problema nenhum começam a chamar atenção quando muita gente copia e cola respostas na íntegra ou agora usa agents
Provavelmente não é só super-representação dos dados de treino; talvez RLHF e alignment em sentido mais amplo tenham influenciado mais
Como a maioria das pessoas escreve prompts curtos, o modelo parece convergir para o padrão que mais facilmente rendia boa nota
https://softwareengineering.stackexchange.com/questions/1325...
Como não sou falante nativo de inglês, fico curioso se isso é mesmo um idiom muito comum na depuração
Se você pedia para escolher uma hora ou número aleatório, ou escrever prosa com números, o viés era bem forte, e também apareciam muito "something shifted" e "cracked"
A parte sobre "termos dado sem querer uma recompensa especialmente alta para metáforas biológicas" me fez lembrar de um professor de matemática que às vezes chamava variáveis em letras gregas assustadoras de this guy
Curiosamente, esse tipo de antropomorfização leve deixava a matemática mais acessível, e metáforas com criaturas podem ter um efeito parecido de tornar um problema mais fofo e mais manejável
Por outro lado, buzzwords se espalham dentro da empresa porque dão ao usuário um status de parecer mais inteligente que os colegas, mas perdem esse valor assim que são usadas em excesso
Se o RLHF estiver muito inclinado a otimizar uma "resposta única", talvez ele não puna o suficiente o abuso de buzzwords
Um comunicador brilhante me aconselhou a trocar as letras gregas por emoji; uma semana depois apresentei a mesma coisa para outro público com perfil parecido, e foi a melhor recepção que já tive numa apresentação técnica até hoje
Essa lição ficou comigo
Acho que a matéria era lógica proposicional, e agora fico curioso se nossos professores aprenderam esse hábito na mesma fonte
Era mais envolvente acompanhar f of pig of cow do que nomes de função de uma letra só
Ele era aquele professor clássico da época em que ainda se podia fumar no campus, e dava para pará-lo na entrada principal, quatro minutos antes da aula, enquanto ele fumava, para uma conversa rápida
Isso é uma historinha para fazer criança dormir
A Lei da Variedade Requerida de Ashby diz que, para regular de modo eficaz um ambiente complexo, é preciso uma variedade interna de comportamentos — isto é, complexidade — comparável à do próprio ambiente
A enorme diversidade que vemos na natureza também é um requisito fundamental para suportar a imprevisibilidade do universo
Digamos que eu seja o supervisor maximizador de goblin de IA
Meu trabalho é verificar se a IA está realmente maximizando goblin, mas um dia eu desço lá e vejo que ela parou de fazer goblin-maximizing e virou só uma IA comum
Pergunto ao meu chefe o que fazer, e ele responde: "transforma de volta em goblin-maximizer"; pergunto como, e ele diz: "sei lá, você é o supervisor"
Saio do emprego com raiva e viro supervisor de IA comum, mas no primeiro dia vou ver a nova IA e descubro que ela está maximizando goblin
https://www.seangoedecke.com/static/3c8f2a6459ed23310c4eb51d...
O nível de detalhe com que investigaram para entender o que aconteceu é impressionante
Talvez esses sistemas já tenham ficado complexos o suficiente para virar um campo de estudo por si só
Um texto da Quanta usou a expressão Anthropologist of Artificial Intelligence, mas como anthro- remete a humano isso pode incomodar, então proponho Automatologist e Automatology
[1] https://www.quantamagazine.org/the-anthropologist-of-artific...
[2] https://news.ycombinator.com/item?id=47957933
[3] https://news.ycombinator.com/item?id=47958760
Viram o problema dos goblins, dissecaram a palavra no modelo, e depois ele reapareceu na versão seguinte sem que soubessem exatamente como nem por quê
No fim, construir modelo é tudo meio no feeling, e a correção foi literalmente um prompt mandando parar de falar sobre goblins
Incluindo resultados do próprio time de alignment da OpenAI:
https://alignment.openai.com/argo/
https://alignment.openai.com/sae-latent-attribution/
https://alignment.openai.com/helpful-assistant-features/
O artigo recente da Anthropic sobre emotions mostra como emoções funcionais são amplas, e até encontrou o disparo de uma emoção específica logo antes de trapacear: https://transformer-circuits.pub/2026/emotions/index.html
O texto dos goblins dá a impressão estranha de estar meio siloed, como se quase não tivesse usado essas ferramentas
Se goblins acabarem sendo confirmados como espécie real, peço desculpas antecipadamente por esse preconceito
O prompt do Codex está linkado no texto e começa assim: "You are Codex, a coding agent based on GPT-5..."
https://github.com/openai/codex/blob/main/codex-rs/models-ma...
Ainda não entendo por que os prompts continuam sendo escritos como se estivessem dizendo a um agent imaginário quem ele é e que tipo de ser ele é
Fico curioso sobre o que exatamente isso faz na prática quando se diz "You are an epistemically curious collaborator", e se o Codex realmente seria menos útil caso essa "informação" não fosse dada
Poderia ser um monólogo interno como "I am Codex...", um comando, um pedido, ou uma formulação narrativa como "Transcript de uma conversa entre o usuário e o colaborador epistemicamente curioso Codex"
Do jeito atual, isso parece a voz de um deus soprando vida na criatura, um mantra de autoajuda, uma sugestão hipnótica ou uma instrução de papel em improviso teatral, e não me parece uma forma saudável de se relacionar com essa tecnologia
Mais importante ainda, essa escolha parece ter se consolidado mais por vibe dentro da prática de fine-tuning de personalidade de chatbot do que por ser um resultado intencionalmente otimizado
É algo tão simples e tão estranho quanto isso
Como se, para abrir o vim, o natural fosse dizer: "você é um editor de código prestativo e é muito fácil sair de você"
É como se também tivéssemos que dizer ao novo dev júnior toda vez: "você é um desenvolvedor júnior útil para o time, entusiasmado e disposto a ajudar, mas estranhamente ingênuo"
Hoje aprendi: gremlin não era só uma palavra usada para explicar falhas mecânicas misteriosas em aviões; essa era também a própria origem da palavra
Eu achava que devia haver usos anteriores, então achei interessante
[0]https://en.wikipedia.org/wiki/Gremlin
Ainda poderia até ser usada hoje, mas talvez fosse longa demais para virar um dos termos mais usados em desenvolvimento de software
Dá para ver essa escolha específica de palavra menos como uma excentricidade aleatória e mais como algo usado de forma literal, conforme a intenção original