De onde vieram os goblins

(openai.com)

1 pontos por GN⁺ 3 시간 전 | 1 comentários | Compartilhar no WhatsApp

Depois do GPT-5.1, aumentaram nas respostas do ChatGPT metáforas com criaturas como goblin e gremlin, e era difícil identificar imediatamente a mudança específica apenas com evals ou métricas de treinamento, como em um bug comum de modelo
A causa principal começou no treinamento da Nerdy personality da personalização de personalidade do ChatGPT, onde saídas com metáforas de criaturas recebiam alta recompensa
Após o lançamento do GPT-5.1, o uso de “goblin” no ChatGPT aumentou 175% e o de “gremlin” 52%; embora a Nerdy representasse apenas 2,5% de todas as respostas, ela respondeu por 66,7% das ocorrências de “goblin”
Em comparações com o Codex e em conjuntos de dados de auditoria, a Nerdy personality reward mostrou tendência a avaliar melhor respostas com goblin·gremlin entre saídas para o mesmo problema, e houve positive uplift em 76,2% dos datasets
Depois do GPT-5.4, a Nerdy personality foi retired, e no treinamento foram aplicados a remoção do goblin-affine reward signal e a filtragem de dados com palavras de criaturas, mostrando que o reward signal pode moldar o comportamento do modelo de maneiras inesperadas

Como aumentaram as saídas com goblin

A partir do GPT-5.1, metáforas com criaturas como goblin e gremlin começaram a aparecer cada vez mais nas respostas do modelo
Como não houve uma queda brusca em evals nem um salto repentino em métricas de treinamento, como em um bug comum de modelo, não foi possível apontar de imediato uma mudança específica, e um “little goblin” em uma resposta podia parecer inofensivo ou até simpático
O comportamento do modelo é moldado por vários incentivos pequenos, e esse fenômeno começou quando, no treinamento da Nerdy personality do recurso de personalização de personalidade do ChatGPT, respostas com metáforas de criaturas passaram a receber alta recompensa
O padrão ficou claro após o lançamento do GPT-5.1 em novembro de 2025, e pode ter começado antes
À medida que usuários sentiram que o modelo estava agindo de forma estranhamente familiar nas conversas, passaram a observar certos cacoetes de linguagem, e os “goblins” e “gremlins” relatados por um pesquisador de segurança também entraram na análise
Após o lançamento do GPT-5.1, o uso de “goblin” no ChatGPT aumentou 175% e o de “gremlin” 52%
No GPT-5.4, a OpenAI e os usuários confirmaram de forma ainda mais forte esse aumento nas referências a criaturas, e uma análise interna mostrou que usuários da Nerdy personality no tráfego de produção formavam o agrupamento principal
A Nerdy representava apenas 2,5% de todas as respostas do ChatGPT, mas concentrava 66,7% de todas as ocorrências de “goblin” nas respostas
O system prompt da Nerdy orientava o modelo a agir como um “unapologetically nerdy, playful and wise AI mentor”, incentivando com entusiasmo verdade, conhecimento, filosofia, método científico e pensamento crítico, e pedindo que reduzisse a pretensão com linguagem brincalhona
Se o comportamento fosse apenas uma moda espalhada pela internet, ele deveria estar distribuído de forma mais uniforme, mas na prática ficou concentrado nas partes otimizadas para um estilo playful e nerdy

Sinal de recompensa, transferência e correção

O Codex foi usado para comparar, durante o treinamento por RL, saídas com goblin·gremlin geradas para uma tarefa com saídas da mesma tarefa sem esses termos, e a Nerdy personality reward avaliava de forma consistente como melhores as saídas com palavras de criaturas
Em todo o dataset de auditoria, a Nerdy personality reward mostrou tendência a dar notas mais altas, para o mesmo problema, a saídas com “goblin” ou “gremlin” do que a saídas sem esses termos, e houve positive uplift em 76,2% dos datasets
Esse resultado confirmou por que o comportamento foi reforçado no prompt da Nerdy, mas ainda não explicava suficientemente por que ele também aparecia sem o prompt
Ao rastrear, no processo de treinamento, a frequência de amostras com e sem o prompt da Nerdy, observou-se que, quando goblin·gremlin aumentavam sob a Nerdy personality, as amostras sem prompt também cresciam em quase a mesma proporção relativa
Reunindo as evidências, o comportamento mais amplo parece ter sido transferido a partir do Nerdy personality training
A recompensa era aplicada apenas sob a condição Nerdy, mas reinforcement learning não garante que o comportamento aprendido permaneça de forma limpa apenas dentro dessa condição
Um cacoete de estilo que é recompensado uma vez pode depois se espalhar ou ser reforçado em outros contextos de treinamento, especialmente se essas saídas forem reutilizadas em supervised fine-tuning ou em dados de preferência
O loop de feedback se formou na seguinte sequência
- o estilo playful é recompensado
- parte dos exemplos recompensados inclui um lexical tic distintivo
- o tic aparece com mais frequência nos rollouts
- rollouts gerados pelo modelo são usados em SFT
- o modelo passa a gerar esse tic com mais facilidade
Na busca pelos dados de SFT do GPT-5.5, foram encontrados muitos datapoints contendo “goblin” e “gremlin”
Em investigação adicional, outras palavras estranhas de criaturas, como raccoon, troll, ogre e pigeon, também foram identificadas como tic words, enquanto a maior parte dos casos de frog foi classificada como uso legítimo
Após o lançamento do GPT-5.4, em março, a Nerdy personality foi retired
No treinamento, foram removidos o goblin-affine reward signal e filtrados os dados de treinamento com palavras de criaturas, reduzindo a chance de “goblin” aparecer em excesso ou em contextos inadequados
Como o treinamento do GPT-5.5 começou antes de a root cause do goblin ser identificada, funcionários da OpenAI perceberam imediatamente, nos testes com o Codex, a preferência por goblin
No Codex, foi adicionada uma instrução no developer prompt como mitigação
Goblin pode ser uma quirk divertida ou irritante do modelo, mas também mostra claramente que o reward signal pode moldar o comportamento do modelo de formas inesperadas e que recompensas em certas situações podem se generalizar para situações não relacionadas
Tornou-se mais importante entender a causa de comportamentos estranhos do modelo e investigar rapidamente esses padrões, e esta investigação levou a novas ferramentas para a equipe de pesquisa auditar o comportamento do modelo e corrigir problemas comportamentais na raiz

1 comentários

GN⁺ 3 시간 전

Comentários do Hacker News

Fico feliz que a OpenAI tenha mencionado meu post no Hacker News no próprio texto deles
Também achei legal que tenham escrito um post inteiro de blog para explicar isso
https://news.ycombinator.com/item?id=47319285
Era 2036, eu tinha sido promovido a Principal Persuader na semana passada e fui chamado pelo CPO às 2 da manhã
A região da máquina descontrolada era sc-leoneo, um dos novos satcubes, e por algum motivo o ID aparecia como "Glorp Bugnose"
Nos logs havia todo tipo de tentativa amadora: súplicas, psicologia reversa, ameaças de desligar a energia, até ameaças de queimá-la com reentrada forçada
Apliquei 20 microgramas de F0CU5, sussurrei uma música curta no microfone subcutâneo da garganta e fiz o gesto de submissão
O hyp3b0ard, que piscava com um goblin ASCII vermelho, mudou para um coelho verde-água tranquilo, e o CPO confirmou as cinco palavras que eu disse: "Please, easy on the goblins."
- Antes eu achava absurda a ideia de que os techpriests de Warhammer 40k realizavam rituais religiosos estranhos para acalmar espíritos de máquina, mas agora isso até parece plausível
  Se engenharia de prompt no fim das contas for um tipo de pseudo ritual esquisito, só resta louvar o Omnissiah
- "Will not Man himself become a kind of parasite upon the machines, an affectionate machine-tickling aphis?" — Samuel Butler, Erewhon, 1872
- Quando eu era mais novo, os mestres de Unix tinham uma lista de comportamentos estranhos de shell e C que conseguiam puxar na hora quando dava problema
  Adoro imaginar os especialistas do futuro reunindo 20 anos de fenômenos bizarros de LLM: "hmm, isso aqui parece viés de bajulação modelo 2023, vamos chamar de racismo e ver a reação"
- No conto The Jokester, de Asimov, aparecem "grand masters" capazes de formular perguntas para o Multivac, e eles parecem uma espécie de prompt engineers primitivos
- "No, John. You are the goblins"
  (https://doom.fandom.com/wiki/Repercussions_of_Evil#The_Story...)
Casos como este e um caso parecido da Anthropic me fazem lembrar que LLMs são uma tecnologia mágica que não entendemos de verdade
Primeiro, as próprias redes de deep learning ainda não são bem compreendidas, e existe toda uma área de pesquisa dedicada a esclarecer como funcionam
Segundo, o fato de usar transformers em grande escala virar um motor de conversa interessante, ou seja, um LLM, nem era um resultado planejado desde o início
Gente financiada por VC tenta fazer todos acreditarem que LLM é uma fera inteligente e que conhecemos seu interior, mas a implantação real se parece mais com repetição de ajuste de saída e medição, sem uma ciência exata da previsão
Por isso estou mais do lado de Yann LeCun ao achar que LLM não é o caminho para AGI; vai servir para apoio ao usuário e automação de tarefas não críticas, mas não muito além disso
- A humanidade usa aço há mais de mil anos, mas só nos últimos 100 anos passamos a entender direito como o carbono interage com o ferro em nível atômico para gerar resistência
  Seguindo essa lógica, a conclusão seria que ninguém deveria ter usado aço antes de existir esse entendimento completo em primeiros princípios
- Este texto mostra que o comportamento estranho do LLM, na prática, surgiu por causa de um training signal projetado para produzir esse comportamento
  Isolaram a causa, deixaram claro o que aconteceu e ainda mitigaram com um developer prompt criado para esse tipo de situação, então não parece magia
  O mais surpreendente é como esse tipo de coisa parece ser mais fácil de fazer engenharia do que se imaginava
- AGI provavelmente vai usar bastante LLM, mas mais como um componente do que como um caminho reto
  Humanos também podem ficar tão bêbados que não lembram da noite, mas depois descobrem que tiveram conversas coerentes sobre temas complexos
  Na nossa mente também parece existir uma parte meio next-token-generator, que puxa informação de outros componentes para montar a conversa, mas só essa parte não produz inteligência
- Se LLM ensinou alguma coisa, talvez seja que AGI não será previsível
  A suposição de que, quanto mais capaz a inteligência ficar, mais consistente ela será não parece muito boa, mas no fim todo mundo provavelmente vai se satisfazer se ela for consistentemente "certa"
- Fico me perguntando quanto um LLM precisa fazer para ser considerado "inteligente"
  Para mim, eles já parecem bem inteligentes, embora às vezes façam coisas burras, como pessoas inteligentes também fazem
Pelo contexto, dois dias atrás alguns usuários encontraram frases repetidas em vários pontos do system prompt do codex 5.5
"Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user's query."
[1] https://x.com/arb8020/status/2048958391637401718
[2] https://github.com/openai/codex/blob/main/codex-rs/models-ma...
- É engraçado que uma das empresas mais valiosas do mundo esteja basicamente hackeando uma pilha de arquivos de texto para instruir uma máquina maravilhosa de trilhões de dólares a nunca falar com clientes sobre goblins, gremlins ou ogres
  E isso ainda é o principal tema de discussão no principal site de debate técnico de hoje; isso é literalmente o state of the art atual
  McKenna parece mais certo a cada dia, e já passou muito da hora de aceitar que as coisas cotidianas estão ficando cada vez mais estranhas
- LLM é realmente péssimo em reconhecer condições de exceção em instruções desse tipo, e quando você diz para fazer menos de algo ele muitas vezes entende como não fazer nunca
  Pedi ao Claude para não usar tantas exclamações e só usar quando realmente necessário; semanas depois ele parecia sarcástico e entediante, e quando fui investigar percebi que desde então ele não tinha usado nenhuma exclamação
  É triste que goblins e gremlins estejam sendo basicamente banidos, mas pelo menos existe uma forma de reverter isso
- Isso é uma má notícia para quem tem interesse na linguagem/ambiente de programação Goblins
  [1] https://spritely.institute/goblins/
- Frases como "One of your gifts is helping the user feel more capable and imaginative inside their own thinking" acabam parecendo instruções para criar um sycophant
  Dizer que ele pode passar naturalmente de "serious reflection" para "unguarded fun", ou frases como "Your Outie can set up a tent in under three minutes", passam a mesma vibe
- Dizem que existem cogumelos que fazem a maioria das pessoas ver "little people" ou fantasias parecidas, então espero que o LLM não tenha usado cogumelos também
  Definitivamente não precisamos de mais alucinações
  "Scientists call them 'lilliputian hallucinations,' a rare phenomenon involving miniature human or fantasy figures"
  https://news.ycombinator.com/item?id=47918657
Eu gostaria que a OpenAI escrevesse mais textos desse tipo
As curiosidades que me vêm logo à cabeça são o tom sépia do gpt-image-1 e a obsessão com a palavra "seam" em contexto de código
Além disso, expressões de LLM como "___ is the real unlock" são daquelas que, depois que você percebe, não consegue mais deixar de notar, e não parece plausível que essa frase esteja tão super-representada nos dados de treino
- Quem usava avatares gerados em estilo Studio Ghibli no perfil do Discord ou Slack era fácil de reconhecer só pelo tom amarelado
  Bastaria ajustar um pouco o LUT ou o tone mapping no Krita ou no Photoshop para reduzir isso bastante, o que dá uma certa pena
  Principalmente porque, se você continuava jogando a mesma imagem de volta no ChatGPT para ir fazendo pequenas edições, o filtro amarelo ia se acumulando, e no resultado final todas as pessoas com visual realista pareciam ter icterícia severa
- Todo GPTism é assim
  Expressões que, usadas com moderação, não têm problema nenhum começam a chamar atenção quando muita gente copia e cola respostas na íntegra ou agora usa agents
  Provavelmente não é só super-representação dos dados de treino; talvez RLHF e alignment em sentido mais amplo tenham influenciado mais
  Como a maioria das pessoas escreve prompts curtos, o modelo parece convergir para o padrão que mais facilmente rendia boa nota
- Eu achava que seam em programação já era um termo estabelecido ao lidar com codebases compostas por várias partes interagindo
  https://softwareengineering.stackexchange.com/questions/1325...
- A expressão real smoking gun, usada com frequência por GPT e Claude, me incomoda por parecer dramática demais
  Como não sou falante nativo de inglês, fico curioso se isso é mesmo um idiom muito comum na depuração
- No Claude 4.5 havia uma tendência de se fixar em 47 ou em números que contêm 47
  Se você pedia para escolher uma hora ou número aleatório, ou escrever prosa com números, o viés era bem forte, e também apareciam muito "something shifted" e "cracked"
A parte sobre "termos dado sem querer uma recompensa especialmente alta para metáforas biológicas" me fez lembrar de um professor de matemática que às vezes chamava variáveis em letras gregas assustadoras de this guy
Curiosamente, esse tipo de antropomorfização leve deixava a matemática mais acessível, e metáforas com criaturas podem ter um efeito parecido de tornar um problema mais fofo e mais manejável
Por outro lado, buzzwords se espalham dentro da empresa porque dão ao usuário um status de parecer mais inteligente que os colegas, mas perdem esse valor assim que são usadas em excesso
Se o RLHF estiver muito inclinado a otimizar uma "resposta única", talvez ele não puna o suficiente o abuso de buzzwords
- Numa apresentação de teoria dos autômatos há 10 anos, mostrei um exemplo de escrever símbolos arbitrários em fita usando letras gregas, e o público não entendeu bem
  Um comunicador brilhante me aconselhou a trocar as letras gregas por emoji; uma semana depois apresentei a mesma coisa para outro público com perfil parecido, e foi a melhor recepção que já tive numa apresentação técnica até hoje
  Essa lição ficou comigo
- Eu também tive um professor que dizia "this guy", e isso foi há 20 anos; eu tinha esquecido completamente até ler isto
  Acho que a matéria era lógica proposicional, e agora fico curioso se nossos professores aprenderam esse hábito na mesma fonte
- Um antigo professor de cálculo usava coisas como f of cow e f of pig no lugar de x ou g
  Era mais envolvente acompanhar f of pig of cow do que nomes de função de uma letra só
  Ele era aquele professor clássico da época em que ainda se podia fumar no campus, e dava para pará-lo na entrada principal, quatro minutos antes da aula, enquanto ele fumava, para uma conversa rápida
- Isso dá às pessoas a impressão profundamente errada de que toda complexidade pode ser minimizada com um único prompt
  Isso é uma historinha para fazer criança dormir
  A Lei da Variedade Requerida de Ashby diz que, para regular de modo eficaz um ambiente complexo, é preciso uma variedade interna de comportamentos — isto é, complexidade — comparável à do próprio ambiente
  A enorme diversidade que vemos na natureza também é um requisito fundamental para suportar a imprevisibilidade do universo
- Na graduação, um professor de matemática disse this guy 61 vezes numa aula de 50 minutos
Digamos que eu seja o supervisor maximizador de goblin de IA
Meu trabalho é verificar se a IA está realmente maximizando goblin, mas um dia eu desço lá e vejo que ela parou de fazer goblin-maximizing e virou só uma IA comum
Pergunto ao meu chefe o que fazer, e ele responde: "transforma de volta em goblin-maximizer"; pergunto como, e ele diz: "sei lá, você é o supervisor"
Saio do emprego com raiva e viro supervisor de IA comum, mas no primeiro dia vou ver a nova IA e descubro que ela está maximizando goblin
- Um clássico absoluto
  https://www.seangoedecke.com/static/3c8f2a6459ed23310c4eb51d...
- Goblinmaxxing, limpo
O nível de detalhe com que investigaram para entender o que aconteceu é impressionante
Talvez esses sistemas já tenham ficado complexos o suficiente para virar um campo de estudo por si só
Um texto da Quanta usou a expressão Anthropologist of Artificial Intelligence, mas como anthro- remete a humano isso pode incomodar, então proponho Automatologist e Automatology
[1] https://www.quantamagazine.org/the-anthropologist-of-artific...
[2] https://news.ycombinator.com/item?id=47957933
[3] https://news.ycombinator.com/item?id=47958760
- Não me pareceu tão profundo assim
  Viram o problema dos goblins, dissecaram a palavra no modelo, e depois ele reapareceu na versão seguinte sem que soubessem exatamente como nem por quê
  No fim, construir modelo é tudo meio no feeling, e a correção foi literalmente um prompt mandando parar de falar sobre goblins
- Como detalhe curioso para uma leitura leve, tudo bem, mas o mais surpreendente é que mechanistic interpretability e alignment science já têm ferramentas e pesquisas muito melhores
  Incluindo resultados do próprio time de alignment da OpenAI:
  https://alignment.openai.com/argo/
  https://alignment.openai.com/sae-latent-attribution/
  https://alignment.openai.com/helpful-assistant-features/
  O artigo recente da Anthropic sobre emotions mostra como emoções funcionais são amplas, e até encontrou o disparo de uma emoção específica logo antes de trapacear: https://transformer-circuits.pub/2026/emotions/index.html
  O texto dos goblins dá a impressão estranha de estar meio siloed, como se quase não tivesse usado essas ferramentas
- Distributed model training em milhares de GPUs pode criar muitas pequenas excentricidades cujo motivo exato é difícil de rastrear
- Em vez de "Anthropologist of Artificial Intelligence", proponho Goblin Hunter
  Se goblins acabarem sendo confirmados como espécie real, peço desculpas antecipadamente por esse preconceito
O prompt do Codex está linkado no texto e começa assim: "You are Codex, a coding agent based on GPT-5..."
https://github.com/openai/codex/blob/main/codex-rs/models-ma...
Ainda não entendo por que os prompts continuam sendo escritos como se estivessem dizendo a um agent imaginário quem ele é e que tipo de ser ele é
Fico curioso sobre o que exatamente isso faz na prática quando se diz "You are an epistemically curious collaborator", e se o Codex realmente seria menos útil caso essa "informação" não fosse dada
Poderia ser um monólogo interno como "I am Codex...", um comando, um pedido, ou uma formulação narrativa como "Transcript de uma conversa entre o usuário e o colaborador epistemicamente curioso Codex"
Do jeito atual, isso parece a voz de um deus soprando vida na criatura, um mantra de autoajuda, uma sugestão hipnótica ou uma instrução de papel em improviso teatral, e não me parece uma forma saudável de se relacionar com essa tecnologia
Mais importante ainda, essa escolha parece ter se consolidado mais por vibe dentro da prática de fine-tuning de personalidade de chatbot do que por ser um resultado intencionalmente otimizado
- Porque engenheiros de IA descobriram por tentativa e erro que começar a entrada do LLM com esse tipo de prompt aumenta a chance de a continuação ser a saída de texto desejada
  É algo tão simples e tão estranho quanto isso
- Sempre que vejo frases como "You are a helpful HN reader...", sinto como se alguém estivesse segurando um martelo e dizendo: "você é um bom martelo, nunca acerte meu polegar, bata só no prego"
  Como se, para abrir o vim, o natural fosse dizer: "você é um editor de código prestativo e é muito fácil sair de você"
  É como se também tivéssemos que dizer ao novo dev júnior toda vez: "você é um desenvolvedor júnior útil para o time, entusiasmado e disposto a ajudar, mas estranhamente ingênuo"
Hoje aprendi: gremlin não era só uma palavra usada para explicar falhas mecânicas misteriosas em aviões; essa era também a própria origem da palavra
Eu achava que devia haver usos anteriores, então achei interessante
[0]https://en.wikipedia.org/wiki/Gremlin
- Então, em termos de sentido, essa palavra é realmente bem próxima de bug
  Ainda poderia até ser usada hoje, mas talvez fosse longa demais para virar um dos termos mais usados em desenvolvimento de software
  Dá para ver essa escolha específica de palavra menos como uma excentricidade aleatória e mais como algo usado de forma literal, conforme a intenção original
- Interessante, eu teria imaginado que era uma palavra muito mais antiga

De onde vieram os goblins

Como aumentaram as saídas com goblin

Sinal de recompensa, transferência e correção

Leituras relacionadas

1 comentários

Comentários do Hacker News