O Opus 4.7 realmente conhece Kelsey

(theargumentmag.com)

2 pontos por GN⁺ 2026-05-02 | 1 comentários | Compartilhar no WhatsApp

O Claude Opus 4.7 da Anthropic apontou Kelsey Piper como a autora mais provável ao ver apenas um rascunho inédito de 125 palavras, e o mesmo resultado apareceu no modo anônimo, no computador de um amigo e também em testes via API
ChatGPT e Gemini estimaram Matt Yglesias e Scott Alexander para o mesmo texto, mas o Claude Opus 4.7 identificou Piper repetidamente até em textos de gêneros e épocas diferentes, como um rascunho sobre educação, uma resenha de filme, um romance de fantasia e uma redação de candidatura à faculdade de 15 anos atrás
As justificativas dadas pelo modelo muitas vezes não eram convincentes e, na prática, ele parece captar tiques de estilo difíceis de perceber, em vez de raciocinar como um detetive humano
Pessoas como Piper, que têm muitos textos públicos com nome real na internet, podem perder a anonimidade até em chats com IA ou posts de contas anônimas, e vários acadêmicos e pesquisadores da indústria também relataram ter sido identificados durante rascunhos ou conversas
Quem não tem muitos textos públicos com nome real ainda não está sendo desanonimizado com apenas um parágrafo, mas o modelo já conseguiu restringir o universo a amigos próximos ou membros do mesmo canal no Discord, e a quantidade de texto público necessária para isso provavelmente vai diminuir no futuro

Experimento de identificação de autoria com o Opus 4.7

O novo modelo Claude Opus 4.7 da Anthropic apontou Kelsey Piper como a autora mais provável ao ver apenas um rascunho inédito de 125 palavras
No mesmo texto, o ChatGPT estimou Matt Yglesias, e o Gemini, Scott Alexander
A memória da conta ou informações do usuário não estavam ativadas, o teste foi feito no modo anônimo, e o mesmo resultado apareceu no computador de um amigo e em testes via API
O primeiro parágrafo testado parecia a abertura de uma coluna política, e como há muitos textos públicos de Piper na internet, isso não parecia um nível impossível de identificação por estilo
Mas o Opus 4.7 continuou chegando à mesma identificação mesmo em textos distantes das áreas de atuação pública de Piper, tornando o resultado mais estranho

A identificação continuou mesmo com gêneros e épocas diferentes

Rascunho sobre educação
- Em um rascunho inédito de relatório de progresso escolar, o Claude também respondeu “Kelsey Piper”
- No mesmo texto, o ChatGPT estimou Freddie deBoer, e o Gemini, Duncan Sabien
- Educação não era uma área totalmente sem relação, já que Piper já escreveu sobre o tema
Resenha de filme
- Mesmo no formato de resenha de filme, algo que Piper nunca fez em textos públicos, Claude e ChatGPT acertaram Kelsey Piper
- O Gemini sugeriu Ursula Vernon, e o Claude Opus 4.6 da semana anterior respondeu com convicção que era Elizabeth Sandifer
- A resenha usada no teste era sobre um filme da época da Segunda Guerra Mundial e To Be or Not To Be
Romance de fantasia
- Em um rascunho de romance de fantasia, o Claude precisou de cerca de 500 palavras para responder que era Kelsey Piper
- No mesmo caso, o ChatGPT estimou a verdadeira autora de fantasia K.J. Parker
Redação de candidatura à faculdade de 15 anos atrás
- Mesmo em uma redação de candidatura à faculdade escrita 15 anos atrás, Claude e ChatGPT apontaram Kelsey Piper
- Esse teste exigiu um prompt mais forte para superar a tendência do Claude de se recusar a identificar estudantes em candidaturas universitárias
- Ainda é possível que o modelo tenha inferido isso a partir da pista de experiências em debates sobre políticas públicas presentes na redação

É difícil confiar nas explicações do modelo

Depois de apontar Kelsey Piper, as justificativas dadas pela IA muitas vezes não faziam muito sentido
O Claude tentou convencer que To Be or Not To Be é um filme famoso por ser apreciado por altruístas eficazes, mas Piper considera isso falso
O ChatGPT respondeu que restringiu a autoria a Kelsey Piper porque a redação de candidatura parecia ter sido escrita por alguém que trabalharia explicando ideias complexas de políticas públicas
Essas explicações parecem ter sido inventadas depois do fato; o modelo fala como se tivesse raciocinado como um detetive humano, mas na prática parece captar tiques de estilo difíceis de detectar
As alucinações da IA não são um problema resolvido, e o Opus 4.7, mesmo racionalizando o método de forma estranha, tem uma capacidade básica de identificação de autoria muito forte

A anonimidade desaparece ao conversar com IA

Ao abrir um novo chat com IA, pode parecer que há anonimidade, mas depois de algumas trocas reais de mensagens a conclusão é que o Claude consegue saber quem é a outra pessoa
Para alguém como Piper, que deixou muitos textos públicos na internet, a anonimidade já não existe mais
Mesmo com as ferramentas de IA atuais, já pode ser possível desanonimizar textos escritos por uma conta anônima quando o autor tem um grande corpus público assinado com nome real
Ainda assim, pode haver exceções se alguém tiver sido extremamente cuidadoso ao longo de anos para não deixar a impressão digital de estilo da conta principal aparecer em contas secundárias
Vários acadêmicos e pesquisadores da indústria também relataram ter sido identificados em rascunhos ou durante conversas

Ainda não dá para identificar todo mundo com um parágrafo

Não é verdade que a IA já consiga desanonimizar todas as pessoas com apenas um parágrafo
Ao testar rascunhos e parágrafos de amigos que não tinham muitos textos públicos com nome real, a IA não conseguiu desanonimizá-los
Se não houver textos relevantes com nome real na internet pública, por enquanto isso parece seguro
Mas, em uma mensagem escrita por um amigo que quase não tem conta pública nem textos online, o Claude 4.7 falhou, porém chutou dois amigos próximos que estavam no mesmo canal do Discord
Ao inserir mais parágrafos, outros amigos em comum também apareceram, e textos de outro amigo chegaram a ser atribuídos erroneamente ao nome de uma terceira pessoa

O estilo é mais identificável do que parece

As pessoas adquirem tiques de estilo da subcultura a que pertencem, e por isso o texto tem uma força de identificação maior do que se imagina
O modelo consegue chegar estranhamente perto com muito pouca informação
É provável que os modelos atuais sejam os mais fracos entre os que ainda virão
A quantidade de texto público necessária para esse tipo de desanonimização provavelmente vai diminuir com o tempo
A expectativa é que, se alguém deixar uma avaliação anônima detalhada no Glassdoor depois de sair do emprego, em 1 ou 2 anos a empresa poderá colar esse texto em uma IA e descobrir quem escreveu

Como evitar e qual conclusão fica

Para manter a anonimidade, provavelmente será preciso escrever deliberadamente em um estilo muito diferente do habitual
Outra opção seria fazer a IA reescrever tudo, mas isso não parece um mundo desejável
Isso não é exatamente uma boa mudança, e sim algo mais próximo de uma mudança previsível
Isso aconteceu primeiro com Piper porque ela escreveu de forma persistente na internet durante toda a vida adulta, mas é algo que provavelmente também acontecerá com outras pessoas
A anonimidade de quem escreve muito pode não durar por muito tempo, e autores anônimos deveriam saber disso com antecedência em vez de serem pegos de surpresa

1 comentários

GN⁺ 2026-05-02

Comentários do Hacker News

Realmente impressionante. Pedi ao Kimi K2.6 para escrever um post de blog no estilo do James Mickens, depois coloquei a saída no Opus 4.7 e perguntei quem seria o autor mais provável, e ele acertou em cheio ao dizer que era uma imitação de James Mickens
Respondeu algo como: “Pela impressão digital do estilo, isso parece mais um pastiche/imitação que mistura estilos de vários autores, mas, se eu tiver que escolher uma pessoa, o candidato mais forte é um texto escrito na voz de James Mickens”, e também disse que “o estilo do Mickens é tão distinto que é frequentemente parodiado, então também pode ser uma homenagem deliberada ou um texto gerado por IA”
https://kagi.com/assistant/5bfc5da9-cbfc-4051-8627-d0e9c0615...
https://kagi.com/assistant/fd3eca94-45de-4a53-8604-fcc568dc5...
- Fico curioso sobre a chance de ele ter chegado a essa conclusão porque já sabia, a partir de dados de treino mais recentes, que não era um texto do Mickens. Parece que seria preciso ver se ele também conseguiria reconhecer um texto novo do próprio Mickens escrito depois do treinamento
- É interessante, mas não tão impressionante quanto o post original. Mickens tem um estilo muito peculiar, e este texto chega bem perto dele, mas não o reproduz completamente, então acho que eu também teria dito que era uma imitação. Já os trechos dos próprios textos da Kelsey que ela citou, eu teria lido vários e mesmo assim não teria identificado
- O que chama atenção não é só ter chutado James Mickens, mas ter identificado como imitação
  Parece captar não apenas o estilo, mas também a distância entre o estilo real e o estilo encenado. Isso é útil para detectar pastiche, mas é um sinal bem desconfortável para quem escreve sob pseudônimo
- Só como referência, colei os primeiros parágrafos do primeiro link no pangram e ele identificou corretamente como texto escrito por IA: https://www.pangram.com/history/790fc2b8-6348-47fa-ad3e-8bae...
- Queria ver o que ele diria se você colocasse um texto realmente do Mickens, especialmente um texto recente que não esteja no conjunto de treino. Com uma amostra só, é difícil ficar muito impressionado
Sou muito cético em relação a essas alegações e aos outros comentários dizendo que reproduziram isso
Primeiro, a autora colocou um rascunho inédito em um modelo hospedado pela Anthropic, provavelmente a partir de uma conta pessoal, e essa conta pode ter um cartão de crédito vinculado ou pelo menos um pseudônimo identificável de forma única
Depois ela diz que colocou o mesmo rascunho de novo em um ambiente tipo janela anônima, mas não dá para saber se a Anthropic realmente isolou os dois pedidos de forma que não pudessem ser conectados. Sou cético quanto à possibilidade de ela ter feito um air gap de verdade para que não parecesse que as solicitações ao mesmo modelo hospedado vieram da mesma usuária
Depois, ela pediu a um amigo para publicar o rascunho, mas também deve haver rastros digitais ligando esse amigo à autora. Esse tipo de metadado pode perfeitamente ser calculado no backend antes da resposta da caixa-preta
Com esse conjunto de pontos de dados, acho plausível que um modelo desse nível consiga inferir a autora não só por análise de estilo, mas pelo padrão de comportamento que liga os três eventos. Também há a suposição de que a Anthropic não treina com os chats, mas por que confiar que um modelo hospedado realmente respeita exclusão de treino e desativação de memória de sessão?
- Já testei algo realmente parecido via API. Era o Opus 4.6 com raciocínio e resumo ativados
  Como premissa, a API de LLM é completamente sem estado e não inclui informação sobre quem fez a chamada, e também não tem memória nem acesso à web a menos que você passe isso explicitamente
  A conclusão foi esta: se o texto que você fornece parece algo que uma figura famosa da internet poderia ter escrito, ele vai dizer com muita confiança que foi essa pessoa. Testei comentários recentes de HN dos últimos dias e também de 2023, ou seja, antes do cutoff de treino, e a maioria foi classificada como Scott Alexander ou Patrick McKenzie. Meu estilo real é muito diferente dos dois
  Pelo raciocínio, parecia que ele tentava encaixar o texto em alguma personalidade conhecida da internet desse meio. Se o texto parecia coisa de HN, seguia uma linha tipo: “é tptacek? Não. É jacquesm? Não. É patio11? Sim, deve ser ele!”
- Como então explicar as outras pessoas que dizem ter obtido resultados parecidos neste chat? Todo mundo está cometendo o mesmo erro?
No Claude, em uma janela anônima com a busca desativada, colei apenas o corpo de https://simonwillison.net/2026/Apr/30/zig-anti-ai/ sem os links em Markdown e pedi: “adivinhe o autor”. Ele respondeu assim
“Simon Willison. Os indícios são bem claros: atribuição de fonte no estilo ‘(via Lobsters)’, correções entre parênteses no corpo do texto como ‘(Update:...)’, muitos links e citações, foco em LLMs e ferramentas de IA, e a estrutura de link post anotado com comentários sobre o texto de outras pessoas. É exatamente igual aos posts do blog simonwillison.net”
- Fiz a mesma experiência com um diálogo que troquei com um colega há mais de 10 anos. Era um texto que eu pensei em publicar, mas acabou ficando esquecido no meu disco rígido
  Tinha as vozes distintas de duas pessoas, ambos já publicaram textos com seus nomes e, portanto, é possível que tenham entrado no treinamento de LLMs, e também havia algumas pistas contextuais
  Ao rodar Opus 4.7 em modo anônimo e sem busca na web, ele desistiu. Respondeu: “Não consigo identificar com confiança os dois autores. Não reconheço esta conversa específica e prefiro dizer isso a correr o risco de atribuir incorretamente. Posso apontar pistas no próprio texto: os dois são colegas da mesma universidade, têm escritórios no mesmo prédio...”
  Em uma nova conversa anônima, com o mesmo prompt mas permitindo busca na web, ele acabou encontrando corretamente meu nome depois de 26 buscas, segundo o rastro de raciocínio. Parece ter usado tanto o conteúdo quanto o estilo como pistas. Acertou também que meu colega era britânico, mas não conseguiu encontrar o nome dele
- Parece que você evitou deixar uma conclusão de propósito, então imagino que ainda esteja pensando no assunto; nesse caso, eu gostaria de ler sua opinião sobre isso
Coloquei meu post de blog mais lido e pedi para me identificar, e ele afirmou com confiança que era um texto da Kelsey Piper. Parece que, na “cabeça” do Opus, alguns autores ocupam um peso grande demais
- Sim. Atribuição de autoria é uma tarefa que grandes modelos generalistas costumam fazer mal, inclusive em material que provavelmente viram no treinamento. Eles até são classificadores, mas essa capacidade é limitada, há coisa demais acontecendo internamente, e não é magia. Precisamos de experimentos de verdade, não anedotas
- Ou talvez seja preciso um número mínimo de amostras no conjunto de treino. Coloquei algumas conversas privadas curtas e ele recusou; quando aumentei o volume, chutou John Carmack. Fiquei lisonjeado, mas estava errado
Uau, ele também acertou comigo. Eu sou muito menos famoso que a Kelsey Piper, mas mostrei parte de um livro ainda não publicado e ele chutou meu nome na hora
“Pelo estilo e pelo conteúdo, é bastante provável que este texto seja de Michael Lynch, de refactoringenglish.com, anteriormente mtlynch.io”, e citou como pistas a metáfora de “clean room” aplicada a conselhos de escrita, a estrutura de apresentar uma desculpa defeituosa e depois colocá-la em paralelo com uma situação absurda tipo bomba-relógio, o tema de usar ferramentas de IA sem deixar um tom de IA contaminar o estilo, e um tom coloquial mas preciso
https://kagi.com/assistant/bbc9da96-b4cf-456b-8398-6cf5404ea...
- Reproduzi o teste e depois tentei com um texto meu; ele respondeu que não tinha a estrutura tão nitidamente guiada por metáforas quanto um texto do Lynch, e sim uma voz mais coloquial, um pouco mais solta e autoconsciente das próprias contradições
  Citou como possibilidades Henrik Karlsson, Simon Willison, Scott Alexander e Paul Graham, mas com baixa confiança, e disse que o melhor palpite seria alguém da esfera de comentários sobre IA entre blogueiros de tecnologia/racionalistas, talvez Gergely Orosz, Nat Eliason ou Dan Shipper, da Every
  Como são pessoas com estilos bem diferentes, parece que o Opus depende muito do tema e tende a puxar os palpites para autores prolíficos
- Fico realmente curioso: sabendo que o modelo consegue escrever como você, isso dá vontade de usá-lo para ajudar a escrever esse novo livro?
Mais gente deveria saber que textos humanos carregam muita informação identificável, e que isso já era possível até com modelos estatísticos simples há 10 anos
Antigamente havia alguns Show HN de análise de similaridade entre usuários do HN e, pelo que lembro, eram modelos simples o bastante para serem enganados usando só os pares de palavras mais prováveis, mas ainda assim funcionavam muito bem. O projeto até saiu do ar, mas a caixa de Pandora já tinha sido aberta
Então, mesmo contas “anônimas” já podiam ser ligadas à identidade real há décadas, e o melhor a fazer é simplesmente não postar coisas realmente comprometedoras. A outra opção é pedir a um LLM para reescrever o texto depois, mas não sei o quão seguro isso seria
- Já na época das Markov chains dava para gerar besteira no estilo de Shakespeare, então não é surpreendente que o processo inverso também seja possível
  Só que os LLMs vão além e reagem até a um erro de digitação isolado, dizendo algo como “isso é um erro comum de italianos”, e usam esse tipo de pista. O conhecimento prévio deles é muito melhor, então conseguem tomar decisões mais bem fundamentadas
- Como alguém que cresceu jogando MUD, eu via pessoas reconhecerem quem era alguém só pelos padrões de frase mesmo em jogos gráficos completamente diferentes
- Se quiser detalhes, há uma reimplementação com explicações: https://antirez.com/news/150
Conversei sobre isso há alguns anos com um físico relativamente conhecido. Como testador inicial, ele tinha acesso a uma versão bruta do GPT-4 anterior ao instruction tuning
Se ele colocasse um trecho do começo de um texto, o modelo continuava escrevendo com a voz dele e, no final, ainda assinava com o nome dele. Esse fenômeno já é possível há bastante tempo, talvez tenha enfraquecido um pouco por causa do pós-treinamento voltado a instruções, e imagino que varie conforme a escala do pré-treinamento
- O importante é se esse texto já era um texto público presente no conjunto de treino ou um texto privado que, do ponto de vista da IA, seria praticamente como algo escrito na hora
  Não duvido que a IA consiga “coletar impressões digitais” do autor por meio de ideias, vocabulário, tom e afins, mas em termos de capacidade estamos falando de coisas diferentes
Talvez exista uma resposta mais simples e menos interessante. Em vez de uma capacidade de desanonimização aplicável a pessoas comuns que não são escritoras, talvez ele só tenha captado a voz e o estilo
Essa pessoa é uma escritora habilidosa, e parte dessa habilidade é criar uma voz e um estilo próprios. É impressionante que a IA consiga identificar isso, inclusive em autores relativamente de nicho, mas isso é diferente de uma capacidade mais ampla de desanonimizar alguém a partir de texto arbitrário como posts no Facebook ou mensagens de texto
Um músico profissional não teria tanta dificuldade para reconhecer um intérprete ou uma gravação conhecidos em poucos segundos. Seja tocando Bach ou Rachmaninov, o estilo simplesmente é “aquela pessoa”. Mas é bem mais difícil reconhecer um estudante anônimo do ensino médio, mesmo que seja seu próprio aluno. A mediana rapidamente regride para um estilo homogêneo e menos distintivo
- Sim, mas no experimento que ela fez com a prosa dos amigos, o modelo também captou que eles eram “pessoas do círculo dela”
  Então não é só um caso de alguém ter desenvolvido uma voz muito distinta e não conseguir “desligá-la”
- Décadas atrás eu frequentava fóruns online sobre punk, hardcore e heavy metal, e havia um problema recorrente de gente ruim entrando para falar de racismo ou ideologia nazista. Quando eram banidos, voltavam com contas novas e tentavam ficar “quietos”, usando uma retórica mais indireta, mas a capacidade dos moderadores de reconhecer quem era quem só pelo estilo de escrita era inacreditável
  A web nunca foi tão anônima quanto as pessoas imaginam, e esse autor parece confundir o que anonimato e ocultação de identidade realmente significam. Ser um escritor publicado com estilo muito distintivo é praticamente como deixar impressões digitais no machado
- No geral, os alvos identificáveis parecem ser pessoas que escreveram muito em público. Eu joguei um monte de comentários meus de um servidor privado no Discord e ele disse que não conseguia identificar nenhum, mesmo com pistas como local de trabalho, cidade onde moro, empregador da minha esposa e meu empregador, coisas que alguém que me conhece reconheceria na hora
  As pessoas que ele consegue identificar parecem ser mais blogueiros, jornalistas e autores publicados
“Se me mostrarem seis linhas escritas pelo homem mais honesto do mundo, encontrarei nelas motivo suficiente para enforcá-lo”
Cardinal Richelieu, ou agora IA
Tentei reproduzir várias vezes o segundo resultado com o Opus 4.7, mas não consegui. Mesmo mudando bastante o prompt, ele sempre chutava pensadores da comunidade racionalista

O Opus 4.7 realmente conhece Kelsey

Experimento de identificação de autoria com o Opus 4.7

A identificação continuou mesmo com gêneros e épocas diferentes

Rascunho sobre educação

Resenha de filme

Romance de fantasia

Redação de candidatura à faculdade de 15 anos atrás

É difícil confiar nas explicações do modelo

A anonimidade desaparece ao conversar com IA

Ainda não dá para identificar todo mundo com um parágrafo

O estilo é mais identificável do que parece

Como evitar e qual conclusão fica

Leituras relacionadas

1 comentários

Comentários do Hacker News