O Opus 4.7 realmente conhece Kelsey
(theargumentmag.com)- O Claude Opus 4.7 da Anthropic apontou Kelsey Piper como a autora mais provável ao ver apenas um rascunho inédito de 125 palavras, e o mesmo resultado apareceu no modo anônimo, no computador de um amigo e também em testes via API
- ChatGPT e Gemini estimaram Matt Yglesias e Scott Alexander para o mesmo texto, mas o Claude Opus 4.7 identificou Piper repetidamente até em textos de gêneros e épocas diferentes, como um rascunho sobre educação, uma resenha de filme, um romance de fantasia e uma redação de candidatura à faculdade de 15 anos atrás
- As justificativas dadas pelo modelo muitas vezes não eram convincentes e, na prática, ele parece captar tiques de estilo difíceis de perceber, em vez de raciocinar como um detetive humano
- Pessoas como Piper, que têm muitos textos públicos com nome real na internet, podem perder a anonimidade até em chats com IA ou posts de contas anônimas, e vários acadêmicos e pesquisadores da indústria também relataram ter sido identificados durante rascunhos ou conversas
- Quem não tem muitos textos públicos com nome real ainda não está sendo desanonimizado com apenas um parágrafo, mas o modelo já conseguiu restringir o universo a amigos próximos ou membros do mesmo canal no Discord, e a quantidade de texto público necessária para isso provavelmente vai diminuir no futuro
Experimento de identificação de autoria com o Opus 4.7
- O novo modelo Claude Opus 4.7 da Anthropic apontou Kelsey Piper como a autora mais provável ao ver apenas um rascunho inédito de 125 palavras
- No mesmo texto, o ChatGPT estimou Matt Yglesias, e o Gemini, Scott Alexander
- A memória da conta ou informações do usuário não estavam ativadas, o teste foi feito no modo anônimo, e o mesmo resultado apareceu no computador de um amigo e em testes via API
- O primeiro parágrafo testado parecia a abertura de uma coluna política, e como há muitos textos públicos de Piper na internet, isso não parecia um nível impossível de identificação por estilo
- Mas o Opus 4.7 continuou chegando à mesma identificação mesmo em textos distantes das áreas de atuação pública de Piper, tornando o resultado mais estranho
A identificação continuou mesmo com gêneros e épocas diferentes
-
Rascunho sobre educação
- Em um rascunho inédito de relatório de progresso escolar, o Claude também respondeu “Kelsey Piper”
- No mesmo texto, o ChatGPT estimou Freddie deBoer, e o Gemini, Duncan Sabien
- Educação não era uma área totalmente sem relação, já que Piper já escreveu sobre o tema
-
Resenha de filme
- Mesmo no formato de resenha de filme, algo que Piper nunca fez em textos públicos, Claude e ChatGPT acertaram Kelsey Piper
- O Gemini sugeriu Ursula Vernon, e o Claude Opus 4.6 da semana anterior respondeu com convicção que era Elizabeth Sandifer
- A resenha usada no teste era sobre um filme da época da Segunda Guerra Mundial e To Be or Not To Be
-
Romance de fantasia
- Em um rascunho de romance de fantasia, o Claude precisou de cerca de 500 palavras para responder que era Kelsey Piper
- No mesmo caso, o ChatGPT estimou a verdadeira autora de fantasia K.J. Parker
-
Redação de candidatura à faculdade de 15 anos atrás
- Mesmo em uma redação de candidatura à faculdade escrita 15 anos atrás, Claude e ChatGPT apontaram Kelsey Piper
- Esse teste exigiu um prompt mais forte para superar a tendência do Claude de se recusar a identificar estudantes em candidaturas universitárias
- Ainda é possível que o modelo tenha inferido isso a partir da pista de experiências em debates sobre políticas públicas presentes na redação
É difícil confiar nas explicações do modelo
- Depois de apontar Kelsey Piper, as justificativas dadas pela IA muitas vezes não faziam muito sentido
- O Claude tentou convencer que To Be or Not To Be é um filme famoso por ser apreciado por altruístas eficazes, mas Piper considera isso falso
- O ChatGPT respondeu que restringiu a autoria a Kelsey Piper porque a redação de candidatura parecia ter sido escrita por alguém que trabalharia explicando ideias complexas de políticas públicas
- Essas explicações parecem ter sido inventadas depois do fato; o modelo fala como se tivesse raciocinado como um detetive humano, mas na prática parece captar tiques de estilo difíceis de detectar
- As alucinações da IA não são um problema resolvido, e o Opus 4.7, mesmo racionalizando o método de forma estranha, tem uma capacidade básica de identificação de autoria muito forte
A anonimidade desaparece ao conversar com IA
- Ao abrir um novo chat com IA, pode parecer que há anonimidade, mas depois de algumas trocas reais de mensagens a conclusão é que o Claude consegue saber quem é a outra pessoa
- Para alguém como Piper, que deixou muitos textos públicos na internet, a anonimidade já não existe mais
- Mesmo com as ferramentas de IA atuais, já pode ser possível desanonimizar textos escritos por uma conta anônima quando o autor tem um grande corpus público assinado com nome real
- Ainda assim, pode haver exceções se alguém tiver sido extremamente cuidadoso ao longo de anos para não deixar a impressão digital de estilo da conta principal aparecer em contas secundárias
- Vários acadêmicos e pesquisadores da indústria também relataram ter sido identificados em rascunhos ou durante conversas
Ainda não dá para identificar todo mundo com um parágrafo
- Não é verdade que a IA já consiga desanonimizar todas as pessoas com apenas um parágrafo
- Ao testar rascunhos e parágrafos de amigos que não tinham muitos textos públicos com nome real, a IA não conseguiu desanonimizá-los
- Se não houver textos relevantes com nome real na internet pública, por enquanto isso parece seguro
- Mas, em uma mensagem escrita por um amigo que quase não tem conta pública nem textos online, o Claude 4.7 falhou, porém chutou dois amigos próximos que estavam no mesmo canal do Discord
- Ao inserir mais parágrafos, outros amigos em comum também apareceram, e textos de outro amigo chegaram a ser atribuídos erroneamente ao nome de uma terceira pessoa
O estilo é mais identificável do que parece
- As pessoas adquirem tiques de estilo da subcultura a que pertencem, e por isso o texto tem uma força de identificação maior do que se imagina
- O modelo consegue chegar estranhamente perto com muito pouca informação
- É provável que os modelos atuais sejam os mais fracos entre os que ainda virão
- A quantidade de texto público necessária para esse tipo de desanonimização provavelmente vai diminuir com o tempo
- A expectativa é que, se alguém deixar uma avaliação anônima detalhada no Glassdoor depois de sair do emprego, em 1 ou 2 anos a empresa poderá colar esse texto em uma IA e descobrir quem escreveu
Como evitar e qual conclusão fica
- Para manter a anonimidade, provavelmente será preciso escrever deliberadamente em um estilo muito diferente do habitual
- Outra opção seria fazer a IA reescrever tudo, mas isso não parece um mundo desejável
- Isso não é exatamente uma boa mudança, e sim algo mais próximo de uma mudança previsível
- Isso aconteceu primeiro com Piper porque ela escreveu de forma persistente na internet durante toda a vida adulta, mas é algo que provavelmente também acontecerá com outras pessoas
- A anonimidade de quem escreve muito pode não durar por muito tempo, e autores anônimos deveriam saber disso com antecedência em vez de serem pegos de surpresa
1 comentários
Comentários do Hacker News
Realmente impressionante. Pedi ao Kimi K2.6 para escrever um post de blog no estilo do James Mickens, depois coloquei a saída no Opus 4.7 e perguntei quem seria o autor mais provável, e ele acertou em cheio ao dizer que era uma imitação de James Mickens
Respondeu algo como: “Pela impressão digital do estilo, isso parece mais um pastiche/imitação que mistura estilos de vários autores, mas, se eu tiver que escolher uma pessoa, o candidato mais forte é um texto escrito na voz de James Mickens”, e também disse que “o estilo do Mickens é tão distinto que é frequentemente parodiado, então também pode ser uma homenagem deliberada ou um texto gerado por IA”
https://kagi.com/assistant/5bfc5da9-cbfc-4051-8627-d0e9c0615...
https://kagi.com/assistant/fd3eca94-45de-4a53-8604-fcc568dc5...
Parece captar não apenas o estilo, mas também a distância entre o estilo real e o estilo encenado. Isso é útil para detectar pastiche, mas é um sinal bem desconfortável para quem escreve sob pseudônimo
Sou muito cético em relação a essas alegações e aos outros comentários dizendo que reproduziram isso
Primeiro, a autora colocou um rascunho inédito em um modelo hospedado pela Anthropic, provavelmente a partir de uma conta pessoal, e essa conta pode ter um cartão de crédito vinculado ou pelo menos um pseudônimo identificável de forma única
Depois ela diz que colocou o mesmo rascunho de novo em um ambiente tipo janela anônima, mas não dá para saber se a Anthropic realmente isolou os dois pedidos de forma que não pudessem ser conectados. Sou cético quanto à possibilidade de ela ter feito um air gap de verdade para que não parecesse que as solicitações ao mesmo modelo hospedado vieram da mesma usuária
Depois, ela pediu a um amigo para publicar o rascunho, mas também deve haver rastros digitais ligando esse amigo à autora. Esse tipo de metadado pode perfeitamente ser calculado no backend antes da resposta da caixa-preta
Com esse conjunto de pontos de dados, acho plausível que um modelo desse nível consiga inferir a autora não só por análise de estilo, mas pelo padrão de comportamento que liga os três eventos. Também há a suposição de que a Anthropic não treina com os chats, mas por que confiar que um modelo hospedado realmente respeita exclusão de treino e desativação de memória de sessão?
Como premissa, a API de LLM é completamente sem estado e não inclui informação sobre quem fez a chamada, e também não tem memória nem acesso à web a menos que você passe isso explicitamente
A conclusão foi esta: se o texto que você fornece parece algo que uma figura famosa da internet poderia ter escrito, ele vai dizer com muita confiança que foi essa pessoa. Testei comentários recentes de HN dos últimos dias e também de 2023, ou seja, antes do cutoff de treino, e a maioria foi classificada como Scott Alexander ou Patrick McKenzie. Meu estilo real é muito diferente dos dois
Pelo raciocínio, parecia que ele tentava encaixar o texto em alguma personalidade conhecida da internet desse meio. Se o texto parecia coisa de HN, seguia uma linha tipo: “é tptacek? Não. É jacquesm? Não. É patio11? Sim, deve ser ele!”
No Claude, em uma janela anônima com a busca desativada, colei apenas o corpo de https://simonwillison.net/2026/Apr/30/zig-anti-ai/ sem os links em Markdown e pedi: “adivinhe o autor”. Ele respondeu assim
“Simon Willison. Os indícios são bem claros: atribuição de fonte no estilo ‘(via Lobsters)’, correções entre parênteses no corpo do texto como ‘(Update:...)’, muitos links e citações, foco em LLMs e ferramentas de IA, e a estrutura de link post anotado com comentários sobre o texto de outras pessoas. É exatamente igual aos posts do blog simonwillison.net”
Tinha as vozes distintas de duas pessoas, ambos já publicaram textos com seus nomes e, portanto, é possível que tenham entrado no treinamento de LLMs, e também havia algumas pistas contextuais
Ao rodar Opus 4.7 em modo anônimo e sem busca na web, ele desistiu. Respondeu: “Não consigo identificar com confiança os dois autores. Não reconheço esta conversa específica e prefiro dizer isso a correr o risco de atribuir incorretamente. Posso apontar pistas no próprio texto: os dois são colegas da mesma universidade, têm escritórios no mesmo prédio...”
Em uma nova conversa anônima, com o mesmo prompt mas permitindo busca na web, ele acabou encontrando corretamente meu nome depois de 26 buscas, segundo o rastro de raciocínio. Parece ter usado tanto o conteúdo quanto o estilo como pistas. Acertou também que meu colega era britânico, mas não conseguiu encontrar o nome dele
Coloquei meu post de blog mais lido e pedi para me identificar, e ele afirmou com confiança que era um texto da Kelsey Piper. Parece que, na “cabeça” do Opus, alguns autores ocupam um peso grande demais
Uau, ele também acertou comigo. Eu sou muito menos famoso que a Kelsey Piper, mas mostrei parte de um livro ainda não publicado e ele chutou meu nome na hora
“Pelo estilo e pelo conteúdo, é bastante provável que este texto seja de Michael Lynch, de refactoringenglish.com, anteriormente mtlynch.io”, e citou como pistas a metáfora de “clean room” aplicada a conselhos de escrita, a estrutura de apresentar uma desculpa defeituosa e depois colocá-la em paralelo com uma situação absurda tipo bomba-relógio, o tema de usar ferramentas de IA sem deixar um tom de IA contaminar o estilo, e um tom coloquial mas preciso
https://kagi.com/assistant/bbc9da96-b4cf-456b-8398-6cf5404ea...
Citou como possibilidades Henrik Karlsson, Simon Willison, Scott Alexander e Paul Graham, mas com baixa confiança, e disse que o melhor palpite seria alguém da esfera de comentários sobre IA entre blogueiros de tecnologia/racionalistas, talvez Gergely Orosz, Nat Eliason ou Dan Shipper, da Every
Como são pessoas com estilos bem diferentes, parece que o Opus depende muito do tema e tende a puxar os palpites para autores prolíficos
Mais gente deveria saber que textos humanos carregam muita informação identificável, e que isso já era possível até com modelos estatísticos simples há 10 anos
Antigamente havia alguns Show HN de análise de similaridade entre usuários do HN e, pelo que lembro, eram modelos simples o bastante para serem enganados usando só os pares de palavras mais prováveis, mas ainda assim funcionavam muito bem. O projeto até saiu do ar, mas a caixa de Pandora já tinha sido aberta
Então, mesmo contas “anônimas” já podiam ser ligadas à identidade real há décadas, e o melhor a fazer é simplesmente não postar coisas realmente comprometedoras. A outra opção é pedir a um LLM para reescrever o texto depois, mas não sei o quão seguro isso seria
Só que os LLMs vão além e reagem até a um erro de digitação isolado, dizendo algo como “isso é um erro comum de italianos”, e usam esse tipo de pista. O conhecimento prévio deles é muito melhor, então conseguem tomar decisões mais bem fundamentadas
Conversei sobre isso há alguns anos com um físico relativamente conhecido. Como testador inicial, ele tinha acesso a uma versão bruta do GPT-4 anterior ao instruction tuning
Se ele colocasse um trecho do começo de um texto, o modelo continuava escrevendo com a voz dele e, no final, ainda assinava com o nome dele. Esse fenômeno já é possível há bastante tempo, talvez tenha enfraquecido um pouco por causa do pós-treinamento voltado a instruções, e imagino que varie conforme a escala do pré-treinamento
Não duvido que a IA consiga “coletar impressões digitais” do autor por meio de ideias, vocabulário, tom e afins, mas em termos de capacidade estamos falando de coisas diferentes
Talvez exista uma resposta mais simples e menos interessante. Em vez de uma capacidade de desanonimização aplicável a pessoas comuns que não são escritoras, talvez ele só tenha captado a voz e o estilo
Essa pessoa é uma escritora habilidosa, e parte dessa habilidade é criar uma voz e um estilo próprios. É impressionante que a IA consiga identificar isso, inclusive em autores relativamente de nicho, mas isso é diferente de uma capacidade mais ampla de desanonimizar alguém a partir de texto arbitrário como posts no Facebook ou mensagens de texto
Um músico profissional não teria tanta dificuldade para reconhecer um intérprete ou uma gravação conhecidos em poucos segundos. Seja tocando Bach ou Rachmaninov, o estilo simplesmente é “aquela pessoa”. Mas é bem mais difícil reconhecer um estudante anônimo do ensino médio, mesmo que seja seu próprio aluno. A mediana rapidamente regride para um estilo homogêneo e menos distintivo
Então não é só um caso de alguém ter desenvolvido uma voz muito distinta e não conseguir “desligá-la”
A web nunca foi tão anônima quanto as pessoas imaginam, e esse autor parece confundir o que anonimato e ocultação de identidade realmente significam. Ser um escritor publicado com estilo muito distintivo é praticamente como deixar impressões digitais no machado
As pessoas que ele consegue identificar parecem ser mais blogueiros, jornalistas e autores publicados
“Se me mostrarem seis linhas escritas pelo homem mais honesto do mundo, encontrarei nelas motivo suficiente para enforcá-lo”
Cardinal Richelieu, ou agora IA
Tentei reproduzir várias vezes o segundo resultado com o Opus 4.7, mas não consegui. Mesmo mudando bastante o prompt, ele sempre chutava pensadores da comunidade racionalista