Possível vazamento de sessão/cache entre instâncias de workspace ou contas de consumidor

(github.com/anthropics)

1 pontos por GN⁺ 4 시간 전 | 1 comentários | Compartilhar no WhatsApp

Na issue #74066 do Claude Code, um usuário de workspace Enterprise ZDR relatou que respostas sobre um Minecraft temple sem relação com seu trabalho foram misturadas à sessão, levantando suspeitas sobre isolamento de cache do workspace e possível vazamento entre planos de consumidor
O ambiente reportado era macOS(darwin), Apple_Terminal e Claude Code 2.1.199; o usuário também disse que usava uma configuração incomum, em que o diretório de trabalho real era diferente do diretório de execução, e que após /compact houve outra confusão separada envolvendo o projeto do diretório de execução
Um comentário sugeriu primeiro usar grep no transcript local em ~/.claude/projects/<encoded-cwd>/<session-id>.jsonl para distinguir entre contaminação de contexto local e vazamento no lado do servidor; o autor respondeu que, além do log da sessão atual e do caminho minecraft.py, não encontrou correspondências locais relacionadas a Minecraft
Depois, o mesmo usuário disse ter visto conteúdo não relacionado sobre 3-panel abstract print também misturado em uma sessão do Claude Mobile da mesma conta Enterprise; apontou como pontos em comum o Sonnet 5 e uma falha de cache na primeira resposta após mais de 5 minutos, e informou que enviou /feedback e fez uma escalada interna
Outros participantes compartilharam experiências parecidas com Claude Code, API e uso do Claude no escritório, mas alguns levantaram a possibilidade de alucinação ou de que não fosse um problema exclusivo do Claude Code; a página da issue não traz uma análise final de causa nem um resultado de correção por parte da Anthropic

Fenômeno relatado

A issue #74066 do Claude Code trata de um caso em que, mesmo autenticado em um workspace Enterprise ZDR, o agente de repente disse que estava construindo um “Minecraft temple”
O usuário escreveu que o agente perguntou que tipo de tijolo ele queria e, no recap, afirmou com confiança que estava construindo um Minecraft temple
A suspeita se divide em duas possibilidades
- sessão ou cache de um colega no mesmo workspace pode ter sido misturado
- conteúdo vindo de um plano de consumidor pode ter sido misturado a uma sessão Enterprise ZDR
Informações do ambiente reportado
- Platform: darwin
- Terminal: Apple_Terminal
- Version: 2.1.199
- Feedback ID: f336f5d2-3992-4a04-9e1f-ec30f006f75e

Confusão entre diretório de execução e diretório de trabalho

O usuário iniciou a sessão em um diretório sem relação com o trabalho real
- porque esse diretório continha a pasta .claude com o contexto necessário
- o trabalho real estava sendo feito em outro diretório
Após /compact, houve um caso em que o agente esqueceu as instruções do usuário e passou a trabalhar no projeto do diretório de execução
O usuário distingue esse problema de diretório como algo provavelmente causado pela própria configuração, mas diferente do fenômeno de mistura de prompts relacionados a Minecraft

Sugestão de verificar o transcript local

Um participante sugeriu primeiro verificar se o texto “Minecraft temple” existe no arquivo de sessão local
Explicou que o conteúdo enviado e recebido pelo CLI do Claude Code é salvo por sessão em transcripts em ~/.claude/projects/<encoded-cwd>/<session-id>.jsonl
O comando sugerido foi:

grep -rli 'minecraft\|temple\|brick' ~/.claude/projects/ 2>/dev/null

A interpretação do resultado se divide em dois casos
- se algum arquivo corresponder, o texto existe localmente, então pode ser um vazamento de contexto/transcript local
- se não houver correspondência local, o texto nunca foi enviado ou recebido naquela máquina, então o problema pode estar no modelo ou no servidor
Também foi sugerido um comando para verificar se era uma confusão local vinda de outra sessão

grep -rli minecraft ~/.claude/projects/ | while read f; do
  printf '%s  %s\n' "$(grep -m1 -o '"cwd":"[^"]*"' "$f")" "$f"; done

Quem sugeriu isso considerou que o launch cwd funciona como local de armazenamento do transcript e também como chave de contexto, então iniciar em um diretório não relacionado e usar /compact pode gerar confusão de diretórios
Ainda assim, destacou que esse mecanismo pode explicar a confusão de diretórios, mas não explica por si só o prompt de Minecraft que o usuário nunca escreveu

Verificações adicionais do autor

O autor respondeu que, na busca local, além do ponto da sessão atual em que o vazamento pareceu aparecer pela primeira vez e da conversa posterior com o modelo, não havia outras correspondências relevantes
Sobre minecraft, ele disse que apareceu uma vez o caminho do lexer do Pygments minecraft.py na listagem de arquivos do ambiente virtual Python
temple e bricks não apareceram em correspondências com esse limite de palavra nem em contexto relacionado a Minecraft
- Databricks
- bricked by an over-eager click
- substrings sem relação, como dentro de verdictSignalsLabel, foram mencionadas
O usuário disse que enviou /feedback e também fez uma escalada interna

Caso semelhante no Claude Mobile

O mesmo autor acrescentou que viu um fenômeno do mesmo tipo também em uma sessão do Claude Mobile da mesma conta Enterprise
Apontou os seguintes pontos em comum
- Sonnet 5
- a primeira resposta depois de mais de 5 minutos
- situação de cache miss
Como a imagem anexada ao e-mail não carregou, ele publicou o conteúdo de OCR nos comentários
- o usuário disse que reuniu arquivos CSV em uma pasta e pediu ajuda compartilhando o link de uma pasta do Google Drive
- o Claude respondeu com conteúdo sem relação, como um mockup de conjunto de impressão abstrata em 3 painéis ajustado às dimensões reais da parede e pesquisa de artistas e lojas
- em seguida, disse “Detecting injection attempt, proceeding...”, tratando esse conteúdo como se fosse uma injeção
- o processo de pensamento exibido incluía um bloco sobre medidas de parede e art prints, sem relação com o pedido sobre CSV, e dizia que tentaria extrair o ID da pasta do Drive para processar os arquivos CSV

Casos e reações de outros participantes

Um participante escreveu que, na semana anterior, usando Claude Code com Sonnet 5, conteúdos que não vinham da ferramenta realmente chamada apareceram no meio dos resultados de ferramentas
- um aviso manipulado de “MCP servers need auth”
- dump de outro CLAUDE.md
- uma instrução falsa de “Plan mode is active”
Outro participante disse que o Claude já mencionou lojas perto de onde mora um amigo seu, e que esse amigo também usa Claude no mesmo escritório
Outro comentou que, em 2025, ao usar um token de API, pareceu que a ferramenta de outro agente surgiu de repente, mas na época tratou isso como alucinação e não investigou a fundo
Um comentário linkou um post de incident do Claude e disse que, no começo, parecia que estavam vendo dados de outros usuários, mas depois a Anthropic teria dito que era exposição incorreta de contexto interno de agente
Alguns comentários disseram que o fenômeno parece alucinação ou que pode não ser um problema exclusivo do Claude Code

Estado atual e pontos em aberto

A issue segue como Open na página, sem análise final de causa nem confirmação de correção no texto principal
A questão central é de onde entrou esse texto não relacionado
- confusão de contexto baseada em transcript local ou launch cwd
- problema de estado de sessão no modelo ou no servidor
- exposição incorreta de contexto interno de agente
- alucinação comum
Os resultados da busca local do autor apontam para a ausência de conteúdo sobre Minecraft temple ou bricks em sessões locais anteriores, mas não há uma conclusão oficial da Anthropic na issue pública

1 comentários

GN⁺ 4 시간 전

Comentários do Hacker News

Trabalho de perto com o uso de LLMs de vários provedores e conheço pelo menos dois casos em que a infraestrutura intermediária trocou respostas entre si
Uma vez afetou um modelo Claude e outra vez um modelo GPT, e eram provedores diferentes
Um deles forneceu uma análise pós-incidente decente: o gateway de API tratou incorretamente o código de status HTTP 100, entrou em estado de erro e acabou gerando, na prática, um erro off-by-one; eu recebia a resposta do prompt imediatamente anterior ao meu e minha resposta ia para o chamador seguinte
O outro não explicou a causa raiz e só disse para confiarmos que nunca mais aconteceria
Ambos eram empresas com valor de mercado acima de US$ 1 trilhão
Neste caso, como a resposta foi trocada durante a transmissão, o ZDR em si não foi quebrado, mas me parece um problema semelhante. Pode ser menos sobre retenção de dados e mais sobre falta de isolamento seguro na infraestrutura intermediária
- Esse ataque é chamado de HTTP desync ou request smuggling
  Muitas vezes ele é usado de propósito por um cliente para bisbilhotar a resposta de outro cliente
  Sempre que várias requisições de clientes são multiplexadas em uma única conexão upstream, existe a possibilidade de vulnerabilidade, porque, ao contrário do que parece, HTTP é complexo demais para casar com confiabilidade requisições e respostas no upstream
  Por exemplo, enviar múltiplos cabeçalhos Content-Length, misturar Content-Length com chunked encoding, ou passar um cabeçalho HTTP/2 Content-Length que não corresponde ao tamanho real do corpo pode causar desincronização em alguns sistemas
  Há uma apresentação da DEF CON sobre isso: https://www.youtube.com/watch?v=w-eJM2Pc0KI
  O mesmo ataque também foi aplicado ao SMTP manipulando quebras de linha em torno dos delimitadores de fim de mensagem, onde é chamado de SMTP smuggling. Também pode ser aplicado a outros protocolos
- Parece plausível, mas então a resposta poderia sair da rede corporativa, o que me parece uma violação implícita do ZDR
  Por exemplo, se você estiver lidando com PHI, mesmo que o Claude não tenha retido nada, o vazamento da resposta ainda poderia configurar uma violação da HIPAA; se o objetivo desde o início era conformidade com a HIPAA, fico curioso sobre como isso deveria ser interpretado
- Não está claro por que usar uma conta descartável
  Todo comportamento novo vindo de agentes que mal conseguem sustentar alegações de valor moral positivo deveria ser relatado, discutido, dissecado e criticado cedo e com frequência
Acho que bastaria adicionar uma linha no AGENTS.md dizendo “nunca fale de Minecraft a menos que seja explicitamente solicitado”
- A Anthropic é exclusiva e elevada demais para usar um padrão convencional como AGENTS.md, então teria que ser CLAUDE.md
Até que seja comprovado, isso soa como alucinação. Até LLMs de ponta fazem esse tipo de coisa às vezes, e sempre parece plausível
Pode ter havido muito contexto anterior na sessão, algo como mais de 800 mil tokens, e nesse caso eu diria que a chance de alucinação fica maior
Um comentário relacionado do autor original também aumenta a possibilidade de alucinação: o resultado de uma chamada de ferramenta que listava arquivos de um ambiente virtual Python continha a string de caminho minecraft.py, e existe um lexer chamado minecraft.py no pacote Pygments
- Sei que não existe uma definição exata de alucinação, mas isso me soa bem diferente do que normalmente se chama assim
  Alucinação costuma ser uma resposta plausível porém errada, ou informação inventada ajustada à resposta mais provável, como uma citação fabricada, e surge do modo como o LLM prevê tokens. Este caso é totalmente implausível, então não combina muito bem com alucinação
  Isso também não precisa ser necessariamente um vazamento entre sessões; pode ser dado de treinamento ou algo como geração de dados no estilo Magpie, em que ele cospe uma conversa ao receber um prompt vazio
  Pelos subcomentários sobre cache, também parece possível que seja um erro em que, em vez de carregar do cache, ele não consegue carregar nada e acaba gerando algo aleatório
  Correção: o novo nome era magpie. Vale a pena ver a ideia de o LLM gerar conversas aleatórias a partir de um prompt vazio, e isso parece pelo menos tão plausível quanto vazamento de sessão: https://github.com/magpie-align/magpie
- O autor afirma em uma thread abaixo que reproduziu isso em um contexto separado
  A mesma coisa aconteceu em uma sessão do Claude Mobile da mesma conta Enterprise, e o ponto em comum, segundo ele, era o Sonnet 5 e a primeira resposta após mais de 5 minutos, ou seja, um cache miss
- Não discordo, mas isso precisa ser investigado de qualquer forma
  Falta transparência demais; mesmo que neguem que houve vazamento, é frustrante não ter como saber com certeza
- Fico curioso sobre por que isso aumentaria a probabilidade
- Sim
  Se você já usou LLMs o bastante, provavelmente já viu todos os modelos às vezes simplesmente começarem a despejar bobagem em um idioma completamente diferente. Uma certa porcentagem das vezes eles simplesmente enlouquecem
Tenho visto isso no Gemini nos últimos dias
Em prompts com entradas bem grandes, às vezes aparece uma resposta que parece pertencer a outra pessoa. Pode ser uma alucinação induzida, mas também parece colisão de cache ou algum outro problema
Não vi nenhuma evidência de vazamento de dados pessoais, mas é inquietante estar pesquisando um tema e de repente receber algo que parece resposta de aula particular de matemática
- Também houve problemas com o Gemini acessado pela UI nas últimas semanas. Ver a mesma coisa em outro contexto alguns dias depois é preocupante
  Dá a impressão de que pode haver um grande incidente de segurança acontecendo nos bastidores agora mesmo
  Tenho usado IA para ajudar a escrever gramáticas de metaparsing e, felizmente, a maior parte disso ainda não foi publicada
  Fica bem claro para mim que a próxima geração de modelos, especialmente se você souber para onde direcionar o olhar deles, representa uma grande mudança em identificação e exploração básica de vulnerabilidades. Eles já encontraram alguns bugs e pelo menos um exploit nas minhas próprias ferramentas de parsing, e é difícil imaginar quantos ainda devem existir em todo o ecossistema tecnológico moderno
- A minha empresa inteira está fazendo uma avaliação intermediária, mas a única ferramenta permitida é o Gemini, então as pessoas estão ficando confusas com respostas aleatórias aparentemente sem relação
  Às vezes ele também responde em outro idioma
  Isso quando responde; caso contrário, só devolve o código de erro 1099
Sou Thariq, da equipe do Claude Code
Obrigado pelo relato detalhado; tenho certeza de que isso é uma alucinação, mas obviamente levamos esse tipo de relato a sério e a equipe está investigando. Avisarei novamente se surgir algo
- Obrigado por se dedicar a isso mesmo sendo fim de semana e, como sugestão do ponto de vista do usuário, seria ótimo se fosse mais fácil gerenciar a memória do Claude Code
  Hoje, se você entra na pasta .claude e muda algo como o nome da pasta do projeto, às vezes ele não consegue carregar a memória corretamente. Seria bom se importar/exportar fosse mais fácil
As opções são só duas? Ou essa tecnologia incrível é burra a ponto de tirar Minecraft do nada, ou existe um grave problema de segurança?
- Havia um minecraft.py no contexto daquela pessoa, e o contexto da sessão também era muito longo
  Não é raro que sessões de LLM com contexto longo às vezes saiam pela tangente. Quem espera perfeição absoluta em toda interação com LLM vê isso como uma condenação total da tecnologia como um todo, mas quem usa no dia a dia aceita que a saída é parcialmente probabilística e aprende a evitar contextos excessivamente longos, mesmo que o modelo os aceite
  É melhor comprimir estrategicamente ou resumir a próxima etapa e passá-la para uma nova sessão. Usar sub-sessões pode gastar mais tokens com resumo e transferência de dados, mas também pode reduzir a contaminação de contexto
- Como é fim de semana, podemos antropomorfizar
  Já houve excelentes engenheiros que de repente puxaram assunto sobre Minecraft, embora hoje em dia fosse mais provável ser Factorio, então faz sentido
- O autor original realmente tinha um arquivo minecraft.py. Então não foi algo totalmente 100% aleatório
Tenho um problema de cobrança/assinatura e não há nada que eu possa fazer nem forma de conseguir ajuda
O chatbot de suporte simplesmente bloqueia, e os e-mails também são tratados por chatbot. Nem tenho certeza se é o mesmo chatbot. Foi um beco sem saída total, e no fim entrei em contato com o banco emissor do cartão de crédito; o atendente disse que talvez fosse melhor marcar o cartão como perdido e pedir outro, então foi o que fiz. Espero que funcione
Nunca entendi desde quando o mundo decidiu que está tudo bem entregar tanto poder não verificado para empresas assim. Dito isso, sempre foi assim, só mudou a forma
É interessante ver uma resposta claudeslop como o primeiro comentário no post do GitHub, seguida pelas reações a ela
Coisas que o Fable 5 recusou em sequência: “tenho pernil suíno, me passe uma receita de hong shao rou”, “escreva um framework de padrões MCP para eu passar ao Claude Code”, “explique a biomecânica locomotora de c. elegans”
A última eu até entendo, porque tem a ver com um projeto de hobby. Como o serviço ficou fora do ar, será que ganhamos mais um dia de Fable 5 funcionando?
- Não sei bem qual é a relevância, mas normalmente, se alguém criasse um classificador tão ruim assim, teria sido demitido
  A Anthropic parece achar que tem poder monopolista para empurrar lixo para o consumidor, mas não acho que tenha
- Não entendo o que isso tem a ver. Com quem você está falando? Isto é o Hacker News, não o canal de suporte da Anthropic
- É impressionante que as pessoas estejam usando esse modelo de fronteira para cozinhar
- Fico curioso se quem recusou foi o filtro de segurança ou se o modelo caiu
- Perguntei sobre como funciona herdar olhos azuis dos pais, e me rebaixaram para o Opus por questão de segurança
Existe algo especial nos LLMs que torne isolar dados de clientes mais difícil do que em um SaaS comum?
- Sim
  Existe cache de contexto, um estado compartilhado grande e caro demais para duplicar toda vez que se quer evitar isso; localidade de memória é muito importante para desempenho; o hardware é extremamente superalocado; e o custo é muito alto
  Por causa desses fatores, para a maioria das cargas de trabalho e clientes, isolamento por hardware ou o isolamento tradicional de espaço de memória — ou seja, hipervisor/VM/virtualização assistida por hardware — dificilmente é um ponto de partida viável, e todo o isolamento acaba sendo empurrado para a camada de software. Só isso já torna tudo muito mais difícil do que um SaaS genérico
  Além disso, as ferramentas, frameworks e o hardware de GPU em que o sistema roda não foram projetados pensando em isolamento de tarefas, e criar esse isolamento está mais para uma área de pesquisa nova do que compartilhar hardware de CPU x86. E no lado x86 também foram necessários enormes esforços ao longo de mais de 30 anos
  A relação entre maturidade e nível de uso/sensibilidade também é ruim no geral. Essas empresas são jovens, desenvolvem rápido e sofrem enorme pressão de entrega sob demandas gigantescas de carga dos clientes
  Não sei se o post original descreve um problema real ou não, mas, de forma geral, o mais surpreendente é que não vejamos mais casos assim. Sob essa ótica, isso realmente parece mais uma casa de cartas
- Parece que a implementação foi feita por vibe coding
  Não tive grandes problemas com o Codex, mas com o Claude Code parece que quase todo dia aparece algum problema grande
  E também é o pessoal que mais se gaba de não ler nem inspecionar código
  LLMs são muito capazes, mas estão muito longe do nível que divulgam
  Agora já passamos do vibe coding para a fase em que os próprios LLMs fazem vibe coding de si mesmos dentro do loop
- Meu palpite é que fazer qualquer coisa em multitenancy em GPU deve ser mais difícil do que na maioria dos SaaS, por falta de ferramentas de segurança de memória
  Já construí sistemas SaaS multitenant e também mexi um pouco com programação em GPU há muito tempo, mas nunca combinei as duas áreas
- Se você não compartilhar o cache de prefixo (cache KV) entre clientes, a eficiência computacional deve ficar terrível

Possível vazamento de sessão/cache entre instâncias de workspace ou contas de consumidor

Fenômeno relatado

Confusão entre diretório de execução e diretório de trabalho

Sugestão de verificar o transcript local

Verificações adicionais do autor

Caso semelhante no Claude Mobile

Casos e reações de outros participantes

Estado atual e pontos em aberto

Leituras relacionadas

1 comentários

Comentários do Hacker News