1 pontos por GN⁺ 2025-06-07 | 1 comentários | Compartilhar no WhatsApp
  • Em um processo movido por autores, incluindo o The New York Times, foi exigido que a OpenAI preservasse indefinidamente os dados de usuários do ChatGPT e da API
  • A OpenAI está contestando e recorrendo ativamente da ordem judicial, afirmando que essa exigência entra em conflito com suas promessas de privacidade aos usuários
  • Esta ordem de preservação se aplica apenas a usuários do ChatGPT Free, Plus, Pro, Team e da API comum, e não se aplica a usuários do Enterprise/Edu e da ZDR API
  • Até mesmo dados excluídos devem ser preservados legalmente em um sistema separado, com acesso restrito apenas às equipes jurídica e de segurança da OpenAI, rigorosamente limitadas
  • A OpenAI afirma que a proteção da privacidade é seu valor máximo e pretende continuar agindo para proteger os usuários em todos os procedimentos legais

How we’re responding to The New York Times’ data demands in order to protect user privacy

  • Os autores, incluindo o The New York Times, exigiram em sua ação contra a OpenAI a retenção indefinida de dados de clientes consumidores do ChatGPT e da API
  • Essa exigência entra em conflito, em sua essência, com os princípios de privacidade que a OpenAI prometeu aos usuários e enfraquece os padrões do setor e o nível de proteção à privacidade
  • A OpenAI considera essa exigência excessiva e está conduzindo um processo de recurso com a privacidade dos usuários como prioridade máxima

Principais perguntas e respostas

1. Por que o The New York Times e outros autores fizeram essa exigência

  • Ao processar a OpenAI, o The New York Times pediu ao tribunal a preservação indefinida de todo o conteúdo dos usuários com base na suposição de que poderia encontrar provas favoráveis à ação
  • A OpenAI entende que essa exigência não apenas ameaça a privacidade dos usuários, como também não ajuda de forma prática a resolver o litígio
  • Usuários do ChatGPT Free, Plus, Pro, Team e da API comum podem ser afetados, mas clientes do ChatGPT Enterprise, ChatGPT Edu e da Zero Data Retention API não são afetados

2. A resposta jurídica da OpenAI

  • Inicialmente, a OpenAI se opôs à exigência, argumentando que a retenção de todos os dados de saída era excessiva e conflitava com sua política de privacidade
  • Foi confirmado perante a Magistrate Judge que o ChatGPT Enterprise era uma exceção
  • Está em andamento um recurso adicional perante a District Court Judge

3. Clientes empresariais com contrato de Zero Data Retention

  • Clientes empresariais que utilizam a Zero Data Retention API não são afetados, porque os dados de entrada e saída não são armazenados

4. Quando os dados do ChatGPT são excluídos

  • Contas comuns de consumidores podem ser afetadas pelo processo, mas clientes Enterprise, Edu e usuários da Zero Data Retention API não são afetados

5. Forma de armazenamento dos dados e permissões de acesso

  • Os dados abrangidos pela ordem judicial são armazenados separadamente em um sistema seguro
  • Esses dados não podem ser usados para fins além do cumprimento da obrigação legal, e o acesso é limitado a um pequeno grupo, estritamente restrito, das equipes jurídica e de segurança da OpenAI

6. Possibilidade de compartilhamento externo dos dados

  • Os dados armazenados não são automaticamente entregues a terceiros, como o The New York Times
  • Se houver exigências contínuas de divulgação de informações, a OpenAI pretende responder ativamente para defender a privacidade

7. Período de retenção dos dados e momento de encerramento

  • Atualmente, a retenção indefinida dos dados dos usuários está sendo imposta por ordem judicial, mas a OpenAI está respondendo ativamente por vias legais
  • Se a resposta jurídica for bem-sucedida, será possível retornar à política atual de retenção de dados

8. Se isso viola leis de privacidade como o GDPR

  • A OpenAI está cumprindo sua obrigação legal conforme a ordem judicial, mas as exigências do The New York Times entram em conflito com os padrões de privacidade da OpenAI
  • A empresa continua levando adiante recursos e respostas de política sobre o tema

9. Se houve mudança na política de treinamento dos modelos

  • Os dados de clientes empresariais não são usados para treinar modelos por padrão, e esta ordem não altera essa política
  • Clientes consumidores podem controlar diretamente, de acordo com suas configurações individuais, se seus dados serão usados para treinamento, e a ordem não afeta isso

10. Fornecimento de informações aos usuários e transparência

  • A OpenAI promete fornecimento contínuo de informações e manutenção da transparência
  • Se houver mudanças na ordem judicial ou impactos sobre os dados dos usuários, a empresa informará isso rapidamente

11. Resumo da política de retenção de dados

  • ChatGPT (Free/Plus/Pro): quando uma conversa ou conta é excluída, os dados são removidos imediatamente da conta e devem ser permanentemente apagados em até 30 dias
  • ChatGPT Team: cada usuário pode controlar se as conversas serão mantidas; dados excluídos ou não salvos são apagados em até 30 dias (exceto quando houver obrigação legal)
  • ChatGPT Enterprise/Edu: o administrador do workspace gerencia o período de retenção dos dados, e conversas excluídas são apagadas em até 30 dias (exceto quando houver obrigação legal)
  • API: usuários empresariais podem escolher diretamente o período e a forma de retenção para gerenciar o estado da aplicação; dados de entrada e saída da API são removidos dos logs após 30 dias (exceto quando houver obrigação legal)
  • Zero Data Retention API: nesse caso, os dados de entrada e saída não são armazenados desde o início

Conclusão

  • A OpenAI coloca a confiança do usuário e a proteção da privacidade como prioridade máxima de sua política e segue respondendo continuamente aos desafios legais
  • Certos grupos de clientes, como os de uso empresarial, educacional e da ZDR API, não são afetados, enquanto os dados de consumidores em geral estão sob medidas de proteção separadas
  • A empresa pretende comunicar com transparência quaisquer mudanças na situação legal e nas políticas de proteção dos dados dos usuários

1 comentários

 
GN⁺ 2025-06-07
Comentários do Hacker News
  • Acho que ajudaria muito se a OpenAI permitisse solicitar oficialmente a opção Zero Data Retention (ZDR). Em muitos contextos empresariais, não há motivo algum para armazenar os próprios logs das requisições. A documentação menciona várias vezes que é possível solicitar isso, mas na prática o pedido simplesmente é ignorado. Entendo que seja necessária aprovação e que exista uma barreira de entrada, mas parece que a OpenAI só menciona ZDR para fins de marketing. Já solicitei várias vezes e nunca recebi resposta. Pelos posts no fórum, isso parece ser muito comum
    • Entendo que seja necessário um processo de aprovação, mas me pergunto por que o padrão não é privacidade ou não retenção de registros. Muitos usuários desconfiam das promessas de privacidade da OpenAI. Ficam pensando se os inputs não estariam sendo armazenados, analisados e compartilhados. Se for preciso privacidade de verdade, a única alternativa real são LLMs rodando localmente
    • Pelo que entendo, os logs são mantidos por padrão durante 30 dias para tratamento de bugs. Também é possível solicitar retenção de 0 dias. Isso está descrito na documentação oficial
    • No fundo, o elemento que falta é dinheiro
    • Existe uma política dizendo: "Para determinados casos de uso, também é possível solicitar zero data retention (ZDR). Consulte a página Platform Docs para mais detalhes sobre o tratamento de dados" OpenAI Privacy Policy. 1) Ser possível solicitar não garante aprovação. 2) O padrão importa. O padrão do Vale do Silício não é privacidade, e sim maximização de lucro. Na OpenAI também o padrão é armazenar dados, inclusive os outputs. Isso dificulta levar a sério o memorando da OpenAI contra a ordem de retenção de dados
    • Embora repitam oficialmente que é possível solicitar, suspeito que na prática isso possa ser apenas texto de marketing que não funciona de verdade
  • Os dados protegidos por ordem judicial ficam armazenados em um sistema isolado e não podem ser acessados fora do cumprimento das obrigações legais. Apenas um pequeno número de integrantes auditados das equipes jurídica e de segurança da OpenAI pode acessá-los, conforme exigência legal. Se houver vazamento desses dados, a responsabilidade é da OpenAI. Mas a linguagem deste texto como um todo, especialmente a repetição de que o processo é "infundado", reduz a credibilidade e faz parecer um texto promocional em que não dá para confiar
    • Este caso se espalhou pelo ciclo de notícias, e virou tema porque apareceu a informação de que chats apagados não estariam sendo realmente apagados por causa do processo. A OpenAI precisava responder para tranquilizar os clientes
    • Se, durante o processo de busca, for determinado que dados relacionados ao processo em questão são relevantes, então esses dados poderão ser acessados ao menos por ambas as partes e pelo tribunal
    • Do ponto de vista da OpenAI, é óbvio que ela vai defender a própria posição. É natural que diga que se trata de um "processo infundado"
    • Sou usuário da OpenAI. Pago para usar porque é útil. Não quero que meus dados sejam armazenados além do que está especificado nos termos de uso e na política de privacidade. Se o tribunal não consegue entender que a obrigação de retenção da OpenAI coloca em risco a privacidade de dezenas de milhões de usuários, então não me parece adequado
    • O primeiro princípio da segurança de dados é que os sistemas são imperfeitos, então a única proteção real é não armazenar os dados. Se houver vazamento, a responsabilidade será da OpenAI. Empresa que promete segurança de dados ou é incapaz ou é desonesta
  • Fico pensando se a equipe jurídica da OpenAI poderia adotar uma abordagem de armazenar apenas informações imprecisas, como hashes ssdeep ou chunks de conteúdo, em vez do histórico real dos chats. Se o escopo dos dados exigidos pelo NYT for limitado e o conteúdo problemático estiver sendo gerado via API, seria possível comparar pelos valores de hash. Claro que o ideal é não armazenar nada, mas, diante de uma ordem judicial excessivamente ampla, talvez exista aí um meio-termo realista. Além disso, dá para consultar materiais sobre ssdeep e chunks de conteúdo
    • Vale reforçar como é difícil explicar esse tipo de termo técnico em tribunal para advogados ou juízes
    • Qualquer tentativa de contornar ativamente o objetivo da decisão judicial já é, por si só, uma péssima escolha
    • Não consegui encontrar os documentos da ordem judicial, mas parece que o juiz perguntou à OpenAI se os dados poderiam ser separados, e a OpenAI simplesmente não respondeu nada. Não parece ter sido mera recusa, mas sim ignorar a questão. Dá a impressão de que a OpenAI não tem vontade de buscar uma solução e só está usando estratégia de relações públicas (PR)
    • Por mais bonito que esse tipo de proposta técnica fique num whitepaper, na prática todas as conversas do ChatGPT já devem estar armazenadas em S3 e recebendo backup regularmente por diversos sistemas. É um banco de dados de texto cheio de conteúdo sensível internamente, como e-mails. Não confio nem um pouco nas "promessas" da diretoria
  • Antes eu considerava extremamente constrangedor o vazamento do meu histórico do navegador, mas agora acho o vazamento do histórico de conversas com LLM muito mais grave. É um registro de como sou quando estou sozinho, sem esconder nada, mais até do que conversas privadas com outras pessoas
    • Tem gente reagindo com algo como: o que você está perguntando para um LLM para esperar sigilo?
  • Discussão relacionada: OpenAI slams court order to save all ChatGPT logs, including deleted chats (junho de 2025, 878 comentários)
  • Acho estranha a crítica ao NYT. Se o NYT tem fundamento para processar, o tribunal vai aceitar; se não tem, a OpenAI vence no tribunal. É estranho usar a ordem judicial como ferramenta para atacar o NYT
    • O NYT está explorando uma fragilidade do sistema jurídico dos EUA: um procedimento de discovery extremamente amplo, que quase não se importa com privacidade. É pelo próprio interesse, claro, mas desta vez não consigo deixar de ficar do lado da OpenAI
    • O NYT parece mudar de posição conforme a conveniência. No passado, já vendeu banco de dados com artigos de freelancers e defendeu o enfraquecimento do copyright. Agora coloca o copyright acima de tudo. Aliás, este texto sobre a mudança de posição do NYT é interessante
    • O NYT também é parte no caso. Chamar o processo de "infundado" é legítimo
    • Se o NYT realmente não tiver fundamento e mesmo assim o tribunal aprovar, isso também seria algo estranho
    • Só porque algo é legal não significa que quem abusou do sistema jurídico mereça absolvição moral
  • Na explicação da OpenAI em “por que isso está acontecendo?”, faltou uma parte. O texto descreve como se as pessoas estivessem irritadas sem motivo, mas do ponto de vista do cliente isso é absurdo
  • Dizem nas "Configurações" que é possível controlar se os dados do usuário são usados no treinamento do modelo, mas na prática existe o dark pattern do botão “melhorar o modelo para todos”, que não tem efeito nenhum, e é preciso solicitar diretamente em um portal pouco visível, então não é algo fácil de encontrar. Isso levou muitos usuários a entenderem errado como a coisa funciona
    • Foi pedido um esclarecimento mais detalhado
    • Também pediram explicação concreta sobre a afirmação de que o botão “melhorar o modelo para todos” não tem efeito algum, além do link para esse portal
  • Sempre parti do princípio de que tudo o que eu envio para a API de um fornecedor externo será armazenado para sempre. Achar o contrário é que é ingenuidade. É tão ingênuo quanto acreditar que um app não faz rastreamento na web
    • Presumir o pior é sensato, mas aceitar o pior sem qualquer resistência também é tolice
    • Niilismo da privacidade também é, no fim, uma escolha pessoal
  • Não concordo com a posição oficial da OpenAI de que “confiança e privacidade são valores centrais, e oferecemos ferramentas de gerenciamento de dados e opções de exclusão”. Faz propaganda de privacidade extra se você pagar mais, e mesmo usuários Pro não conseguem ter "privacidade". Apesar de vários pedidos para apagar informações, a empresa se recusa a remover dados pessoais contidos no modelo e nos dados de treinamento
    • Todos os usuários podem optar por sair. ChatGPT Plus, Pro e Free mantêm o compartilhamento de dados ativado por padrão, mas qualquer pessoa pode desativar o uso dos dados para treinamento. Só no Enterprise isso vem desativado por padrão. Referência: What if I want to keep my history on but disable model training?
    • Essa linguagem oficial não passa de "trustwashing" corporativo. Só tem termos vagos e ambíguos, retórica agradável e valores vazios