1 pontos por GN⁺ 2025-11-13 | 1 comentários | Compartilhar no WhatsApp
  • A OpenAI trata a proteção dos dados de conversas pessoais do ChatGPT, usado por mais de 800 milhões de pessoas, como prioridade máxima
  • O The New York Times pediu à Justiça o envio de 20 milhões de registros de conversas privadas do ChatGPT, o que é apontado como uma violação da privacidade dos usuários
  • A OpenAI já recusou no passado uma solicitação de 1,4 bilhão de registros de conversas e, desta vez, também segue atuando para proteger os dados dos usuários por vias legais
  • A empresa está desenvolvendo recursos avançados de segurança, como criptografia no lado do cliente, e construindo sistemas automatizados para minimizar o acesso a dados sensíveis
  • Este caso é visto como um ponto de inflexão importante no debate sobre padrões de proteção de dados pessoais na era da IA

A exigência de dados do The New York Times e a posição da OpenAI

  • O The New York Times exigiu, no processo movido contra a OpenAI, o envio de 20 milhões de registros de conversas de usuários do ChatGPT
    • Alega que isso seria necessário para verificar “se usuários usaram o ChatGPT para contornar o paywall do The New York Times”
  • A OpenAI afirmou que essa exigência viola princípios de proteção de privacidade e práticas de segurança mantidos há muito tempo
  • A empresa pediu à Justiça que rejeite essa exigência, afirmando que ela inclui conversas pessoais de dezenas de milhões de pessoas sem relação com o processo

Exigências semelhantes no passado e a resposta

  • No passado, o The New York Times também tentou limitar o recurso de exclusão de conversas dos usuários, mas a OpenAI impediu isso e restaurou o direito de exclusão
  • Em seguida, houve uma exigência de envio de 1,4 bilhão de registros de conversas, que a OpenAI recusou
  • A OpenAI declarou explicitamente que “as conversas pessoais dos usuários pertencem a eles e não devem se tornar vítimas colaterais de uma disputa sobre acesso a conteúdo online”

Medidas da OpenAI para reforçar segurança e privacidade

  • A OpenAI é uma das organizações mais atacadas do mundo e está fazendo grandes investimentos para proteger dados contra crime organizado e tentativas de invasão patrocinadas por Estados
  • O roadmap futuro inclui criptografia no lado do cliente (client-side encryption), com a intenção de impedir que até a própria OpenAI possa acessar as mensagens dos usuários
  • A empresa também está projetando um sistema automatizado de detecção de segurança para que apenas casos graves de uso indevido, como ameaça à vida, dano a terceiros ou riscos de cibersegurança, sejam encaminhados de forma limitada a equipes humanas de revisão

Detalhes sobre a exigência de dados (resumo do FAQ)

  • Escopo dos dados exigidos: 20 milhões de conversas de consumidores do ChatGPT extraídas aleatoriamente entre dezembro de 2022 e novembro de 2024
  • Casos excluídos do impacto: ChatGPT Enterprise, ChatGPT Edu, ChatGPT Business (antigo Team) e clientes da API não estão incluídos
  • Medidas de proteção de privacidade: todas as conversas passam por remoção de informações de identificação pessoal (PII) e de dados sensíveis, como senhas
  • Permissão de acesso aos dados: apenas alguns membros das equipes jurídica e de segurança da OpenAI e advogados externos e consultores técnicos do lado do The New York Times poderão acessar
  • Forma de armazenamento: os dados serão armazenados de forma isolada em um sistema de segurança separado para cumprimento de obrigação legal, sem acesso geral

Considerações legais e internacionais

  • A OpenAI afirma que está tomando as medidas necessárias para cumprir regulamentações internacionais de privacidade, como o GDPR, mas diz que a exigência do The New York Times não está alinhada com seus padrões de privacidade
  • A empresa diz que continuará contestando a exigência por vias legais e que manterá a proteção da privacidade dos usuários como prioridade máxima em todas as etapas
  • A OpenAI promete fornecer atualizações transparentes sobre decisões judiciais e mudanças no tratamento dos dados

Planos e visão para o futuro

  • A OpenAI enfatiza que, quanto mais a IA se integrar profundamente à vida das pessoas, mais forte deve ser o nível de segurança e proteção da privacidade
  • O objetivo é um futuro em que as conversas de IA mais pessoais dos usuários permaneçam seguras e privadas
  • No curto prazo, a empresa pretende divulgar rapidamente reforços de segurança e medidas emergenciais de mitigação
  • No longo prazo, segue trabalhando para estabelecer proteções técnicas e legais voltadas à construção de um ambiente de IA confiável

1 comentários

 
GN⁺ 2025-11-13
Opinião do Hacker News
  • Ouvi dizer que o New York Times exigiu que a OpenAI entregasse 20 milhões de registros de conversas do ChatGPT
    Como autora da ação, é um pedido que naturalmente pode fazer, mas esse tipo de processo talvez não se limite apenas a questões de direitos autorais
    Na verdade, a questão é por que a OpenAI está coletando e armazenando tantos dados de conversas privadas
    O pedido do NYT é usado apenas dentro do processo legal, as informações confidenciais são tarja­das antes do envio e tudo é destruído quando o caso termina
    Já a OpenAI guarda os dados por tempo indeterminado para fins comerciais
    Nem sequer está claro para qual modelo de negócios esses dados estão sendo acumulados. Parece uma prática indiscriminada de coleta de dados
    • Na prática, o que o tribunal ordenou não foi que os dados fossem “coletados”, mas sim que dados já armazenados fossem preservados (preserve)
      Documentos relacionados: ordem judicial 1, ordem judicial 2
    • Mas outra pessoa afirma que isso é, de fato, uma ordem judicial que obriga a coleta de dados
      Veja o artigo da Ars Technica
    • O motivo de a OpenAI armazenar as conversas é claro. Ela oferece o recurso de histórico de conversas na interface do ChatGPT
      O problema é que, mesmo se o usuário apertar o botão de excluir, os dados precisam ser mantidos por causa da ordem judicial
    • Assim como o Google Photos armazena fotos, o ChatGPT também precisa armazenar o histórico de conversas. Isso é uma função central do produto
    • Se você já usou o ChatGPT, sabe que o histórico de conversas aparece no painel à esquerda
  • Se a OpenAI não tivesse usado os dados do NYT sem autorização, isso não teria acontecido
    No fim, acho que a causa raiz é a violação de direitos autorais. O NYT faz bem em brigar por isso
    • Mas outra pessoa rebate dizendo que dois juízes já decidiram que treinar IA é fair use
      Resumo das decisões
    • Também há a opinião de que os dados deveriam ser tratados como bem público. O problema seria empresas específicas reivindicarem propriedade sobre os dados
    • O NYT é criticado por contaminar a internet com um paywall fechado
      Consideram hipócrita buscar atenção sem contribuir para a cultura aberta
    • Sam Altman e a diretoria da OpenAI são criticados por espalhar medo, incerteza e dúvida (FUD) apenas para atrair investimentos
      Há quem diga, com indignação, que a promessa de AGI era falsa e só serviu para deixar as pessoas ansiosas
  • Não acho que a OpenAI esteja do “lado do bem”
    Mas me incomoda que conversas privadas entre pessoas acabem nas mãos dos advogados do NYT
    Como o NYT não conseguiu demonstrar um dano claro, isso parece uma fishing expedition
    • Porém, outra pessoa explica que o NYT de fato apresentou evidências de apropriação indevida de conteúdo e que, para verificar isso, são necessários os logs completos
      Faz a analogia com exigir o registro de vendas de uma livraria de livros piratas
      Diz também que os usuários dificilmente conseguiriam alegar direito à privacidade do ponto de vista legal
    • Outra pessoa explica que o NYT está pedindo indenizações legais previstas em lei (statutorily defined damages), então não precisa provar dano real
      A questão central é se o treinamento de IA configura violação de direitos autorais e se é fair use
      Também aponta que a OpenAI respondeu ao processo de forma pouco diligente
    • Rebatem que a afirmação “o NYT não provou dano” está errada e mandam ler a petição inicial (complaint)
      PDF da petição do NYT
    • Há quem veja essa disputa como algo que no fim vai favorecer a China e os modelos open source
      Quem puder ignorar direitos autorais acabará tendo vantagem competitiva
    • Na verdade, a maioria dos termos de serviço já diz que os logs podem ser entregues por ordem judicial
      As pessoas é que não leem isso
  • Hoje em dia parece moda as empresas escreverem cartas abertas para disputar a opinião pública
    ESPN vs YouTube, e agora OpenAI vs NYT
    Não dá vontade de torcer por nenhum dos dois. Ainda assim, se a OpenAI realmente não reproduz literalmente frases do NYT, não deveria ter medo de verificação
    É sugerida uma verificação por terceiro neutro — um terceiro compararia os artigos do NYT com os logs do ChatGPT, sem que nenhuma das partes visse os originais diretamente
    • Mas, na prática, é impossível encontrar uma instituição totalmente neutra
      No fim, só resta cada lado levar seus especialistas ao tribunal para uma disputa de credibilidade
    • Alguém reage com cinismo, dizendo que as duas organizações estão sob liderança autoritária, então é melhor simplesmente deixar que briguem
  • Consideram que a OpenAI começou como uma organização sem fins lucrativos, mas agora está fazendo uma campanha de relações públicas (spin) completamente deturpada
  • Assim como quando o Google fala de privacidade, a argumentação da OpenAI também não soa nada sincera
    Ainda assim, espero que esse caso ajude as pessoas a perceberem os riscos de compartilhar informações pessoais em excesso
    • A frase “seus dados são seus” soa como propaganda
      Na prática, pelos termos de uso, a OpenAI possui e utiliza os dados
      Também é difícil confiar em uma comunicação que distorce as intenções do NYT
    • Essa situação aconteceu porque a OpenAI saiu raspando indiscriminadamente dados do mundo inteiro
      Na visão de alguns, ela mesma causou esse problema
    • Ironicamente, o Google já reconheceu no passado o problema do histórico de localização (Local Timeline) e mudou para um modelo de armazenamento local
      A OpenAI não demonstra nenhum senso de responsabilidade assim
    • Tem até quem diga que seria melhor para o mundo se a OpenAI falisse
  • Não dá para entender a OpenAI dizer no tribunal que “não tem interesse nos dados dos usuários”
    Então por que agora está usando a privacidade como escudo?
  • A partir do momento em que dizem “esse processo não tem fundamento”, a confiança diminui
    Esse tipo de afirmação costuma ser sinal de postura defensiva
  • Ironicamente, a OpenAI desde o começo foi uma empresa que raspou dados pessoais para treinar modelos
    Vir agora falar de privacidade é contraditório
  • Fico me perguntando por que a OpenAI não aplica criptografia (encryption) ao armazenar as conversas
    Tecnicamente isso parece possível, mas provavelmente optaram por guardar em texto puro para análises internas
    Se funcionários podem acessar, isso incomoda mais do que advogados do NYT verem
    Parece não ser muito diferente de um investigador abrir cartas por ordem judicial
    • Mas, na prática, a cada solicitação provavelmente não reinserem toda a conversa no modelo; devem usar uma estrutura de cache K-V para continuar de forma eficiente
    • Além disso, mesmo com criptografia, se a chave estiver nas mãos da OpenAI, uma ordem judicial não pode ser evitada