- Por ordem judicial, a OpenAI deve manter todos os logs de usuários do ChatGPT, incluindo conversas apagadas, e a OpenAI rebate dizendo que a medida representa uma grave violação de privacidade
- A OpenAI afirma que a ordem foi emitida imediatamente sem base suficiente, seguindo a alegação de empresas de mídia, em um processo de direitos autorais, de que seria necessário preservar provas
- A OpenAI alerta que, por causa dessa ordem, passará a reter dados pessoais de centenas de milhões de usuários e até dados confidenciais de empresas, com risco de violação de regulações globais de privacidade e aumento da carga de engenharia
- Após a entrada em vigor da ordem, até conversas apagadas e conversas temporárias dos usuários passam a ser forçadamente armazenadas de forma permanente, o que espalhou forte ansiedade e preocupação nas redes sociais
- A OpenAI voltou a pedir a revogação da ordem para garantir o controle dos usuários sobre seus dados e a proteção da privacidade, afirmando que continuará a luta judicial
Reação da OpenAI à ordem de retenção de dados “profundamente pessoais”
Contexto da ordem judicial e principais pontos em disputa
- A OpenAI contestou judicialmente a medida em defesa da privacidade de milhões de usuários do ChatGPT, reagindo com força à ordem para armazenar todos os logs de usuários, incluindo conversas apagadas e conversas via API
- A ordem foi emitida durante um processo por violação de direitos autorais, após empresas de mídia alegarem que a OpenAI estaria destruindo provas; a OpenAI aponta que a decisão foi tomada às pressas, sem verificação suficiente dos fatos nem fundamentação adequada
- Os autores da ação alegaram que, ao usar o ChatGPT para burlar o acesso pago a reportagens, os usuários apagariam conversas para eliminar rastros, mas não foram apresentadas provas que sustentassem essa alegação
- Com base nessa suposição, o tribunal ordenou que a OpenAI passe a preservar separadamente todos os logs de conversas daqui em diante, inclusive os apagados; a OpenAI alerta que a medida amplia o risco de violação do controle dos usuários sobre seus dados e de descumprimento de leis globais de privacidade
Argumentos da OpenAI e resposta jurídica
- A OpenAI enfatiza que esta ordem de preservação, excepcionalmente ampla, viola os direitos de privacidade dos usuários e que as pessoas deveriam poder decidir por si mesmas quando e como seus dados seriam mantidos
- Até antes da ordem judicial, quando o usuário apagava uma conversa ou usava o recurso de conversas temporárias, essa conversa era totalmente removida do sistema em até 30 dias
- Porém, com a nova ordem, a empresa passou a ter de armazenar à força até todos os pedidos de exclusão e as conversas temporárias, o que leva à retenção de longo prazo de dados pessoais de centenas de milhões de usuários e de dados corporativos via API, inclusive informações confidenciais
- Além das preocupações com privacidade, a OpenAI afirma que cumprir a ordem exige recursos de engenharia e custos enormes, e argumenta que os danos à OpenAI e aos usuários são muito maiores do que qualquer benefício hipotético para as empresas de mídia
- A OpenAI pediu uma audiência oral ao tribunal e solicitou a revogação da ordem (cancelamento imediato)
Reação de usuários e do setor
- Quando a existência da ordem se tornou pública, muitos usuários e clientes corporativos demonstraram preocupação nas redes sociais (LinkedIn, X e outras)
- Alguns especialistas alertaram que a ordem pode representar uma grave violação contratual para todos os clientes corporativos da OpenAI, e que empresas que lidam com dados confidenciais via API ficam expostas a um risco de segurança ainda maior
- Nas redes sociais, se espalharam opiniões como “todos os serviços de IA baseados na OpenAI agora estão expostos a ameaças à privacidade” e “é recomendável migrar para serviços alternativos (Mistral AI, Google Gemini etc.)”
- Um especialista em segurança classificou esse tipo de ordem como um risco de segurança inaceitável
- Também surgiram críticas como: “A juíza Wang acha que a lógica de direitos autorais do NYT vale mais do que a privacidade de todos os usuários da OpenAI — uma loucura”
Política da OpenAI e perspectivas futuras
- A OpenAI vinha seguindo rigorosamente sua política de retenção de dados de usuários e, ao excluir uma conta, apagava todo o histórico de conversas em até 30 dias
- Com a ordem judicial, os processos existentes de gestão e exclusão de dados foram neutralizados de uma hora para outra, e os usuários agora têm dificuldade para manter a confiança de que seus dados serão apagados com segurança
- A OpenAI pretende continuar a disputa judicial e divulgar de forma ativa a injustiça da ordem e os danos reais que ela provoca
1 comentários
Opiniões do Hacker News
Chama atenção para o fato de que o mesmo risco existe ao usar modelos GPT via API
Acho que esse é um problema que todas as empresas de IA vão enfrentar em breve
A menos que tudo mude para um ambiente em que cada um hospede os modelos diretamente, na prática, em modelos de negócio tipo SaaS, a proteção da privacidade do usuário não tem tanta importância quando se considera a rentabilidade
Sinceramente, a maioria das pessoas já se acostumou com o fato de que não existe privacidade na internet
Mas empresas ou pessoas que confiam códigos-fonte fechados ou dados de segurança com base em confiança inevitavelmente serão bastante prejudicadas
Dito isso, minha posição é que esse tipo de coisa não deveria ser terceirizado para fornecedor nenhum desde o início
As empresas que já estão estabelecidas precisam revisar contratos existentes, normas e tolerância a risco por causa dessa questão
Startups wrapper baseadas em serviços com ChatGPT também precisam reavaliar suas políticas de privacidade e deixar claro que os usuários estão abrindo mão da própria privacidade
Todas as integrações com GPT que eu implementei foram via serviços do Azure justamente por causa da obrigação contratual de não treinar com os meus dados
Pelo meu entendimento, esse julgamento não se aplica aos serviços do Azure, ou seja, à Microsoft
Se você lidava com código proprietário, então na prática nunca deveria ter usado LLM em nuvem, e essa questão apenas deixou isso mais claro
Em resposta à pergunta sobre como isso afeta o negócio, reforça-se que essa é uma medida de retenção de dados para cobrir risco jurídico, não para uso em treinamento
Acho que, em contratos com outras empresas, também é possível deixar explicitamente previsto que os dados não serão usados para treinamento
Dá para ver um artigo de contexto mais detalhado aqui
Esse link é a fonte real
Seria melhor atualizar o link para esse artigo
Estou compartilhando porque os comentários embaixo da matéria estão realmente engraçados
O clima é de sátira, retratando os defensores de copyright como o lado anti-IA
Pessoalmente, não gosto da atitude arrogante da OpenAI ao lidar com conteúdo alheio, mas, por outro lado, também acho difícil simpatizar com exigências excessivamente duras dos detentores de direitos autorais
Vejo a IA generativa e a questão do treinamento como algo que expõe com muita clareza os aspectos anacrônicos da atual legislação de propriedade intelectual
Mudanças serão necessárias daqui para frente, mas elas não podem favorecer só grandes empresas ou pessoas ricas; precisam ajudar as pessoas comuns
Em geral tenho uma posição crítica sobre violação de direitos autorais por LLM, mas a forma como o raciocínio desta decisão foi construída me parece um pouco estranha
A crítica é que, hipoteticamente, se algum usuário extraísse conteúdo do New York Times pelo ChatGPT burlando o paywall e depois, ao saber do caso, pedisse a exclusão de todo o histórico do que recebeu, isso não acabaria contornando a intenção da decisão?
Na verdade, ao ouvir sobre uma decisão assim, não seria natural que os usuários passassem a agir com mais cautela nesse período?
Critica-se que, agora, mesmo que o usuário apague o histórico de conversas ou use o recurso Temporary Chat para chats temporários, a OpenAI ainda precisa manter os logs por ordem judicial, então em que isso difere de um histórico normal de navegador?
Fica a dúvida de por que a OpenAI estaria sendo especialmente obrigada a isso, como se o Safari tivesse que guardar à força até o histórico que o usuário apagou
Foi sugerido na thread um link melhor para a matéria
É o link para o artigo original da Ars Technica
Acrescenta-se que, em vez de um simples post no Mastodon, deve-se consultar um artigo com informação de fato
Ultimamente têm aparecido vários textos pessoais no Hacker News discutindo vantagens e desvantagens de LLM, mas há uma tendência de não mencionar em nada a questão da privacidade
O principal motivo pelo qual eu não uso LLM de forma mais ampla nem colo código-fonte na janela de prompt é a privacidade
Na nossa empresa, por causa de NDA e de regulações governamentais como ITAR, se o código sair do servidor já é violação imediata de conformidade
Esta questão mostra que a privacidade é o calcanhar de Aquiles dos LLM
Antes de os LLM se consolidarem em formato on-premises, não dá para escapar desse problema
Dá para montar um LLM próprio de forma bem fácil e simples
O fato de a OpenAI ser obrigada a armazenar os dados no servidor leva à situação em que as equipes jurídicas das empresas em litígio podem ver os registros das conversas entre usuários e o ChatGPT durante o processo de discovery
Por exemplo, os advogados do NYT podem acabar lendo em tribunal conversas privadas de uma parte como material probatório
Há a opinião de que a solução poderia ser armazenar os logs de conversa de forma anonimizada
A OpenAI poderia tecnicamente fazer esse trabalho de anonimização, e isso parece a melhor saída
Esses dados poderiam ser copiados para sistemas de arquivamento profundo, como soluções baseadas em armazenamento em fita tipo a biblioteca Spectra TFinity ExaScale, ou serviços como o AWS Glacier
Numa estrutura em que a recuperação dos dados leva de horas a dias, seria possível cumprir a ordem judicial, manter o custo baixo e ainda dificultar muito o roubo em caso de vazamento em larga escala, o que favorece detecção e defesa
Agora é preciso partir da premissa de que todo chat/chamada de API com IA em nuvem nos EUA é potencialmente objeto de busca legal
Se esse for um risco inaceitável, vale considerar seriamente migrar para LLM local
Há quem questione como veículos como o Times podem acabar tendo o direito de ver dados de usuários
No fim, uma decisão dessas faz com que o jornal possa bisbilhotar os dados dos usuários
Essa ordem judicial pode violar leis de privacidade em mais de uma jurisdição, e também existe a possibilidade de a OpenAI acabar descumprindo contratos firmados com clientes existentes
Explica-se que contratos existentes não têm nenhum efeito sobre uma ordem emitida por um tribunal
A determinação legal vem em primeiro lugar
Essa ordem em si não cria uma nova violação de leis de privacidade
A violação já existia no próprio ato de reter os dados e fornecê-los a terceiros
Na prática, essa ordem está sendo aplicada retroativamente a partir de 13 de maio
Fica a impressão de que a OpenAI não avisou os usuários sobre isso por e-mail ou outro canal até agora por causa do impacto negativo nos negócios
Ainda assim, parece claramente uma quebra de confiança com os usuários
Empresas que trocavam dados sensíveis via ChatGPT API provavelmente acreditavam na explicação de que os dados de entrada e saída não seriam armazenados
Na prática, porém, bastaria a OpenAI mudar a configuração para passar a manter esses dados
Fica a dúvida se houve algum aviso separado ou se todo mundo só ficou sabendo disso pela imprensa
O link do post original estava fora do ar por sobrecarga de tráfego (HN hug of death), mas alguém conseguiu ler pelo Wayback Machine
Como era uma instância pessoal do Mastodon, é compreensível que tenha sobrecarregado com o aumento repentino de visitantes