Sarah Silverman processa OpenAI e Meta por violação de direitos autorais

(theverge.com)

1 pontos por GN⁺ 2023-07-10 | 1 comentários | Compartilhar no WhatsApp

A comediante e autora Sarah Silverman, junto com Christopher Golden e Richard Kadrey, processou separadamente a OpenAI e a Meta em tribunais distritais dos EUA
A questão central é se ChatGPT e LLaMA foram treinados com conjuntos de dados que incluíam livros sem autorização dos autores
Os autores alegam que livros obtidos ilegalmente em shadow libraries como Bibliotik, Library Genesis e Z-Library foram distribuídos em massa via torrents
No processo contra a OpenAI, casos em que o ChatGPT resumiu Bedwetter, Ararat e Sandman Slim são apresentados como indícios de uso nos dados de treinamento
O processo contra a Meta questiona a possível inclusão dos livros dos autores no conjunto de dados usado no treinamento do LLaMA, ligando ThePile e a EleutherAI às fontes desses dados

Alvos do processo e questão central

Sarah Silverman, Christopher Golden e Richard Kadrey abriram processos separados contra a OpenAI e a Meta em tribunais distritais dos EUA
O foco dos dois processos é a possível violação de direitos autorais
Os autores afirmam que o ChatGPT, da OpenAI, e o LLaMA, da Meta, foram treinados com conjuntos de dados que incluíam suas obras
A questão central é se esses conjuntos de dados foram obtidos sem a permissão dos autores

Controvérsia sobre a origem dos dados de treinamento

Os processos alegam que os conjuntos de dados usados no treinamento do ChatGPT e do LLaMA foram obtidos ilegalmente
Os sites de shadow library citados pelos autores são os seguintes
- Bibliotik
- Library Genesis
- Z-Library
- outros sites semelhantes
Também é apontado como problema o fato de esses livros serem disponibilizados em massa por meio de sistemas de torrent

Exemplos apresentados no processo contra a OpenAI

Os autores apresentam como prova casos em que o ChatGPT resumiu seus livros em resposta a prompts
Os livros incluídos como evidência são os seguintes
- Bedwetter, de Sarah Silverman
- Ararat, de Christopher Golden
- Sandman Slim, de Richard Kadrey
O processo afirma que o ChatGPT não reproduziu as informações de gestão de direitos autorais contidas nas obras publicadas dos autores

Foco do processo contra a Meta

Um processo separado contra a Meta sustenta que os livros dos autores estavam acessíveis no conjunto de dados de treinamento do LLaMA
O LLaMA é apresentado como uma coleção de 4 modelos de IA de código aberto divulgados pela Meta em fevereiro
A petição questiona especificamente o ThePile entre as fontes de dados de treinamento citadas no artigo do LLaMA da Meta
O ThePile é mencionado como um conjunto de dados montado pela EleutherAI

Reação das partes

Christopher Golden e Richard Kadrey se recusaram a comentar o processo
A equipe de Sarah Silverman não respondeu até o momento da publicação

1 comentários

GN⁺ 2023-07-10

Opiniões do Hacker News

É como se os criadores de IA tivessem dito explicitamente que de fato usaram obras protegidas por direitos autorais obtidas em sites de pirataria de livros
Se você baixar apenas um livro desse site, pode ser processado e considerado infrator; se baixar tudo, pode acabar responsável por indenizações de bilhões de dólares
Mas empresas como Google ou Facebook parecem operar sob outras regras. É parecido com uma situação em que, se você mata uma pessoa, é assassino; se mata um milhão, a pergunta sobre isso vira uma “pergunta armadilha” e você pode responder com indignação
- Vale lembrar por um momento que, por causa dos direitos autorais, quase nenhuma criança tem acesso a quase todos os livros já escritos
  Acabar com os direitos autorais de um dia para o outro talvez fosse um choque grande demais, mas, quanto mais reduzirmos seu impacto, muito melhor ficará o mundo e mais rápido ele avançará
  Em 2023, mais da metade da população mundial tem um smartphone. Vale imaginar um mundo em que mais da metade das pessoas tenha acesso a todos os livros digitalizados e possa criar as crianças com esses livros
- Modelos de aprendizado de máquina vêm sendo treinados há muito tempo com dados protegidos por direitos autorais
  O ImageNet está cheio de imagens com copyright, a Clearview literalmente raspou rostos da internet, e imagino que existam exemplos ainda mais antigos
  Não sei se algum tribunal dos EUA já considerou isso uso justo, mas, se ainda não, acho provável que acabe considerando
- Tecnicamente, o que gera processo não é o download, mas o upload
  Você pode baixar o quanto quiser da Z-Library ou do BitTorrent, desde que não compartilhe de volta
  Indexar materiais protegidos por direitos autorais para busca também é seguro, ou pelo menos fica numa zona cinzenta
- Fico curioso sobre com que frequência a afirmação “se você baixar um livro desse site, será processado e considerado infrator” realmente acontece
  Você pode receber uma notificação de infração e, se exagerar muito, seu provedor de internet pode cortar o serviço, mas nunca ouvi falar de um caso real de alguém ser processado simplesmente por ter baixado alguma coisa
- Gosto bastante de como o pessoal de IA, na prática, trata os direitos autorais como se não existissem
  Torço muito para que os tribunais reconheçam os pesos de LLMs e os datasets como “uso justo”, ou sob alguma outra justificativa jurídica ridícula
  Aaron Swartz era alguém com postura de adulto
É bem possível que o dataset Books2 contenha o livro de Silverman, mas esta frase da petição parece claramente errada
Primeiro, mesmo que o modelo não tenha visto uma única palavra do texto do livro durante o treinamento, ele pode ter aprendido a resumir lendo outros resumos públicos, como a página da Wikipedia
Segundo, também não está claro se um modelo que viu apenas o texto do livro, mas não descrições nem resumos sobre ele, conseguiria de fato resumi-lo bem
Para verificar isso, dá para escolher um livro que esteja no Project Gutenberg e que, segundo a petição, faria parte do Books1 e, portanto, teria entrado nos dados de treinamento do ChatGPT, mas que quase não tenha discussão online. Se a origem da capacidade de resumir estiver no treinamento com o próprio livro, ele deveria conseguir resumir livros raros tão bem quanto o livro de Silverman
Escolhi aleatoriamente The Ruby of Kishmoor, um livro adicionado ao Project Gutenberg em 2003. O ChatGPT baseado no GPT-3.5 alucinou um resumo errando até os personagens principais, e o GPT-4 disse que não conhecia a história e se recusou até a tentar
Se a razão pela qual o ChatGPT consegue resumir o livro de Silverman é que o próprio livro estava nos dados de treinamento, fica a dúvida de por que ele não consegue fazer o mesmo com outros livros
- O playground do GPT-4 resume The Ruby of Kishmoor assim
  Prompt: Resuma o seguinte livro do Project Gutenberg — The Ruby of Kishmoor
  A resposta explica que se trata de um conto curto de aventura de Howard Pyle, no qual Jonathan Rugg é levado por um estranho misterioso ao Caribe para tentar obter um artefato valioso, o Ruby of Kishmoor
  Depois de chegar ao Caribe, ele descobre que há uma grave maldição sobre o rubi, mas, por curiosidade e pela possibilidade de grande riqueza, assume o risco e passa a perseguir a joia. O resumo diz que, após vários desafios, ele encontra o rubi não por uma busca sistemática, mas por pura sorte
  Afirma que, ao longo da jornada, a obra explora a ganância humana e até onde as pessoas vão por ganhos materiais, combinando aventura, elementos sobrenaturais, coragem e reflexão moral para levar o leitor a repensar o verdadeiro valor das buscas materiais
  No fim, diz que Jonathan escapa com o rubi, mas paga um grande preço pessoal, deixando perguntas sobre a vida e o verdadeiro valor das buscas materiais
- Ao iniciar um processo e definir o escopo da produção de provas, costuma-se apresentar os fatos dessa forma
  A parte está alegando que tem motivos para acreditar que isso é verdadeiro, e agora poderá verificar diretamente por meio do processo
- Você disse que “esta frase da petição é claramente falsa”, mas os argumentos seguintes mostram apenas que ela talvez não seja verdadeira
  Eu também vi outro texto e pedi ao GPT-4 um resumo de The Ruby of Kishmoor; depois de perguntar duas vezes, ele forneceu um resumo. Não conheço o livro, então não consigo julgar se está correto, mas pelo menos esse teste desmoronou
  Parece bastante ingênuo presumir que o ChatGPT naturalmente teria respeitado direitos autorais e não teria escaneado material protegido sem permissão. A produção de provas talvez dê a resposta. Deveriam existir logs do que foi escaneado
  Acho que o argumento melhor é o de que isso é uso justo
- Pode ser uma diferença de acessibilidade. Já ouvi falar de Silverman, mas nunca de Ruby of Kishmoor
  Mais gente deve ter discutido a obra, e também deve haver mais resumos em sites pessoais ou em outros lugares
- Plausibilidade é justamente o critério para superar um pedido de indeferimento
  Se for plausível, o caso pode avançar para a produção de provas, e a produção de provas permite chegar mais perto dos fatos reais
Este caso é bem interessante, porque faz uma distinção entre materiais de treinamento acessíveis a qualquer pessoa com um navegador web, como blogs pessoais, e materiais de treinamento “obtidos ilegalmente e disponibilizados em massa por sistemas de torrent”
Não sei bem por que essa distinção deveria ser juridicamente importante em relação à distribuição de LLMs. Afinal, autores de blogs também não deram consentimento
Ainda assim, fico curioso se há algum problema legal em usar torrents piratas para treinamento. A distribuição de LLMs treinados com material protegido por direitos autorais é permitida como uso justo, mas existe base legal para dizer que, para fazê-lo legalmente, é preciso primeiro comprar o conteúdo vendido? Por exemplo, algo como: posts de blog são acessíveis de graça, então tudo bem, mas o livro de Sarah Silverman nunca foi disponibilizado gratuitamente e ninguém pagou por ele, então não pode
Ou será que o tribunal não se importaria nem um pouco com como algo foi criado? Se eu cito um trecho de um livro em um texto freelancer, ninguém pergunta se comprei o livro, se consigo provar que peguei emprestado da biblioteca ou de um amigo, ou se baixei ilegalmente uma cópia digital
- No fim, acho que vai surgir um novo conceito de licença parecido com os direitos de sincronização na música. Talvez possa ser chamado de “direitos de treinamento”
  Não vai importar se o texto foi comprado ou pirateado. É parecido com o fato de que, hoje, ao misturar uma faixa de áudio na trilha sonora de um filme, a questão central não é se a faixa foi comprada ou pirateada
  Agências de entretenimento vão negociar em bloco as taxas de direitos de treinamento dos criadores populares, e os criadores receberão um pequeno fluxo de receita que os provedores de LLMs repassarão como item nos custos de API
  Os direitos de treinamento de criadores independentes continuarão sendo violados sem cerimônia como hoje, e grandes LLMs comerciais suspeitos ou comprovadamente envolvidos em violação de direitos de treinamento serão envergonhados publicamente ou processados. LLMs independentes provavelmente ficarão abaixo do radar
- Um dos fatores na avaliação de uso justo, e até pouco tempo atrás constantemente considerado o mais importante, é o impacto sobre o mercado comercial da obra original
  Portanto, se a obra original praticamente não tiver mercado comercial, é mais provável que o tribunal reconheça uso justo. Mas o simples fato de algo não estar sendo vendido ativamente não encerra a questão
  Licenças de código aberto também são oferecidas gratuitamente e sobreviveram em tribunais de apelação
- A cópia privada de obras protegidas por direitos autorais é permitida, mas a redistribuição não
  Não está claro até que ponto isso constitui redistribuição. Também é nebuloso se há grande diferença entre esse modelo e uma máquina tipo videocassete que, ao apertar um botão, recria a obra original
- O ângulo de IA parece aproveitar uma moda exagerada
  Se baixar material protegido por direitos autorais “pirateado” é ilegal, então esse é o crime, e o resto é quase irrelevante. Não é ilegal contar a alguém o enredo de um filme pirateado que você assistiu
- Pelo que entendo, para alegar uso justo, é preciso possuir legalmente a obra. Não sou advogado
  Se a obra só pode ser obtida legalmente por meio de compra, então você precisa tê-la comprado legalmente ou ter recebido uma cópia de alguém que a comprou assim. Por exemplo, como presente
Não sei se estamos lendo a mesma petição
O artigo da Meta https://arxiv.org/pdf/2302.13971.pdf diz que o conjunto de dados de treinamento incluía dois corpora de livros. Um é o Gutenberg Project, com livros em domínio público, e o outro é a seção Books3 do ThePile
O artigo do The Pile https://arxiv.org/abs/2101.00027 descreve o Books3 como um conjunto de dados de livros derivado de uma cópia do conteúdo do tracker privado Bibliotik
O link de Shawn Presser é https://twitter.com/theshawwn/status/1320282149329784833, e ele descreve o Books3 como “all of bibliotik”, isto é, 196.640 livros convertidos para .txt simples
Não tenho tempo nem espaço para baixar um arquivo de 37 GB, mas, se o livro da Silverman estiver ali, acho que isso não seria um caso de vitória certa?
O LLaMA da Meta, como eles parecem admitir, foi treinado com livros pirateados
- O livro da Silverman está lá
  O resultado de $ grep -i "Sarah Silverman" books3.list.txt é 325196 books3/the-eye.eu/public/Books/Bibliotik/T/The Bedwetter - Sarah Silverman.epub.txt
  Também há um link para quem só quer ver a lista de arquivos. A própria lista também é um arquivo grande: https://gist.githubusercontent.com/Q726kbXuN/e4e9919a2f5d81f...
- Sim e não
  Se o treinamento inicial exigiu fazer uma cópia do corpus definido pelo tracker, então é quase um caso claro de que houve um ato de violação de direitos autorais nesse processo
  Mas quais reparações Silverman poderia obter além de um valor significativo em compras do livro, talvez danos triplicados, ainda depende da mesma questão: a relação entre treinamento de modelos e direitos autorais
  Soma-se a isso uma questão adicional: se o status ilegal dos dados antes do treinamento altera essa avaliação
- Não parece que estamos lendo a mesma coisa. Em algum ponto, você de repente traz o Google para a conversa
Acho que esse problema vai ficar maior do que alguns imaginam
Pode surgir um mercado de dados de treinamento limpos, sem possíveis reivindicações de copyright. Algo como usar apenas obras em domínio público
Será que então vamos perceber que é IA ao vê-la falar como autores do fim do século XVIII ou começo do XIX?
- Não é um problema totalmente novo; houve questões parecidas com mecanismos de busca, e também dá para ver isso como uso transformativo
  Mas modelos que se dispõem a reproduzir textos protegidos por copyright na íntegra podem ter problemas, e também há novas questões, como modelos que alucinam conteúdo difamatório
  Ainda assim, parece difícil colocar esse gênio de volta na garrafa. É bem provável que vejamos muitos processos, trabalhos de alinhamento e novos tipos de abuso aparecendo juntos daqui para frente
- Espero que esse mercado surja. Seria bom haver um mercado para vender licenças de treinamento sobre propriedade intelectual
  Isso poderia virar uma fonte pequena, mas real, de renda passiva para artistas, escritores e poetas que não se incomodam em ver sua propriedade intelectual usada em conjuntos de treinamento
  Negociar individualmente com cada criador é inviável, mas parece possível com grupos maiores, como editoras, galerias, guildas e sindicatos, que consigam garantir a qualidade de seus membros. Eles poderiam oferecer licenças e dividir a receita com todos os membros
  É claramente antiético que LLMs simplesmente suguem todos esses dados sem consentimento ou contrato, até de sites de torrent. Um modelo assim poderia beneficiar todo mundo
- Até que esse problema seja resolvido, dados de treinamento limpos terão valor como forma de mitigação de risco
  Depois de resolvido, isso ou deixará de ser um problema completamente, ou virará uma questão de trade-off de custo-benefício muito mais fácil de entender
  Talvez seja uma mistura de obras em domínio público e publicações do governo dos EUA. Publicações do governo americano, por categoria, não são protegidas por copyright
- Também existe um mercado de jurisdições limpas. Ou seja, jurisdições que não consideram o treinamento de redes neurais uma violação de copyright
  O Japão já se declarou uma jurisdição desse tipo
- Acho que a intenção era dizer séculos XIX e XX, não XVIII e XIX, mas ainda assim seria bem engraçado
Não sou advogado, mas isso não parece um bom exemplo para provar violação
Um resumo detalhado de um livro soa como um típico uso transformativo. Especialmente no caso de Silverman, quanto mais se removem os elementos artísticos da prosa e se reduz o livro a “fatos”, mais difícil fica ele ser um substituto direto da obra original
- A petição tem uma linha de raciocínio bem razoável. Se você segue a origem dos dados de treinamento, chega a uma obtenção ilegal
  O fato de materiais obtidos ilegalmente terem sido usados em um empreendimento comercial, e de esse empreendimento ser um modelo de IA, talvez seja secundário. Não se pode usar materiais obtidos ilegalmente ao tocar um negócio
- Quanto mais penso nisso, mais me parece que o resultado deve depender, e provavelmente dependerá, de se a “lei” verá a IA como algo mais próximo de uma pessoa ou mais próximo de uma máquina
  Uma pessoa pode ler, estudar e depois produzir outra coisa
  Mas “alimentar uma máquina com dados” parece uma violação clara, mesmo que do outro lado não saia exatamente a mesma coisa
- Talvez não, mas uma das alegações é interessante: a de que parte do dataset foi obtida ilegalmente
  Qual seria o valor do dano? Algo como o preço de varejo da edição de capa dura?
- Com o prompt adequado, será que um LLM consegue repetir um livro inteiro palavra por palavra?
- Não li a petição, mas pode haver um argumento de que o uso justo não se aplica porque a OpenAI treinou os dados com obras roubadas
Deixando de lado se um LLM é ou não uma obra derivada de todo o material em que foi treinado, essa alegação parece muito fraca
Mesmo que a obra em si não estivesse no conjunto de treinamento, um LLM treinado em vários resumos sobre essa obra poderia produzir esse tipo de resumo por conta própria
Em geral, o fato de haver conhecimento sobre algo não é prova de que aquilo foi usado no treinamento
- Não é uma prova definitiva, mas tribunais não exigem prova definitiva para abrir um caso e descobrir novos fatos
  Dá para perguntar a especialistas em LLM e à OpenAI se é provável que aquela saída tenha derivado das obras protegidas por copyright em questão
  De todo modo, se a lógica for “não, não veio do livro, veio do resumo protegido por copyright de outra pessoa”, isso não significa que a pessoa que escreveu esse resumo é que deveria processar por violação de copyright? A menos que a OpenAI diga: “na verdade, não era um resumo, era o livro inteiro”
- Quando se coloca uma pessoa no lugar do LLM, surgem nuances interessantes
  Nós lemos milhares de obras; isso significa que tudo o que escrevemos é derivado?
Uma evidência mais convincente teria sido fazer o ChatGPT emitir literalmente trechos do texto, não um resumo
Quando tentei diretamente, ele respondeu algo como que não tinha acesso a bancos de dados externos específicos ou livros posteriores ao corte de conhecimento de setembro de 2021, e que não podia fornecer citações literais de The Bedwetter, de Sarah Silverman, nem de outros textos específicos
Mas disse que poderia gerar texto com base no treinamento e no conhecimento até aquele momento, então sugeriu que eu fizesse perguntas sobre Sarah Silverman ou temas relacionados
- Talvez você tenha perdido esta discussão: https://news.ycombinator.com/item?id=36400053
  A OpenAI parece saber que seu software emite material protegido por copyright, então aparentemente colocou filtros às pressas
  Por isso, o fato de ele não imprimir o livro quando se pede agora não prova que a IA não tenha memorizado esses grandes blocos. Pode ser apenas que haja um filtro de segurança aplicado, e talvez seja preciso uma forma simples de contorná-lo
- Uma vez fiz o ChatGPT emitir o primeiro parágrafo de O Senhor dos Anéis, e ele parou depois das primeiras palavras
  Parece que os desenvolvedores estão filtrando isso
- O GPT é um JPEG com compressão com perdas de toda a internet. Pelo modo como redes neurais funcionam, é impossível extrair dali texto literal
  Como você acha que se colocam exabytes de dados de texto dentro de uma rede neural de gigabytes? Isso mesmo: compressão com perdas
Não é muito mais provável que o conjunto de treinamento contenha muitas resenhas e resumos e que o modelo tenha sintetizado a partir disso por conta própria?
- Há rastros documentados de que repositórios ilegais de livros foram usados no treinamento
- Na prática, parece muito mais provável que tenham colocado um monte de PDFs de livros na pasta de treinamento e rodado tudo assim mesmo
  É quase impossível acreditar que essas empresas de IA estejam tendo qualquer cuidado com os dados que sugam para treinamento
- E de onde vieram esses resumos? Acho muito mais provável que tenham raspado bibliotecas-sombra. Claro, isso também parece quase impossível de provar
  Talvez dê para testar até certo ponto pedindo resumos de livros ou textos que só estejam disponíveis em bibliotecas-sombra
- Se resenhas e resumos estavam no conjunto de treinamento, o LLM da OpenAI não estaria mais próximo de um mecanismo de busca, no sentido de gerar texto de entrada conforme o prompt?
É meio engraçado que a Getty Images também tenha processado a Stability AI por IA. Carma?
Para a Getty, tudo bem roubar dos outros, mas os outros não podem roubar da Getty? Não tenho interesse nessa briga, mas a hipocrisia dessas empresas é realmente enorme
- De quem a Getty rouba?

Sarah Silverman processa OpenAI e Meta por violação de direitos autorais

Alvos do processo e questão central

Controvérsia sobre a origem dos dados de treinamento

Exemplos apresentados no processo contra a OpenAI

Foco do processo contra a Meta

Reação das partes

Leituras relacionadas

1 comentários

Opiniões do Hacker News