- A comediante e autora Sarah Silverman, junto com Christopher Golden e Richard Kadrey, processou separadamente a OpenAI e a Meta em tribunais distritais dos EUA
- A questão central é se ChatGPT e LLaMA foram treinados com conjuntos de dados que incluíam livros sem autorização dos autores
- Os autores alegam que livros obtidos ilegalmente em shadow libraries como Bibliotik, Library Genesis e Z-Library foram distribuídos em massa via torrents
- No processo contra a OpenAI, casos em que o ChatGPT resumiu Bedwetter, Ararat e Sandman Slim são apresentados como indícios de uso nos dados de treinamento
- O processo contra a Meta questiona a possível inclusão dos livros dos autores no conjunto de dados usado no treinamento do LLaMA, ligando ThePile e a EleutherAI às fontes desses dados
Alvos do processo e questão central
- Sarah Silverman, Christopher Golden e Richard Kadrey abriram processos separados contra a OpenAI e a Meta em tribunais distritais dos EUA
- O foco dos dois processos é a possível violação de direitos autorais
- Os autores afirmam que o ChatGPT, da OpenAI, e o LLaMA, da Meta, foram treinados com conjuntos de dados que incluíam suas obras
- A questão central é se esses conjuntos de dados foram obtidos sem a permissão dos autores
Controvérsia sobre a origem dos dados de treinamento
- Os processos alegam que os conjuntos de dados usados no treinamento do ChatGPT e do LLaMA foram obtidos ilegalmente
- Os sites de shadow library citados pelos autores são os seguintes
- Bibliotik
- Library Genesis
- Z-Library
- outros sites semelhantes
- Também é apontado como problema o fato de esses livros serem disponibilizados em massa por meio de sistemas de torrent
Exemplos apresentados no processo contra a OpenAI
- Os autores apresentam como prova casos em que o ChatGPT resumiu seus livros em resposta a prompts
- Os livros incluídos como evidência são os seguintes
- Bedwetter, de Sarah Silverman
- Ararat, de Christopher Golden
- Sandman Slim, de Richard Kadrey
- O processo afirma que o ChatGPT não reproduziu as informações de gestão de direitos autorais contidas nas obras publicadas dos autores
Foco do processo contra a Meta
- Um processo separado contra a Meta sustenta que os livros dos autores estavam acessíveis no conjunto de dados de treinamento do LLaMA
- O LLaMA é apresentado como uma coleção de 4 modelos de IA de código aberto divulgados pela Meta em fevereiro
- A petição questiona especificamente o ThePile entre as fontes de dados de treinamento citadas no artigo do LLaMA da Meta
- O ThePile é mencionado como um conjunto de dados montado pela EleutherAI
Reação das partes
- Christopher Golden e Richard Kadrey se recusaram a comentar o processo
- A equipe de Sarah Silverman não respondeu até o momento da publicação
1 comentários
Opiniões do Hacker News
É como se os criadores de IA tivessem dito explicitamente que de fato usaram obras protegidas por direitos autorais obtidas em sites de pirataria de livros
Se você baixar apenas um livro desse site, pode ser processado e considerado infrator; se baixar tudo, pode acabar responsável por indenizações de bilhões de dólares
Mas empresas como Google ou Facebook parecem operar sob outras regras. É parecido com uma situação em que, se você mata uma pessoa, é assassino; se mata um milhão, a pergunta sobre isso vira uma “pergunta armadilha” e você pode responder com indignação
Acabar com os direitos autorais de um dia para o outro talvez fosse um choque grande demais, mas, quanto mais reduzirmos seu impacto, muito melhor ficará o mundo e mais rápido ele avançará
Em 2023, mais da metade da população mundial tem um smartphone. Vale imaginar um mundo em que mais da metade das pessoas tenha acesso a todos os livros digitalizados e possa criar as crianças com esses livros
O ImageNet está cheio de imagens com copyright, a Clearview literalmente raspou rostos da internet, e imagino que existam exemplos ainda mais antigos
Não sei se algum tribunal dos EUA já considerou isso uso justo, mas, se ainda não, acho provável que acabe considerando
Você pode baixar o quanto quiser da Z-Library ou do BitTorrent, desde que não compartilhe de volta
Indexar materiais protegidos por direitos autorais para busca também é seguro, ou pelo menos fica numa zona cinzenta
Você pode receber uma notificação de infração e, se exagerar muito, seu provedor de internet pode cortar o serviço, mas nunca ouvi falar de um caso real de alguém ser processado simplesmente por ter baixado alguma coisa
Torço muito para que os tribunais reconheçam os pesos de LLMs e os datasets como “uso justo”, ou sob alguma outra justificativa jurídica ridícula
Aaron Swartz era alguém com postura de adulto
É bem possível que o dataset Books2 contenha o livro de Silverman, mas esta frase da petição parece claramente errada
Primeiro, mesmo que o modelo não tenha visto uma única palavra do texto do livro durante o treinamento, ele pode ter aprendido a resumir lendo outros resumos públicos, como a página da Wikipedia
Segundo, também não está claro se um modelo que viu apenas o texto do livro, mas não descrições nem resumos sobre ele, conseguiria de fato resumi-lo bem
Para verificar isso, dá para escolher um livro que esteja no Project Gutenberg e que, segundo a petição, faria parte do Books1 e, portanto, teria entrado nos dados de treinamento do ChatGPT, mas que quase não tenha discussão online. Se a origem da capacidade de resumir estiver no treinamento com o próprio livro, ele deveria conseguir resumir livros raros tão bem quanto o livro de Silverman
Escolhi aleatoriamente The Ruby of Kishmoor, um livro adicionado ao Project Gutenberg em 2003. O ChatGPT baseado no GPT-3.5 alucinou um resumo errando até os personagens principais, e o GPT-4 disse que não conhecia a história e se recusou até a tentar
Se a razão pela qual o ChatGPT consegue resumir o livro de Silverman é que o próprio livro estava nos dados de treinamento, fica a dúvida de por que ele não consegue fazer o mesmo com outros livros
Prompt: Resuma o seguinte livro do Project Gutenberg — The Ruby of Kishmoor
A resposta explica que se trata de um conto curto de aventura de Howard Pyle, no qual Jonathan Rugg é levado por um estranho misterioso ao Caribe para tentar obter um artefato valioso, o Ruby of Kishmoor
Depois de chegar ao Caribe, ele descobre que há uma grave maldição sobre o rubi, mas, por curiosidade e pela possibilidade de grande riqueza, assume o risco e passa a perseguir a joia. O resumo diz que, após vários desafios, ele encontra o rubi não por uma busca sistemática, mas por pura sorte
Afirma que, ao longo da jornada, a obra explora a ganância humana e até onde as pessoas vão por ganhos materiais, combinando aventura, elementos sobrenaturais, coragem e reflexão moral para levar o leitor a repensar o verdadeiro valor das buscas materiais
No fim, diz que Jonathan escapa com o rubi, mas paga um grande preço pessoal, deixando perguntas sobre a vida e o verdadeiro valor das buscas materiais
A parte está alegando que tem motivos para acreditar que isso é verdadeiro, e agora poderá verificar diretamente por meio do processo
Eu também vi outro texto e pedi ao GPT-4 um resumo de The Ruby of Kishmoor; depois de perguntar duas vezes, ele forneceu um resumo. Não conheço o livro, então não consigo julgar se está correto, mas pelo menos esse teste desmoronou
Parece bastante ingênuo presumir que o ChatGPT naturalmente teria respeitado direitos autorais e não teria escaneado material protegido sem permissão. A produção de provas talvez dê a resposta. Deveriam existir logs do que foi escaneado
Acho que o argumento melhor é o de que isso é uso justo
Mais gente deve ter discutido a obra, e também deve haver mais resumos em sites pessoais ou em outros lugares
Se for plausível, o caso pode avançar para a produção de provas, e a produção de provas permite chegar mais perto dos fatos reais
Este caso é bem interessante, porque faz uma distinção entre materiais de treinamento acessíveis a qualquer pessoa com um navegador web, como blogs pessoais, e materiais de treinamento “obtidos ilegalmente e disponibilizados em massa por sistemas de torrent”
Não sei bem por que essa distinção deveria ser juridicamente importante em relação à distribuição de LLMs. Afinal, autores de blogs também não deram consentimento
Ainda assim, fico curioso se há algum problema legal em usar torrents piratas para treinamento. A distribuição de LLMs treinados com material protegido por direitos autorais é permitida como uso justo, mas existe base legal para dizer que, para fazê-lo legalmente, é preciso primeiro comprar o conteúdo vendido? Por exemplo, algo como: posts de blog são acessíveis de graça, então tudo bem, mas o livro de Sarah Silverman nunca foi disponibilizado gratuitamente e ninguém pagou por ele, então não pode
Ou será que o tribunal não se importaria nem um pouco com como algo foi criado? Se eu cito um trecho de um livro em um texto freelancer, ninguém pergunta se comprei o livro, se consigo provar que peguei emprestado da biblioteca ou de um amigo, ou se baixei ilegalmente uma cópia digital
Não vai importar se o texto foi comprado ou pirateado. É parecido com o fato de que, hoje, ao misturar uma faixa de áudio na trilha sonora de um filme, a questão central não é se a faixa foi comprada ou pirateada
Agências de entretenimento vão negociar em bloco as taxas de direitos de treinamento dos criadores populares, e os criadores receberão um pequeno fluxo de receita que os provedores de LLMs repassarão como item nos custos de API
Os direitos de treinamento de criadores independentes continuarão sendo violados sem cerimônia como hoje, e grandes LLMs comerciais suspeitos ou comprovadamente envolvidos em violação de direitos de treinamento serão envergonhados publicamente ou processados. LLMs independentes provavelmente ficarão abaixo do radar
Portanto, se a obra original praticamente não tiver mercado comercial, é mais provável que o tribunal reconheça uso justo. Mas o simples fato de algo não estar sendo vendido ativamente não encerra a questão
Licenças de código aberto também são oferecidas gratuitamente e sobreviveram em tribunais de apelação
Não está claro até que ponto isso constitui redistribuição. Também é nebuloso se há grande diferença entre esse modelo e uma máquina tipo videocassete que, ao apertar um botão, recria a obra original
Se baixar material protegido por direitos autorais “pirateado” é ilegal, então esse é o crime, e o resto é quase irrelevante. Não é ilegal contar a alguém o enredo de um filme pirateado que você assistiu
Se a obra só pode ser obtida legalmente por meio de compra, então você precisa tê-la comprado legalmente ou ter recebido uma cópia de alguém que a comprou assim. Por exemplo, como presente
Não sei se estamos lendo a mesma petição
O artigo da Meta https://arxiv.org/pdf/2302.13971.pdf diz que o conjunto de dados de treinamento incluía dois corpora de livros. Um é o Gutenberg Project, com livros em domínio público, e o outro é a seção Books3 do ThePile
O artigo do The Pile https://arxiv.org/abs/2101.00027 descreve o Books3 como um conjunto de dados de livros derivado de uma cópia do conteúdo do tracker privado Bibliotik
O link de Shawn Presser é https://twitter.com/theshawwn/status/1320282149329784833, e ele descreve o Books3 como “all of bibliotik”, isto é, 196.640 livros convertidos para
.txtsimplesNão tenho tempo nem espaço para baixar um arquivo de 37 GB, mas, se o livro da Silverman estiver ali, acho que isso não seria um caso de vitória certa?
O LLaMA da Meta, como eles parecem admitir, foi treinado com livros pirateados
O resultado de
$ grep -i "Sarah Silverman" books3.list.txté325196 books3/the-eye.eu/public/Books/Bibliotik/T/The Bedwetter - Sarah Silverman.epub.txtTambém há um link para quem só quer ver a lista de arquivos. A própria lista também é um arquivo grande: https://gist.githubusercontent.com/Q726kbXuN/e4e9919a2f5d81f...
Se o treinamento inicial exigiu fazer uma cópia do corpus definido pelo tracker, então é quase um caso claro de que houve um ato de violação de direitos autorais nesse processo
Mas quais reparações Silverman poderia obter além de um valor significativo em compras do livro, talvez danos triplicados, ainda depende da mesma questão: a relação entre treinamento de modelos e direitos autorais
Soma-se a isso uma questão adicional: se o status ilegal dos dados antes do treinamento altera essa avaliação
Acho que esse problema vai ficar maior do que alguns imaginam
Pode surgir um mercado de dados de treinamento limpos, sem possíveis reivindicações de copyright. Algo como usar apenas obras em domínio público
Será que então vamos perceber que é IA ao vê-la falar como autores do fim do século XVIII ou começo do XIX?
Mas modelos que se dispõem a reproduzir textos protegidos por copyright na íntegra podem ter problemas, e também há novas questões, como modelos que alucinam conteúdo difamatório
Ainda assim, parece difícil colocar esse gênio de volta na garrafa. É bem provável que vejamos muitos processos, trabalhos de alinhamento e novos tipos de abuso aparecendo juntos daqui para frente
Isso poderia virar uma fonte pequena, mas real, de renda passiva para artistas, escritores e poetas que não se incomodam em ver sua propriedade intelectual usada em conjuntos de treinamento
Negociar individualmente com cada criador é inviável, mas parece possível com grupos maiores, como editoras, galerias, guildas e sindicatos, que consigam garantir a qualidade de seus membros. Eles poderiam oferecer licenças e dividir a receita com todos os membros
É claramente antiético que LLMs simplesmente suguem todos esses dados sem consentimento ou contrato, até de sites de torrent. Um modelo assim poderia beneficiar todo mundo
Depois de resolvido, isso ou deixará de ser um problema completamente, ou virará uma questão de trade-off de custo-benefício muito mais fácil de entender
Talvez seja uma mistura de obras em domínio público e publicações do governo dos EUA. Publicações do governo americano, por categoria, não são protegidas por copyright
O Japão já se declarou uma jurisdição desse tipo
Não sou advogado, mas isso não parece um bom exemplo para provar violação
Um resumo detalhado de um livro soa como um típico uso transformativo. Especialmente no caso de Silverman, quanto mais se removem os elementos artísticos da prosa e se reduz o livro a “fatos”, mais difícil fica ele ser um substituto direto da obra original
O fato de materiais obtidos ilegalmente terem sido usados em um empreendimento comercial, e de esse empreendimento ser um modelo de IA, talvez seja secundário. Não se pode usar materiais obtidos ilegalmente ao tocar um negócio
Uma pessoa pode ler, estudar e depois produzir outra coisa
Mas “alimentar uma máquina com dados” parece uma violação clara, mesmo que do outro lado não saia exatamente a mesma coisa
Qual seria o valor do dano? Algo como o preço de varejo da edição de capa dura?
Deixando de lado se um LLM é ou não uma obra derivada de todo o material em que foi treinado, essa alegação parece muito fraca
Mesmo que a obra em si não estivesse no conjunto de treinamento, um LLM treinado em vários resumos sobre essa obra poderia produzir esse tipo de resumo por conta própria
Em geral, o fato de haver conhecimento sobre algo não é prova de que aquilo foi usado no treinamento
Dá para perguntar a especialistas em LLM e à OpenAI se é provável que aquela saída tenha derivado das obras protegidas por copyright em questão
De todo modo, se a lógica for “não, não veio do livro, veio do resumo protegido por copyright de outra pessoa”, isso não significa que a pessoa que escreveu esse resumo é que deveria processar por violação de copyright? A menos que a OpenAI diga: “na verdade, não era um resumo, era o livro inteiro”
Nós lemos milhares de obras; isso significa que tudo o que escrevemos é derivado?
Uma evidência mais convincente teria sido fazer o ChatGPT emitir literalmente trechos do texto, não um resumo
Quando tentei diretamente, ele respondeu algo como que não tinha acesso a bancos de dados externos específicos ou livros posteriores ao corte de conhecimento de setembro de 2021, e que não podia fornecer citações literais de The Bedwetter, de Sarah Silverman, nem de outros textos específicos
Mas disse que poderia gerar texto com base no treinamento e no conhecimento até aquele momento, então sugeriu que eu fizesse perguntas sobre Sarah Silverman ou temas relacionados
A OpenAI parece saber que seu software emite material protegido por copyright, então aparentemente colocou filtros às pressas
Por isso, o fato de ele não imprimir o livro quando se pede agora não prova que a IA não tenha memorizado esses grandes blocos. Pode ser apenas que haja um filtro de segurança aplicado, e talvez seja preciso uma forma simples de contorná-lo
Parece que os desenvolvedores estão filtrando isso
Como você acha que se colocam exabytes de dados de texto dentro de uma rede neural de gigabytes? Isso mesmo: compressão com perdas
Não é muito mais provável que o conjunto de treinamento contenha muitas resenhas e resumos e que o modelo tenha sintetizado a partir disso por conta própria?
É quase impossível acreditar que essas empresas de IA estejam tendo qualquer cuidado com os dados que sugam para treinamento
Talvez dê para testar até certo ponto pedindo resumos de livros ou textos que só estejam disponíveis em bibliotecas-sombra
É meio engraçado que a Getty Images também tenha processado a Stability AI por IA. Carma?
Para a Getty, tudo bem roubar dos outros, mas os outros não podem roubar da Getty? Não tenho interesse nessa briga, mas a hipocrisia dessas empresas é realmente enorme