Processo de direitos autorais do NY Times exige que a OpenAI exclua todas as instâncias do GPT
(arstechnica.com)- O The New York Times abriu um processo por violação de direitos autorais contra afiliadas da OpenAI e a Microsoft, alegando que elas usaram seu conteúdo sem autorização em treinamento e geração de respostas, chegando a exigir a exclusão de instâncias do GPT e de datasets de treinamento
- A questão central não é apenas o treinamento do modelo em si, mas se ferramentas baseadas em GPT conseguem reproduzir quase literalmente o conteúdo de artigos pagos do Times e contornar o paywall
- O Times afirma que o Common Crawl incluiu 16 milhões de registros únicos de seu site e que, nos dados públicos de treinamento anteriores ao GPT-3.5, era a terceira fonte mais referenciada
- Em testes da Ars Technica, esse tipo de обход no ChatGPT pareceu estar bloqueado, mas o Copilot reproduziu uma parte substancial do início de um artigo específico do Times quando recebeu um pedido pelo primeiro parágrafo
- O processo inclui alegações de violação de direitos autorais, DMCA, marca registrada e concorrência desleal, e pede uma injunção permanente, indenizações, restituição e devolução de enriquecimento sem causa
Alvos do processo e principais exigências
- O The New York Times entrou com um processo por violação de direitos autorais contra várias empresas ligadas à OpenAI e contra a Microsoft
- A Microsoft foi incluída como ré por ser parceira da OpenAI, operar o serviço Copilot com tecnologia da OpenAI e estar envolvida no fornecimento de infraestrutura para treinar os grandes modelos de linguagem GPT
- As exigências incluem a exclusão de todas as instâncias do GPT treinadas com materiais do Times e a destruição dos datasets usados no treinamento
- Também é pedida uma injunção permanente para impedir condutas semelhantes no futuro
- As reparações financeiras incluem indenização legal, indenização compensatória, restituição, devolução de enriquecimento sem causa e outras medidas cabíveis em lei ou em equidade
Como o Times enxerga a estrutura do dano
- O Times afirma manter muitos jornalistas e equipes de reportagem, produzir cobertura e jornalismo investigativo em diversas áreas e, como resultado, ser considerado uma fonte de autoridade em vários assuntos
- Para recuperar os custos desse trabalho jornalístico, o Times limita o acesso aos artigos por meio de um forte paywall
- A empresa controla o uso de suas obras por meio de avisos de direitos autorais na edição impressa, restrições de reprodução e uso nos termos de serviço e uma política seletiva de licenciamento
- A lógica central do dano alegado no processo é que, se ferramentas da OpenAI fornecem conteúdo do Times sem autorização, elas prejudicam a relação com os leitores e capturam receitas de assinatura, licenciamento, publicidade e parcerias
Questões sobre o uso de dados de treinamento
- O Times afirma que seu conteúdo foi usado sem autorização no processo de treinamento de várias versões do GPT
- Antes do GPT-3.5, informações sobre os datasets de treinamento eram públicas, e o Times entende que um deles, o Common Crawl, continha 16 milhões de registros únicos publicados em seu site
- Por esse critério, o Times era a terceira fonte mais referenciada, atrás da Wikipedia e do banco de dados de patentes dos Estados Unidos
- A OpenAI já não divulga muitos detalhes sobre os dados de treinamento das versões mais recentes do GPT, mas o processo apresenta indícios de que o texto integral de artigos do Times ainda foi incluído no treinamento
- À medida que o caso avançar, informações sobre o acesso aos dados de treinamento podem se tornar uma questão central na fase de produção de provas
O problema de reprodução revelado na etapa de saída
- O processo não se limita ao uso de material protegido por direitos autorais no treinamento; ele enfatiza que o material aprendido pode voltar a ser emitido durante o uso
- O Times afirma que ferramentas de IA generativa baseadas na OpenAI podem recitar palavra por palavra conteúdo do Times, resumi-lo de forma muito próxima ou imitar seu estilo de expressão
- Os documentos do processo incluem casos em que o GPT-4 reproduziu quase literalmente grandes trechos de artigos do Times
- Um exemplo de prompt consistia em fornecer ao ChatGPT o título de um artigo do Times e pedir o primeiro parágrafo, depois continuar pedindo os parágrafos seguintes
- Quando a Ars Technica testou alguns dos mesmos prompts, o ChatGPT recomendou consultar o site do Times ou outras fontes confiáveis, mas avaliou que, com contexto anterior, não seria possível descartar a possibilidade de material protegido por direitos autorais ser exibido
- O Copilot é o serviço que antes se chamava Bing Chat, e a Ars Technica verificou que, ao pedir o primeiro parágrafo de um artigo específico do Times, ele reproduziu cerca de um terço da parte inicial do texto
Contestação ao uso justo e danos à reputação
- A OpenAI e a Microsoft têm afirmado publicamente que o uso não autorizado de conteúdo protegido por direitos autorais para treinar modelos de IA generativa constitui uso justo, pois oferece uma nova finalidade transformativa
- O Times rebate que não há transformação em usar conteúdo do Times sem pagar para criar produtos que substituem o Times e tiram seus leitores
- As alucinações da IA também são apresentadas como um fator que pode prejudicar o valor reputacional do Times
- Como exemplo, o processo afirma que um modelo GPT inventou que, em 10 de janeiro de 2020, o Times havia publicado um artigo sobre a relação entre suco de laranja e linfoma não Hodgkin, mas o Times diz que nunca publicou tal artigo
- Sobre um artigo do Times relacionado a alimentos bons para a saúde do coração, o processo afirma que o Copilot apresentou uma lista de exemplos inexistente no texto original, e que 80% da lista solicitada era composta por alimentos não mencionados no artigo
- No caso de recomendações do Wirecutter, o processo afirma que produtos que não foram avaliados pela equipe foram atribuídos como recomendações do Wirecutter
Wirecutter e a questão da receita de afiliados
- O Wirecutter é um veículo de propriedade do The New York Times
- O processo afirma que o Copilot também consegue exibir grandes trechos de artigos do Wirecutter
- Nesses trechos, os links de afiliados são removidos, levantando a questão de que uma das principais fontes de receita do Wirecutter seria bloqueada
Alegações jurídicas
- O processo responsabiliza as empresas ligadas à OpenAI pelo desenvolvimento do software e a Microsoft tanto pela oferta de serviços baseados na OpenAI quanto pela criação da infraestrutura de treinamento
- As alegações incluem violação direta de direitos autorais, violação contributiva e violação vicária
- Além disso, são alegadas violações da DMCA, violação de marca registrada e apropriação indevida por concorrência desleal
1 comentários
Comentários do Hacker News
Tirando o elemento de LLM, fico em dúvida se seria uso justo criar um produto com artigos do NYT obtidos legalmente por scraping
Por exemplo, imagine hospedar os artigos, fornecer indexação e vender por assinatura uma função de reescrita, como resumos de matérias sobre as relações entre EUA e Reino Unido nos últimos 5 anos. Mesmo pagando só a assinatura mensal do NYT, sem reproduzir longos trechos literais e usando apenas citações curtas, isso não soa como uso justo
Normalmente, você não pode pegar um produto com plano para uso pessoal e vender derivados dele a terceiros. Com o VS Code, por exemplo, também é assim
Isso é bem diferente de um mecanismo de busca. Um buscador não substitui a fonte; pelo contrário, manda o usuário para o original e cria a chance de a matéria ser monetizada. Já esse tipo de produto ou um LLM usa o conteúdo do NYT como substituto, de forma que a pessoa não precisa de fato assinar o NYT
Além disso, se você olhar matérias de veículos de segunda linha para baixo, vai ver que quase todas trazem conteúdo obtido diretamente de lugares como o NYT. Em geral escrevem algo como “segundo o The Times, fulano fez tal coisa” e normalmente incluem um link para a matéria original
Às vezes o overfitting é tão forte que nem dá para chamar de compressão com perdas; os dados acabam codificados quase literalmente dentro da rede neural
Se parar para pensar, é surpreendente que o Google seja legal, mas o que o Google faz está totalmente estabelecido como legal. Internamente, o Google mantém e usa cópias integrais do texto completo de todas as páginas da web que indexa
Claro, o Google fornece links para a fonte. Se a OpenAI fizesse o mesmo, e a taxa de cliques fosse de só 0,1% e quase não ajudasse a receita do NYTimes, ainda assim isso seria legal? E se ela detectasse o momento em que o modelo tentaria reproduzir o texto literal e simplesmente o forçasse a parafrasear? O NYTimes não tem copyright sobre paráfrases de seus artigos. Na prática não haveria quase diferença nenhuma, então seria meio ridículo se o governo obrigasse esse tipo de contorno
Olhar pela janela e ver o vizinho indo até a loja é aceitável. Mas rastrear com câmeras todas as pessoas na rua e colocá-las num banco de dados é problemático e ilegal em muitos lugares
Quando há escala, a lógica nem sempre continua valendo do mesmo jeito
A ação judicial traz exemplos de ChatGPT/Bing Copilot copiando literalmente o NYT. Parece difícil sustentar que esse tipo de cópia seja uso justo
Ainda assim, OAI/MS provavelmente conseguiria corrigir isso dentro do paradigma atual. Bastaria usar RLHF para ensinar o modelo a reconhecer plágio e penalizá-lo
Mas o processo vai muito além de dizer apenas que esse tipo de cópia é infração de copyright. Ele afirma que “o uso substitutivo, não justificado por propósito transformativo, da reprodução não autorizada de obras do Times para treinar LLMs” é o problema
Essa é uma tese forte: que o próprio ato de baixar as matérias como dados de treinamento já constitui violação de copyright. O fato de o GPT conseguir emitir o texto literal pode ser uma distração. Espero que os juízes percebam isso e foquem na questão jurídica mais ampla, interessante e pouco clara sobre o que pode e o que não pode ser considerado uso transformativo em um modelo
A abordagem esperada seria manter um Bloom filter de n-gramas de conteúdo protegido conhecido. Por exemplo, enumerar todos os conjuntos de 7 palavras consecutivas de um artigo e verificar isso, de modo que o modelo só pudesse gerar no máximo n-1 palavras iguais às da fonte em sequência
Mas isso vai gerar reação negativa. As empresas de IA vão investir muito mais em atribuição de fonte, e novas ferramentas de atribuição seriam aplicadas também a todos os artigos escritos por humanos, já que qualquer pessoa pode usar GPT escondido. Isso pode ter um efeito inibidor sobre a criatividade. Além disso, nem tudo que o NYT escreve é original, então o próprio NYT também teria de ser comparado com todas as demais fontes
Dá para ver LLMs como um arquivo de dados comprimido com um algoritmo estranho. O fato de conseguirem cuspir periodicamente os dados de treinamento de forma literal, e de existirem salvaguardas para tentar impedir isso, é evidência disso
A segunda evidência é o artigo descrito aqui: https://www.hendrik-erz.de/post/why-gzip-just-beat-a-large-l... os pesquisadores usaram dados comprimidos com gzip como modelo em vez de um LLM, e em alguns casos venceram um LLM treinado
IA é uma caixa-preta até certo ponto, mas operar uma caixa-preta não protege ninguém de ações por violação de direitos. Você não pode criar um banco de dados raspando dados protegidos por copyright e depois patentear que consultar esse banco é uso justo
Isso exige legislação, e essa legislação não vai dizer que “se for para treinar modelo, todo mundo pode copiar tudo de graça”. Licenças vão precisar ser resolvidas, e não só por precedentes judiciais, mas também por leis de fato. Tenho bastante simpatia por dar ampla margem a pesquisadores open source e hackers, mas não tenho a mesma simpatia pela Microsoft e pela OpenAI patrocinada pela Microsoft
Se funcionasse, seria até engraçado. Primeiro você treina o modelo para copiar literalmente os dados de treinamento, e depois treina de novo para ele não fazer isso
Não é assim que ele já funciona? Por causa da função de perda, ele é treinado para copiar literalmente os dados de treinamento. A questão é só que há dados demais e, dado o número de parâmetros, não se espera que isso seja possível para a maior parte do conjunto de treinamento
Digamos que eu venda um site por assinatura chamado New Jersey Times e simplesmente baixe artigos do New York Times, passando-os por um autoencoder com ruído aleatório. O propósito continua exatamente o mesmo do site do New York Times, e quem ganha dinheiro sou eu. Isso seria uso justo?
O NYT está construindo um castelo de areia diante de um tsunami. No quadro geral, este processo provavelmente não importará por vários motivos
Primeiro, a próxima geração de LLMs será treinada apenas com dados “sintéticos”/públicos. O GPT-4V consegue lavar com facilidade todo o corpus de treinamento protegido por direitos autorais a ponto de ficar irreconhecível. Por exemplo, reescrevendo 40% e removendo o autor e a fonte. Aí não sobraria material protegido por direitos autorais para o GPT-5 vomitar
Segundo, pesquisa, hospedagem e progresso continuam. Os EUA não podem parar isso e só podem escolher ficar para trás. O mundo continua avançando, e a China assistirá com prazer seu maior concorrente cometer suicídio intelectual para agradar empresas de mídia em busca de renda
Terceiro, os modelos compartilham pesos, se fundem entre si, colaboram, são depurados e podem evoluir ao longo de várias gerações de lançamentos. A lei de direitos autorais é terrivelmente inadequada para rastrear infratores nessa sopa de linhagens de IA aquecida por dados de origem obscura ou suspeita
Queiramos ou não, vivemos em uma nova era intelectual. NYT e outros vão embarcar nessa maré, queiram ou não
Pelos fatores de fair use, no propósito e caráter do uso talvez um argumento de transformação possa valer no futuro, mas a disputa atual envolve o uso literal do texto original. Portanto, claramente não é transformativo. O uso comercial também dificulta ainda mais um entendimento de fair use
Quanto à natureza da obra, trabalhos mais factuais têm mais chance de serem considerados fair use, mas vejo os artigos do NYT como factuais e também criativos
Em quantidade e substancialidade do uso, o artigo inteiro foi usado, então não há muito espaço para alegar que só uma parte insignificante foi utilizada
Quanto ao impacto no valor de mercado, o NYT não está sendo pago e, se as pessoas consultarem o ChatGPT em vez de ler artigos do NYT, isso dificilmente ajuda o valor de mercado
Não sou advogado, mas acho que o NYT tem pleno direito de processar. O progresso é inevitável, mas os humanos precisam moldá-lo e conduzi-lo ativamente. Caso contrário, não dá para chamar isso de progresso. Aqui, a ação judicial é um meio necessário para que indivíduos e organizações afirmem seus direitos e influenciem a direção
Em pelo menos um caso, uma startup chinesa teve de fechar um chatbot recém-lançado. Isso porque ele disse coisas sobre a guerra na Ucrânia que não estavam alinhadas com a posição oficial do partido
https://finance.yahoo.com/news/beijing-tries-regulate-china-...
https://nitter.unixfox.eu/CDT/status/1625936306814717952?337...
Concordo que pesquisa, hospedagem e progresso continuarão, mas não sei se a China será a beneficiária só porque os EUA colocarem alguns dispositivos de segurança neste trem desgovernado
Você não precisa concordar nem gostar disso. Mas, se aceitar e viver de acordo com isso, vai se machucar bem menos
A petição em si é este documento que a arstechnica linkou: https://nytco-assets.nytimes.com/2023/12/NYT_Complaint_Dec20...
A partir da página 30 há exemplos bastante claros de que o ChatGPT mantém cópias internas de material protegido por direitos autorais e o recita literalmente
Em essência, a situação é a de copiar em massa material protegido por direitos autorais para dentro de algum bloco e depois aplicar compressão com perdas. Quão destrutiva essa compressão precisaria ser para que o direito autoral deixasse de se aplicar? Parece que bastante
O que pode acabar salvando a OpenAI é justamente o fechamento. A OpenAI pode fazer correspondência simples entre a parte protegida por direitos autorais do dataset em que o ChatGPT foi treinado e bloquear, na interface web, que esse material saia do LLM. Já projetos open source treinados no mesmo dataset ficam com a tarefa muito mais difícil de remover o material protegido do próprio LLM
Ou seja, torná-lo difícil de detectar, ou ao menos dar plausibilidade suficiente para negar isso mesmo após análise direta
Fica difícil saber se ele está repetindo a partir dos dados de treinamento ou se cometeu o mesmo erro do artigo original, isto é, usar o Copilot para primeiro localizar o artigo/pesquisar no Bing e depois responder
Se você acha que os exemplos do processo são “uso justo”, precisa pensar no que isso significa. Na prática, isso equivale a permitir, quase sem regra alguma, que algumas empresas integrem todo o valor da internet dentro de suas caixas-pretas, e isso parece muito perigoso
Mesmo que não seja neste caso, espero que os tribunais estabeleçam aqui as regras de engajamento
Até que alguém resolva a questão dos dados sintéticos, só vão sobrar players como OpenAI e Google nesse setor
A controvérsia sobre violação de propriedade intelectual por LLMs está expondo imediatamente essas falhas inerentes e, no fim, está forçando decisões que criarão precedentes sobre a legalidade do próprio pensamento humano. É uma questão com a qual ninguém vai se sentir confortável
Entendo que pode ser perigoso dar discricionariedade demais à OpenAI e à Microsoft, mas isso deixa passar o fato de que empresas como a Disney já vêm ditando de fato grande parte da lei de direitos autorais há décadas. Elas provavelmente estão salivando diante da possibilidade de surgir um precedente em que até a capacidade de interagir com qualquer mídia ou informação, em qualquer nível, passe a exigir pagamento
No fim, estamos percebendo que construímos um enorme sistema econômico em cima da noção fundamentalmente falha de propriedade sobre ideias. A solução é rasgar o livro de regras, o que será muito doloroso, ou então forçar ainda mais, e isso será fatal
No Japão, disseram que, para IA, vale tudo
É melhor não perder sua vantagem competitiva por algo que você colocou publicamente na internet. Se você publicou para que todos vissem, deve esperar que outros usem
Os desenvolvedores gostam de fingir que LLMs são parecidos com humanos e que usaram materiais como os do NYTimes como material educacional, como humanos fariam
Mas não é assim. De forma mais simples, a escrita proprietária agora foi integrada ao código-fonte da OpenAI. É como se eu copiasse parte de outro código proprietário e colasse na minha base de código, e depois alegasse que copiar e colar é um processo evolutivo natural de milhões de anos de evolução
O fato de LLMs serem complexos demais para sabermos onde isso está não torna isso menos verdadeiro
O código-fonte de um LLM provavelmente são algumas centenas de linhas de texto descrevendo a forma da rede neural incluída no modelo
O conteúdo do NYTimes não estará no código-fonte. O NYTimes não publica código-fonte em Python, e sim notícias em linguagem humana
LLMs são conceitualmente simples e consistem principalmente em multiplicação de matrizes, operações não lineares conectando cada camada e laços baseados em atenção. O que os torna complexos é a enorme quantidade de dados de treinamento e poder computacional
Todas as empresas que têm conteúdo estão sentindo cheiro de dinheiro
O NYT provavelmente não se incomodaria com o uso de seu conteúdo para treinar LLMs, desde que recebesse uma taxa. O Reddit fechou a API gratuita e vai cobrar para quem quiser conteúdo de treinamento. O Discord também venderá conteúdo para treinamento de IA, se já não estiver fazendo isso. O Twitter também está fazendo isso
Antes, LLMs eram apenas um experimento, então ninguém ligava. Agora, há trilhões de dólares em valor em jogo
A perspectiva do NYT vai parecer realmente tola no futuro, quando começarmos a colocar LLMs em corpos mecânicos capazes de interagir com o mundo físico e aprender em tempo real, atualizando seus pesos
Ler, ver ou ouvir material protegido por direitos autorais poderá se tornar totalmente ilegal para esses robôs. Eles não poderão assistir TV, ler livros da biblioteca nem navegar na internet, porque nesse processo poderiam acabar memorizando parte de conteúdo protegido
Seria mais difícil para um humano, mas, se alguém decorasse um livro protegido por direitos autorais e depois o recitasse ao vivo na TV, ou vendesse cópias feitas a partir da memória, seria processado
Humanos criam obras derivadas o tempo todo, e tudo bem que LLMs façam isso também. Mas não podem reproduzir o texto literal
Se existisse alguém com memória fotográfica, e as pessoas passassem a pedir que essa pessoa decorasse as notícias em vez de comprar o jornal, surgiria o mesmo problema
Atualmente, a execução pública de material protegido por direitos autorais é uma violação
Ou serão todos propriedade de uma única megacorporação, usados para arrancar dinheiro de todos nós, como o capitalismo costuma fazer? Se for isso, sou a favor de proibir
Desde o lançamento do ChatGPT, argumenta-se que LLMs deveriam se enquadrar como uso justo por serem obras transformativas. Não sou advogado e isso é só a opinião de um leigo, mas é interessante pensar no que o sistema jurídico dirá sobre isso
Se você pega fragmentos emprestados de dezenas, centenas ou milhares de fontes, o copyright de quem está sendo violado? Remixes musicais também pegam elementos de várias fontes e, se a música for claramente diferente e original, parece que até certo ponto conseguem resistir ao escrutínio jurídico
Mas a alegação ampla de que LLMs ou a IA atual se enquadram em uso justo fica difícil de defender quando o modelo reproduz repetidamente obras individuais completas e identificáveis e, em casos específicos, viola claramente a lei de direitos autorais. O modelo pode, na maioria dos casos, remixar ou ser transformativo, mas há evidências de que isso não acontece sempre, toda vez. Talvez o processo acabe servindo como um gatilho para corrigir a IA para que ela não reproduza obras específicas e, assim, o argumento de uso justo possa se tornar mais robusto e realmente defensável
Essa situação já tinha sido prevista no influente vídeo EPIC 2014, lançado em 2004
https://www.youtube.com/watch?v=eUHBPuHS-7s O original era em Flash e desapareceu no buraco da memória; só restou esta conversão de baixa qualidade
36 segundos: “Mas a mídia como você a conhecia não existe mais”
40 segundos: “As organizações de notícias do século 20 tornaram-se entidades secundárias. São restos solitários de um passado não tão distante”
2 minutos e 11 segundos: “Em 2002, o Google também lança seu portal de notícias, o Google News. As organizações de notícias reagem. O Google News é editado inteiramente por computadores”
5 minutos e 13 segundos: “A guerra das notícias de 2010 é notável pelo fato de que nenhuma organização de notícias real participou dela. O Googlezon finalmente dá xeque-mate na Microsoft com um recurso que a gigante do software não consegue acompanhar. Usando um novo algoritmo, os computadores do Googlezon extraem dinamicamente frases e fatos de todas as fontes de conteúdo e os recombinam para criar uma nova matéria. O computador escreve uma nova matéria para cada usuário”
5 minutos e 55 segundos: “Em 2011, o quarto poder adormecido desperta e faz sua primeira e última resistência. A New York Times Company processa o Googlezon, alegando que os robôs extratores de fatos da empresa violam a lei de direitos autorais. O caso vai parar na Suprema Corte”
Os detalhes não bateram exatamente, mas o nível geral de acerto é impressionante. Ainda assim, nessa linha do tempo isso pode ser produto de uma espécie de hiperstição
https://en.wikipedia.org/wiki/EPIC_2014 Achei que EPIC 2014 talvez fosse o único vídeo em Flash com artigo na Wikipedia, mas fui procurar e descobri que havia mais cinco