Processo de direitos autorais do NY Times exige que a OpenAI exclua todas as instâncias do GPT

(arstechnica.com)

1 pontos por GN⁺ 2023-12-29 | 1 comentários | Compartilhar no WhatsApp

O The New York Times abriu um processo por violação de direitos autorais contra afiliadas da OpenAI e a Microsoft, alegando que elas usaram seu conteúdo sem autorização em treinamento e geração de respostas, chegando a exigir a exclusão de instâncias do GPT e de datasets de treinamento
A questão central não é apenas o treinamento do modelo em si, mas se ferramentas baseadas em GPT conseguem reproduzir quase literalmente o conteúdo de artigos pagos do Times e contornar o paywall
O Times afirma que o Common Crawl incluiu 16 milhões de registros únicos de seu site e que, nos dados públicos de treinamento anteriores ao GPT-3.5, era a terceira fonte mais referenciada
Em testes da Ars Technica, esse tipo de обход no ChatGPT pareceu estar bloqueado, mas o Copilot reproduziu uma parte substancial do início de um artigo específico do Times quando recebeu um pedido pelo primeiro parágrafo
O processo inclui alegações de violação de direitos autorais, DMCA, marca registrada e concorrência desleal, e pede uma injunção permanente, indenizações, restituição e devolução de enriquecimento sem causa

Alvos do processo e principais exigências

O The New York Times entrou com um processo por violação de direitos autorais contra várias empresas ligadas à OpenAI e contra a Microsoft
A Microsoft foi incluída como ré por ser parceira da OpenAI, operar o serviço Copilot com tecnologia da OpenAI e estar envolvida no fornecimento de infraestrutura para treinar os grandes modelos de linguagem GPT
As exigências incluem a exclusão de todas as instâncias do GPT treinadas com materiais do Times e a destruição dos datasets usados no treinamento
Também é pedida uma injunção permanente para impedir condutas semelhantes no futuro
As reparações financeiras incluem indenização legal, indenização compensatória, restituição, devolução de enriquecimento sem causa e outras medidas cabíveis em lei ou em equidade

Como o Times enxerga a estrutura do dano

O Times afirma manter muitos jornalistas e equipes de reportagem, produzir cobertura e jornalismo investigativo em diversas áreas e, como resultado, ser considerado uma fonte de autoridade em vários assuntos
Para recuperar os custos desse trabalho jornalístico, o Times limita o acesso aos artigos por meio de um forte paywall
A empresa controla o uso de suas obras por meio de avisos de direitos autorais na edição impressa, restrições de reprodução e uso nos termos de serviço e uma política seletiva de licenciamento
A lógica central do dano alegado no processo é que, se ferramentas da OpenAI fornecem conteúdo do Times sem autorização, elas prejudicam a relação com os leitores e capturam receitas de assinatura, licenciamento, publicidade e parcerias

Questões sobre o uso de dados de treinamento

O Times afirma que seu conteúdo foi usado sem autorização no processo de treinamento de várias versões do GPT
Antes do GPT-3.5, informações sobre os datasets de treinamento eram públicas, e o Times entende que um deles, o Common Crawl, continha 16 milhões de registros únicos publicados em seu site
Por esse critério, o Times era a terceira fonte mais referenciada, atrás da Wikipedia e do banco de dados de patentes dos Estados Unidos
A OpenAI já não divulga muitos detalhes sobre os dados de treinamento das versões mais recentes do GPT, mas o processo apresenta indícios de que o texto integral de artigos do Times ainda foi incluído no treinamento
À medida que o caso avançar, informações sobre o acesso aos dados de treinamento podem se tornar uma questão central na fase de produção de provas

O problema de reprodução revelado na etapa de saída

O processo não se limita ao uso de material protegido por direitos autorais no treinamento; ele enfatiza que o material aprendido pode voltar a ser emitido durante o uso
O Times afirma que ferramentas de IA generativa baseadas na OpenAI podem recitar palavra por palavra conteúdo do Times, resumi-lo de forma muito próxima ou imitar seu estilo de expressão
Os documentos do processo incluem casos em que o GPT-4 reproduziu quase literalmente grandes trechos de artigos do Times
Um exemplo de prompt consistia em fornecer ao ChatGPT o título de um artigo do Times e pedir o primeiro parágrafo, depois continuar pedindo os parágrafos seguintes
Quando a Ars Technica testou alguns dos mesmos prompts, o ChatGPT recomendou consultar o site do Times ou outras fontes confiáveis, mas avaliou que, com contexto anterior, não seria possível descartar a possibilidade de material protegido por direitos autorais ser exibido
O Copilot é o serviço que antes se chamava Bing Chat, e a Ars Technica verificou que, ao pedir o primeiro parágrafo de um artigo específico do Times, ele reproduziu cerca de um terço da parte inicial do texto

Contestação ao uso justo e danos à reputação

A OpenAI e a Microsoft têm afirmado publicamente que o uso não autorizado de conteúdo protegido por direitos autorais para treinar modelos de IA generativa constitui uso justo, pois oferece uma nova finalidade transformativa
O Times rebate que não há transformação em usar conteúdo do Times sem pagar para criar produtos que substituem o Times e tiram seus leitores
As alucinações da IA também são apresentadas como um fator que pode prejudicar o valor reputacional do Times
Como exemplo, o processo afirma que um modelo GPT inventou que, em 10 de janeiro de 2020, o Times havia publicado um artigo sobre a relação entre suco de laranja e linfoma não Hodgkin, mas o Times diz que nunca publicou tal artigo
Sobre um artigo do Times relacionado a alimentos bons para a saúde do coração, o processo afirma que o Copilot apresentou uma lista de exemplos inexistente no texto original, e que 80% da lista solicitada era composta por alimentos não mencionados no artigo
No caso de recomendações do Wirecutter, o processo afirma que produtos que não foram avaliados pela equipe foram atribuídos como recomendações do Wirecutter

Wirecutter e a questão da receita de afiliados

O Wirecutter é um veículo de propriedade do The New York Times
O processo afirma que o Copilot também consegue exibir grandes trechos de artigos do Wirecutter
Nesses trechos, os links de afiliados são removidos, levantando a questão de que uma das principais fontes de receita do Wirecutter seria bloqueada

Alegações jurídicas

O processo responsabiliza as empresas ligadas à OpenAI pelo desenvolvimento do software e a Microsoft tanto pela oferta de serviços baseados na OpenAI quanto pela criação da infraestrutura de treinamento
As alegações incluem violação direta de direitos autorais, violação contributiva e violação vicária
Além disso, são alegadas violações da DMCA, violação de marca registrada e apropriação indevida por concorrência desleal

1 comentários

GN⁺ 2023-12-29

Comentários do Hacker News

Tirando o elemento de LLM, fico em dúvida se seria uso justo criar um produto com artigos do NYT obtidos legalmente por scraping
Por exemplo, imagine hospedar os artigos, fornecer indexação e vender por assinatura uma função de reescrita, como resumos de matérias sobre as relações entre EUA e Reino Unido nos últimos 5 anos. Mesmo pagando só a assinatura mensal do NYT, sem reproduzir longos trechos literais e usando apenas citações curtas, isso não soa como uso justo
Normalmente, você não pode pegar um produto com plano para uso pessoal e vender derivados dele a terceiros. Com o VS Code, por exemplo, também é assim
Isso é bem diferente de um mecanismo de busca. Um buscador não substitui a fonte; pelo contrário, manda o usuário para o original e cria a chance de a matéria ser monetizada. Já esse tipo de produto ou um LLM usa o conteúdo do NYT como substituto, de forma que a pessoa não precisa de fato assinar o NYT
- O que você descreveu, na prática, se encaixa totalmente em uso justo
  Além disso, se você olhar matérias de veículos de segunda linha para baixo, vai ver que quase todas trazem conteúdo obtido diretamente de lugares como o NYT. Em geral escrevem algo como “segundo o The Times, fulano fez tal coisa” e normalmente incluem um link para a matéria original
- Outro fator a considerar é que redes neurais podem funcionar como uma compressão com perdas, e isso fica muito claro em modelos com overfitting
  Às vezes o overfitting é tão forte que nem dá para chamar de compressão com perdas; os dados acabam codificados quase literalmente dentro da rede neural
- “Não cospe blocos literais de artigos do NYT, só usa trechos bem curtos” é basicamente uma descrição do Google
  Se parar para pensar, é surpreendente que o Google seja legal, mas o que o Google faz está totalmente estabelecido como legal. Internamente, o Google mantém e usa cópias integrais do texto completo de todas as páginas da web que indexa
  Claro, o Google fornece links para a fonte. Se a OpenAI fizesse o mesmo, e a taxa de cliques fosse de só 0,1% e quase não ajudasse a receita do NYTimes, ainda assim isso seria legal? E se ela detectasse o momento em que o modelo tentaria reproduzir o texto literal e simplesmente o forçasse a parafrasear? O NYTimes não tem copyright sobre paráfrases de seus artigos. Na prática não haveria quase diferença nenhuma, então seria meio ridículo se o governo obrigasse esse tipo de contorno
- Não é totalmente comum escrever matérias ou posts de blog que basicamente resumem notícias e às vezes citam o texto original?
- A pergunta “é uso justo criar um produto com artigos do NYT obtidos legalmente por scraping?” não é uma boa pergunta
  Olhar pela janela e ver o vizinho indo até a loja é aceitável. Mas rastrear com câmeras todas as pessoas na rua e colocá-las num banco de dados é problemático e ilegal em muitos lugares
  Quando há escala, a lógica nem sempre continua valendo do mesmo jeito
A ação judicial traz exemplos de ChatGPT/Bing Copilot copiando literalmente o NYT. Parece difícil sustentar que esse tipo de cópia seja uso justo
Ainda assim, OAI/MS provavelmente conseguiria corrigir isso dentro do paradigma atual. Bastaria usar RLHF para ensinar o modelo a reconhecer plágio e penalizá-lo
Mas o processo vai muito além de dizer apenas que esse tipo de cópia é infração de copyright. Ele afirma que “o uso substitutivo, não justificado por propósito transformativo, da reprodução não autorizada de obras do Times para treinar LLMs” é o problema
Essa é uma tese forte: que o próprio ato de baixar as matérias como dados de treinamento já constitui violação de copyright. O fato de o GPT conseguir emitir o texto literal pode ser uma distração. Espero que os juízes percebam isso e foquem na questão jurídica mais ampla, interessante e pouco clara sobre o que pode e o que não pode ser considerado uso transformativo em um modelo
- “Usar RLHF para reconhecer plágio e penalizar” não é um problema de RLHF
  A abordagem esperada seria manter um Bloom filter de n-gramas de conteúdo protegido conhecido. Por exemplo, enumerar todos os conjuntos de 7 palavras consecutivas de um artigo e verificar isso, de modo que o modelo só pudesse gerar no máximo n-1 palavras iguais às da fonte em sequência
  Mas isso vai gerar reação negativa. As empresas de IA vão investir muito mais em atribuição de fonte, e novas ferramentas de atribuição seriam aplicadas também a todos os artigos escritos por humanos, já que qualquer pessoa pode usar GPT escondido. Isso pode ter um efeito inibidor sobre a criatividade. Além disso, nem tudo que o NYT escreve é original, então o próprio NYT também teria de ser comparado com todas as demais fontes
- Acho que o NYT vai ganhar
  Dá para ver LLMs como um arquivo de dados comprimido com um algoritmo estranho. O fato de conseguirem cuspir periodicamente os dados de treinamento de forma literal, e de existirem salvaguardas para tentar impedir isso, é evidência disso
  A segunda evidência é o artigo descrito aqui: https://www.hendrik-erz.de/post/why-gzip-just-beat-a-large-l... os pesquisadores usaram dados comprimidos com gzip como modelo em vez de um LLM, e em alguns casos venceram um LLM treinado
  IA é uma caixa-preta até certo ponto, mas operar uma caixa-preta não protege ninguém de ações por violação de direitos. Você não pode criar um banco de dados raspando dados protegidos por copyright e depois patentear que consultar esse banco é uso justo
  Isso exige legislação, e essa legislação não vai dizer que “se for para treinar modelo, todo mundo pode copiar tudo de graça”. Licenças vão precisar ser resolvidas, e não só por precedentes judiciais, mas também por leis de fato. Tenho bastante simpatia por dar ampla margem a pesquisadores open source e hackers, mas não tenho a mesma simpatia pela Microsoft e pela OpenAI patrocinada pela Microsoft
- Muitos casos de uso justo incluem cópia literal. A questão importante não é a cópia em si, mas o contexto em que ela ocorre. O NYT entrou em território ainda não desbravado
- Não sei como a sugestão de “usar RLHF para reconhecer plágio e penalizar” funcionaria na prática. Para reconhecer plágio durante a inferência, o modelo provavelmente teria de memorizar ainda mais fortemente
  Se funcionasse, seria até engraçado. Primeiro você treina o modelo para copiar literalmente os dados de treinamento, e depois treina de novo para ele não fazer isso
  Não é assim que ele já funciona? Por causa da função de perda, ele é treinado para copiar literalmente os dados de treinamento. A questão é só que há dados demais e, dado o número de parâmetros, não se espera que isso seja possível para a maior parte do conjunto de treinamento
- Copiar uma obra e usá-la com o mesmo propósito expressivo original não deixa de ser uso justo, não? Ela teria de ser usada com um propósito transformativo
  Digamos que eu venda um site por assinatura chamado New Jersey Times e simplesmente baixe artigos do New York Times, passando-os por um autoencoder com ruído aleatório. O propósito continua exatamente o mesmo do site do New York Times, e quem ganha dinheiro sou eu. Isso seria uso justo?
O NYT está construindo um castelo de areia diante de um tsunami. No quadro geral, este processo provavelmente não importará por vários motivos
Primeiro, a próxima geração de LLMs será treinada apenas com dados “sintéticos”/públicos. O GPT-4V consegue lavar com facilidade todo o corpus de treinamento protegido por direitos autorais a ponto de ficar irreconhecível. Por exemplo, reescrevendo 40% e removendo o autor e a fonte. Aí não sobraria material protegido por direitos autorais para o GPT-5 vomitar
Segundo, pesquisa, hospedagem e progresso continuam. Os EUA não podem parar isso e só podem escolher ficar para trás. O mundo continua avançando, e a China assistirá com prazer seu maior concorrente cometer suicídio intelectual para agradar empresas de mídia em busca de renda
Terceiro, os modelos compartilham pesos, se fundem entre si, colaboram, são depurados e podem evoluir ao longo de várias gerações de lançamentos. A lei de direitos autorais é terrivelmente inadequada para rastrear infratores nessa sopa de linhagens de IA aquecida por dados de origem obscura ou suspeita
Queiramos ou não, vivemos em uma nova era intelectual. NYT e outros vão embarcar nessa maré, queiram ou não
- Essa é uma interpretação realmente ruim. É um apelo às consequências. Acho totalmente legítimo que o New York Times tome medidas legais. Eles investiram tempo e esforço para criar conteúdo, e isso foi usado para ganho financeiro sem permissão. É uma infração clara
  Pelos fatores de fair use, no propósito e caráter do uso talvez um argumento de transformação possa valer no futuro, mas a disputa atual envolve o uso literal do texto original. Portanto, claramente não é transformativo. O uso comercial também dificulta ainda mais um entendimento de fair use
  Quanto à natureza da obra, trabalhos mais factuais têm mais chance de serem considerados fair use, mas vejo os artigos do NYT como factuais e também criativos
  Em quantidade e substancialidade do uso, o artigo inteiro foi usado, então não há muito espaço para alegar que só uma parte insignificante foi utilizada
  Quanto ao impacto no valor de mercado, o NYT não está sendo pago e, se as pessoas consultarem o ChatGPT em vez de ler artigos do NYT, isso dificilmente ajuda o valor de mercado
  Não sou advogado, mas acho que o NYT tem pleno direito de processar. O progresso é inevitável, mas os humanos precisam moldá-lo e conduzi-lo ativamente. Caso contrário, não dá para chamar isso de progresso. Aqui, a ação judicial é um meio necessário para que indivíduos e organizações afirmem seus direitos e influenciem a direção
- “Empresa de mídia em busca de renda”? Uma empresa de mídia que realmente produz conteúdo está buscando renda? Em comparação com o lixo alucinatório produzido por IA?
- Quando se fala que “a China assiste com prazer os EUA cometerem suicídio intelectual”, estamos falando da mesma China que já introduziu uma ampla regulamentação sobre IA?
  Em pelo menos um caso, uma startup chinesa teve de fechar um chatbot recém-lançado. Isso porque ele disse coisas sobre a guerra na Ucrânia que não estavam alinhadas com a posição oficial do partido
  https://finance.yahoo.com/news/beijing-tries-regulate-china-...
  https://nitter.unixfox.eu/CDT/status/1625936306814717952?337...
  Concordo que pesquisa, hospedagem e progresso continuarão, mas não sei se a China será a beneficiária só porque os EUA colocarem alguns dispositivos de segurança neste trem desgovernado
- A mídia é mesmo busca de renda? Eles criam conteúdo e análise novos e querem ser pagos por isso. Parece bem diferente de açambarcar recursos naturais ou terra
- A primeira lei da internet é: “se você colocou na internet, não é mais seu”
  Você não precisa concordar nem gostar disso. Mas, se aceitar e viver de acordo com isso, vai se machucar bem menos
A petição em si é este documento que a arstechnica linkou: https://nytco-assets.nytimes.com/2023/12/NYT_Complaint_Dec20...
A partir da página 30 há exemplos bastante claros de que o ChatGPT mantém cópias internas de material protegido por direitos autorais e o recita literalmente
Em essência, a situação é a de copiar em massa material protegido por direitos autorais para dentro de algum bloco e depois aplicar compressão com perdas. Quão destrutiva essa compressão precisaria ser para que o direito autoral deixasse de se aplicar? Parece que bastante
O que pode acabar salvando a OpenAI é justamente o fechamento. A OpenAI pode fazer correspondência simples entre a parte protegida por direitos autorais do dataset em que o ChatGPT foi treinado e bloquear, na interface web, que esse material saia do LLM. Já projetos open source treinados no mesmo dataset ficam com a tarefa muito mais difícil de remover o material protegido do próprio LLM
- O objetivo da parte sobre “copiar muito material protegido para dentro de um bloco e aplicar compressão com perdas” provavelmente é algo mais próximo de “ninguém perceber que foi roubado”
  Ou seja, torná-lo difícil de detectar, ou ao menos dar plausibilidade suficiente para negar isso mesmo após análise direta
- Gostaria de saber como esse resultado foi obtido. Isso porque não mostram a UI comum, isto é, a tela do ChatGPT ou do Copilot
  Fica difícil saber se ele está repetindo a partir dos dados de treinamento ou se cometeu o mesmo erro do artigo original, isto é, usar o Copilot para primeiro localizar o artigo/pesquisar no Bing e depois responder
- A resposta ao “fechamento” é uma auditoria controlada externamente
Se você acha que os exemplos do processo são “uso justo”, precisa pensar no que isso significa. Na prática, isso equivale a permitir, quase sem regra alguma, que algumas empresas integrem todo o valor da internet dentro de suas caixas-pretas, e isso parece muito perigoso
Mesmo que não seja neste caso, espero que os tribunais estabeleçam aqui as regras de engajamento
- Vejo exatamente o contrário. Se o custo de dados de alta qualidade chegar a dezenas de bilhões de dólares, qualquer modelo open source terá dificuldade para bancar o custo de treinamento
  Até que alguém resolva a questão dos dados sintéticos, só vão sobrar players como OpenAI e Google nesse setor
- Scraping é legal, e isso parece uma obra transformativa
- O outro lado também é preocupante. A lei de propriedade intelectual sempre foi complexa, bagunçada, contraditória e moralmente ambígua
  A controvérsia sobre violação de propriedade intelectual por LLMs está expondo imediatamente essas falhas inerentes e, no fim, está forçando decisões que criarão precedentes sobre a legalidade do próprio pensamento humano. É uma questão com a qual ninguém vai se sentir confortável
  Entendo que pode ser perigoso dar discricionariedade demais à OpenAI e à Microsoft, mas isso deixa passar o fato de que empresas como a Disney já vêm ditando de fato grande parte da lei de direitos autorais há décadas. Elas provavelmente estão salivando diante da possibilidade de surgir um precedente em que até a capacidade de interagir com qualquer mídia ou informação, em qualquer nível, passe a exigir pagamento
  No fim, estamos percebendo que construímos um enorme sistema econômico em cima da noção fundamentalmente falha de propriedade sobre ideias. A solução é rasgar o livro de regras, o que será muito doloroso, ou então forçar ainda mais, e isso será fatal
- Os tribunais já decidiram isso
  No Japão, disseram que, para IA, vale tudo
  É melhor não perder sua vantagem competitiva por algo que você colocou publicamente na internet. Se você publicou para que todos vissem, deve esperar que outros usem
Os desenvolvedores gostam de fingir que LLMs são parecidos com humanos e que usaram materiais como os do NYTimes como material educacional, como humanos fariam
Mas não é assim. De forma mais simples, a escrita proprietária agora foi integrada ao código-fonte da OpenAI. É como se eu copiasse parte de outro código proprietário e colasse na minha base de código, e depois alegasse que copiar e colar é um processo evolutivo natural de milhões de anos de evolução
O fato de LLMs serem complexos demais para sabermos onde isso está não torna isso menos verdadeiro
- Isso não é copiar e colar, e sim algo comprimido com perdas. Nem mesmo o GPT-4 tem memória remotamente suficiente para armazenar todo o conjunto de dados de treinamento em formato de compressão sem perdas. É parecido com a forma como humanos comprimem a informação que leem
- Os desenvolvedores que acham que LLMs são parecidos com humanos não costumam estar entre os mais inteligentes e geralmente viram alvo de zombaria
- Não está correto dizer que “a escrita proprietária foi integrada ao código-fonte da OpenAI”
  O código-fonte de um LLM provavelmente são algumas centenas de linhas de texto descrevendo a forma da rede neural incluída no modelo
  O conteúdo do NYTimes não estará no código-fonte. O NYTimes não publica código-fonte em Python, e sim notícias em linguagem humana
  LLMs são conceitualmente simples e consistem principalmente em multiplicação de matrizes, operações não lineares conectando cada camada e laços baseados em atenção. O que os torna complexos é a enorme quantidade de dados de treinamento e poder computacional
Todas as empresas que têm conteúdo estão sentindo cheiro de dinheiro
O NYT provavelmente não se incomodaria com o uso de seu conteúdo para treinar LLMs, desde que recebesse uma taxa. O Reddit fechou a API gratuita e vai cobrar para quem quiser conteúdo de treinamento. O Discord também venderá conteúdo para treinamento de IA, se já não estiver fazendo isso. O Twitter também está fazendo isso
Antes, LLMs eram apenas um experimento, então ninguém ligava. Agora, há trilhões de dólares em valor em jogo
- O NYT não “tem” conteúdo; ele cria conteúdo. Essa é sua razão de existir
- “Eles” também inclui as pessoas que trabalham lá. Se alguém escreve artigos em tempo integral, por que deveria entregar esse trabalho de graça para treinar alguém e deixar que essa pessoa lucre com o resultado?
- Se a ideia é que ninguém ligava quando LLMs eram um experimento, mas agora se mexem porque enxergaram um valor de trilhões de dólares, então dá para argumentar que a culpa é do NYT por não ter previsto o futuro, ter dormido no ponto e permitido à OpenAI e outras empresas acesso gratuito, público e ilimitado ao seu conteúdo, “olhando em retrospecto, por engano”?
A perspectiva do NYT vai parecer realmente tola no futuro, quando começarmos a colocar LLMs em corpos mecânicos capazes de interagir com o mundo físico e aprender em tempo real, atualizando seus pesos
Ler, ver ou ouvir material protegido por direitos autorais poderá se tornar totalmente ilegal para esses robôs. Eles não poderão assistir TV, ler livros da biblioteca nem navegar na internet, porque nesse processo poderiam acabar memorizando parte de conteúdo protegido
- Não concordo. O problema é a parte de texto literal. Você está comparando com a forma como humanos funcionam, mas os humanos também não têm permissão para fazer isso
  Seria mais difícil para um humano, mas, se alguém decorasse um livro protegido por direitos autorais e depois o recitasse ao vivo na TV, ou vendesse cópias feitas a partir da memória, seria processado
  Humanos criam obras derivadas o tempo todo, e tudo bem que LLMs façam isso também. Mas não podem reproduzir o texto literal
- A memorização não é o problema. O problema é devolver o texto literal ou cortar o acesso à fonte
  Se existisse alguém com memória fotográfica, e as pessoas passassem a pedir que essa pessoa decorasse as notícias em vez de comprar o jornal, surgiria o mesmo problema
  Atualmente, a execução pública de material protegido por direitos autorais é uma violação
- Esses LLMs seriam cidadãos independentes com direitos? Se sim, tudo bem
  Ou serão todos propriedade de uma única megacorporação, usados para arrancar dinheiro de todos nós, como o capitalismo costuma fazer? Se for isso, sou a favor de proibir
- Se fosse permitido a um LLM com corpo ler o nytimes em um tablet, acho que o NYT também não se importaria
Desde o lançamento do ChatGPT, argumenta-se que LLMs deveriam se enquadrar como uso justo por serem obras transformativas. Não sou advogado e isso é só a opinião de um leigo, mas é interessante pensar no que o sistema jurídico dirá sobre isso
- O processo alega que o GPT reproduziu trechos do NYT quase palavra por palavra
- Considerando o tamanho dos dados de treinamento e imaginando qualquer saída como o resultado da interpolação de inúmeros exemplos de treinamento de pessoas diferentes, essa visão parece razoável
  Se você pega fragmentos emprestados de dezenas, centenas ou milhares de fontes, o copyright de quem está sendo violado? Remixes musicais também pegam elementos de várias fontes e, se a música for claramente diferente e original, parece que até certo ponto conseguem resistir ao escrutínio jurídico
  Mas a alegação ampla de que LLMs ou a IA atual se enquadram em uso justo fica difícil de defender quando o modelo reproduz repetidamente obras individuais completas e identificáveis e, em casos específicos, viola claramente a lei de direitos autorais. O modelo pode, na maioria dos casos, remixar ou ser transformativo, mas há evidências de que isso não acontece sempre, toda vez. Talvez o processo acabe servindo como um gatilho para corrigir a IA para que ela não reproduza obras específicas e, assim, o argumento de uso justo possa se tornar mais robusto e realmente defensável
- No fim, essa questão inevitavelmente vai ter que chegar à Suprema Corte. Quanto antes, melhor. É claramente uso justo. Agentes generativos acabarão sendo vistos legalmente como não diferentes de artistas humanos que usam a soma de todas as suas influências para criar novas obras
- O que acontece se você pedir ao ChatGPT para imprimir, palavra por palavra, um artigo vindo do próprio dataset?
- Inclusive conteúdo atrás de paywall?
Essa situação já tinha sido prevista no influente vídeo EPIC 2014, lançado em 2004
https://www.youtube.com/watch?v=eUHBPuHS-7s O original era em Flash e desapareceu no buraco da memória; só restou esta conversão de baixa qualidade
36 segundos: “Mas a mídia como você a conhecia não existe mais”
40 segundos: “As organizações de notícias do século 20 tornaram-se entidades secundárias. São restos solitários de um passado não tão distante”
2 minutos e 11 segundos: “Em 2002, o Google também lança seu portal de notícias, o Google News. As organizações de notícias reagem. O Google News é editado inteiramente por computadores”
5 minutos e 13 segundos: “A guerra das notícias de 2010 é notável pelo fato de que nenhuma organização de notícias real participou dela. O Googlezon finalmente dá xeque-mate na Microsoft com um recurso que a gigante do software não consegue acompanhar. Usando um novo algoritmo, os computadores do Googlezon extraem dinamicamente frases e fatos de todas as fontes de conteúdo e os recombinam para criar uma nova matéria. O computador escreve uma nova matéria para cada usuário”
5 minutos e 55 segundos: “Em 2011, o quarto poder adormecido desperta e faz sua primeira e última resistência. A New York Times Company processa o Googlezon, alegando que os robôs extratores de fatos da empresa violam a lei de direitos autorais. O caso vai parar na Suprema Corte”
Os detalhes não bateram exatamente, mas o nível geral de acerto é impressionante. Ainda assim, nessa linha do tempo isso pode ser produto de uma espécie de hiperstição
https://en.wikipedia.org/wiki/EPIC_2014 Achei que EPIC 2014 talvez fosse o único vídeo em Flash com artigo na Wikipedia, mas fui procurar e descobri que havia mais cinco

Processo de direitos autorais do NY Times exige que a OpenAI exclua todas as instâncias do GPT

Alvos do processo e principais exigências

Como o Times enxerga a estrutura do dano

Questões sobre o uso de dados de treinamento

O problema de reprodução revelado na etapa de saída

Contestação ao uso justo e danos à reputação

Wirecutter e a questão da receita de afiliados

Alegações jurídicas

Leituras relacionadas

1 comentários

Comentários do Hacker News