Anthropic corta e digitaliza milhões de livros usados para treinar Claude e baixa 7 milhões de cópias piratas

(businessinsider.com)

6 pontos por GN⁺ 2025-07-08 | 1 comentários | Compartilhar no WhatsApp

A Anthropic teria cortado e digitalizado milhões de livros usados para treinar o chatbot de IA Claude, segundo afirmou um juiz
A decisão também menciona que a empresa baixou separadamente mais de 7 milhões de livros pirateados
O juiz entendeu que digitalizar livros comprados e usá-los como dados de treinamento se enquadra em uso justo
Em contrapartida, enfatizou que o uso de dados obtidos de cópias piratas não constitui uso justo e configura violação de direitos autorais
A decisão está sendo vista como um precedente importante sobre a aplicação de direitos autorais no treinamento de modelos de IA

Visão geral

O juiz William Alsup, do Tribunal Distrital do Norte da Califórnia, nos EUA, analisou que a Anthropic usou diversos materiais como fonte de dados para treinar o chatbot de IA Claude, incluindo livros, postagens em redes sociais e vídeos
A Anthropic investiu milhões de dólares para comprar grandes quantidades de livros usados e, em seguida, removeu a encadernação e cortou as páginas para convertê-los em arquivos digitais
Os arquivos convertidos foram armazenados em uma biblioteca de pesquisa interna, e os livros originais foram descartados
Além disso, a Anthropic, apoiada por Amazon e Alphabet, também baixou separadamente mais de 7 milhões de livros pirateados e os utilizou no treinamento dos modelos Claude

Uso de livros e processo de utilização de cópias piratas

O cofundador da Anthropic, Ben Mann, admitiu ter baixado ilegalmente pelo menos 5 milhões de livros do Library Genesis em 2021
Em 2022, ele baixou mais pelo menos 2 milhões de livros do Pirate Library Mirror
O cofundador e CEO Dario Amodei teria dito que “preferia roubar (steal) livros para evitar inconvenientes legais, práticos e comerciais”
Em 2023, três autores entraram com uma ação coletiva contra a Anthropic, alegando uso não autorizado de cópias piratas de seus livros

Entendimento do juiz: distinção entre uso justo de livros e uso de edições piratas

Ponto 1: reconhecimento de uso justo
- O juiz considerou a digitalização em massa de livros pela Anthropic e seu uso como dados de treinamento de IA como “extremamente transformador (exceedingly transformative)”
- A decisão afirma que “os LLMs da Anthropic não aprendem para simplesmente replicar ou substituir obras existentes, mas para criar algo completamente diferente”
- Digitalizar livros comprados pela própria empresa e armazená-los em sua biblioteca se enquadra em uso justo
Ponto 2: uso de cópias piratas não é uso justo
- O juiz criticou de forma contundente o uso, pela Anthropic, de livros pirateados como dados
- “A Anthropic não tinha o direito de usar livros pirateados em sua biblioteca central, e a construção de uma biblioteca permanente e de uso geral, por si só, não justifica uso justo”, diz a decisão

Impacto e tendências do setor

Esta decisão é um dos primeiros casos sobre se o uso de livros protegidos por direitos autorais como dados de treinamento de modelos de IA pode ser considerado uso justo
Recentemente, OpenAI e várias empresas de IA generativa vêm enfrentando ações semelhantes movidas por criadores, artistas e veículos de imprensa
O setor de IA argumenta que o treinamento de modelos se enquadra em uso justo, enquanto os criadores sustentam que seus direitos estão sendo violados
Recentemente, a Disney processou a empresa de geração de imagens por IA Midjourney por suposta violação de direitos autorais de seus personagens

Conclusão

A parte da decisão relacionada à digitalização de livros e uso justo pela Anthropic está sendo avaliada como um marco para a pesquisa em IA e para a interpretação de direitos autorais
Por outro lado, o uso de cópias piratas foi definido como violação clara de direitos autorais, tornando-se uma referência importante para futuros critérios de obtenção de dados de treinamento de IA

1 comentários

GN⁺ 2025-07-08

Comentários do Hacker News

Link para a matéria original
Resumo de uma decisão importante do juiz: o uso de livros protegidos por direitos autorais pela Anthropic para treinar IA foi considerado uso justo por ser “altamente transformativo”. A Anthropic argumentou que apenas armazenou digitalmente, em uma biblioteca central, livros físicos que comprou, sem criar novas cópias nem redistribuí-las. “Piratear uma biblioteca” é claramente violação de direitos autorais. O ponto curioso é que o juiz reconheceu que escanear e digitalizar uma biblioteca para uso interno pode ser permitido, e também entendeu que o uso para treinamento de IA se enquadra como uso justo.
- Por outro lado, também é importante o que o juiz disse sobre outro ponto. Ele traçou uma linha clara ao afirmar que a Anthropic usar livros pirateados como uma biblioteca central não é uso justo. Ou seja, comprar os livros diretamente, escaneá-los fisicamente e usá-los para treinar IA é uso justo; usar cópias piratas não é uso justo
- Não acho que essa decisão seja algo novo. Na minha visão, o Google já criou esse precedente há mais de 10 anos ao estabelecer que digitalizar livros é permitido
- Pelo que sei, em um julgamento posterior relacionado à Meta, o juiz Vince Chhabria já se opôs à alegação de uso justo link relacionado (não sou advogado)
- Fico me perguntando se o princípio do “fruit of the poisonous tree” também se aplica aqui
- Pensando que antigamente quase tentaram condenar Aaron Swartz à prisão perpétua por praticamente a mesma coisa, dá mesmo a sensação de como os tempos mudaram
Casos reais de punição a indivíduos envolvidos em violação massiva de direitos autorais matéria de referência
- Na verdade, achei que iriam mencionar o caso Aaron Swartz
- Ao clicar na matéria acima, vi que na prática era sobre um negócio que “vendia” software pirateado no valor de milhões de dólares. Não era alguém usando sozinho por curiosidade, mas um caso claro de roubo e revenda para lucrar. É um caso completamente diferente de uso transformativo ou uso pessoal
- A Anthropic não vende esse material. Se uma pessoa lê um livro, faz um resumo ou cita trechos, provavelmente não vai para a prisão. Ainda assim, se resistir à Autodesk rende 7 anos de pena, isso mostra bem a realidade do meio jurídico: acaba sendo tratado até pior do que roubo à mão armada
- Acho muito diferente um caso de copiar e vender software pirata e um caso como o da Anthropic usando livros. A Anthropic nunca criou nem distribuiu uma “cópia” de qualquer livro
- A piada é que, se você pretende infringir a lei, primeiro deve abrir uma empresa para transferir a responsabilidade. Uma sátira sobre a realidade em que, com capital suficiente, até violar a lei pode ser absorvido
Há indícios de que empresas como o Spotify também cresceram no início com base em material ilegal. Há muito tempo circulam rumores de que arquivos mp3 “piratas” foram usados em testes beta. Existem relatos de pessoas que baixaram faixas com a tag “Scene” matéria relacionada
- O Crunchyroll também começou como um site pirata de streaming de anime, mas se legalizou ao obter licenças oficiais. Começou em 2006, recebeu investimento de VC em 2008 e fechou acordos de licenciamento em 2009 matéria da Forbes, matéria da Venturebeat
- Na verdade, não só o Spotify, mas a maioria dos gigantes de tecnologia ganha dinheiro operando em zonas cinzentas da lei ou ignorando regulações — ou seja, “disruptando” o mercado. Isso porque o ganho indevido costuma ser muito maior do que qualquer sanção jurídica. Também acho que, depois da Amazon, se tornou mais comum usar capital de investimento para ignorar a “concorrência justa” e praticar dumping de preços. As big techs americanas cresceram praticamente neutralizando a lei
- “Áudio não obtido oficialmente” e “áudio sem direitos autorais” são conceitos diferentes. Mesmo quando existe licença de streaming, às vezes não há o arquivo original
- Também mencionam que a interface inicial do Spotify era praticamente uma cópia 1:1 do Limewire
- O Google Music também tinha um modelo em que o usuário fazia upload direto de mp3 e outros arquivos, e na época se alegava que a ilegalidade do arquivo não era responsabilidade do Google. A Amazon teve experiência com serviço parecido texto de referência
É estranho que pessoas que dizem estar construindo o futuro da IA abandonem a ética dessa forma. A China passou décadas sendo alvo de sanções por causa de falsificações, então, se a Anthropic também se envolveu em atividade ilegal, acho que restrições de exportação também seriam justificadas
- Fico em dúvida sobre o que de fato fizemos em relação ao problema de produtos falsificados da China. A maior parte das medidas foi apenas bloquear a importação de itens falsos detectados localmente, sem punição efetiva. Na prática, empresas americanas passaram anos terceirizando a produção para lá e ajudando a criar um ambiente propício ao roubo de propriedade intelectual
- O realmente antiético são as empresas que nem sequer compram os livros. Na realidade, quem tem poder econômico e jurídico consegue escapar com muito mais facilidade
- Uma crítica ao duplo padrão disseminado na sociedade e à impunidade do poder. Citam exemplos como dirigir bêbado, violência e sonegação para enfatizar que toda a sociedade se dobra diante de poder, riqueza e influência. Se uma editora plagiar meu livro, ainda posso processar; se uma empresa de IA roubar, nem entrar com ação é fácil diante dos grandes escritórios. No mundo real, igualdade é uma ilusão, e quem está por cima sempre leva vantagem
- Como no slogan do Facebook, vivemos na era em que “avançar rápido quebrando coisas” é tratado como virtude
- Não entendo por que usar a informação contida em um livro seria antiético. A Anthropic não revendeu esses livros. A informação em si de um livro não é protegida por direitos autorais. Citar sempre foi possível
Há alegações de que o cofundador da Anthropic, Ben Mann, baixou milhões de livros pirateados do Library Genesis em 2021. Roubo é roubo. A opinião é que já deu de duplo padrão
- A maior parte da pirataria tem como objetivo apenas “consumo pessoal”, mas buscar “lucro” por meio de material pirata é outro nível
- Não é simples roubo: roubar de forma direcionada para dominar o mercado e eliminar empresas que tentaram agir eticamente causa danos ainda maiores a inúmeros autores. Isso se aproxima mais de “crime organizado”
- Dizer “roubo é roubo” é simplista demais. Mesmo que alguém saia da loja com um produto, a punição varia enormemente conforme o contexto. Os detalhes importam
- Primeiro é preciso definir com precisão o que é “roubo”
- “Copiar é diferente de roubar”: ao copiar, a pessoa original continua possuindo sua própria cópia. A objeção é que, se chamarmos reprodução de “roubo”, então outras afirmações extremas também passariam a valer
Na realidade do treinamento de dados em grande escala para IA, material pirata e multas saem muito mais baratos do que comprar e processar individualmente milhões de livros. Claro que isso não pode ser justificado, mas existe esse conflito: se fosse no próprio interesse, talvez muitos fizessem a mesma escolha por eficiência
- O problema dessa lógica é que inúmeros professores e autores que passaram anos escrevendo livros dificilmente conseguirão sequer processar grandes empresas por violação de direitos autorais. No fim, isso leva autores a desistirem de escrever, e há quem diga que isso já está acontecendo
- Violação intencional pode gerar multa de até US$ 150 mil por obra. Se houvesse condenação por todo o material infringido, o valor poderia superar a avaliação de mercado da Anthropic. Na prática, porém, esse tipo de julgamento draconiano não é aplicado, e o padrão jurídico não é o mesmo que foi usado contra adolescentes ligados ao Napster no início dos anos 2000
- Fica a dúvida: “usar pirataria não deveria dar prisão?” À luz dos avisos do FBI nos DVDs, em tese seria crime grave
- Na verdade, segundo a matéria, também houve muitos casos em que a Anthropic comprou legalmente grandes quantidades de livros e os usou no treinamento. Todos os livros envolvidos no processo incluem exemplares comprados legalmente. Livros usados saem baratos em compras em grande volume
- Se a intenção fosse eliminar totalmente o risco jurídico, o correto seria contatar diretamente as editoras e negociar licenças para treinamento de IA. É assim que Netflix, Spotify e todas as empresas de mídia fazem. Fica a dúvida de por que esse princípio é visto de forma diferente no caso das empresas de IA
Se eu possuo um livro, acho que deveria ser legal escaneá-lo no meu computador. Também vejo com alguma simpatia a situação das empresas de IA. Dá a impressão de que as regras de direitos autorais estão ficando cada vez mais rígidas por causa da IA. Se eu me inspiro em ideias de um livro para criar algo, não acho que tenha obrigação de compensar os direitos autorais daquele livro
- É preciso ler direito o conteúdo da matéria. O próprio texto diz claramente que você pode escanear o seu livro e usá-lo para treinar IA. Na verdade, essa decisão é uma grande vitória para as empresas de IA. Não entendo a interpretação contrária
- Um ponto que costuma passar batido na discussão sobre uso justo é se esse uso causa impacto econômico real ao mercado do titular dos direitos. É difícil provar que um indivíduo, ao ler um livro e aprender com ele, está concorrendo com o autor de forma relevante. Mas a queda de renda dos autores causada por modelos de IA treinados em massa e lançados no mercado pode ser demonstrada de forma bem mais clara. Se a IA puder substituir autores com base em obras deles, isso não combina com o propósito do uso justo
- A lei de direitos autorais parece não ter uma estrutura logicamente consistente. Seu propósito original — liberdade da informação e incentivo à inovação — também é nebuloso. A interpretação da lei depende muito da subjetividade do juiz. No fim, a lógica real do direito é “dinheiro”, e o poder do copyright se mantém por causa do grande capital. Se agora isso começar a atrapalhar o capital, talvez vejamos como toda a lógica de DRM e direitos autorais pode mudar
- Quando a escala cresce, tudo funciona de outro jeito. Não dá para aplicar diretamente direitos e normas individuais a megassistemas, e socialmente essa distinção é necessária. Quem tem dinheiro fez com que esse problema fosse ignorado, e a confusão surge, no fundo, da falta de regulação sobre “escala”
- Resumo: o juiz considerou uso justo usar livros para treinar o Claude, mas o uso de material “pirata” é ilegal
Acho que o reforço recente do YouTube para bloquear downloads também pode ter a ver com impedir que empresas concorrentes de IA montem datasets
É fácil criticar os outros, mas o comentário mais votado desta thread também está, no fim das contas, linkando conteúdo “roubado” do Business Insider. A realidade é que ninguém é totalmente justo
- Não entendo como seria conteúdo “roubado” do Business Insider. A mesma matéria pode ser vista no site oficial, e cache do navegador ou arquivo não são essencialmente diferentes
- Este é o melhor comentário da thread hoje. Acho interessante ver esse tipo de contorcionismo lógico aqui

Anthropic corta e digitaliza milhões de livros usados para treinar Claude e baixa 7 milhões de cópias piratas

Visão geral

Uso de livros e processo de utilização de cópias piratas

Entendimento do juiz: distinção entre uso justo de livros e uso de edições piratas

Impacto e tendências do setor

Conclusão

Leituras relacionadas

1 comentários

Comentários do Hacker News