Anthropic concorda em pagar US$ 1,5 bilhão para fechar acordo em processo com autores de livros
(nytimes.com)- A Anthropic concordou com um acordo de US$ 1,5 bilhão no processo movido por autores
- Os US$ 1,5 bilhão representam a maior indenização da história dos processos de direitos autorais nos Estados Unidos
- A Anthropic pretende pagar US$ 3.000 por obra para 500 mil autores
1 comentários
Opiniões do Hacker News
Ver o artigo via archive.ph
Quero deixar claro que o ponto em disputa aqui não é o treinamento do modelo em si
o treinamento em si se enquadra em fair use, mas o problema foi a pirataria de cópias não autorizadas dos livros, algo que a Anthropic acabou fazendo por engano no processo de coleta de dados
comprar livros usados, escanear e treinar com eles seria aceitável
Rainbows End é um romance que esteve à frente do seu tempo em vários aspectos
Sobre a ideia de que comprar livros usados, escanear e treinar seria aceitável, acho que na prática nenhuma empresa faria isso
quando há dezenas de bilhões de dólares em capital de risco em jogo, quem vai ficar comprando e escaneando livro por livro com calma?
todo mundo vai preferir aceitar as multas, e o valor delas está muito longe de ter efeito dissuasório
é como a Uber no começo, operando sem licença de táxi e depois usando o dinheiro dos investidores para lidar com multas e lobby
a Anthropic também achou muito mais rápido e eficiente sair colocando PDFs e ePUBs sem DRM do que fechar licenças com cada editora individualmente
Como isto é um acordo, não estabelece precedente nem reconhecimento de ilegalidade
nem que o treinamento é fair use, nem que o escaneamento é aceitável, nada disso foi definido agora
essa questão ainda terá de ser disputada por outras pessoas no futuro
Concordo que o romance Rainbows End previu o seu tempo
é um ótimo livro para quem gosta de leitura, e o autor Vernor Vinge também popularizou o termo "singularity"
Informações sobre Rainbows End no Goodreads
Acho estranha a própria ideia de ter que comprar livros usados para ler
acredito que todo mundo deveria ter o direito de ler livremente todos os livros disponíveis em bibliotecas
o conhecimento existe neste mundo para ser disponibilizado, e as pessoas deveriam acessá-lo ativamente
Fico curioso sobre o que Aaron Swartz pensaria se visse esta era em que o libgen virou algo corriqueiro
Compartilhando um resumo dos termos do acordo
se o número de obras ultrapassar 500 mil, o valor aumenta em US$ 3 mil por obra adicional
infrações futuras e infrações em saídas de IA generativa não são resolvidas por este acordo
Um ponto importante é que não ficou absolutamente nenhum “precedente legal”
se houver ações parecidas, tudo terá de ser litigado do zero de novo
muitas vezes esse tipo de acordo é escolhido quando se acredita que a derrota é provável
é parecido com o caso do Google, que fez um acordo desfavorável com a Epic rapidamente antes de receber uma decisão judicial
O acordo não trata só de compensação, mas também da destruição do dataset
segundo a reportagem, a Anthropic afirma que “não usou de fato esse material ilegal”
se alguma empresa de IA generativa tiver treinado e comercializado produtos com esse tipo de dado pirateado, há risco de abalar o setor inteiro
fico curioso para saber quantos casos assim ainda vão aparecer
Fazendo essa conta, não sairia muito mais barato simplesmente comprar todos os livros?
É surpreendente que sejam “só” 500 mil obras
porque a impressão era de que tinham sido baixados milhões de livros
Fico curioso se os autores podem participar diretamente
“US$ 3 mil por obra” parece uma condição excelente para licenciar livros via contrato de direitos autorais
Dá a impressão de que todo aquele dinheiro levantado no fim das contas era para entregar às editoras
consigo até imaginar o pitch para os investidores: “vamos nos preparar para grandes gastos, como custos de litígio”
Pelo que diz a reportagem, a Anthropic levantou recentemente mais US$ 13 bilhões e já recebeu mais de US$ 27 bilhões no total desde a fundação
mesmo uma indenização gigantesca é pequena perto do capital que eles já captaram
Parece brincadeira, mas acho que na verdade é um excelente pitch para investidores
resolver riscos potenciais ligados a questões legais aumenta o valor da empresa
principalmente porque eliminar a incerteza jurídica torna o setor mais atraente para investimento
Na verdade, acho que é assim que o sistema funciona
cada oportunidade ou vantagem individual depende de beneficiar o capital já existente
se houver uma justificativa minimamente plausível para como o dinheiro circulou, os detalhes pouco importam do ponto de vista do capital
depois que o dinheiro se move, resta apenas construir uma narrativa que todo mundo consiga aceitar
este acordo também funciona assim, criando uma narrativa com a qual os dois lados podem conviver: “treinamento tudo bem, pirataria era o problema”
parece que a principal motivação foi evitar que ficasse um precedente de que o treinamento de IA em si é ilegal
A Anthropic quis adotar uma estratégia de agir rápido e evitar regulação
ninguém obrigou a empresa a fazer isso
Para autores, há informações e procedimentos para verificar se o próprio trabalho foi incluído
Como pesquisar pelo nome do autor no dataset do LibGen
Cadastro de contato no site oficial do acordo
Do ponto de vista da IA open source, isso é bastante decepcionante
usar material pirateado para treinamento também deveria ser considerado fair use
caso contrário, só grandes empresas com muito dinheiro, como a Anthropic, poderão pagar somas enormes às editoras para desenvolver IA, e não haverá nenhuma forma viável de comprar dezenas de bilhões de livros para usar no treinamento
Isto é apenas um acordo, não é precedente nem admissão de ilegalidade
no fim das contas, também é verdade que só grandes empresas podem bancar engenheiros caros e dezenas de milhares de GPUs
na prática, as comunidades de LLM de base provavelmente não vão se importar tanto com a legalidade do dataset de treinamento
Fair use não depende de como você obteve o material, mas do que faz com ele após ter “acesso legal”
se o acesso não foi legal, nem dá para começar a discutir fair use
Esta discussão parece partir da premissa de que treinar modelos é, por si só, uma espécie de direito
Fico curioso para saber quanto custaria de fato comprar todos os livros desejados e treinar o modelo com eles
Uma coisa que me veio à cabeça é se haveria algum jeito de publicar conteúdo na web para uso gratuito apenas por humanos, e considerar o uso por crawlers de IA como pirataria, punível como neste caso
Para a primeira pergunta, isso talvez seja possível com uma barreira de login e processo de aceite contratual, mas as cláusulas concretas do contrato, como valores de indenização, precisariam ser avaliadas por um advogado
Na verdade, eu não recomendaria esse caminho
qualquer ferramenta de automação, como scripts de usuário, também poderia acabar sendo considerada infração, e isso seria problemático
Também parece possível colocar um sistema de captcha que possa ser considerado uma medida de segurança sob a DMCA
a mesma forma de conteúdo também pode ser oferecida via API paga
Acho que isso não é possível nem legalmente nem tecnicamente
Talvez dê para tentar, mas o direito autoral tem várias exceções e é extremamente complexo
por exemplo, mesmo que se coloque uma cláusula como “todo uso é permitido, exceto por acadêmicos”, isso não significa que universidades de fato sejam obrigadas a obedecer
se um tribunal já decidiu que treinamento de LLM é uso transformativo, incluir uma cláusula “proibido para treinamento de LLM” não cria nenhum mecanismo especialmente mais forte de execução
é como um músico dizer “minha música só pode ser ouvida inteira, amostragem é proibida” e isso não ter efeito prático
o objetivo do direito autoral é “promover o progresso da ciência e das artes úteis”, e garantir acesso acadêmico pesa mais do que o controle individual do autor
livros didáticos também têm direito autoral, e o fato de às vezes poder haver exceções de fair use acadêmico que permitiriam cópia livre, mas que não são bem observadas na prática, também é algo confuso
Do ponto de vista internacional, fico curioso sobre que efeitos sanções legais ou acordos como este têm em cada país, e se em outros lugares ainda poderiam surgir novas ações e penalidades adicionais
Para o setor chinês de IA, isso parece uma grande vantagem
empresas ocidentais ficam cada vez mais limitadas na coleta e no treinamento com dados, enquanto IAs chinesas e de outros países podem usar muito mais dados, e dados de qualidade melhor