4 pontos por laeyoung 2025-09-06 | 1 comentários | Compartilhar no WhatsApp
  • A Anthropic concordou com um acordo de US$ 1,5 bilhão no processo movido por autores
  • Os US$ 1,5 bilhão representam a maior indenização da história dos processos de direitos autorais nos Estados Unidos
  • A Anthropic pretende pagar US$ 3.000 por obra para 500 mil autores

1 comentários

 
GN⁺ 2025-09-07
Opiniões do Hacker News
  • Ver o artigo via archive.ph

  • Quero deixar claro que o ponto em disputa aqui não é o treinamento do modelo em si
    o treinamento em si se enquadra em fair use, mas o problema foi a pirataria de cópias não autorizadas dos livros, algo que a Anthropic acabou fazendo por engano no processo de coleta de dados
    comprar livros usados, escanear e treinar com eles seria aceitável
    Rainbows End é um romance que esteve à frente do seu tempo em vários aspectos

    • Sobre a ideia de que comprar livros usados, escanear e treinar seria aceitável, acho que na prática nenhuma empresa faria isso
      quando há dezenas de bilhões de dólares em capital de risco em jogo, quem vai ficar comprando e escaneando livro por livro com calma?
      todo mundo vai preferir aceitar as multas, e o valor delas está muito longe de ter efeito dissuasório
      é como a Uber no começo, operando sem licença de táxi e depois usando o dinheiro dos investidores para lidar com multas e lobby
      a Anthropic também achou muito mais rápido e eficiente sair colocando PDFs e ePUBs sem DRM do que fechar licenças com cada editora individualmente

    • Como isto é um acordo, não estabelece precedente nem reconhecimento de ilegalidade
      nem que o treinamento é fair use, nem que o escaneamento é aceitável, nada disso foi definido agora
      essa questão ainda terá de ser disputada por outras pessoas no futuro

    • Concordo que o romance Rainbows End previu o seu tempo
      é um ótimo livro para quem gosta de leitura, e o autor Vernor Vinge também popularizou o termo "singularity"
      Informações sobre Rainbows End no Goodreads

    • Acho estranha a própria ideia de ter que comprar livros usados para ler
      acredito que todo mundo deveria ter o direito de ler livremente todos os livros disponíveis em bibliotecas
      o conhecimento existe neste mundo para ser disponibilizado, e as pessoas deveriam acessá-lo ativamente

    • Fico curioso sobre o que Aaron Swartz pensaria se visse esta era em que o libgen virou algo corriqueiro

  • Compartilhando um resumo dos termos do acordo

  1. criação de um fundo de indenização de pelo menos US$ 1,5 bilhão, com pagamento de US$ 3 mil por obra com base em uma classe de 500 mil obras
    se o número de obras ultrapassar 500 mil, o valor aumenta em US$ 3 mil por obra adicional
  2. a Anthropic pretende destruir todos os datasets obtidos do LibGen e do PiLiMi, independentemente de exigências legais de preservação
  3. só haverá liberação de responsabilidade por infrações passadas para obras incluídas na “Works List” oficial até 25 de agosto de 2025
    infrações futuras e infrações em saídas de IA generativa não são resolvidas por este acordo
  • Um ponto importante é que não ficou absolutamente nenhum “precedente legal”
    se houver ações parecidas, tudo terá de ser litigado do zero de novo
    muitas vezes esse tipo de acordo é escolhido quando se acredita que a derrota é provável
    é parecido com o caso do Google, que fez um acordo desfavorável com a Epic rapidamente antes de receber uma decisão judicial

  • O acordo não trata só de compensação, mas também da destruição do dataset
    segundo a reportagem, a Anthropic afirma que “não usou de fato esse material ilegal”
    se alguma empresa de IA generativa tiver treinado e comercializado produtos com esse tipo de dado pirateado, há risco de abalar o setor inteiro
    fico curioso para saber quantos casos assim ainda vão aparecer

  • Fazendo essa conta, não sairia muito mais barato simplesmente comprar todos os livros?

  • É surpreendente que sejam “só” 500 mil obras
    porque a impressão era de que tinham sido baixados milhões de livros

  • Fico curioso se os autores podem participar diretamente

  • “US$ 3 mil por obra” parece uma condição excelente para licenciar livros via contrato de direitos autorais

  • Dá a impressão de que todo aquele dinheiro levantado no fim das contas era para entregar às editoras
    consigo até imaginar o pitch para os investidores: “vamos nos preparar para grandes gastos, como custos de litígio”

    • Pelo que diz a reportagem, a Anthropic levantou recentemente mais US$ 13 bilhões e já recebeu mais de US$ 27 bilhões no total desde a fundação
      mesmo uma indenização gigantesca é pequena perto do capital que eles já captaram

    • Parece brincadeira, mas acho que na verdade é um excelente pitch para investidores
      resolver riscos potenciais ligados a questões legais aumenta o valor da empresa
      principalmente porque eliminar a incerteza jurídica torna o setor mais atraente para investimento

    • Na verdade, acho que é assim que o sistema funciona
      cada oportunidade ou vantagem individual depende de beneficiar o capital já existente
      se houver uma justificativa minimamente plausível para como o dinheiro circulou, os detalhes pouco importam do ponto de vista do capital
      depois que o dinheiro se move, resta apenas construir uma narrativa que todo mundo consiga aceitar
      este acordo também funciona assim, criando uma narrativa com a qual os dois lados podem conviver: “treinamento tudo bem, pirataria era o problema”
      parece que a principal motivação foi evitar que ficasse um precedente de que o treinamento de IA em si é ilegal

    • A Anthropic quis adotar uma estratégia de agir rápido e evitar regulação
      ninguém obrigou a empresa a fazer isso

  • Para autores, há informações e procedimentos para verificar se o próprio trabalho foi incluído
    Como pesquisar pelo nome do autor no dataset do LibGen
    Cadastro de contato no site oficial do acordo

  • Do ponto de vista da IA open source, isso é bastante decepcionante
    usar material pirateado para treinamento também deveria ser considerado fair use
    caso contrário, só grandes empresas com muito dinheiro, como a Anthropic, poderão pagar somas enormes às editoras para desenvolver IA, e não haverá nenhuma forma viável de comprar dezenas de bilhões de livros para usar no treinamento

    • Isto é apenas um acordo, não é precedente nem admissão de ilegalidade
      no fim das contas, também é verdade que só grandes empresas podem bancar engenheiros caros e dezenas de milhares de GPUs
      na prática, as comunidades de LLM de base provavelmente não vão se importar tanto com a legalidade do dataset de treinamento

    • Fair use não depende de como você obteve o material, mas do que faz com ele após ter “acesso legal”
      se o acesso não foi legal, nem dá para começar a discutir fair use

    • Esta discussão parece partir da premissa de que treinar modelos é, por si só, uma espécie de direito

    • Fico curioso para saber quanto custaria de fato comprar todos os livros desejados e treinar o modelo com eles

  • Uma coisa que me veio à cabeça é se haveria algum jeito de publicar conteúdo na web para uso gratuito apenas por humanos, e considerar o uso por crawlers de IA como pirataria, punível como neste caso

    • Para a primeira pergunta, isso talvez seja possível com uma barreira de login e processo de aceite contratual, mas as cláusulas concretas do contrato, como valores de indenização, precisariam ser avaliadas por um advogado

    • Na verdade, eu não recomendaria esse caminho
      qualquer ferramenta de automação, como scripts de usuário, também poderia acabar sendo considerada infração, e isso seria problemático

    • Também parece possível colocar um sistema de captcha que possa ser considerado uma medida de segurança sob a DMCA
      a mesma forma de conteúdo também pode ser oferecida via API paga

    • Acho que isso não é possível nem legalmente nem tecnicamente

    • Talvez dê para tentar, mas o direito autoral tem várias exceções e é extremamente complexo
      por exemplo, mesmo que se coloque uma cláusula como “todo uso é permitido, exceto por acadêmicos”, isso não significa que universidades de fato sejam obrigadas a obedecer
      se um tribunal já decidiu que treinamento de LLM é uso transformativo, incluir uma cláusula “proibido para treinamento de LLM” não cria nenhum mecanismo especialmente mais forte de execução
      é como um músico dizer “minha música só pode ser ouvida inteira, amostragem é proibida” e isso não ter efeito prático
      o objetivo do direito autoral é “promover o progresso da ciência e das artes úteis”, e garantir acesso acadêmico pesa mais do que o controle individual do autor
      livros didáticos também têm direito autoral, e o fato de às vezes poder haver exceções de fair use acadêmico que permitiriam cópia livre, mas que não são bem observadas na prática, também é algo confuso

  • Do ponto de vista internacional, fico curioso sobre que efeitos sanções legais ou acordos como este têm em cada país, e se em outros lugares ainda poderiam surgir novas ações e penalidades adicionais

  • Para o setor chinês de IA, isso parece uma grande vantagem
    empresas ocidentais ficam cada vez mais limitadas na coleta e no treinamento com dados, enquanto IAs chinesas e de outros países podem usar muito mais dados, e dados de qualidade melhor