1 pontos por GN⁺ 2 시간 전 | 1 comentários | Compartilhar no WhatsApp
  • Meta e o CEO Mark Zuckerberg estão sendo processados por 5 editoras e por Scott Turow sob a acusação de copiar ilegalmente milhões de obras protegidas por direitos autorais, incluindo livros, artigos acadêmicos e reportagens, para treinar sistemas de IA
  • A Meta é acusada de baixar por torrent milhões de materiais protegidos por direitos autorais a partir de sites de pirataria notórios e de copiar repetidamente materiais obtidos por web scraping não autorizado para usá-los no treinamento do Llama
  • A ação foi movida em 5 de maio de 2026 no Tribunal Distrital dos EUA para o Distrito Sul de Nova York, e Hachette, Macmillan, McGraw Hill, Elsevier, Cengage e Scott Turow pedem indenização monetária não especificada
  • A Meta afirmou que houve decisões judiciais entendendo que o uso de materiais protegidos por direitos autorais no treinamento de IA pode se enquadrar em uso justo e disse que responderá de forma firme; em junho de 2025, reivindicações de autores relacionadas ao treinamento do Llama já haviam sido rejeitadas
  • Esta ação destaca como principal diferença o fato de a Meta ter analisado uma estratégia de licenciamento, mas a interrompido por orientação pessoal de Zuckerberg, além de ter aprovado o download de mais de 267 TB de material pirateado mesmo conhecendo os riscos do uso do LibGen

Ponto central do processo

  • Meta e o CEO Mark Zuckerberg estão sendo processados por 5 editoras e pelo escritor Scott Turow sob a acusação de copiar ilegalmente milhões de obras protegidas por direitos autorais, incluindo livros, artigos acadêmicos e reportagens, para treinar sistemas de IA
  • A Meta e Zuckerberg são acusados de seguir o conhecido lema da Meta, “move fast and break things”, para criar modelos de IA generativa, baixando por torrent milhões de livros e artigos de periódicos protegidos por direitos autorais a partir de sites de pirataria notórios
  • A Meta também é acusada de baixar materiais obtidos por web scraping não autorizado equivalentes a praticamente toda a internet e de copiá-los várias vezes para treinar o sistema de IA generativa multibilionário da empresa, o Llama
  • Esses atos são descritos como “uma das maiores violações de materiais protegidos por direitos autorais da história”

Autores da ação e pedidos

  • A ação foi protocolada na terça-feira, 5 de maio de 2026, no Tribunal Distrital dos EUA para o Distrito Sul de Nova York
  • Os autores são as 5 editoras Hachette, Macmillan, McGraw Hill, Elsevier e Cengage, além de Scott Turow individualmente
  • A ação coletiva proposta pede indenização monetária não especificada por suposta violação de direitos autorais
  • Uma cópia da petição está disponível neste link

Contestação da Meta e precedentes anteriores

  • Um porta-voz da Meta afirmou que “a IA está possibilitando inovação, produtividade e criatividade para indivíduos e empresas, e os tribunais vêm decidindo corretamente que o uso de materiais protegidos por direitos autorais no treinamento de IA pode se enquadrar como uso justo”
  • A Meta afirmou que pretende contestar esta ação de forma firme
  • Já houve casos em que autores processaram empresas de IA por violação de direitos autorais e perderam
  • Em junho de 2025, um juiz federal rejeitou as reivindicações apresentadas por 13 autores, incluindo Sarah Silverman e Junot Díaz, de que o treinamento dos modelos de IA da Meta teria violado direitos autorais
  • Na ocasião, o juiz Vincent Chhabria decidiu que o uso, pela Meta, de um conjunto de dados composto por cerca de 200 mil livros para treinar o modelo de linguagem Llama se enquadrava em uso justo

O que diferencia esta ação

  • Esta ação destaca que a Meta e Zuckerberg teriam contornado intencionalmente proteções de direitos autorais
  • A Meta é acusada de ter considerado licenciar obras, mas de ter abandonado essa estratégia por “orientação pessoal de Zuckerberg”
  • A ação sustenta que a conduta em questão está fora do escopo de proteção da cláusula de uso justo da legislação autoral dos EUA
  • A petição afirma que, sob instruções de Zuckerberg, a Meta copiou sem autorização milhões de livros, artigos de periódicos e outras obras, incluindo obras pertencentes ou administradas pelos autores da ação e pelos membros da classe, e criou cópias adicionais para treinar o Llama
  • Zuckerberg é acusado de ter “aprovado pessoalmente e incentivado ativamente” a infração
  • A Meta também é acusada de remover informações de gestão de direitos autorais das obras roubadas para ocultar a origem do material de treinamento e facilitar o uso não autorizado

Revisão e interrupção da estratégia de licenciamento

  • Segundo a ação, a Meta chegou a considerar brevemente firmar acordos de licenciamento com grandes editoras após o lançamento do Llama 1
  • A Meta discutiu, entre janeiro e abril de 2023, aumentar o orçamento de licenciamento de datasets da empresa para até US$ 200 milhões
  • No início de abril de 2023, a Meta teria interrompido repentinamente a estratégia de licenciamento
  • A petição afirma que a questão sobre licenciar materiais protegidos por direitos autorais no futuro ou usar versões pirateadas foi “escalada” a Zuckerberg
  • Após essa escalada, a equipe de desenvolvimento de negócios da Meta teria recebido instruções verbais para interromper os esforços de licenciamento, segundo os autores
  • A petição inclui o relato de que um funcionário da Meta explicou a razão dizendo, em essência, que “se licenciarmos um único livro, ficará mais difícil nos apoiar na estratégia de uso justo”

Experiência prévia de licenciamento da Meta

  • O processo argumenta que a Meta e Zuckerberg conheciam bem o mercado de licenciamento de materiais para treinamento de IA
  • Segundo a petição, em 2022 a Meta firmou 4 licenças para conjuntos de treinamento limitados com editoras de livros em línguas africanas
  • Depois disso, a Meta também firmou acordos de licenciamento com grandes publicações jornalísticas, incluindo Fox News, CNN e USA Today

Uso do LibGen e análise interna de riscos

  • Segundo a petição, em 13 de dezembro de 2023 funcionários da Meta circularam um memorando interno tratando dos riscos jurídicos do uso do LibGen
  • Esse memorando da Meta descrevia o LibGen como “um dataset que sabemos ser pirateado”
  • A petição também afirma que o mesmo memorando dizia que “não divulgaremos o uso do dataset LibGen usado no treinamento”
  • Essas preocupações, ao que tudo indica, acabaram não sendo acolhidas
  • Segundo a petição, Zuckerberg e outros executivos da Meta aprovaram e ordenaram downloads via torrent de mais de 267 TB de material pirateado
  • Afirma-se que esse volume corresponde a centenas de milhões de publicações, várias vezes o tamanho de todo o acervo impresso da Biblioteca do Congresso dos EUA

Alegações sobre as saídas do Llama

  • Como resultado da suposta infração, o sistema de IA da Meta é acusado de gerar rapidamente e em larga escala resultados que podem substituir as obras dos autores da ação e dos membros da classe usadas no treinamento
  • Segundo a petição, esses substitutos incluem cópias quase idênticas aos textos originais, capítulos substitutos de livros didáticos acadêmicos, além de resumos e versões alternativas de romances famosos e artigos de periódicos
  • O Llama também é acusado de gerar imitações de baixa qualidade que reproduzem elementos criativos das obras originais, bem como obras derivadas, cujo direito é exclusivo dos titulares
  • Segundo a petição, o Llama também pode personalizar saídas para imitar elementos de expressão e escolhas criativas de autores específicos

1 comentários

 
GN⁺ 2 시간 전
Comentários no Hacker News
  • Muita gente provavelmente ficaria feliz se o Zuckerberg tivesse que pagar nem que fosse o valor mínimo legal de indenização de US$ 750 por cada infração
    No caso anterior de infração da Anthropic, entendeu-se que o treinamento de IA em si é uso transformativo e não é, por si só, infração, mas que copiar obras ilegalmente para esse fim é claramente infração
    O acordo foi de US$ 1,5 bilhão, o que dá quase US$ 3 mil por cada uma das 500 mil cópias ilegais, então, se o Zuckerberg copiou ilegalmente “milhões” de obras, um acordo de US$ 6 bilhões parece bem plausível

    • Dá uma angústia pensar nas crianças[1] que foram processadas criminalmente por operarem sites de MP3 no passado
      Enquanto isso, esse cara parece ter roubado praticamente toda a mídia existente e, por ser rico demais para ser processado, provavelmente vai sair ileso
      [1] Ex.: https://en.wikipedia.org/wiki/Oink%27s_Pink_Palace#Legal_pro...
    • Enquanto o DJT for presidente, não acho que vá acontecer nada com o Zuckerberg nem com a Meta
      É como se tivessem comprado a melhor proteção possível para poder violar a lei
    • Isso não impressiona nem um pouco. Não entendo como, depois de fazer isso, ainda conseguem continuar como monopolistas/hegemônicos de IA
      Na prática, eles tomaram tudo sem pedir e depois foram negociar preço. Cadê a acusação criminal? Se não a prisão, pelo menos cadê a perda compulsória de participação acionária?
    • Nunca imaginei que acabaria torcendo por advogados de propriedade intelectual
    • Pelo contexto, o patrimônio líquido do Zuckerberg é de cerca de US$ 220 bilhões
  • No passado, abriram todo tipo de processo contra estudantes que só baixavam MP3 e nem redistribuíam
    Não havia uso transformativo nem nada que parecesse fair use, era só download de arquivo, e a lição aprendida é que esses estudantes deveriam era ter roubado milhões de arquivos

    • Isso pode ter sido uma campanha de formação de opinião pública
      Se até o usuário final pode ser processado, todo o discurso muda de positivo para negativo, e fica mais fácil para quem tem poder reprimir esse comportamento
    • A verdadeira linha divisória é ser absurdamente rico ou não
  • Há algumas semanas, tive que bloquear o ASN da Meta no meu servidor pessoal de cgit. Eles estavam ignorando o robots.txt e torrando o servidor
    Pareciam claramente espalhados por diferentes blocos de rede para escapar de limitação por IP, e só por causa deles meus logs de acesso acumularam centenas de MB. Foi inacreditável

    • Passei pela mesma coisa no ano passado. Ficavam rastreando sem parar URLs aleatórias que nem existiam
      Parecia uma tentativa de fazer proxy de consultas de usuários para um endpoint de busca, e o ASN batia, então não era alguém fingindo ser a Meta
    • Acho que bloqueio por ASN deveria ser muito mais comum. Só é uma pena que muitas ferramentas populares não ofereçam isso como opção de configuração de primeira classe
    • Queria saber como identificar esse tipo de empresa. Existe algum serviço para descobrir qual empresa raspou o meu site?
  • É engraçado ver gente defendendo a Elsevier do nada. Pela lei atual, parece bastante claro que treinamento de IA é fair use transformativo
    Talvez este caso até vire precedente para provar isso

    • Me incomoda que apoiadores de IA tentem pintar até pessoas que passaram os últimos 20 anos combatendo a indústria do copyright como se tivessem mudado de posição de repente só porque agora se opõem à indústria de IA
      Eu posso ser a favor da descriminalização ou legalização de pequenas quantidades de maconha para uso pessoal, sem que isso signifique apoiar produção industrial gigantesca de drogas em escala capaz de distorcer a economia, ou empresas que querem colocar metanfetamina em todos os produtos
    • Também acho engraçado. Eu já disse isso em outro tópico e em outros posts[0]
      Dizem que “eles copiaram de novo os frutos roubados”, mas o que exatamente foi “roubado”? O dono original ainda não continua com aquilo que supostamente foi roubado?
      Em Dowling v. United States, 473 U.S. 207 (1985), a Suprema Corte decidiu que a venda não autorizada de gravações de obras musicais protegidas por copyright não se enquadrava como bens “roubados, desviados ou obtidos por fraude” sob o National Stolen Property Act
      E mesmo que, por argumento, tenha sido algo roubado, o objetivo do copyright é “promover o progresso da ciência e das artes úteis, assegurando aos autores e inventores, por tempo limitado, o direito exclusivo sobre seus respectivos escritos e descobertas”
      Seria muito difícil provar que LLMs não promoveram arte e ciência, então, no mínimo, isso se enquadra como uso transformativo, ou seja, fair use
      [0] https://news.ycombinator.com/item?id=48026207#48029072
    • Acho que nem é preciso chegar ao ponto de dizer que “treinamento de IA é fair use transformativo pela lei atual”. Isso é um produto totalmente novo
      É como alguém vender um teclado e depois exigir royalties sobre o software feito com aquele teclado
      Não importa que quem escreveu um livro não pudesse prever esse novo caso de uso que é o treinamento de LLM. O livro não está dentro do LLM, nem está sendo vendido junto com ele. É apenas uma entre bilhões de ferramentas usadas para criar um LLM
      É enlouquecedor tentarem enquadrar isso como se empresas de IA estivessem extraindo valor de pobres detentores de propriedade intelectual como a Disney. Esse conteúdo é nosso patrimônio cultural e já é nosso. Só aconteceu de algum idiota receber um direito vitalício de exploração monopolista
      Os LLMs são treinados com dados que nós já possuímos. Disney e outras estão só tentando arrancar mais dinheiro de coisas criadas décadas atrás usando uma nova tecnologia
      Mesmo na pior interpretação, isso é engenharia reversa, algo que nos EUA deveria ser protegido como fair use, embora essa proteção pareça ter sido corroída em certa medida
    • Normalmente, a questão não é se é transformativo, mas sim se o material protegido por copyright foi obtido ilegalmente
    • Acho que tanto a Elsevier quanto quem pega propriedade intelectual para treinar IA comercialmente sem consentimento dos autores deveriam ser legais
  • Estou curioso para ver no que vai dar a responsabilidade pessoal
    Em empresas, a responsabilidade desaparece com frequência demais, e eu sempre quis saber qual é a justificativa jurídica para isso. Até agora, o que sobrou parece ser algo como “dar de ombros” e “aparentemente esse dispositivo legal não se aplica”, e nenhum dos dois é um bom motivo
    Eu ia fazer uma piada de que, se colocassem um ímã no corpo do Aaron Swartz, ele estaria girando tão rápido a essa altura que viraria uma fonte poderosa de energia
    Mas, sinceramente, vendo como o caso dele foi tratado e como pouca coisa melhorou desde então, acho que ele provavelmente já esperava algo assim

    • A condução do caso Aaron Swartz foi um desastre, mas ele não foi acusado de pirataria
      As acusações eram fraude, acesso não autorizado a computador protegido e dano a computador
      Com o tempo, a base do caso foi sendo esquecida e substituída pela suposição de que era um caso de pirataria, mas na verdade era um caso de acesso não autorizado
    • Em outra realidade, Aaron Swartz não teria sido transformado em mártir e talvez hoje estivesse tocando uma startup de IA/criptomoeda que paga para você enviar dados de treinamento junto com amigos ex-alunos da YC
  • Se o Zuckerberg não for severamente punido por isso, eu ao menos espero que se crie um precedente jurídico de que todos os outros também podem fazer exatamente a mesma coisa sem punição
    Todos os Aaron Swartz do futuro deveriam poder compartilhar artigos científicos livremente com o mundo

    • Acho bem provável que façam captura regulatória por meio de lobby e depois levantem a escada para os participantes menores
  • Conheço pessoalmente um engenheiro que foi instruído a fazer algo mesmo sabendo que havia muitos problemas legais, sob a justificativa de que a empresa tinha advogados justamente para isso

    • Seria bom se esse tipo de coisa aparecesse na fase de produção de provas quando viesse o processo, mas acho que provavelmente nunca vai aparecer
      Denunciar internamente também não é uma opção muito boa na situação econômica atual, mas mesmo assim eu gostaria que mais gente fizesse isso
  • Então agora é “mova-se rápido e roube coisas”?

    • Quando os coletores de IA estavam só começando, foi basicamente isso que pensei. Parecia um plano para raspar tudo o mais rápido possível antes que as pessoas percebessem o que estava acontecendo e começassem a bloquear
      A velocidade com que percorriam e raspavam sites era muito mais agressiva até do que a de rastreadores considerados legítimos, e essa parecia a explicação mais lógica
    • Mova-se rápido e quebre a lei
    • Isso começou desde o início, lá de cima
    • Foi o maior roubo da história contra a classe trabalhadora
    • Roubou coisas? Isso é de novo aquela lógica de “você não roubaria um carro”? Eu achei que já tivéssemos superado isso há muito tempo
  • Seja o CEO quem aprovou, seja outro alto executivo, não acho que a responsabilidade da empresa mude por causa disso
    A pergunta a responder é se isso aconteceu e, se aconteceu, se constitui violação de copyright não protegida por fair use, e não qual executivo da empresa aprovou

  • Aaron Swartz enfrentou anos de prisão por baixar artigos de periódicos científicos e querer compartilhá-los gratuitamente com o mundo, sem nem lucrar com isso, e acabou tirando a própria vida
    Mas quando uma empresa bilionária baixa milhões de obras criativas protegidas por copyright, usa esse conjunto de dados para treinar um novo tipo de modelo de inteligência artificial e tenta reconfigurar todo o mercado de trabalho, isso vira apenas inovação ao estilo do Vale do Silício, algo pelo qual ainda parecem querer dar uma medalha

    • Quando uma pessoa baixa material protegido por copyright ilegalmente, isso é crime. Quando uma multinacional baixa material protegido por copyright ilegalmente, isso vira a única área de crescimento que resta para a economia dos EUA e algo essencial para a segurança nacional
    • Quando Aaron apagou as cópias locais, o Jstor retirou a ação. O DOJ não retirou
      Não parece que a Meta tenha apagado as cópias locais
    • Aaron Swartz foi tratado de forma injusta, e o motivo é que a lei de copyright é péssima
      O certo é se opor a esse tipo de lei e tratamento, não usá-los como ferramenta para punir o outro lado
      Defender que todo mundo deveria ser tratado de forma igualmente injusta está errado. É melhor defender o fim das leis e estruturas ruins
    • A Meta também compartilhou modelos de IA gratuitamente com o mundo
    • Ele realmente estava muito à frente do seu tempo