2 pontos por GN⁺ 2023-12-31 | 1 comentários | Compartilhar no WhatsApp
  • Após o processo do New York Times contra a OpenAI, a questão de até que ponto a IA generativa deve ser responsabilizada por violação de direitos autorais nas etapas de treinamento e de geração passou a ganhar ainda mais destaque
  • O ponto central da ação é que o chatbot consegue reproduzir textos quase literalmente, e os experimentos de Marcus e Reid Southen mostram que o DALL-E também pode gerar repetições semelhantes em imagens
  • Mesmo com salvaguardas como o bloqueio de nomes próprios, resultados parecidos com SpongeBob SquarePants, RoboCop e personagens de videogame podem surgir a partir de prompts que não citam diretamente nomes de personagens ou filmes
  • Os sistemas atuais não informam ao usuário a origem dos dados nem a possibilidade de infração do conteúdo gerado, o que pode levar pessoas a criarem material infrator sem perceber
  • Marcus acredita que, até surgir uma nova arquitetura capaz de rastrear a origem, a controvérsia sobre infração continuará, e que o processo do New York Times pode ser apenas o começo de uma onda maior de ações judiciais

Processo do New York Times e experimento de repetição de imagens

  • No momento em que o New York Times entrou com o processo contra a OpenAI, Gary Marcus realizou um experimento em conjunto com Reid Southen, artista de concept art da indústria cinematográfica
    • Southen é apresentado como alguém com experiência ligada a Marvel, DC, Matrix Resurrections e Hunger Games
    • O relatório completo deve ser divulgado na próxima semana, e o tema também será abordado em mais detalhes pela IEEE Spectrum em 3 de janeiro
  • O ponto central do processo é que o chatbot da OpenAI consegue reproduzir textos quase exatamente como os originais
  • Nos testes de Marcus e Southen, foi relatado que, mesmo ao usar o software de imagem da OpenAI via Bing, era possível obter reproduções idênticas ou muito próximas de imagens

Geração semelhante que as salvaguardas não conseguem impedir

  • É sabido que o DALL-E tem salvaguardas para bloquear alguns nomes próprios e certas tentativas deliberadas de infração, mas elas não funcionam de forma consistente
  • O risco de infração pode existir mesmo quando o usuário não pretende infringir direitos nem menciona nomes de personagens ou filmes
    • Foi relatado que resultados relacionados a SpongeBob SquarePants podem surgir a partir de prompts curtos que não citam o nome
    • Também foram citados exemplos envolvendo resultados parecidos sem mencionar RoboCop, além de personagens de videogame e possíveis violações de marca
    • O usuário do X Blanket_Man01 e Justine Moore, da A16Z, também teriam identificado fenômenos semelhantes de forma independente

O problema da caixa-preta sem informação de origem

  • Para Marcus, o problema central da IA generativa está na estrutura em que a origem dos dados de treinamento e a origem do conteúdo gerado não são mostradas ao usuário
    • Sistemas como DALL-E e ChatGPT são treinados com material protegido por direitos autorais
    • A OpenAI não divulga com transparência em que dados treinou seus modelos
    • Sistemas de IA generativa podem produzir material que viole direitos autorais
    • O sistema não avisa o usuário quando esse tipo de resultado é gerado
    • Também não fornece informações sobre a origem da imagem gerada
    • O usuário pode não saber que a imagem criada por ele infringe direitos
  • Marcus considera que os sistemas atuais, como DALL-E e ChatGPT, são essencialmente caixas-pretas, e que, na forma como estão hoje, é difícil atribuir corretamente os materiais de origem
    • Algumas empresas estão pesquisando o tema, mas ele diz que ainda não conhece uma solução convincente
    • Até que surja uma nova arquitetura capaz de rastrear de forma confiável a origem de textos e imagens gerados, as infrações podem continuar
    • Um bom sistema deveria fornecer ao usuário uma lista de fontes, mas os sistemas atuais não fazem isso

Expansão dos processos e risco para a Microsoft

  • O processo do New York Times pode muito bem ser o primeiro de vários
    • Em uma enquete feita por Marcus no X, a maioria previu um acordo
    • Sobre o valor do acordo, muitas respostas apontaram mais de US$ 100 milhões, e 20% estimaram US$ 1 bilhão
    • Se os casos se expandirem para estúdios de cinema, empresas de videogame e outros jornais, os valores envolvidos podem aumentar ainda mais
  • Como os exemplos foram obtidos via DALL-E no Bing, Marcus entende que a Microsoft também está exposta ao risco de responsabilidade

1 comentários

 
GN⁺ 2023-12-31
Opiniões no Hacker News
  • As pessoas aceitam com facilidade demais a narrativa corporativa de que alguém pode de fato possuir esse tipo de coisa.
    Quem realmente é dono das histórias da Branca de Neve e da Cinderela? Essas histórias não vieram da Disney; fazem parte de contos populares transmitidos ao longo de gerações, e o sucesso da Disney também se baseia, em parte, em adaptações de narrativas existentes que a comunidade compartilhou e transformou por séculos.
    Essa discussão não deveria tratar apenas dos detalhes técnicos da inteligência artificial ou da lógica jurídica do copyright, mas também de entender as raízes profundas da cultura que compartilhamos.
    A cultura é, por natureza, um bem comum, e evolui e cresce por meio de histórias coletivas e reinterpretações.
    O debate sobre inteligência artificial generativa e violação de copyright parece deixar passar esse fundamento da evolução cultural. Os algoritmos podem ser novos, mas o ato de reimaginar e reutilizar histórias é tão antigo quanto a humanidade.
    Acho realmente absurdo a Disney construir a “casa do rato” sobre cultura e histórias preexistentes e agora propor limitar ferramentas de expressão cultural para se adequar a um copyright antiquado e estranho.

    • Para sustentar esse argumento, é preciso escolher exemplos que já não estejam em domínio público. A Disney é dona apenas de sua própria interpretação e, no máximo, pode reivindicar áreas derivadas ambíguas capazes de convencer um tribunal, mas não é dona das histórias inteiras da Branca de Neve e da Cinderela.
      As imagens do artigo usavam coisas bastante recentes, e nem há dúvida se são Mario ou Coca-Cola. Se a Nintendo e a Coca-Cola fizessem uma promoção conjunta, eu acreditaria que a imagem saiu exatamente daquele jeito.
      Seria outra questão se estivessem reivindicando o conceito geral de um encanador atarracado usando roupas que lembram o Mario, mas aquilo é simplesmente Mario e Luigi. É Robocop e C3PO. Não há nenhuma sutileza. Se for possível apagar essas marcas por meio de lavagem via IA, então qualquer coisa pode ser lavada por IA.
    • No mundo real, vivemos sob um sistema jurídico que cada um de nós não projetou e que sabemos ser imperfeito. Podemos defender reformas, mas os criadores de LLMs serão julgados de acordo com as leis vigentes atualmente promulgadas.
      A novidade está nos LLMs e em sua tecnologia, não em repensar o copyright por completo sob um conceito nobre de abertura cultural.
      Portanto, isso não é apenas uma narrativa corporativa, mas a lei da qual essa narrativa surgiu, esteja ela certa ou errada. As empresas podem ter desempenhado um papel grande na formação da lei, mas o copyright também beneficia indivíduos. Não se trata de manipular a realidade compartilhada com mera propaganda ou narrativa corporativa; trata-se de algo mediado por juízes e executado por pessoas com armas e prisões.
      Como é uma questão jurídica, é indispensável tratar dos detalhes técnicos da lei. Se descartarmos isso dizendo que devemos discutir apenas narrativas sociais, acabamos substituindo consequências materiais e a realidade por fantasia. Também é preciso discutir o caráter repressivo do copyright e da propriedade intelectual sobre a criação, mas ao mesmo tempo não podemos ignorar o que está acontecendo de fato.
    • Essa resposta está distante demais da realidade. A lei de copyright é muito clara. Aqui, a narrativa corporativa é justamente a de que “IA” é algo novo e diferente, e por isso as leis existentes não se aplicam; isso não faz sentido.
    • Domínio público e bens comuns também fazem parte do copyright, então não é o caso de falar deles como se fossem conceitos esquecidos que precisam ser restaurados no debate.
      Dito isso, o georgismo não está sendo suficientemente examinado.
      As implicações jurídicas são implicações humanas e fazem parte da cultura tanto quanto qualquer outra coisa. Têm a ver com o que é justo e com como a recompensa pelo esforço é reconhecida e distribuída.
      Esse tipo de formalização pode ser menos importante em culturas que não são centradas na economia de mercado, e expressões como “rica tapeçaria de contos populares” dão a sensação de um retorno a esse mundo, mas a sociedade que está tentando decidir como lidar com a inteligência artificial não é esse tipo de sociedade.
      A ideia de que o copyright foi invalidado ou se tornou obsoleto por causa de uma nova capacidade de reprodução é literalmente uma inversão completa. O copyright ganhou força por causa de novas capacidades de reprodução.
      A capacidade específica da época era a impressão industrializada, e pessoas que parecem muito mais inteligentes do que o especialista de software comum entenderam que essa capacidade criava incentivos desalinhados entre quem tinha a nova capacidade de reprodução e quem criava as obras que serviam de base para esse valor. O cerne do acordo do copyright está em alinhar esses incentivos.
      Novas tecnologias de reprodução podem mudar os detalhes do que proibir, restringir ou permitir, e quais critérios, poderes de execução e limites estabelecer. Mas não mudam a sabedoria desse acordo em si. Para mudar isso, seria necessário um modo melhor de organizar e recompensar a capacidade produtiva da sociedade.
    • O copyright nunca se baseou em uma posição moral; sempre foi determinado pelo poder de lobby de vários grupos.
      Ainda assim, a ideia de acabar com o copyright para permitir que empresas de inteligência artificial generativa ganhem mais dinheiro soa completamente estranha.
  • Para mim, essa pergunta está errada
    Todo mundo sabia que tudo foi treinado com material protegido por direitos autorais e que podia produzir saídas assustadoramente parecidas
    Mas isso já aconteceu em grande escala, e as grandes empresas entraram de cabeça. Não há possibilidade de colocar a pasta de dente de volta no tubo
    É parecido com a época em que as gigantes de tecnologia construíram seus negócios em cima de uma coleta agressiva de dados de usuários. Se era certo, ético ou até legal, nesta fase, é quase uma discussão acadêmica. Elas simplesmente fizeram, e na prática avançaram sem o devido consentimento informado da sociedade
    A pergunta certa aqui é “o que fazemos agora”. Como aconteceu com as tecnologias de rastreamento, a resposta provavelmente vai ficar perto de “nada demais”

    • Não concordo que “não dá para colocar a pasta de dente de volta no tubo”. Já houve coisas parecidas antes
      Tecnologias como gravação e fabricação musical baratas também foram assim. Você pode gravar um artista uma vez e produzir discos em massa, mas isso não significa que alguém ache que pode gravar Taylor Swift uma vez e depois fazer cópias ilimitadas sem pagar
      Vale ler sobre a greve dos músicos de 1942: https://jacobin.com/2022/03/1940s-musicians-strike-american-...
    • Isso é falar sem conhecer a história
      Já aconteceu com o Napster, depois com o Apple Music, e agora com os serviços de streaming
      Em vez de continuar havendo compartilhamento amplo de arquivos entre o público em geral, acabamos com dispositivos que não possuímos e assinaturas de streaming
      A Apple não vendeu todos os tipos de música copiados para o iPod; ela gastou 10 anos em negociações contratuais e muito dinheiro para obter direitos sobre conteúdo
      Não estou tentando dizer o que é certo ou errado, só que essa fala demonstra entender muito pouco dessas disputas
    • Parece que você formulou de maneira bem eloquente um “já está acontecendo, então vamos desistir”. Deve funcionar muito bem para resolver problemas e agir
    • É basicamente chamar isso de fato consumado. Como muitas inovações na tecnologia, a lógica é que a lei é tola, então você infringe a lei e conquista domínio de mercado
      Isso me lembra quando Uber e AirBnB eram ilegais na maioria das grandes cidades, mas acabaram conquistando domínio de mercado
      Eu, por outro lado, acho isso bom. Nunca acreditei em coisas como “propriedade intelectual”. Patentes, direitos autorais, esse pacote inteiro de “direitos” imaginários deveria ser abolido
      Mais da metade do mundo, ou seja, o Sul Global, nem reconhece esses direitos, e agora está ficando cada vez mais difícil aplicá-los sem excesso brutal de repressão legal e centralização monopolista
    • É possível obrigá-las a destruir ou retreinar os modelos sem materiais protegidos por direitos autorais que não tenham licença ou que elas ainda não tenham conseguido obter
      Essas são empresas de bilhões e trilhões de dólares. Por mais que acionistas e altos executivos odeiem isso, elas têm condições de agir aqui como membros responsáveis da sociedade
  • Na UE, isso não deveria ser um problema. Os artigos 3º e 4º da diretiva “Copyright in the Digital Single Market” já regulam isso
    Segundo o resumo da Wolters Kluwer, todos os demais agentes, inclusive desenvolvedores comerciais de aprendizado de máquina, só podem usar obras legalmente acessíveis quando os titulares dos direitos não tiverem reservado expressamente o uso para mineração de texto e dados
    Pelo que sei, está em discussão algo como um robot.txt para indicar “proibido treinar”. Provavelmente será preciso implementar certas salvaguardas, e os usuários finais terão de tomar cuidado ao usar os resultados gerados
    Fonte da Kluwer: https://copyrightblog.kluweriplaw.com/2023/02/20/protecting-...
    Texto legal da UE: https://eur-lex.europa.eu/eli/dir/2019/790/oj

    • Parece estranho a UE não conseguir concordar que a flag Do Not Track dos navegadores seja juridicamente vinculante, mas grandes empresas de conteúdo devam poder criar uma flag juridicamente vinculante em sites para evitar raspagem de dados
    • Isso parece uma interpretação estranha, talvez misturada com desejo. O artigo 4º não dá uma exceção para todo mundo, inclusive desenvolvedores comerciais de aprendizado de máquina, para fins de mineração de texto e dados?
      https://eur-lex.europa.eu/eli/dir/2019/790/oj
  • A responsabilidade de garantir que não haja violação de direitos autorais é de quem publica a obra
    Não muda nada se você desenhou diretamente, encarregou um pintor aprendiz sem formação jurídica, tirou uma foto ou criou a imagem com inteligência artificial
    Por que alguém presumiria que o ChatGPT ou outra ferramenta não vai criar conteúdo já protegido por direitos autorais?
    Dá para entender a suposição ingênua de que, por ter sido “gerado”, deve ser original. Mas, no momento em que você troca “ChatGPT” por “artista júnior”, essa suposição desmorona
    Imagine que você peça para ele desenhar um droide de um filme de ficção científica e não diga mais nada. Não fala sobre direitos autorais, nem diz que precisa ser original. O que você espera que ele desenhe?

    • A OpenAI vende acesso a modelos GPT, e esses modelos estão gerando material protegido por direitos autorais para eu consumir. Isso não é a mesma violação?
    • Então a inteligência artificial generativa se torna, na prática, inutilizável. Como não dá para saber se a saída é plágio ou não, você sempre vai suspeitar e nunca vai usá-la
    • Esse argumento não faz sentido
      O artista júnior hipotético também teria pelo menos essa mesma responsabilidade, talvez até maior
  • É surpreendente a quantidade de respostas que parecem não entender nada do ponto central deste artigo e do processo do NYT. O ChatGPT conseguia reproduzir publicamente partes substanciais de artigos do NYT, com centenas a milhares de palavras, exatamente como no texto original completo
    Isso não é uma obra derivada. Já passou muito desse ponto. O NYT tem um caso muito forte, e quem está debatendo os prós e contras do direito autoral está fugindo do ponto central
    Esse julgamento isolado não vai derrubar o direito autoral sozinho. O máximo que a OpenAI pode alegar é algo como “isso é novo, como poderíamos saber que seria assim?”. Nesse caso, os modelos atualmente treinados ficam em uma situação muito complicada
    Além disso, não parece provável que o NYT faça um acordo. As implicações são grandes demais e, se fizer um acordo com a OpenAI, casos semelhantes surgirão em todos os outros modelos. Todos os outros veículos que publicam conteúdo digital também teriam casos igualmente plausíveis
    Este é um ponto de inflexão para a inteligência artificial generativa, e parece bem provável que ela se torne muito mais cara ou muito mais limitada do que imaginamos inicialmente
    Como efeito colateral, acho que haverá um aumento de modelos piratas. Modelos que ignoram completamente a legalidade, são treinados de forma distribuída e cujos pesos são distribuídos por coletivos, não por empresas; por exemplo, modelos via torrent
    Há uma boa chance de esses modelos superarem em desempenho os modelos oficiais “bem-comportados”. Os próximos anos devem ser interessantes

    • Acho que a OpenAI poderia praticamente copiar o Google/YouTube nesse problema e oferecer um sistema parecido com o Content ID
      Em termos concretos, a lógica seria que o ChatGPT, por padrão, não reproduz obras protegidas por direito autoral, mas as reproduz a pedido ou por ação de usuários terceiros, assim como o YouTube disponibiliza vídeos enviados por pessoas
      A intenção da OpenAI não era violar direitos autorais e, de fato, muitos ou a maioria dos pesquisadores acreditavam que os modelos não estavam sobreajustados a ponto de reproduzir partes substanciais de obras arbitrárias
    • Entendo exatamente o que o NYT tem. É um caso muito forte. Mas acho que esse caso deveria abalar a legislação de direitos autorais. O direito autoral está gravemente quebrado, e já faz muito tempo
      Essencialmente, um direito autoral sem uma grande empresa por trás não significa nada; e, se houver uma empresa por trás, ele pode ficar trancado para sempre, independentemente das limitações que deveriam existir no direito autoral originalmente
      O NYT não perde nada só porque a OpenAI consegue reproduzir textos integrais de notícias antigas
      Se o NYT vencer, nós perdemos muita coisa. Está na hora de rever o direito autoral. Isso é realmente possível, e ele está bem defasado, então precisa ser atualizado
    • Isso também aconteceu com DALLE, Midjourney e Stable Diffusion
      O Stable Diffusion, quando se aproveita ao máximo coisas como Control Net e LoRA, supera os outros modelos proprietários
  • Talvez seja um pouco idealista, mas sempre acreditei que o objetivo central da arte e da publicação não deveria ser apenas ganhar muito dinheiro, e sim influenciar a cultura e a sociedade
    Por isso, acho que as obras originais precisam de proteção, mas deveriam entrar em domínio público muito mais rapidamente para estimular a criatividade e a inspiração. O período de transição deveria ser pensado em termos de anos, não de décadas

    • A afirmação de que o objetivo central da arte é o impacto social parece um refrão comum na mídia de hoje, mas discordo totalmente
      O principal objetivo da arte é provocar emoções no indivíduo. A ideia de que a arte precisa ensinar lições provavelmente é uma das razões para haver tanta ficção explicitamente “militante” hoje em dia
    • Então o que os artistas deveriam comer no jantar?
    • Por que só a arte deveria estar sujeita a essas regras, e não outras coisas?
  • Essas coisas não parecem tão difíceis assim de corrigir. A maioria dos exemplos não é uma descrição genérica, mas uma expressão abreviada que aponta para um objeto bem conhecido
    “encanador de videogame” é, na prática, sinônimo de “Mario”, e qualquer pessoa que conheça minimamente o personagem sabe disso
    Da mesma forma, depois de fazer uma ferramenta de descrição descrever uma imagem como Mario [1], quão difícil seria remover esse tipo de resultado para quem digitou “encanador de videogame”?

    1. O comando describe do Midjourney consegue descrever imagens. Imagino que outras ferramentas de inteligência artificial tenham recursos parecidos: https://docs.midjourney.com/docs/describe
    • A forma de corrigir isso parece bastante distópica. Imagine uma situação em que o Photoshop verifica se uma imagem enviada é material protegido por direitos autorais e se recusa a trabalhar nela caso conclua que ela contém material ou personagens protegidos por direitos autorais. Mesmo que seja uma fanart desenhada por você
      Isso me lembra o início da internet, quando tentavam remover fanfics gratuitas dizendo que violavam leis de direitos autorais. Tentar aplicar leis de direitos autorais ao uso pessoal, quando o criador nem pretende vender aquilo, é algo bastante terrível do meu ponto de vista
      Imagine daqui a 50 anos. “Robô, você pode recortar este desenho que fiz para o diorama da escola?” “Claro.” “Faça este também.” “Erro: esta imagem pode conter material protegido por direitos autorais e não pode ser processada.”
    • Esses exemplos são realmente triviais ou extremos. O que deve ser observado aqui são duas coisas
      Sistemas de inteligência artificial generativa têm capacidade suficiente para criar materiais que infringem direitos autorais
      E, quando fazem isso, não avisam o usuário
      Portanto, qualquer saída pode infringir algum material de origem obscuro, mas ainda protegido, da web, e qualquer pessoa que use essa saída pode ficar exposta a risco de processo sem nenhum aviso
      Isso é muito difícil de corrigir
    • Será difícil remover todas as “expressões abreviadas para objetos bem conhecidos” ou prompts que possam ser usados para gerar conteúdo protegido por direitos autorais ou marcas registradas
      Se a intenção não for criar conteúdo infrator de propósito, dá para remover ou descartar esses resultados, mas o problema são as pessoas que tentam enganar a inteligência artificial para fazê-la criar esse tipo de conteúdo. A menos que todo material de treinamento protegido por direitos autorais ou marcas registradas seja excluído, será impossível impedi-las
      Outro problema da inteligência artificial generativa, como o artigo também menciona, é que “sistemas como DALL-E e ChatGPT são essencialmente caixas-pretas
      O que acontece quando a inteligência artificial é usada em decisões em situações nas quais o usuário, ou a parte prejudicada, tem o direito de saber exatamente por que ela tomou aquela decisão? Do ponto de vista empresarial e jurídico, acho que as soluções atuais de inteligência artificial são arriscadas e devem ser usadas de forma muito limitada. Isso porque nem mesmo seus criadores conseguem apontar os fragmentos exatos de informação que levaram a inteligência artificial a fazer determinada escolha
    • Esse método se torna praticamente impossível quando escala
    • Como saber se você está digitando um “objeto bem conhecido” se não sabe disso de antemão?
      Se você digita “columbian coffee logo” e aparecem logotipos de marcas que já existiam, é preciso fazer engenharia reversa da internet inteira para verificar se esses logotipos já existiam?
      A inteligência artificial deveria mostrar suas fontes de inspiração. Um humano que cria inspirado em algo sabe exatamente o que usou e se cruzou ou não a linha do plágio. Mas o funcionamento da inteligência artificial é opaco demais para isso
      Acho que o que precisa ser feito é apenas revelar as fontes. Só que isso significa que as empresas de inteligência artificial teriam de divulgar seus datasets, o que pode expor informações que elas não deveriam ter obtido ou que não deveriam divulgar
  • Pelo que entendo, o precedente jurídico para IA generativa é o mesmo que permitiu ao Google fazer scraping de sites para criar um índice de busca em benefício público
    O Google também pode mostrar versões em cache de sites, e isso é o conteúdo original desses sites. Acho que ninguém diria que o Google viola direitos autorais por mostrar o conteúdo de outros sites literalmente
    Por isso acho esse argumento fraco. Se for preciso remover todas as referências culturais e IPs populares, até os menos conhecidos, a inteligência artificial ficará inútil
    Pessoalmente, acho que a IA generativa deveria ser capaz de fornecer links para materiais originais semelhantes nos dados de treinamento. Esse é o mínimo para recompensar quem contribuiu para o treinamento da IA
    Se a IA generativa caminhar para matar tanto os sites quanto os artistas que criaram o material original, não acho que isso seja sustentável no longo prazo. As fontes aumentam a transparência e também ajudam o usuário a entender se é alucinação ou não
    As pessoas deveriam poder fazer opt-out para que seu conteúdo não seja usado no treinamento, e também deveriam poder verificar se ele foi removido em versões futuras
    Sinceramente, as empresas de IA só querem manter tudo em segredo para evitar processos. Acho que, nessa área, a regulação pode ajudar mais do que cenários apocalípticos

    • “Acho que ninguém diria que o Google viola direitos autorais por mostrar o conteúdo de outros sites literalmente”, mas, no passado, jornalistas e a Getty Images disseram exatamente isso
      [1]: https://yro.slashdot.org/story/03/07/14/025216/web-caching-g...
      [2]: https://www.theguardian.com/technology/2016/apr/27/getty-ima...
    • “Se a IA generativa caminhar para matar tanto os sites quanto os artistas que criaram o material original, isso não é sustentável no longo prazo” é o elefante na sala
      Toda onda tecnológica teve uma forma de convencer criadores a gastar tempo e dinheiro criando material original, e depois as regras mudaram
      O Google prometeu alcance e novos mercados para o conteúdo, e isso de fato funcionou. Depois introduziu snippets, anúncios e todo tipo de mecanismo para manter os visitantes presos à sua própria rodovia, em vez de enviá-los aos sites originais
      Reddit, Stack Overflow etc. usaram gamificação, como pontos e medalhas, e comunidade para incentivar usuários a contribuir com conteúdo original
      Agora a IA está abalando essas abordagens. A cada etapa, o incentivo para criar material original parece diminuir, porque o retorno é cada vez menor
      Se a IA apenas regurgita conteúdo original sem dar nada em troca — isto é, sem alcance, gamificação, comunidade ou possibilidade de reconhecimento — que incentivo resta agora para especialistas?
    • Dizer que “deveria fornecer links para materiais originais semelhantes nos dados de treinamento” geralmente é impossível, porque eles não são bancos de dados
      É como você não conseguir fornecer links para os materiais originais que influenciaram você ao escrever um comentário. Quanto treinamento entrou nos pesos dos neurônios que geraram aquela resposta? Onde você aprendeu a usar itálico e o efeito disso na interpretação das palavras? Onde aprendeu o tom adequado para este fórum?
      Se “as pessoas deveriam poder fazer opt-out para que seu conteúdo não seja usado no treinamento”, então eu deveria poder fazer opt-out para impedir que você leia meu livro quando eu escrever um? Eu deveria poder impor condições sobre quem pode ler minha obra? Religião? Cor da pele? Pessoas com pouca capacidade de memorização?
      Espero que a ideia de restringir quem pode adquirir conhecimento soe absurda. Então por que a mesma restrição é aceitável quando incide não sobre “quem”, mas sobre “o quê”?
      Como as empresas de IA mantêm tudo em segredo para evitar processos, surgiram barreiras à pesquisa. Em vez de eu e Joe podermos colaborar em pesquisas e artigos usando o mesmo conjunto de dados, somos levados a esconder os dados de treinamento. Por medo de que os luditas venham quebrar as máquinas. É como se aprender só fosse aceitável quando não se aprende bem demais
    • Ainda não há precedente jurídico definido. O “precedente” descrito é o argumento que as empresas de IA vêm usando: que treinar modelos com informações disponíveis na internet deveria ser considerado uso justo
      Mas ainda resta ver se o treinamento de IA de fato satisfaz o teste dos quatro fatores do uso justo
    • A capacidade de fornecer fontes como referência é a diferença central aqui
      Concordo que isso deveria poder ser implementado também na IA generativa, mas manter essa informação pode tornar o custo de treinamento muito mais caro, e as empresas de IA têm pouquíssimo interesse nisso. Provavelmente tentarão avaliar problemas possíveis de direitos autorais de forma heurística em uma etapa de pós-processamento
      A pergunta mais interessante, além dos casos de reprodução quase literal, é se os detentores de direitos autorais podem alegar uso não autorizado pelo fato de suas obras, coletivamente, terem influenciado a IA de uma forma mais geral
  • Precisamos de leis mais claras que se apliquem especificamente à IA generativa. Há comparações e analogias demais com pessoas reais
    Surgem argumentos como “e se alguém aprendeu a desenhar vendo material protegido por marca registrada e acabou fazendo algo parecido por acidente?”, mas esses modelos não são pessoas e existem em uma categoria separada
    Acho que esses modelos cometem algum grau de violação de marca registrada, mas, ao mesmo tempo, acho que isso deveria ser permitido. A responsabilidade final deveria recair sobre quem usa a imagem como mídia independente para consumo do público geral

    • Também estou nessa posição. O fato de o Dall-E cuspir um C3PO deveria ser totalmente aceitável. Se eu não estiver ganhando dinheiro com essa saída, a Disney deveria ficar fora disso
  • Em discussões assim, os modelos parecem funcionar mais como uma cortina de fumaça do que como o ponto central, e a discussão acaba ficando presa nisso
    Os modelos oferecem uma negação plausível na “cadeia de responsabilidade”. Se você tirar “LLM” e trocar por “caixa mágica de atração de parque de diversões”, a alegação de que o LLM é algo especial e merece uma exceção desapareceria muito rapidamente

    • Concordo totalmente
      O precedente do Betamax diz que uma tecnologia que tem usos substanciais não infratores não é, por si só, infratora
      Já existe precedente de que obras geradas por inteligência artificial não recebem proteção de direitos autorais e, pela mesma lógica, o ato de geração da inteligência artificial não expressa intenção. Portanto, a questão de haver infração deveria depender do humano que usa o resultado. A caixa-preta em si não tem agência
    • Concordo, e gostaria primeiro de ver casos concretos em que LLMs sejam usados de forma produtiva e lucrativa na indústria, de modo “disruptivo”, levando pessoas a perderem o emprego etc.
      Antes de concluir que LLMs, ou técnicas generativas de forma mais geral, são de algum modo a próxima grande onda, ou antes de afirmar que estamos no limiar de uma inteligência “geral”, é preciso primeiro mostrar essa porta
      Essa porta poderia ser a adoção industrial para resolver problemas reais, indo além do valor de entretenimento de digitar algo numa caixa e ver o que sai do outro lado. Mas, pelo que vi até agora, parece que não há nenhum lugar fazendo isso de fato