- IA pega conteúdos para treinamento independentemente do consentimento do autor original e vende os resultados sem compensá-lo
- Os clientes das empresas de IA (e das ferramentas de IA) também revendem para outros clientes os resultados processados por prompt, lucrando com coisas copiadas de toda a internet
- Seus tutoriais sobre comércio eletrônico foram escritos com pesquisa própria, mas alguns sites fizeram o ChatGPT copiar alguns tutoriais populares e depois os publicaram como se fossem textos próprios
- Os textos copiados ficaram em posições mais altas que o original nos resultados de busca do Google
- Os textos copiados ainda mantinham links para o site original com exatamente o mesmo texto âncora, e esses links não removidos confirmaram a cópia
- O Google está exibindo sites que copiaram o original acima da fonte original, criando uma estrutura em que conteúdo copiado sem autorização é recompensado nas buscas
1 comentários
Comentários do Hacker News
Há uma falácia comum usada para justificar isso: “se algo é aceitável ou insignificante em pequena escala, então também é aceitável em grande escala”
A lógica é que, se está tudo bem aprender com uma página da web e ganhar dinheiro com isso, então por que seria um problema um computador aprender tudo com todo mundo e ganhar dinheiro com isso? Colher uma flor no Golden Gate Park é diferente de criar uma máquina que corta automaticamente todas as flores do parque para vendê-las. Mudanças quantitativas produzem uma mudança qualitativa na atividade e, mesmo que os efeitos nem sempre sejam ruins, vale a pena não ignorá-los e analisá-los
O ponto principal não é simplesmente a escala, mas algo mais próximo de: um comportamento desejável em humanos não é socialmente permitido quando feito por máquinas
A sensação de “roubo” aqui é inteiramente uma interpretação mental; o original não foi tirado de ninguém só porque alguém fez uma cópia
https://en.wikipedia.org/wiki/Fallacy_of_composition
Depois da internet, mas antes dos LLMs, essa diferença teoricamente diminuiu bastante, mas a maioria das pessoas ainda não conseguia entender nem usar aquilo por causa da barreira de percepção. Depois dos LLMs, essa barreira está ruindo, então precisamos pensar em como usar informação e conhecimento de outra forma para gerar dinheiro e poder
Ainda resta um problema maior: a fonte original não recebe crédito de um jeito que a compense
O operador do site paga para hospedar o conteúdo, deixa os spiders entrarem, rastrearem e indexarem aquilo para IA e, com sorte, recebe uma citação, mas quase não ganha nada como fornecedor do conteúdo. Isso está piorando, e a lógica passa a ser “se está tudo na IA, por que olhar um site?”. No fim, talvez seja preciso bloquear crawlers e colocar tudo atrás de login
Pelo menos o scraping de Google/Bing/Yahoo era usado para fornecer links de volta ao original
robots.txte até colocamosreCAPTCHAàs pressas, mas não adiantouConfirmamos que nossos dados apareciam na saída do modelo, mas parece que ninguém pode fazer muita coisa
Essas empresas de IA parecem um exemplo repugnante do slogan “socializar custos e privatizar lucros”
Em outras palavras, quer deixar de ser o portal para virar o destino
Sei que isso afeta a descobribilidade, mas, se isso não for um problema, queria saber como evitar o crawling
Essa questão não é tão simples quanto dizer que “fair use” cobriria 99% do scraping de dados
Se o material não está sendo reproduzido diretamente, mas usado no pré-treinamento para estimar a distribuição de probabilidade dos tokens, a situação fica mais ambígua. Você provavelmente não conseguiria recuperar um livro palavra por palavra com um LLM
Por exemplo, o Bing Chat copiou todos os primeiros 396 termos do artigo de 2023 “The Secrets Hamas knew about Israel’s Military”, exceto dois, e os materiais apresentados em juízo mostraram 100 casos em que o GPT da OpenAI aprendeu e memorizou artigos do Times a ponto de copiá-los palavra por palavra
https://www.hollywoodreporter.com/business/business-news/cou...
Demorei um pouco para entender isso, mas o que precisa ser citado não é a cópia literal da frase, e sim a fonte da informação
Dá para forçar a reprodução de conteúdo, mas é um jogo de gato e rato. Se os modelos não fossem alinhados para evitar reprodução direta, isso aconteceria com muito mais frequência. O RECAP foi consistentemente melhor do que todos os outros métodos; por exemplo, ele extraiu cerca de 3.000 trechos do primeiro livro de “Harry Potter” no Claude-3.7, enquanto a melhor linha de base chegou a apenas 75 trechos
Ele praticamente plagia a biblioteca de memória, só sem os comentários
Se sair alguma coisa boa da IA, talvez seja arruinar a lei de direitos autorais para sempre
Ninguém deveria poder “possuir” ideias. Apoio royalties para uso comercial, mas a pirataria não comercial e fanart não autorizada, do jeito que conhecemos, deveriam ser 100% legais
Diferentemente do sistema atual, parece bem razoável a lógica de permitir que alguém possua uma obra por um período limitado e de forma restrita
Se você cria arte, merece reconhecimento. A arte é uma forma importante de expressão humana
Você não vai poder “baixar” um livro fora de catálogo do anna's archive, mas as empresas vão treinar com todos esses dados e cobrar assinatura com prazer para entregar resumos
Não sei por que isso seria surpreendente. Todo mundo sabe que empresas de IA roubaram enormes volumes de dados para treinar seus modelos, então por que alguém acha que elas parariam? Elas já pagaram de verdade pelo roubo em massa de dados protegidos por direitos autorais?
Nós não podemos roubar esses dados nem lucrar com eles, mas elas, por algum motivo, podem. Imagino que seja porque estão melhorando o mundo e fazendo a humanidade avançar
Quem faz e aplica as leis quer que o PIB suba. Para essas pessoas, moral e direitos são só uma máscara fina que pode ser descartada assim que se torna inconveniente
Esse tipo de comentário não traz insight, não ajuda e não dá nada em que pensar. Só ajuda situações ruins a continuarem ruins
“Propriedade intelectual”, foi isso? É uma miragem sedutora
https://www.gnu.org/philosophy/not-ipr.html
Um modelo de pesos abertos treinado no repositório interno inteiro da Oracle sem atribuição de fonte seria justo
Não entendo muito bem qual é o problema com a parte “eles colocaram um link para o meu site real no texto deles, e o texto do link é exatamente o mesmo”
A menos que o texto do link seja muito longo, por que alguém teria de usar palavras diferentes ao colocar um link para o seu texto?
.../post/{id}/{extra-text}. Nesse caso,extra-textnão é usado de forma alguma para localizar a postagemLinks da Amazon também costumavam funcionar assim: o nome do produto aparecia no fim da URL, mas você ainda chegava ao produto mesmo apagando ou mudando essa parte. Talvez a surpresa seja que o LLM reproduziu até a parte irrelevante do link
Digamos que a receita de maçã frita tenha um link para a lista de maçãs. Mais tarde, alguém copia sua receita sem atribuição, mas continua usando o mesmo texto para apontar para a lista de maçãs. Eles roubaram o seu texto e ainda assim conseguem mais visibilidade no Google e mais receita de anúncios. Esse é o problema
Parece haver duas coisas sendo confundidas
Primeiro, a tecnologia de LLMs/transformers é de fato impressionante e revolucionária. Segundo, no fim das contas, eles funcionam como um banco de dados gigantesco e eficaz que contém a maior parte do conhecimento humano. O item 1 obscurece o item 2. Se alguém tivesse colocado toda a produção digital existente num banco de dados SQL e a entregasse de graça sob demanda, não haveria qualquer ambiguidade legal. Mas processos como destilação escondem essa relação e fazem parecer algo diferente de uma simples consulta. E, na prática, realmente é mais do que isso
Sou advogado de propriedade intelectual e trabalho com isso na prática
Não é aconselhamento jurídico, mas, se você cria conteúdo online — código em repositório público, blog, podcast, YouTube, publicações, até blog de hobby — a decisão mais inteligente é fazer registro de direitos autorais nos EUA. A Anthropic pagou US$ 1,5 bilhão em acordo coletivo a autores por violação de direitos autorais. Se o trabalho da comunidade do HN estivesse protegido, poderia haver enormes indenizações legais por todo o scraping feito por LLMs. Trabalho com centenas de autores e editoras, formando uma coalizão para proteger e licenciar o que eles produzem
Não é a mesma coisa
Se isso for necessário para eu realmente ter os direitos autorais que imaginei ter, até faço um script para automatizar
Isso deixou de ser verdade? Por que mudou de repente? Quando foi que mudou?
Tecnicamente ser ou não infração de direitos autorais não é meu principal problema
O problema maior é que a capacidade de extrair renda de conteúdo do mundo inteiro está se concentrando nas mãos de poucas empresas que conseguem construir datacenters em grande escala. Isso é um problema enorme. Se minha página, site de notícias, revista online e arte comercial são sugados para dentro do modelo, enquanto eu fico fora dos incentivos, por que eu criaria qualquer coisa? Se hoje isso não é ilegal sob a lei de direitos autorais, então precisamos de um novo marco legal, porque isso é uma tragédia absoluta para a criatividade humana e para os pequenos negócios
É a repetição da mesma dinâmica do caso do Google: quando um pequeno número de atores controla a porta de entrada para as pessoas chegarem aos websites, no fim acaba absorvendo a maior parte do valor