1 pontos por GN⁺ 1 시간 전 | 1 comentários | Compartilhar no WhatsApp
  • IA pega conteúdos para treinamento independentemente do consentimento do autor original e vende os resultados sem compensá-lo
  • Os clientes das empresas de IA (e das ferramentas de IA) também revendem para outros clientes os resultados processados por prompt, lucrando com coisas copiadas de toda a internet
  • Seus tutoriais sobre comércio eletrônico foram escritos com pesquisa própria, mas alguns sites fizeram o ChatGPT copiar alguns tutoriais populares e depois os publicaram como se fossem textos próprios
  • Os textos copiados ficaram em posições mais altas que o original nos resultados de busca do Google
  • Os textos copiados ainda mantinham links para o site original com exatamente o mesmo texto âncora, e esses links não removidos confirmaram a cópia
  • O Google está exibindo sites que copiaram o original acima da fonte original, criando uma estrutura em que conteúdo copiado sem autorização é recompensado nas buscas

1 comentários

 
GN⁺ 1 시간 전
Comentários do Hacker News
  • Há uma falácia comum usada para justificar isso: “se algo é aceitável ou insignificante em pequena escala, então também é aceitável em grande escala”
    A lógica é que, se está tudo bem aprender com uma página da web e ganhar dinheiro com isso, então por que seria um problema um computador aprender tudo com todo mundo e ganhar dinheiro com isso? Colher uma flor no Golden Gate Park é diferente de criar uma máquina que corta automaticamente todas as flores do parque para vendê-las. Mudanças quantitativas produzem uma mudança qualitativa na atividade e, mesmo que os efeitos nem sempre sejam ruins, vale a pena não ignorá-los e analisá-los

    • Nesse exemplo, tanto a pequena quanto a grande escala já seriam comportamentos inaceitáveis desde o começo. Em contraste, aprender com os outros não só é socialmente aceito em pequena escala, como é a base do progresso
      O ponto principal não é simplesmente a escala, mas algo mais próximo de: um comportamento desejável em humanos não é socialmente permitido quando feito por máquinas
    • Havia muitos casos parecidos no início da web. Existiam documentos “públicos” que qualquer pessoa podia ver indo ao tribunal municipal, mas a natureza da coisa mudou quando qualquer pessoa do país passou a poder encontrá-los só digitando um nome no navegador
    • Flores são objetos físicos, então, se você as move, elas desaparecem do lugar original, mas, quando um LLM aprende algo de uma página da web, a página continua lá
      A sensação de “roubo” aqui é inteiramente uma interpretação mental; o original não foi tirado de ninguém só porque alguém fez uma cópia
    • Isso é uma falácia da composição
      https://en.wikipedia.org/wiki/Fallacy_of_composition
    • Antes da internet, a diferença de informação e conhecimento podia gerar dinheiro e poder
      Depois da internet, mas antes dos LLMs, essa diferença teoricamente diminuiu bastante, mas a maioria das pessoas ainda não conseguia entender nem usar aquilo por causa da barreira de percepção. Depois dos LLMs, essa barreira está ruindo, então precisamos pensar em como usar informação e conhecimento de outra forma para gerar dinheiro e poder
  • Ainda resta um problema maior: a fonte original não recebe crédito de um jeito que a compense
    O operador do site paga para hospedar o conteúdo, deixa os spiders entrarem, rastrearem e indexarem aquilo para IA e, com sorte, recebe uma citação, mas quase não ganha nada como fornecedor do conteúdo. Isso está piorando, e a lógica passa a ser “se está tudo na IA, por que olhar um site?”. No fim, talvez seja preciso bloquear crawlers e colocar tudo atrás de login

    • Pior ainda: o scraping por IA contínuo só gera custo extra para quem fornece conteúdo, sem qualquer compensação
      Pelo menos o scraping de Google/Bing/Yahoo era usado para fornecer links de volta ao original
    • Cerca de um ano atrás, a OpenAI rastreou a empresa onde trabalho em nível de DDoS. Bloqueamos no robots.txt e até colocamos reCAPTCHA às pressas, mas não adiantou
      Confirmamos que nossos dados apareciam na saída do modelo, mas parece que ninguém pode fazer muita coisa
    • Isso realmente custa dinheiro e tempo. Um amigo que administra sistemas universitários disse que precisa lidar o tempo todo com crawlers de IA martelando os servidores como se fosse DDoS, e a Anthropic estaria entre as piores
      Essas empresas de IA parecem um exemplo repugnante do slogan “socializar custos e privatizar lucros”
    • No caso do Google, isso parece quase ser o objetivo. Ele está se movendo para virar um oráculo com todas as respostas, e não uma placa apontando na direção certa
      Em outras palavras, quer deixar de ser o portal para virar o destino
    • Fico me perguntando se existe uma forma de hospedar um site sem que ele possa ser encontrado por mecanismos de busca e, portanto, sem que possa ser rastreado
      Sei que isso afeta a descobribilidade, mas, se isso não for um problema, queria saber como evitar o crawling
  • Essa questão não é tão simples quanto dizer que “fair use” cobriria 99% do scraping de dados
    Se o material não está sendo reproduzido diretamente, mas usado no pré-treinamento para estimar a distribuição de probabilidade dos tokens, a situação fica mais ambígua. Você provavelmente não conseguiria recuperar um livro palavra por palavra com um LLM

    • A afirmação de que “não dá para recuperar um livro palavra por palavra com um LLM” entra quase em choque frontal com a tese central do processo do New York Times contra a OpenAI
      Por exemplo, o Bing Chat copiou todos os primeiros 396 termos do artigo de 2023 “The Secrets Hamas knew about Israel’s Military”, exceto dois, e os materiais apresentados em juízo mostraram 100 casos em que o GPT da OpenAI aprendeu e memorizou artigos do Times a ponto de copiá-los palavra por palavra
      https://www.hollywoodreporter.com/business/business-news/cou...
    • Quando eu estava na escola, “escrevi com minhas próprias palavras” não era desculpa para não citar a fonte
      Demorei um pouco para entender isso, mas o que precisa ser citado não é a cópia literal da frase, e sim a fonte da informação
    • Dá para dizer a mesma coisa sobre um codificador de MP3, mas não acho que isso convenceria um juiz
    • https://arxiv.org/html/2510.25941v1
      Dá para forçar a reprodução de conteúdo, mas é um jogo de gato e rato. Se os modelos não fossem alinhados para evitar reprodução direta, isso aconteceria com muito mais frequência. O RECAP foi consistentemente melhor do que todos os outros métodos; por exemplo, ele extraiu cerca de 3.000 trechos do primeiro livro de “Harry Potter” no Claude-3.7, enquanto a melhor linha de base chegou a apenas 75 trechos
    • Basta pedir ao Claude para criar um substituto drop-in de uma biblioteca existente e validar a funcionalidade com a suíte de testes dessa biblioteca
      Ele praticamente plagia a biblioteca de memória, só sem os comentários
  • Se sair alguma coisa boa da IA, talvez seja arruinar a lei de direitos autorais para sempre
    Ninguém deveria poder “possuir” ideias. Apoio royalties para uso comercial, mas a pirataria não comercial e fanart não autorizada, do jeito que conhecemos, deveriam ser 100% legais

    • Então é só abolir os direitos autorais para todo mundo. Em vez disso, estamos presos num sistema pior, em que megacorporações plagiam alegremente o que é de todos, enquanto mandam equipe da SWAT para matar quem pirateia filme
    • Direitos autorais nunca protegeram “ideias”, e continuam não protegendo. O que protegem é a expressão
    • Uma música, por exemplo, é muito mais do que uma ideia. Além da ideia, há arranjo, produção, execução e outros trabalhos envolvidos
      Diferentemente do sistema atual, parece bem razoável a lógica de permitir que alguém possua uma obra por um período limitado e de forma restrita
    • O maior problema não é a comercialização quebrada, e sim a atribuição quebrada
      Se você cria arte, merece reconhecimento. A arte é uma forma importante de expressão humana
    • Os direitos autorais não vão quebrar; como sempre, vão se curvar seletivamente à gravidade da riqueza
      Você não vai poder “baixar” um livro fora de catálogo do anna's archive, mas as empresas vão treinar com todos esses dados e cobrar assinatura com prazer para entregar resumos
  • Não sei por que isso seria surpreendente. Todo mundo sabe que empresas de IA roubaram enormes volumes de dados para treinar seus modelos, então por que alguém acha que elas parariam? Elas já pagaram de verdade pelo roubo em massa de dados protegidos por direitos autorais?
    Nós não podemos roubar esses dados nem lucrar com eles, mas elas, por algum motivo, podem. Imagino que seja porque estão melhorando o mundo e fazendo a humanidade avançar

    • Esses dados não foram roubados. Eles ainda estão lá
    • O motivo para parar é que as fontes agora estão contaminadas por IA. Pelo menos já é um motivo para parar o scraping
    • O motivo é simples. Se a Microsoft rouba o seu trabalho, o PIB sobe; se você rouba o trabalho da Microsoft, o PIB cai
      Quem faz e aplica as leis quer que o PIB suba. Para essas pessoas, moral e direitos são só uma máscara fina que pode ser descartada assim que se torna inconveniente
    • O motivo é capitalismo de compadrio. Queria saber qual é a solução
    • Toda vez que aparece uma situação ruim ou injusta, sempre surge um niilista cínico comentando “por que a surpresa?”, e isso já cansou de verdade
      Esse tipo de comentário não traz insight, não ajuda e não dá nada em que pensar. Só ajuda situações ruins a continuarem ruins
  • “Propriedade intelectual”, foi isso? É uma miragem sedutora
    https://www.gnu.org/philosophy/not-ipr.html

    • Tudo bem, desde que essa miragem se aplique do mesmo jeito à Oracle, Microsoft, Meta e Google, e também ao desenvolvedor de código aberto da vizinhança, sobrecarregado e não pago
      Um modelo de pesos abertos treinado no repositório interno inteiro da Oracle sem atribuição de fonte seria justo
  • Não entendo muito bem qual é o problema com a parte “eles colocaram um link para o meu site real no texto deles, e o texto do link é exatamente o mesmo”
    A menos que o texto do link seja muito longo, por que alguém teria de usar palavras diferentes ao colocar um link para o seu texto?

    • Sim. Isso é citar a fonte e colocar um link
    • Às vezes o link tem o formato .../post/{id}/{extra-text}. Nesse caso, extra-text não é usado de forma alguma para localizar a postagem
      Links da Amazon também costumavam funcionar assim: o nome do produto aparecia no fim da URL, mas você ainda chegava ao produto mesmo apagando ou mudando essa parte. Talvez a surpresa seja que o LLM reproduziu até a parte irrelevante do link
    • Provavelmente o título da seção estava com link para a própria página dele, ou algo parecido. Não foi um texto de indignação muito bem escrito
    • Parece que ele usa a URL do próprio site como exemplo de tutorial, e outros tutoriais simplesmente copiaram isso
    • Imagine que existam duas páginas. Uma é uma receita de maçã frita e a outra é uma lista ranqueando tipos de maçã pelo sabor
      Digamos que a receita de maçã frita tenha um link para a lista de maçãs. Mais tarde, alguém copia sua receita sem atribuição, mas continua usando o mesmo texto para apontar para a lista de maçãs. Eles roubaram o seu texto e ainda assim conseguem mais visibilidade no Google e mais receita de anúncios. Esse é o problema
  • Parece haver duas coisas sendo confundidas
    Primeiro, a tecnologia de LLMs/transformers é de fato impressionante e revolucionária. Segundo, no fim das contas, eles funcionam como um banco de dados gigantesco e eficaz que contém a maior parte do conhecimento humano. O item 1 obscurece o item 2. Se alguém tivesse colocado toda a produção digital existente num banco de dados SQL e a entregasse de graça sob demanda, não haveria qualquer ambiguidade legal. Mas processos como destilação escondem essa relação e fazem parecer algo diferente de uma simples consulta. E, na prática, realmente é mais do que isso

  • Sou advogado de propriedade intelectual e trabalho com isso na prática
    Não é aconselhamento jurídico, mas, se você cria conteúdo online — código em repositório público, blog, podcast, YouTube, publicações, até blog de hobby — a decisão mais inteligente é fazer registro de direitos autorais nos EUA. A Anthropic pagou US$ 1,5 bilhão em acordo coletivo a autores por violação de direitos autorais. Se o trabalho da comunidade do HN estivesse protegido, poderia haver enormes indenizações legais por todo o scraping feito por LLMs. Trabalho com centenas de autores e editoras, formando uma coalizão para proteger e licenciar o que eles produzem

    • A Anthropic não perdeu por raspar obras protegidas por direitos autorais, ou seja, por lê-las. Ela perdeu por distribuir diretamente obras protegidas via torrent
      Não é a mesma coisa
    • Sempre ouvi dizer que os direitos autorais surgem automaticamente. Registrar direitos autorais custa dinheiro? Tem que fazer isso para cada post de blog? Para cada gist?
      Se isso for necessário para eu realmente ter os direitos autorais que imaginei ter, até faço um script para automatizar
    • O simples ato de publicar uma obra original online já não cria direitos autorais?
    • Não entendo o que significa “registrar direitos autorais”. Todas as explicações que já vi diziam que você automaticamente possui os direitos autorais sobre a obra criada e que, a menos que abra mão deles por licença, o padrão é “todos os direitos reservados”
      Isso deixou de ser verdade? Por que mudou de repente? Quando foi que mudou?
    • Ninguém vai fazer isso, ou pelo menos gente suficiente não vai fazer, então qual é o plano B?
  • Tecnicamente ser ou não infração de direitos autorais não é meu principal problema
    O problema maior é que a capacidade de extrair renda de conteúdo do mundo inteiro está se concentrando nas mãos de poucas empresas que conseguem construir datacenters em grande escala. Isso é um problema enorme. Se minha página, site de notícias, revista online e arte comercial são sugados para dentro do modelo, enquanto eu fico fora dos incentivos, por que eu criaria qualquer coisa? Se hoje isso não é ilegal sob a lei de direitos autorais, então precisamos de um novo marco legal, porque isso é uma tragédia absoluta para a criatividade humana e para os pequenos negócios

    • Com o Google, passamos exatamente pelo mesmo processo. Depois que ele virou o único caminho para as pessoas encontrarem sites, argumentava-se que o Google estava apenas capturando renda econômica indevida
  • É a repetição da mesma dinâmica do caso do Google: quando um pequeno número de atores controla a porta de entrada para as pessoas chegarem aos websites, no fim acaba absorvendo a maior parte do valor