Quais são hoje os métodos para dificultar o treinamento de LLMs com imagens de obras?

(lobste.rs)

1 pontos por GN⁺ 4 시간 전 | 1 comentários | Compartilhar no WhatsApp

Um usuário disse que sua esposa está hesitando em publicar online imagens de suas obras porque não quer que elas sejam usadas no treinamento de LLMs
O ponto central da pergunta é se atualmente existem bibliotecas ou métodos práticos para dificultar o treinamento de LLMs por meio de pré-processamento das imagens
O usuário quer saber se há ferramentas em um nível que lhe permitam criar ele mesmo um site personalizado para a esposa
Ele não tem muita experiência com frontend, mas consegue criar sites simples com geradores de sites estáticos
No passado, já usou Eleventy para fazer o site de uma banda, então está considerando montar um site estático de forma semelhante

Contexto da pergunta

A esposa não quer publicar online imagens de suas obras
- O motivo é que ela não quer que essas imagens sejam usadas no treinamento de LLMs
O usuário está procurando formas de pré-processar as imagens das obras para dificultar o treinamento de LLMs

Solução desejada

Ele está considerando criar por conta própria um site personalizado para a esposa
A condição necessária é saber se de fato existem bibliotecas ou métodos capazes de processar as imagens das obras para atrapalhar o treinamento de LLMs
Suas condições técnicas são as seguintes
- Não tem muita experiência com frontend
- Consegue criar sites simples com geradores de sites estáticos
- Já criou anteriormente um site de banda com Eleventy

1 comentários

GN⁺ 4 시간 전

Opiniões no Lobste.rs

Atualização: pode valer a pena dar uma olhada no cara
Minha amiga artista publica os trabalhos dela lá e parece estar satisfeita
Eles se apresentam como artist-first, são publicamente anti-IA e aparentemente também têm integração com o Glaze para impedir que imagens sejam usadas em treinamento de IA
E o que você queria dizer provavelmente não era LLM, e sim modelos de difusão. Como LLMs lidam com texto, isso pode ajudar na hora de pesquisar
Lembro do Nightshade, mas, dando uma conferida rápida, parece ser algo lançado por volta de 2023/24, e não encontrei sinais de repositório ou manutenção
O problema com abordagens de envenenar ou esconder obras de arte acessíveis a LLMs é que não dá para saber, nem talvez seja possível saber, o quanto isso funciona. No fim, tudo entra numa caixa-preta
Se você não quer que seu trabalho seja coletado por LLMs, há algumas opções, cada uma com vantagens e desvantagens
1. Não publicar online. É bem simples, mas só funciona se outra pessoa também não publicar. No caso de livros, empresas de IA ainda podem conseguir o material por outros meios, como digitalização
2. Publicar online apenas atrás de cadastro e login. Pessoas interessadas conseguem acessar, e LLMs comuns não conseguem. Claro, isso parte do pressuposto de que ninguém vai republicar sem a barreira de login
3. Publicar atrás de uma defesa forte contra crawlers. É meio constrangedor falar da minha própria ferramenta, mas colocar algo como o iocaine na frente do site pode bloquear muitos crawlers. Não todos, mas o suficiente para reduzir bastante a chance de entrar em treinamento, sem criar uma barreira grande para visitantes legítimos
  Outro ponto importante é que, se você quer ficar fora dos dados de treinamento, provavelmente também precisa de não aparecer em mecanismos de busca. Mecanismos de busca comerciais treinam com o que indexam, então, se o material pode ser encontrado no Google, há uma boa chance de que também tenha ido parar no Gemini
  No fim, se você quer criar um site de portfólio sem treinamento de LLM, isso é difícil. Se a ideia é apenas colocar a obra online, uma barreira de login ou uma defesa forte contra crawlers já reduz bastante a possibilidade de treinamento. Infelizmente, não dá para chegar a 0, e não existe nenhuma ferramenta mágica que permita ter certeza de que a obra está escondida ou envenenada
Acho que a intuição da sua esposa está certa. Pelo menos publicamente, a resposta mais próxima é não colocar online
- É desagradável, mas parece que a maior parte da expressão criativa humana em geral está nessa situação
  Se você não quer virar combustível para a máquina de gerar coisa ruim, não pode compartilhar publicamente
Nunca achei que diria isso, mas parece que precisamos de um DRM mais forte. Teria que ser em um nível em que fosse possível rastrear a origem até dentro do modelo, mas nem está claro se algo assim pode existir
Fora isso, acho que sua esposa está certa, e a ofuscação contra LLM não parece ser uma medida de mitigação duradoura
- Ver pessoas defendendo DRM no meu fórum hacker favorito mostra o quanto a situação está séria
- Felizmente, DRM não funciona e não pode funcionar
  Mesmo que funcionasse, não dá para esperar que fosse implementado para proteger os direitos de quem já não está do lado mais forte
- De jeito nenhum. Não precisamos de um DRM mais forte
  A única maneira de conseguir isso, e ainda assim no fim seria quebrado, seria usar enclaves criptográficos em hardware verificável, e isso vai na direção de tirar cada vez mais dos usuários o direito de controlar seus próprios dispositivos
- Considerando que eles ignoram completamente copyright, licenças e tudo mais, não acho que colocar mais DRM vá ajudar
  E, dado o volume de dinheiro que essas empresas queimam por dia, DRM também não parece que seria um grande obstáculo
  No resultado, isso talvez só faça com que entre apenas nos modelos com mais financiamento
  Dependendo de como você define DRM, essa própria ofuscação pode ser chamada de DRM
Dei uma olhada no Glaze há um ano e meio e até entrei em contato com o laboratório para fazer algumas perguntas de verificação, mas, pelo que lembro, não recebi resposta
Nesse processo, vi limitações e ressalvas demais. Não sei como está o estado da arte agora, mas não sou otimista de que um envenenamento de imagem genérico vá funcionar contra a maioria dos modelos
Em alguns modelos e em algumas condições, o Glaze funcionou

Quais são hoje os métodos para dificultar o treinamento de LLMs com imagens de obras?

Contexto da pergunta

Solução desejada

Leituras relacionadas

1 comentários

Opiniões no Lobste.rs