- Um usuário disse que sua esposa está hesitando em publicar online imagens de suas obras porque não quer que elas sejam usadas no treinamento de LLMs
- O ponto central da pergunta é se atualmente existem bibliotecas ou métodos práticos para dificultar o treinamento de LLMs por meio de pré-processamento das imagens
- O usuário quer saber se há ferramentas em um nível que lhe permitam criar ele mesmo um site personalizado para a esposa
- Ele não tem muita experiência com frontend, mas consegue criar sites simples com geradores de sites estáticos
- No passado, já usou Eleventy para fazer o site de uma banda, então está considerando montar um site estático de forma semelhante
Contexto da pergunta
- A esposa não quer publicar online imagens de suas obras
- O motivo é que ela não quer que essas imagens sejam usadas no treinamento de LLMs
- O usuário está procurando formas de pré-processar as imagens das obras para dificultar o treinamento de LLMs
Solução desejada
- Ele está considerando criar por conta própria um site personalizado para a esposa
- A condição necessária é saber se de fato existem bibliotecas ou métodos capazes de processar as imagens das obras para atrapalhar o treinamento de LLMs
- Suas condições técnicas são as seguintes
- Não tem muita experiência com frontend
- Consegue criar sites simples com geradores de sites estáticos
- Já criou anteriormente um site de banda com Eleventy
1 comentários
Opiniões no Lobste.rs
Atualização: pode valer a pena dar uma olhada no cara
Minha amiga artista publica os trabalhos dela lá e parece estar satisfeita
Eles se apresentam como artist-first, são publicamente anti-IA e aparentemente também têm integração com o Glaze para impedir que imagens sejam usadas em treinamento de IA
E o que você queria dizer provavelmente não era LLM, e sim modelos de difusão. Como LLMs lidam com texto, isso pode ajudar na hora de pesquisar
Lembro do Nightshade, mas, dando uma conferida rápida, parece ser algo lançado por volta de 2023/24, e não encontrei sinais de repositório ou manutenção
O problema com abordagens de envenenar ou esconder obras de arte acessíveis a LLMs é que não dá para saber, nem talvez seja possível saber, o quanto isso funciona. No fim, tudo entra numa caixa-preta
Se você não quer que seu trabalho seja coletado por LLMs, há algumas opções, cada uma com vantagens e desvantagens
Outro ponto importante é que, se você quer ficar fora dos dados de treinamento, provavelmente também precisa de não aparecer em mecanismos de busca. Mecanismos de busca comerciais treinam com o que indexam, então, se o material pode ser encontrado no Google, há uma boa chance de que também tenha ido parar no Gemini
No fim, se você quer criar um site de portfólio sem treinamento de LLM, isso é difícil. Se a ideia é apenas colocar a obra online, uma barreira de login ou uma defesa forte contra crawlers já reduz bastante a possibilidade de treinamento. Infelizmente, não dá para chegar a 0, e não existe nenhuma ferramenta mágica que permita ter certeza de que a obra está escondida ou envenenada
Acho que a intuição da sua esposa está certa. Pelo menos publicamente, a resposta mais próxima é não colocar online
Se você não quer virar combustível para a máquina de gerar coisa ruim, não pode compartilhar publicamente
Nunca achei que diria isso, mas parece que precisamos de um DRM mais forte. Teria que ser em um nível em que fosse possível rastrear a origem até dentro do modelo, mas nem está claro se algo assim pode existir
Fora isso, acho que sua esposa está certa, e a ofuscação contra LLM não parece ser uma medida de mitigação duradoura
Mesmo que funcionasse, não dá para esperar que fosse implementado para proteger os direitos de quem já não está do lado mais forte
A única maneira de conseguir isso, e ainda assim no fim seria quebrado, seria usar enclaves criptográficos em hardware verificável, e isso vai na direção de tirar cada vez mais dos usuários o direito de controlar seus próprios dispositivos
E, dado o volume de dinheiro que essas empresas queimam por dia, DRM também não parece que seria um grande obstáculo
No resultado, isso talvez só faça com que entre apenas nos modelos com mais financiamento
Dependendo de como você define DRM, essa própria ofuscação pode ser chamada de DRM
Dei uma olhada no Glaze há um ano e meio e até entrei em contato com o laboratório para fazer algumas perguntas de verificação, mas, pelo que lembro, não recebi resposta
Nesse processo, vi limitações e ressalvas demais. Não sei como está o estado da arte agora, mas não sou otimista de que um envenenamento de imagem genérico vá funcionar contra a maioria dos modelos
Em alguns modelos e em algumas condições, o Glaze funcionou