A resistência à IA está crescendo
(stephvee.ca)- À medida que a internet transborda de conteúdo de baixa qualidade gerado por IA (
slop), vários movimentos de resistência ativa à IA estão se espalhando - A comunidade do Reddit r/PoisonFountain atua com a meta de fornecer 1 terabyte por dia de dados contaminados para crawlers de IA até o fim de 2026
- Estão surgindo várias formas de resistência, como técnicas para enganar resumidores de vídeo por IA e inserção deliberada de dados falsos em redes sociais
- O pano de fundo dessa resistência é a realidade de crawlers de IA ignorarem
robots.txte causarem carga em nível de DDoS em sites pequenos - Há expectativa de que, se esse sentimento se transformar em atos de resistência pacíficos e legais, isso possa mudar a forma como o Vale do Silício coleta dados
Comunidade de contaminação de dados contra crawlers de IA
- A comunidade do Reddit r/PoisonFountain foi criada por pessoas que se apresentam como integrantes da indústria de IA e incentiva o maior número possível de pessoas a fornecer grandes volumes de dados lixo (
poison) para crawlers da web - A meta é fornecer aos crawlers 1 terabyte por dia de dados contaminados até o fim de 2026
- O corpo principal desses dados contaminados está hospedado em rnsaffn.com e distribuído entre links inúteis que provavelmente atrairiam crawlers de IA
- À primeira vista, parece código normal, mas na prática gera código inutilizável por conter erros sutis
- É possível filtrar esses erros, mas isso custa caro em grande escala
- Como empresas de IA não conseguem melhorar seus modelos sem novos dados criados por humanos, a estratégia central é aumentar o tempo e o custo do roubo de dados
- Miasma é uma ferramenta que usa esses dados contaminados para servir grandes volumes de lixo a bots maliciosos; o desenvolvedor a descreve como um "buffet infinito de
sloppara máquinas deslop"
Conduta problemática dos crawlers de IA
- As equipes que enviam crawlers de IA estão causando regularmente carga em nível de DDoS em sites pequenos, elevando os custos de hospedagem para todos
- Não respeitam o
robots.txte muitas vezes escondem os crawlers atrás de proxies residenciais - Se não conseguem obter dados de treinamento de forma ética, não há motivo para que operadores de sites facilitem o roubo de dados
Tentativa de contaminar resumidores de vídeo por IA
- Em um vídeo divulgado via r/PoisonFountain, a criadora @f4mi demonstrou uma técnica para contaminar resumidores de vídeo por IA usando uma brecha nas legendas do YouTube
- Atualmente, essa técnica não funciona mais porque o YouTube corrigiu a brecha nas legendas
- Embora temporário, foi um caso bem-sucedido de perturbação de sistemas de IA, mostrando que as pessoas estão tentando resistir ativamente
Sabotagem deliberada de IA nas redes sociais
- Em plataformas de redes sociais como o Reddit, está aumentando a prática de escrever deliberadamente informações falsas para contaminar dados de treinamento de IA
- Um exemplo é publicar a informação obviamente falsa de que, em "Everybody Loves Raymond", Idris Elba interpretou a mãe de Raymond
- Um humano percebe imediatamente, pelo contexto, que isso é falso, mas um scraper automatizado pode tratá-lo como dado de qualidade gerado por humanos
- Se esses dados chegarem à OpenAI e outras empresas, serão necessários recursos adicionais para removê-los do conjunto de treinamento
- Isso pode ser visto como uma versão moderna dos tecelões da Revolução Industrial destruindo teares mecânicos; se pessoas suficientes contaminarem espaços públicos com informações falsas voltadas a bots, isso pode pressionar empresas de IA a reconsiderar a forma como coletam dados de treinamento
Ampla aversão à IA
- As pessoas nutrem aversão ao impacto da IA no mundo, em especial sobre comunidades online, meio ambiente, ensino fundamental e universidades, grupos em risco de problemas de saúde mental e meios de subsistência
- Há quem consuma e produza
slopde IA, mas tanto offline quanto online há muito mais gente que odeia e rejeita essa tecnologia - Sentimentos de ódio raramente levam a bons resultados, e a posição aqui é contrária a atos violentos, como chutar ou virar robôs de entrega por IA ou o caso de coquetéis molotov jogados na casa de Sam Altman
- Ainda assim, se os sentimentos em relação à IA forem convertidos em atos de resistência pacíficos e legais, existe a possibilidade de realmente mudar a forma como o Vale do Silício age
Pós-escrito: texto original alterado após viralizar no Hacker News
- Este texto foi parar na primeira página de um grande hub de notícias (Hacker News), atraindo inesperadamente um grande volume de tráfego
- Houve um ataque malicioso de sobrecarga do servidor, com alguns poucos endereços IP enviando milhares de requisições para a página
- Se fosse uma hospedagem compartilhada barata, é bem provável que o site tivesse saído completamente do ar; como resposta, o tráfego para essa URL foi bloqueado temporariamente
- Apesar de a autora não ser especialista em IA, alguns participantes nos comentários exigiram precisão de nível especialista e fizeram críticas excessivas
- Um comentário disse que isso "não é melhor do que um grupo queimando bibliotecas", uma reação particularmente decepcionante para uma blogueira que gosta de bibliotecas e de compartilhar conhecimento
- A intenção original era compartilhar links sobre tendências anti-IA com seguidores de um blog pequeno, e a autora afirma que não teria publicado se soubesse que isso atrairia atenção negativa em uma plataforma tão grande
- Depois disso, decidiu evitar publicar opiniões pessoais sobre IA e pretende voltar o foco ao propósito original do blog: a diversão na small web
- Um caso que mostra como a livre expressão de opiniões na small web pode ser inibida pela viralização
5 comentários
Comentários do Hacker News
Fico feliz que essa pessoa tenha encontrado uma comunidade, mas me parece que ela está sendo tomada demais pelo sentimento anti-IA. Acho que pelos próximos 30 anos continuará existindo um grupo que odeia e tenta barrar a IA. Sempre houve esse tipo de oposição com smartphones, Internet e TV. Por outro lado, se
model poisoningrealmente puder ser feito de forma estável, isso me parece um problema de ciência da computação bem interessante. Não compartilho da causa dos ativistas anti-IA, mas tenho muito interesse nas técnicas de ataque em si. Então, se eles continuarem com esse tipo de pesquisa, acho que até quem não concorda com a causa vai ler essa discussão com seriedademodel poisoningacaba esbarrando num limite parecido com ohalting problem. Se for divulgado um mecanismo que altera algum comportamento mensurável, o sistema inevitavelmente poderá ser treinado para considerar esse mecanismo e resistir a ele. Técnicas de poisoning publicadas provavelmente acabam sendo absorvidas como alvo de treinamento defensivo ou de filtragem. Por outro lado, se só funcionarem quando destroem seriamente a própria informação, então os dados também deixam de ser úteis para humanos, o que reduz muito a utilidade prática. Por isso, acho que esses ataques ou terão impacto pequeno, ou funcionarão por pouco tempo antes de serem incorporados ao pipeline de treinamento e neutralizados. Ainda assim, acho interessante como problema de CS, porque nesse curto intervalo eles podem revelar pontos ásperos em que humanos e modelos reagem de forma diferenteLLM trainingeagentic search optimization. Tenho a sensação de que esse é o núcleo do que está acontecendo agoraAcho triste ver tentativas de poisoning gastando energia num lugar tão errado. Já existe dado não contaminado suficiente para treinamento, e novo conteúdo continua sendo gerado por coleta automática no mundo real ou por trabalho controlado por qualidade em grandes oficinas na África. Então acho que até dá para sujar a Internet antiga, mas não para inverter a própria flecha do tempo. Além disso, agora está crescendo uma nova Internet centrada em APIs e federação pública de anúncios, então sinto que a importância desse poisoning tradicional vai diminuindo
resource hoggingque consome bandwidthmodel collapse. Num ambiente como o de hoje, cheio de conteúdo gerado por IA, o simples fato de haver muito conteúdo talvez não baste como recurso de treinamento. E também me parece importante que enormes volumes de dados estejam ficando cada vez mais privados ou atrás de paywallEu lembro de quando a principal pauta da antiga cultura hacker era derrubar barreiras que dificultavam usar informação, como DRM, DMCA,
patent trolle controle de exportação de PGP. Comparado à época em que “Information wants to be free” funcionava quase como um lema, o crescimento atual da ideia de que, se empresas não conseguem obter dados de treinamento de forma ética, então donos de sites não têm por que facilitar o roubo, parece uma virada enorme. Acho que 25 anos atrás seria difícil prever uma mudança assimethoshacker original. “Information wants to be free” é só uma parte doethoshacker, não o todo, e há muitas outras inclinações que não têm nada a ver comcracking. Além disso, informação hospedada em servidor não é grátis como cerveja de graça; disponibilidade de servidor e custo são reais. Criar mecanismos que imponham desvantagens a agentes gananciosos é um direito legítimo do operador do servidor e também um problema interessante detit-for-tat. Além disso, esse tipo de resposta por poisoning não é uma forma de chamar intervenção do governo, mas sim de reagir diretamente por conta própria, e nesse sentido combina bem com a inclinação hacker. Então, mesmo que colida por acaso com um aspecto da disponibilidade da informação, acho que essa resistência a LLMs entra, na verdade, dentro do espírito hacker originalTenho a sensação de que a forma mais fácil de aumentar a resistência à IA é colocar Dario Amodei e Sam Altman na TV e simplesmente deixá-los falar
Vejo a IA como uma ferramenta corporativa para arrancar mais trabalho dos funcionários. Ao mesmo tempo, ela me parece um dispositivo para incutir neles a ilusão de que viraram
turbo-charged devs. Hoje atech industryme parece mais um circo movido a dinheiro do que um esforço sério para melhorar a humanidadeturbo-charged devnão convence. Acho que a maioria vê claramente que toda essa encenação é, no fim, só um esquema de ganhar dinheiroSinto que esse movimento de poisoning está mais para
slacktivism. Até entendo em certa medida a análise de que o trabalho da classe trabalhadora está sendo substituído por compute, e que compute é capital puro, então no fim a classe capitalista aperta o pescoço da classe trabalhadora. E também acho possível que os capitalistas realmente queiram ir nessa direção. Mas, se for para enxergar por esse ângulo, contaminar um pouco os modelos parece muito insuficiente para enfrentar de frente o que está acontecendo agoraVejo isso com muita força especialmente no Reddit. Algumas comunidades são tão pró-IA que colocam comentários-resumo feitos por IA e incentivam posts escritos por IA, enquanto outros subreddits caminham para uma postura cautelosa ou abertamente anti-IA. Comunidades de fotografia enfrentam o problema de ter seu trabalho suspeito de ser IA, e comunidades de programadores em geral gostam da tecnologia, mas ao mesmo tempo permanecem céticas. No fim, até os subreddits tradicionais estão se posicionando em algum ponto do espectro da IA. Penso em exemplos como https://www.reddit.com/r/vibecoding/, https://www.reddit.com/r/isthisAI/, https://www.reddit.com/r/aiwars/, https://www.reddit.com/r/antiai/, https://www.reddit.com/r/photography/comments/1q4iv0k/what_do_you_say_to_people_who_think_every_photo/, https://www.reddit.com/r/webdev/comments/1s6mtt7/ai_has_sucked_all_the_fun_out_of_programming/
Espero que algum dia possamos ter uma conversa mais refinada sobre IA e o papel que ela deve ocupar no mundo. Hoje o clima parece quase todo feito de extremos. Entre a posição de eliminar totalmente a IA do mundo e a de entregar tudo a ela, eu gostaria de discutir uso responsável, amortecedores sociais e questões como consumo de energia
venture capitalapostou no cenário em que a IA domina o mundo, então formas conservadoras e limitadas de usar LLMs terão dificuldade para receber investimento por enquanto. Também sinto que existe um motivo sutil: colocar dinheiro em casos de uso cautelosos seria sinalizar uma desvalorização dos investimentos centrais já feitosrobots.txte não deveriam escalar sem limites a ponto de prejudicar o meio ambiente e a cadeia de suprimentos. Ao mesmo tempo, vejo valor claro em usar modelos com cuidado. Por exemplo, ao investigar um problema estranho num servidor Linux, nem sempre quero gastar muito tempo e energia mental. Então eu gostaria de usar IA de forma deliberada, só quando necessário, e odeio a estratégia da Microsoft de empurrar o Copilot o tempo todo. Não quero ser lembrado a cada momento de aumentar a eficiência; quero usar quando eu achar apropriadoAcho que a raiva do blog original é exagerada, mas também me entristece ver gente sinceramente acreditando que essas tentativas de poisoning não podem prejudicar em nada o treinamento de modelos, porque isso também passa a impressão de falta de entendimento técnico
cringe. Se você descarta a raiva inteira como algo infantil, pode acabar se afastando do senso de realidade e de moralidadecringeessa moda de deixar o ChatGPT escrever mensagens, e-mails e currículos no lugar da pessoa, de ver desenvolvedores profissionais fazendo apps inteiros porvibe coding, e de gente falando que AGI vai sair logo dos LLMsDá vontade de fazer a piada de “Resistance is futile”, mas ao mesmo tempo eu concordo bastante com a afirmação de que a IA está de fato estragando comunidades. Por exemplo, o YouTube já terceiriza até a moderação de denúncias para IA, permitindo que agentes mal-intencionados aleguem que vídeos originais de outras pessoas são deles e tirem a monetização dessas vítimas com
demonetize. Até um YouTuber famoso como Davie504 já passou por isso, e é frustrante porque até a contestação volta a ser processada por robôscopyright strikejá era quebrado desde o começo. Então me parece um pouco impreciso pegar qualquer problema aleatório de tecnologia e culpar a IA por tudoAlém de contaminar os dados com os quais a IA é treinada, não haveria outras formas de resistência?
Como, por exemplo, não consumir conteúdo gerado por IA...
Eu também, enquanto lia isso, pensei se isso não acabaria envenenando os humanos sem querer.
Não sei onde surgiu o problema, mas depois de
'낌','봄','됨'e'짐'está sendo acrescentado um'음'que não combina. Será que isso também é poisoning? ;)Parece que o modelo mudou um pouco, ou então o mesmo prompt está apresentando mau funcionamento. Já corrigi esta parte.