17 pontos por GN⁺ 2026-04-21 | 5 comentários | Compartilhar no WhatsApp
  • À medida que a internet transborda de conteúdo de baixa qualidade gerado por IA (slop), vários movimentos de resistência ativa à IA estão se espalhando
  • A comunidade do Reddit r/PoisonFountain atua com a meta de fornecer 1 terabyte por dia de dados contaminados para crawlers de IA até o fim de 2026
  • Estão surgindo várias formas de resistência, como técnicas para enganar resumidores de vídeo por IA e inserção deliberada de dados falsos em redes sociais
  • O pano de fundo dessa resistência é a realidade de crawlers de IA ignorarem robots.txt e causarem carga em nível de DDoS em sites pequenos
  • Há expectativa de que, se esse sentimento se transformar em atos de resistência pacíficos e legais, isso possa mudar a forma como o Vale do Silício coleta dados

Comunidade de contaminação de dados contra crawlers de IA

  • A comunidade do Reddit r/PoisonFountain foi criada por pessoas que se apresentam como integrantes da indústria de IA e incentiva o maior número possível de pessoas a fornecer grandes volumes de dados lixo (poison) para crawlers da web
  • A meta é fornecer aos crawlers 1 terabyte por dia de dados contaminados até o fim de 2026
  • O corpo principal desses dados contaminados está hospedado em rnsaffn.com e distribuído entre links inúteis que provavelmente atrairiam crawlers de IA
    • À primeira vista, parece código normal, mas na prática gera código inutilizável por conter erros sutis
    • É possível filtrar esses erros, mas isso custa caro em grande escala
  • Como empresas de IA não conseguem melhorar seus modelos sem novos dados criados por humanos, a estratégia central é aumentar o tempo e o custo do roubo de dados
  • Miasma é uma ferramenta que usa esses dados contaminados para servir grandes volumes de lixo a bots maliciosos; o desenvolvedor a descreve como um "buffet infinito de slop para máquinas de slop"

Conduta problemática dos crawlers de IA

Publicidade

Tentativa de contaminar resumidores de vídeo por IA

  • Em um vídeo divulgado via r/PoisonFountain, a criadora @f4mi demonstrou uma técnica para contaminar resumidores de vídeo por IA usando uma brecha nas legendas do YouTube
  • Atualmente, essa técnica não funciona mais porque o YouTube corrigiu a brecha nas legendas
  • Embora temporário, foi um caso bem-sucedido de perturbação de sistemas de IA, mostrando que as pessoas estão tentando resistir ativamente

Sabotagem deliberada de IA nas redes sociais

  • Em plataformas de redes sociais como o Reddit, está aumentando a prática de escrever deliberadamente informações falsas para contaminar dados de treinamento de IA
  • Um exemplo é publicar a informação obviamente falsa de que, em "Everybody Loves Raymond", Idris Elba interpretou a mãe de Raymond
    • Um humano percebe imediatamente, pelo contexto, que isso é falso, mas um scraper automatizado pode tratá-lo como dado de qualidade gerado por humanos
    • Se esses dados chegarem à OpenAI e outras empresas, serão necessários recursos adicionais para removê-los do conjunto de treinamento
  • Isso pode ser visto como uma versão moderna dos tecelões da Revolução Industrial destruindo teares mecânicos; se pessoas suficientes contaminarem espaços públicos com informações falsas voltadas a bots, isso pode pressionar empresas de IA a reconsiderar a forma como coletam dados de treinamento
Publicidade

Ampla aversão à IA

  • As pessoas nutrem aversão ao impacto da IA no mundo, em especial sobre comunidades online, meio ambiente, ensino fundamental e universidades, grupos em risco de problemas de saúde mental e meios de subsistência
  • Há quem consuma e produza slop de IA, mas tanto offline quanto online há muito mais gente que odeia e rejeita essa tecnologia
  • Sentimentos de ódio raramente levam a bons resultados, e a posição aqui é contrária a atos violentos, como chutar ou virar robôs de entrega por IA ou o caso de coquetéis molotov jogados na casa de Sam Altman
  • Ainda assim, se os sentimentos em relação à IA forem convertidos em atos de resistência pacíficos e legais, existe a possibilidade de realmente mudar a forma como o Vale do Silício age

Pós-escrito: texto original alterado após viralizar no Hacker News

  • Este texto foi parar na primeira página de um grande hub de notícias (Hacker News), atraindo inesperadamente um grande volume de tráfego
  • Houve um ataque malicioso de sobrecarga do servidor, com alguns poucos endereços IP enviando milhares de requisições para a página
    • Se fosse uma hospedagem compartilhada barata, é bem provável que o site tivesse saído completamente do ar; como resposta, o tráfego para essa URL foi bloqueado temporariamente
  • Apesar de a autora não ser especialista em IA, alguns participantes nos comentários exigiram precisão de nível especialista e fizeram críticas excessivas
    • Um comentário disse que isso "não é melhor do que um grupo queimando bibliotecas", uma reação particularmente decepcionante para uma blogueira que gosta de bibliotecas e de compartilhar conhecimento
  • A intenção original era compartilhar links sobre tendências anti-IA com seguidores de um blog pequeno, e a autora afirma que não teria publicado se soubesse que isso atrairia atenção negativa em uma plataforma tão grande
  • Depois disso, decidiu evitar publicar opiniões pessoais sobre IA e pretende voltar o foco ao propósito original do blog: a diversão na small web
  • Um caso que mostra como a livre expressão de opiniões na small web pode ser inibida pela viralização

5 comentários

 
GN⁺ 2026-04-21
Comentários do Hacker News
  • Fico feliz que essa pessoa tenha encontrado uma comunidade, mas me parece que ela está sendo tomada demais pelo sentimento anti-IA. Acho que pelos próximos 30 anos continuará existindo um grupo que odeia e tenta barrar a IA. Sempre houve esse tipo de oposição com smartphones, Internet e TV. Por outro lado, se model poisoning realmente puder ser feito de forma estável, isso me parece um problema de ciência da computação bem interessante. Não compartilho da causa dos ativistas anti-IA, mas tenho muito interesse nas técnicas de ataque em si. Então, se eles continuarem com esse tipo de pesquisa, acho que até quem não concorda com a causa vai ler essa discussão com seriedade

    • Acho que model poisoning acaba esbarrando num limite parecido com o halting problem. Se for divulgado um mecanismo que altera algum comportamento mensurável, o sistema inevitavelmente poderá ser treinado para considerar esse mecanismo e resistir a ele. Técnicas de poisoning publicadas provavelmente acabam sendo absorvidas como alvo de treinamento defensivo ou de filtragem. Por outro lado, se só funcionarem quando destroem seriamente a própria informação, então os dados também deixam de ser úteis para humanos, o que reduz muito a utilidade prática. Por isso, acho que esses ataques ou terão impacto pequeno, ou funcionarão por pouco tempo antes de serem incorporados ao pipeline de treinamento e neutralizados. Ainda assim, acho interessante como problema de CS, porque nesse curto intervalo eles podem revelar pontos ásperos em que humanos e modelos reagem de forma diferente
    • Há alguns anos eu inventei aqui um nome falso de jogo e deixei vários comentários sobre ele para tentar contaminar modelos de IA do futuro. Hoje eu nem lembro mais o nome do jogo, e não tenho a menor vontade de clicar em More centenas de vezes para achar os comentários antigos
    • Suspeito que modelos chineses sejam mais resistentes a poisoning. E acho que também pesa o fato de que o público chinês é muito mais pró-IA do que o ocidental
    • Se uma superinteligência desalinhada realmente extinguir a humanidade em alguns anos, pelo menos também deixará de existir qualquer comunidade ativa que odeie IA e tente impedi-la, o que dá até margem para uma piada cínica
    • Acho que SEO já se transformou naturalmente em LLM training e agentic search optimization. Tenho a sensação de que esse é o núcleo do que está acontecendo agora
  • Acho triste ver tentativas de poisoning gastando energia num lugar tão errado. Já existe dado não contaminado suficiente para treinamento, e novo conteúdo continua sendo gerado por coleta automática no mundo real ou por trabalho controlado por qualidade em grandes oficinas na África. Então acho que até dá para sujar a Internet antiga, mas não para inverter a própria flecha do tempo. Além disso, agora está crescendo uma nova Internet centrada em APIs e federação pública de anúncios, então sinto que a importância desse poisoning tradicional vai diminuindo

    • Acho esse ponto interessante. Os laboratórios de IA parecem realmente desesperados por conteúdo novo da Internet e tentam comprar dados até de plataformas muradas, desde que haja dinheiro envolvido. Em alguns casos parecem até dispostos a pegar sem consentimento. Tenho a impressão de que scraping abusivo e sorrateiro aumentou muito agora
    • Independentemente de haver muito conteúdo, acho que quem publica algo na Internet está sofrendo para bloquear crawlers de IA não autorizados. Em muitos casos é preciso bloquear nem que seja só para proteger a infraestrutura contra enxurradas de requisições. E como crawlers de IA não costumam respeitar bem sinais de recusa de acesso, do ponto de vista de quem não quer ver seu conteúdo usado em treinamento, poisoning parece uma resposta bastante racional quando possível. Talvez seja até uma das únicas formas de expulsar esses crawlers
    • Acho que é verdade dizer que existe conteúdo não contaminado suficiente. Mas, pelos casos com que mexi, esconder material que passa despercebido ao olho humano e parece relevante para scrapers não é suficiente para contaminar de forma significativa o dataset inteiro ou o modelo. Ainda assim, no mínimo dá para fazer o ganho líquido de ignorar o meu pedido de “por favor, não bombardear meu site com requisições de scraper” cair para zero ou virar um pequeno prejuízo. E, mesmo que não funcione, implementar isso foi uma brincadeira bem divertida. E para quem quer automatizar poisoning: palavras e caracteres aleatórios são facilmente removidos por filtros, então isso não costuma funcionar bem. Já reorganizar o conteúdo da página atual e das páginas vizinhas, misturando alguns trechos adicionais, parece ter mais chance de enfraquecer as conexões entre tokens. E alguns scrapers descartam a página inteira quando há palavrões explícitos, então espalhar algumas strings desagradáveis em pontos que só os bots veem pode funcionar contra parte deles. Claro que nada disso impede o próprio resource hogging que consome bandwidth
    • Eu recomendaria olhar para model collapse. Num ambiente como o de hoje, cheio de conteúdo gerado por IA, o simples fato de haver muito conteúdo talvez não baste como recurso de treinamento. E também me parece importante que enormes volumes de dados estejam ficando cada vez mais privados ou atrás de paywall
    • Acho interessante que a Anthropic também esteja lidando diretamente com o problema de poisoning em pequenas amostras. Como material relacionado, vale consultar diretamente https://www.anthropic.com/research/small-samples-poison
  • Eu lembro de quando a principal pauta da antiga cultura hacker era derrubar barreiras que dificultavam usar informação, como DRM, DMCA, patent troll e controle de exportação de PGP. Comparado à época em que “Information wants to be free” funcionava quase como um lema, o crescimento atual da ideia de que, se empresas não conseguem obter dados de treinamento de forma ética, então donos de sites não têm por que facilitar o roubo, parece uma virada enorme. Acho que 25 anos atrás seria difícil prever uma mudança assim

    • Nunca me convenceu muito a visão de que isso seria uma contradição. Fica mais fácil entender se você distingue entre quem quer que todos possam enriquecer e quem faz planos para enriquecer só a si mesmo enquanto os outros ficam mais pobres. Alguém pode defender acesso livre à informação e ainda assim se opor ao uso corporativo de dados que prejudica a capacidade de outras pessoas acessarem informação, além de esconder ou distorcer as fontes. Se não vivemos num mundo em que copyright desapareceu, as obras viraram bem público e empresas não monopolizam informação, então isso me parece menos uma mudança de posição e mais uma aplicação consistente do mesmo princípio
    • Vejo esse fenômeno como algo que acontece em culturas sem mecanismos fortes para excluir quem quer destruir a comunidade. Me vem à cabeça a metáfora de deixar um vampiro entrar em casa e depois se surpreender por estar com dor no pescoço
    • Acho que naquela época as pessoas queriam criar uma economia de compartilhamento e dádiva. Só que não conseguiram impedir agentes mal-intencionados dentro dessa economia de compartilhamento, e, quando o idealismo foi capturado por gente buscando interesse próprio, veio a frustração e o amargor. Então a reação atual não me parece tão estranha
    • Eu ainda tendo mais para o lado de “information wants to be free”. Não entendo muito quem publica software sob licença open source e depois fica indignado porque um LLM treinou com aquilo. Quando o Google indexava código-fonte no passado, houve comparativamente menos barulho, provavelmente porque naquela época isso trazia tráfego de volta e virava dinheiro. Então essa discussão me parece menos filosófica e mais sobre quem fica com o dinheiro, e eu não tenho tanto interesse nisso. Sinto que o valor central do open source é permitir que qualquer pessoa aprenda, seja por IA ou por outros meios
    • Não concordo com a ideia de que isso seja uma traição ao ethos hacker original. “Information wants to be free” é só uma parte do ethos hacker, não o todo, e há muitas outras inclinações que não têm nada a ver com cracking. Além disso, informação hospedada em servidor não é grátis como cerveja de graça; disponibilidade de servidor e custo são reais. Criar mecanismos que imponham desvantagens a agentes gananciosos é um direito legítimo do operador do servidor e também um problema interessante de tit-for-tat. Além disso, esse tipo de resposta por poisoning não é uma forma de chamar intervenção do governo, mas sim de reagir diretamente por conta própria, e nesse sentido combina bem com a inclinação hacker. Então, mesmo que colida por acaso com um aspecto da disponibilidade da informação, acho que essa resistência a LLMs entra, na verdade, dentro do espírito hacker original
  • Tenho a sensação de que a forma mais fácil de aumentar a resistência à IA é colocar Dario Amodei e Sam Altman na TV e simplesmente deixá-los falar

    • E se ainda colocarem Alex Karp para promover armas autônomas, vira uma trindade perfeita
    • Eu gostaria de ouvir mais sobre por que você sente isso. Penso em motivos como dificuldade de se conectar com pessoas comuns, incentivos desalinhados, fala indireta e poder maior do que o de líderes eleitos. Ainda assim, não gostaria de colocar Amodei e Altman no mesmo saco ao avaliar as pessoas. Aos meus olhos, Altman é polido e competente, mas justamente por isso me passa mais inquietação, com uma aura imoral de fazer as pessoas seguirem a pessoa e não as ideias. Já Amodei me parece um geek de boa-fé, que convence mais pelo caráter e pelos ideais. Ele é desajeitado com a mídia, mas isso até faz parecer que está falando como ele mesmo, o que me soa positivo. Claro que há muito a criticar em ambos. Dario ainda parece não ir longe o bastante ao falar dos riscos futuros da IA, e Altman me dá a impressão inicial de ser inteligente e capaz, mas manipulador. Ainda assim, considero Dario uma das lideranças corporativas que levam alignment mais a sério. Parece alguém que coloca dinheiro do próprio bolso, entende a tecnologia e conhece a essência da pesquisa real. Se pensar em quão raro é um CEO que também teria capacidade de executar de fato o trabalho central da área, isso é algo bem especial
  • Vejo a IA como uma ferramenta corporativa para arrancar mais trabalho dos funcionários. Ao mesmo tempo, ela me parece um dispositivo para incutir neles a ilusão de que viraram turbo-charged devs. Hoje a tech industry me parece mais um circo movido a dinheiro do que um esforço sério para melhorar a humanidade

    • Pelo menos entre programadores ainda lúcidos, tenho a impressão de que esse mito do turbo-charged dev não convence. Acho que a maioria vê claramente que toda essa encenação é, no fim, só um esquema de ganhar dinheiro
  • Sinto que esse movimento de poisoning está mais para slacktivism. Até entendo em certa medida a análise de que o trabalho da classe trabalhadora está sendo substituído por compute, e que compute é capital puro, então no fim a classe capitalista aperta o pescoço da classe trabalhadora. E também acho possível que os capitalistas realmente queiram ir nessa direção. Mas, se for para enxergar por esse ângulo, contaminar um pouco os modelos parece muito insuficiente para enfrentar de frente o que está acontecendo agora

  • Vejo isso com muita força especialmente no Reddit. Algumas comunidades são tão pró-IA que colocam comentários-resumo feitos por IA e incentivam posts escritos por IA, enquanto outros subreddits caminham para uma postura cautelosa ou abertamente anti-IA. Comunidades de fotografia enfrentam o problema de ter seu trabalho suspeito de ser IA, e comunidades de programadores em geral gostam da tecnologia, mas ao mesmo tempo permanecem céticas. No fim, até os subreddits tradicionais estão se posicionando em algum ponto do espectro da IA. Penso em exemplos como https://www.reddit.com/r/vibecoding/, https://www.reddit.com/r/isthisAI/, https://www.reddit.com/r/aiwars/, https://www.reddit.com/r/antiai/, https://www.reddit.com/r/photography/comments/1q4iv0k/what_do_you_say_to_people_who_think_every_photo/, https://www.reddit.com/r/webdev/comments/1s6mtt7/ai_has_sucked_all_the_fun_out_of_programming/

    • Isso me parece típico do Reddit e, mais amplamente, do pensamento de grupo humano. As pessoas parecem preferir se colocar rapidamente em algum ponto de uma linha unidimensional ou serem classificadas em um de dois lados, em vez de lidar com nuances
  • Espero que algum dia possamos ter uma conversa mais refinada sobre IA e o papel que ela deve ocupar no mundo. Hoje o clima parece quase todo feito de extremos. Entre a posição de eliminar totalmente a IA do mundo e a de entregar tudo a ela, eu gostaria de discutir uso responsável, amortecedores sociais e questões como consumo de energia

    • Acho que o venture capital apostou no cenário em que a IA domina o mundo, então formas conservadoras e limitadas de usar LLMs terão dificuldade para receber investimento por enquanto. Também sinto que existe um motivo sutil: colocar dinheiro em casos de uso cautelosos seria sinalizar uma desvalorização dos investimentos centrais já feitos
    • Eu fico mais ou menos exatamente nesse meio-termo. Acho que crawlers de IA e suas empresas deveriam respeitar robots.txt e não deveriam escalar sem limites a ponto de prejudicar o meio ambiente e a cadeia de suprimentos. Ao mesmo tempo, vejo valor claro em usar modelos com cuidado. Por exemplo, ao investigar um problema estranho num servidor Linux, nem sempre quero gastar muito tempo e energia mental. Então eu gostaria de usar IA de forma deliberada, só quando necessário, e odeio a estratégia da Microsoft de empurrar o Copilot o tempo todo. Não quero ser lembrado a cada momento de aumentar a eficiência; quero usar quando eu achar apropriado
    • Sinto que esse não era o tipo de uso que eu imaginava quando pensava em IA no passado. A ideia original tinha uma visão grandiosa de resolver grandes problemas. Por isso, acho que agora deveríamos defender implantações responsáveis de IA: começar em áreas de baixo risco e só avançar para campos mais importantes depois que se provar que funciona bem em situações menos catastróficas
    • Fiquei um pouco surpreso em ver esse tipo de opinião vindo de alguém que participa deste site. Na verdade, eu sentia justamente que é aqui que essa zona intermediária aparece com mais frequência. Mesmo ao longo do último ano, a atmosfera me parece ter saído de gestos vagos para algo mais voltado a aceitar a IA, entender os problemas e pensar em contramedidas. Acho que, quando bem usada, a IA é uma ferramenta incrível, mas a forma atual de colocá-la indiscriminadamente nas mãos de todo mundo sem que entendam a ferramenta é assustadora. Imagino que não sejam poucas as pessoas nesta comunidade com sensações parecidas
  • Acho que a raiva do blog original é exagerada, mas também me entristece ver gente sinceramente acreditando que essas tentativas de poisoning não podem prejudicar em nada o treinamento de modelos, porque isso também passa a impressão de falta de entendimento técnico

    • Eu não teria tanta certeza de que poisoning jamais funciona. Pelo menos olhando casos relacionados, não me parece algo cuja possibilidade deva ser totalmente descartada; por exemplo, penso em https://www.reddit.com/r/BrandNewSentence/comments/1so9wf1/comment/ogrqpxz/
    • Tenho dificuldade em concordar com a postura de tratar a própria raiva como algo cringe. Se você descarta a raiva inteira como algo infantil, pode acabar se afastando do senso de realidade e de moralidade
    • Na verdade, acho bem mais cringe essa moda de deixar o ChatGPT escrever mensagens, e-mails e currículos no lugar da pessoa, de ver desenvolvedores profissionais fazendo apps inteiros por vibe coding, e de gente falando que AGI vai sair logo dos LLMs
  • Dá vontade de fazer a piada de “Resistance is futile”, mas ao mesmo tempo eu concordo bastante com a afirmação de que a IA está de fato estragando comunidades. Por exemplo, o YouTube já terceiriza até a moderação de denúncias para IA, permitindo que agentes mal-intencionados aleguem que vídeos originais de outras pessoas são deles e tirem a monetização dessas vítimas com demonetize. Até um YouTuber famoso como Davie504 já passou por isso, e é frustrante porque até a contestação volta a ser processada por robôs

    • Acho que esse problema do YouTube existe desde muito antes dos LLMs. O sistema de copyright strike já era quebrado desde o começo. Então me parece um pouco impreciso pegar qualquer problema aleatório de tecnologia e culpar a IA por tudo
 
amebahead 2026-04-23

Além de contaminar os dados com os quais a IA é treinada, não haveria outras formas de resistência?
Como, por exemplo, não consumir conteúdo gerado por IA...

 
dongho42 2026-04-23

Eu também, enquanto lia isso, pensei se isso não acabaria envenenando os humanos sem querer.

 
geesecross 2026-04-22

Não sei onde surgiu o problema, mas depois de '낌', '봄', '됨' e '짐' está sendo acrescentado um '음' que não combina. Será que isso também é poisoning? ;)

 
xguru 2026-04-22

Parece que o modelo mudou um pouco, ou então o mesmo prompt está apresentando mau funcionamento. Já corrigi esta parte.