- Projeto público de blacklist para bloquear sites de fazendas de conteúdo gerado por AI no uBlock Origin
- Sites escritos por AI generativa costumam estar cheios de anúncios e links de afiliados, além de frequentemente conterem informações não confiáveis
- O usuário pode aplicar a lista de bloqueio assinando o arquivo
list.txt ou adicionando a URL manualmente
- São apresentados de forma concreta as características e os critérios de identificação de sites gerados por AI, e a lista pode ser ampliada por meio de Pull Requests de colaboradores
- Pode ser usado como uma ferramenta prática para reduzir a contaminação dos resultados de busca por conteúdo de AI
Visão geral do projeto
- AI uBlock Blacklist fornece uma lista para bloquear conteúdo gerado por AI que pode ser usada na extensão uBlock Origin
- Cada vez que encontra durante a navegação um site escrito por AI generativa, ele o adiciona manualmente à lista
- O projeto declara que não usa ferramentas de automação, porque é difícil determinar por algoritmo se um conteúdo foi gerado por AI
Objetivo do projeto
- Sites escritos por AI generativa têm pouca informação útil e uma estrutura voltada a lucrar com anúncios e links de afiliados
- Conteúdo escrito por AI pode ser publicado em massa sem revisão e incluir informações perigosas
- São citados como exemplos possíveis conselhos perigosos, como curto-circuitar um circuito, executar o comando
rm -rf / ou misturar água sanitária com amônia
- Por esses motivos, conteúdo gerado por AI não é confiável e precisa ser bloqueado
- Como o autor é italiano, há muitos sites em italiano, e contribuições para adicionar sites em outros idiomas são bem-vindas
Como adicionar sites
- Usuários sem conhecimento técnico podem denunciar sites suspeitos por meio de uma GitHub Issue
- Ao adicionar diretamente via Pull Request, é possível bloquear no nível do domínio ou de um caminho específico de blog
- Ex.:
||example.com/@slopUser^$doc ou ||example.com^$doc
- Se uma organização que vende serviços de SEO e marketing digital opera várias fazendas de conteúdo, é recomendável adicionar os sites relacionados em conjunto
Critérios para identificar fazendas de conteúdo de AI
- Introduções e conclusões desnecessárias, títulos exagerados como ‘Comprehensive Guide’, ausência de links externos e fontes, muitos links de recomendação/afiliados
- Milhares de posts em pouco tempo, informações erradas (alucinações), posts publicados depois de novembro de 2022, imagens e logos gerados por AI
- Texto com formatação descuidada, sintaxe Markdown não renderizada, textos longos sem relação com o tema, repetição frequente nas primeiras posições da busca
- Ausência de contato, página “sobre” vaga, conteúdo que enaltece AI etc. também são apresentados como características importantes
Uso de Google Dorks
- Quando a AI publica frases geradas copiadas literalmente, é possível localizar páginas de AI buscando por trechos específicos
- Ex.:
"Sure! Here's an article about" (inglês), "Certo! Ecco un articolo" (italiano)
- Páginas que contêm essas frases são adicionadas à blacklist no nível do domínio inteiro
Projetos semelhantes
- O projeto uBlockOrigin & uBlacklist Huge AI Blocklist oculta todos os resultados relacionados a AI
- Este projeto se diferencia por manter ferramentas legítimas de AI e bloquear apenas fazendas de conteúdo gerado por AI
1 comentários
Opiniões no Hacker News
A ideia pareceu interessante e eu também tentei contribuir para a lista, mas parei quando vi a frase “Cry about it” no FAQ
Acho essa atitude inadequada para manter uma blacklist pública. Passa a impressão de que o mantenedor acredita ser infalível
Pedi a remoção, mas nunca recebi resposta e até hoje continua bloqueado
Numa abordagem mais realista, apareceu uma nova lista que bloqueia apenas content farms e sites de baixa qualidade
Parece uma alternativa melhor do que as listas amplas de bloqueio de IA
Veja uBlockOrigin-HUGE-AI-Blocklist
No Reddit também há uma discussão relacionada bem ativa
Compartilhei no meu gist o processo de busca e a lista
Com o tempo, o problema de falsos positivos fica mais sério. Domínios são vendidos, sites mudam de direção ou o conteúdo some
Com uma atitude de “Cry about it”, isso vira só um buraco negro de difamação. No mínimo, precisa haver algum mecanismo de expiração ou revisão
O uBlock Origin já tem uma lista para bloquear “AI widget”. É por causa desse recurso que ainda uso Firefox. No Chromium isso não serve para muita coisa
Concordo com o princípio, mas essa postura de que “escrever com IA é falta de habilidade” é injusta com usuários do Grammarly ou com quem não é falante nativo de inglês
De qualquer forma, esse projeto mira content farms, não escritores individuais, então o ponto é outro
O autor parece estar mirando fazendas de bots de IA
Ainda bem que a internet não chegou ao ponto de ter uma whitelist
Estou usando uma ferramenta que tenta determinar se um texto foi escrito por IA com base em tropos e reconstruir o prompt original
tropes.fyi/aidr
Gosto dessa direção. Queria que fosse possível bloquear por mais categorias de sites
Em ambientes corporativos, serviços de reputação de URL classificam sites e controlam o acesso
Acho que usuários individuais também precisam desse tipo de infraestrutura financiada coletivamente
Por exemplo, seria ótimo existir um fundo sem fins lucrativos de US$ 1 bilhão por ano para sustentar um ecossistema confiável de navegador, VPN, DNS, e-mail, autoridade certificadora etc.
Também existe uma extensão como botblock.ai, que detecta respostas de IA no Twitter
imagem de prova
Quando um site tem anúncios demais, eu simplesmente fecho. Se a composição de anúncios parece razoável, continuo usando
Estou cansado da guerra dos ad blockers. Toda hora aparece o nome de um novo plugin, e isso parece uma competição sem fim