- Recentemente, os coletas não autorizadas de dados por empresas de IA têm sobrecarregado os servidores da MetaBrainz
- Elas ignoram as regras do robots.txt e fazem crawling dos dados do MusicBrainz página por página, um método ineficiente que levaria centenas de anos
- O mesmo comportamento se espalhou para a API do ListenBrainz, levando à adoção de medidas como exigir tokens de autenticação e fechar parte da API para proteger o serviço
- O LB Radio agora só pode ser usado por usuários logados, e chamadas à API também exigem o cabeçalho Authorization
- Essas medidas são descritas como uma resposta indispensável para manter a acessibilidade dos usuários legítimos
Problema de sobrecarga de servidores causado por scrapers de IA
- A equipe da MetaBrainz vem lidando nos últimos meses com crawling não autorizado para coletar dados de treinamento de modelos de IA
- Algumas empresas de IA ignoram regras básicas de etiqueta da internet, como o robots.txt, e raspam dados sem permissão
- Elas acessam os dados do MusicBrainz solicitando uma página por vez, o que é mais ineficiente do que um download completo e gera carga no servidor
- Essa abordagem tem um nível de ineficiência que levaria centenas de anos, e no fim atrapalha o acesso dos usuários legítimos
Medidas de proteção da API do ListenBrainz
- Scrapers de IA tentaram coletar dados de vários endpoints da API do ListenBrainz
- Como resultado, as seguintes mudanças foram feitas:
- A API
/metadata/lookup (GET e POST) agora só funciona com token de Authorization
- Os endpoints
mbid-mapping, mbid-mapping-release e mbid-mapping-explain da ListenBrainz Labs API foram removidos
- Essa API era oferecida originalmente para depuração e deve ser substituída no futuro por um endpoint para um novo mapper
- O LB Radio agora só pode ser usado por usuários logados, e chamadas à API exigem o cabeçalho Authorization
Resposta emergencial para garantir a estabilidade do serviço
- A MetaBrainz afirma que essas medidas foram uma decisão inevitável para evitar sobrecarga do serviço e manter a operação normal
- A empresa pediu desculpas pelo transtorno causado por mudanças sem aviso prévio e informou que, após a conclusão dos projetos de fim de ano, pretende melhorar as mensagens de erro
Reação da comunidade
- Nos comentários, houve discussão sobre a abordagem ineficiente dos scrapers de IA e a estrutura automatizada dos web spiders
- Alguns usuários apontaram a “incompetência dos operadores de IA”
- Outros explicaram que “crawlers automatizados simplesmente seguem links e coletam dados”
Significado geral
- As medidas da MetaBrainz mostram como projetos de dados abertos estão sendo prejudicados pela coleta de dados para IA
- Para a sustentabilidade de APIs públicas, o reforço da autenticação e as restrições de acesso estão se tornando inevitáveis
1 comentários
Comentários do Hacker News
A MetaBrainz é realmente um banco de dados de interesse público excelente
Já escrevi sobre isso antes em um post do blog da EFF
Dados públicos como os da MetaBrainz até podem ser usados por bots de IA, mas o problema é raspá-los de forma ineficiente, como está acontecendo agora
No fim, isso é um problema de falha de coordenação. A MetaBrainz parte do princípio de que os bots agirão de boa-fé, mas os bots assumem que o site está escondendo os dados
Mesmo quando se diz “parem de bater na API e baixem de uma vez este arquivo tar compactado em gzip”, eles não acreditam
Talvez, se fosse oferecido como torrent, os bots até compartilhassem melhor os dados
Ele era público desde 2016, mas o consumo de recursos ficou grande demais, então agora só está disponível para apoiadores
É um projeto de hobby que custa US$ 60 por mês, então está difícil manter. Se no futuro o apoio aumentar, talvez eu adicione uma solução de defesa contra bots e reabra
Mas fiquei surpreso ao descobrir que esse problema não acontece só comigo. No fim, parece que a internet está caminhando cada vez mais para o fechamento
Não sei se há algo assim no padrão
No passado, eu mesmo já inflei minha taxa de upload para não ser expulso de um tracker privado
Ignorar a vontade do dono do site é uma abordagem errada
Não é uma IA de verdade lendo e decidindo sobre páginas, mas apenas código automatizado seguindo links e raspando documentos
A IA está destruindo o ecossistema aberto da web
Meu serviço de hospedagem suspendeu minha conta por causa de um pico repentino de tráfego de bots
Acabei migrando para outro host, mas operadores individuais não têm esperança numa situação dessas
As empresas de IA têm recursos infinitos e não se importam com os danos
Numa visão mais cínica, isso pode até ser uma estratégia deliberada — eliminar sites gratuitos para que as pessoas acabem obtendo informação apenas por meio de modelos de IA
A viabilidade econômica do compartilhamento de informação está entrando em colapso
No fim, poucas empresas vão monopolizar o valor, e depois começará a enshittification
Eu administro o site da PTA da escola do meu filho, e o bot da OpenAI ficou raspando aleatoriamente o calendário de eventos
Houve requisições de anos entre 1000 e 3000
Só parou cerca de 4 horas depois que bloqueei o User-Agent
Eu opero um site estático e uma instância do cgit em um VPS e2-micro do Google Cloud
Em 160 dias, recebi mais de 8,5 milhões de requisições da OpenAI e da Claude
Então configurei o lighttpd para retornar 403 quando o User-Agent contiver “claude|openai”, e apliquei limitação de taxa com nftables
O verdadeiro problema é uma botnet usando proxies residenciais. Eles entram fingindo ser navegadores comuns
Fico me perguntando se a Microsoft está bloqueando isso, ou se meu blog simplesmente está num nível sem interesse para bots
A Cloudflare agora oferece um serviço de detecção de scrapers de IA
Ela direciona bots detectados para páginas geradas por IA em loop infinito
No fim, isso significa deixar um terceiro decidir quem pode acessar meu conteúdo, e isso me incomoda
Eu mesmo fiquei tão insatisfeito que acabei removendo
A equipe do SQLite também passou por algo parecido
O criador, Richard Hipp, criticou isso como um “ato egoísta”, dizendo algo como: “bastaria clonar o repositório inteiro, mas em vez disso preferem raspar causando prejuízo aos outros”
Veja este post no fórum relacionado
Com o tempo, fico cada vez mais convencido de que todo crawling deveria ser consolidado em canais públicos, como o Common Crawl
É preciso reduzir a carga nos servidores sem perder a abertura e a possibilidade de raspagem da web
Por exemplo, isso poderia ser padronizado com links para dumps de dados com timestamp sob o caminho
/well-known/Eu mesmo levei cerca de uma hora para baixar e depois resolvi tudo com consultas locais
Mas a maioria ainda não usa dumps porque raspar continua sendo mais fácil
A proposta seria doar os dados para um “dataset nacional” após certo período, permitindo uso em treinamento de IA e distribuindo a receita aos detentores dos direitos
Assim, desenvolvedores de IA, titulares de direitos e o público poderiam sair ganhando
Uso IA para gerar código e coletar automaticamente coisas como listas de preços de VPS
No passado, também raspei todas as manchetes do lowendtalk para montar um dataset para análise com LLM
/llms.txt, oferecendo apenas os dados de texto puro de que os LLMs precisamSeriam removidos URL, endereços, números de telefone etc., mantendo só o markup mínimo, como
<item>e<subitem>Ainda assim, muitos sites provavelmente colocariam apenas um arquivo vazio que cumprisse o formato
O grande capital está destruindo a web em busca de lucro de curto prazo
Mas acredito que, no fim, haverá adaptação e equilíbrio
Hoje em dia, além dos scrapers de IA, os próprios usuários fazem raspagem indireta ao pedir resumos
Por exemplo, o Firefox oferece prévia resumida sem que seja preciso clicar no link
Imagem relacionada
llama.cpp(wllama)No fim, como o navegador busca a página diretamente para resumir, para o site isso parece a mesma requisição
Veja a explicação oficial da Mozilla
Hoje em dia, scrapers usam pools de IPs residenciais para evitar detecção
Nessas condições, não sei por quanto tempo as defesas continuarão funcionando