1 pontos por GN⁺ 2026-01-14 | 1 comentários | Compartilhar no WhatsApp
  • Recentemente, os coletas não autorizadas de dados por empresas de IA têm sobrecarregado os servidores da MetaBrainz
  • Elas ignoram as regras do robots.txt e fazem crawling dos dados do MusicBrainz página por página, um método ineficiente que levaria centenas de anos
  • O mesmo comportamento se espalhou para a API do ListenBrainz, levando à adoção de medidas como exigir tokens de autenticação e fechar parte da API para proteger o serviço
  • O LB Radio agora só pode ser usado por usuários logados, e chamadas à API também exigem o cabeçalho Authorization
  • Essas medidas são descritas como uma resposta indispensável para manter a acessibilidade dos usuários legítimos

Problema de sobrecarga de servidores causado por scrapers de IA

  • A equipe da MetaBrainz vem lidando nos últimos meses com crawling não autorizado para coletar dados de treinamento de modelos de IA
    • Algumas empresas de IA ignoram regras básicas de etiqueta da internet, como o robots.txt, e raspam dados sem permissão
    • Elas acessam os dados do MusicBrainz solicitando uma página por vez, o que é mais ineficiente do que um download completo e gera carga no servidor
  • Essa abordagem tem um nível de ineficiência que levaria centenas de anos, e no fim atrapalha o acesso dos usuários legítimos

Medidas de proteção da API do ListenBrainz

  • Scrapers de IA tentaram coletar dados de vários endpoints da API do ListenBrainz
  • Como resultado, as seguintes mudanças foram feitas:
    • A API /metadata/lookup (GET e POST) agora só funciona com token de Authorization
    • Os endpoints mbid-mapping, mbid-mapping-release e mbid-mapping-explain da ListenBrainz Labs API foram removidos
      • Essa API era oferecida originalmente para depuração e deve ser substituída no futuro por um endpoint para um novo mapper
    • O LB Radio agora só pode ser usado por usuários logados, e chamadas à API exigem o cabeçalho Authorization

Resposta emergencial para garantir a estabilidade do serviço

  • A MetaBrainz afirma que essas medidas foram uma decisão inevitável para evitar sobrecarga do serviço e manter a operação normal
  • A empresa pediu desculpas pelo transtorno causado por mudanças sem aviso prévio e informou que, após a conclusão dos projetos de fim de ano, pretende melhorar as mensagens de erro

Reação da comunidade

  • Nos comentários, houve discussão sobre a abordagem ineficiente dos scrapers de IA e a estrutura automatizada dos web spiders
    • Alguns usuários apontaram a “incompetência dos operadores de IA”
    • Outros explicaram que “crawlers automatizados simplesmente seguem links e coletam dados”

Significado geral

  • As medidas da MetaBrainz mostram como projetos de dados abertos estão sendo prejudicados pela coleta de dados para IA
  • Para a sustentabilidade de APIs públicas, o reforço da autenticação e as restrições de acesso estão se tornando inevitáveis

1 comentários

 
GN⁺ 2026-01-14
Comentários do Hacker News
  • A MetaBrainz é realmente um banco de dados de interesse público excelente
    Já escrevi sobre isso antes em um post do blog da EFF
    Dados públicos como os da MetaBrainz até podem ser usados por bots de IA, mas o problema é raspá-los de forma ineficiente, como está acontecendo agora
    No fim, isso é um problema de falha de coordenação. A MetaBrainz parte do princípio de que os bots agirão de boa-fé, mas os bots assumem que o site está escondendo os dados
    Mesmo quando se diz “parem de bater na API e baixem de uma vez este arquivo tar compactado em gzip”, eles não acreditam
    Talvez, se fosse oferecido como torrent, os bots até compartilhassem melhor os dados

    • Eu também fechei meu site tvnfo.com por causa de scrapers de IA
      Ele era público desde 2016, mas o consumo de recursos ficou grande demais, então agora só está disponível para apoiadores
      É um projeto de hobby que custa US$ 60 por mês, então está difícil manter. Se no futuro o apoio aumentar, talvez eu adicione uma solução de defesa contra bots e reabra
      Mas fiquei surpreso ao descobrir que esse problema não acontece só comigo. No fim, parece que a internet está caminhando cada vez mais para o fechamento
    • Fico pensando se existe alguma forma de usar o robots.txt para dizer “baixe o arquivo tar aqui”
      Não sei se há algo assim no padrão
    • Se bots usassem torrent, também daria para manipular estatísticas de compartilhamento
      No passado, eu mesmo já inflei minha taxa de upload para não ser expulso de um tracker privado
    • O fato de os bots tratarem sites como entidades hostis é um problema sério
      Ignorar a vontade do dono do site é uma abordagem errada
    • Na prática, a maioria desses “scrapers de IA” é só um script de crawler recursivo
      Não é uma IA de verdade lendo e decidindo sobre páginas, mas apenas código automatizado seguindo links e raspando documentos
  • A IA está destruindo o ecossistema aberto da web
    Meu serviço de hospedagem suspendeu minha conta por causa de um pico repentino de tráfego de bots
    Acabei migrando para outro host, mas operadores individuais não têm esperança numa situação dessas
    As empresas de IA têm recursos infinitos e não se importam com os danos
    Numa visão mais cínica, isso pode até ser uma estratégia deliberada — eliminar sites gratuitos para que as pessoas acabem obtendo informação apenas por meio de modelos de IA

    • Serviços de resumo por IA estão tirando mais da metade do tráfego da web independente
      A viabilidade econômica do compartilhamento de informação está entrando em colapso
      No fim, poucas empresas vão monopolizar o valor, e depois começará a enshittification
  • Eu administro o site da PTA da escola do meu filho, e o bot da OpenAI ficou raspando aleatoriamente o calendário de eventos
    Houve requisições de anos entre 1000 e 3000
    Só parou cerca de 4 horas depois que bloqueei o User-Agent

  • Eu opero um site estático e uma instância do cgit em um VPS e2-micro do Google Cloud
    Em 160 dias, recebi mais de 8,5 milhões de requisições da OpenAI e da Claude
    Então configurei o lighttpd para retornar 403 quando o User-Agent contiver “claude|openai”, e apliquei limitação de taxa com nftables

    • Esses bots ainda são os “mais conscienciosos”
      O verdadeiro problema é uma botnet usando proxies residenciais. Eles entram fingindo ser navegadores comuns
    • A OpenAI publica uma lista oficial de IPs de bots, mas a Anthropic não
    • Curiosamente, meu blog no GitHub não sofre nenhuma raspagem desse tipo
      Fico me perguntando se a Microsoft está bloqueando isso, ou se meu blog simplesmente está num nível sem interesse para bots
  • A Cloudflare agora oferece um serviço de detecção de scrapers de IA
    Ela direciona bots detectados para páginas geradas por IA em loop infinito

    • Mas, para isso funcionar, todo o tráfego precisa passar pela Cloudflare
      No fim, isso significa deixar um terceiro decidir quem pode acessar meu conteúdo, e isso me incomoda
    • A Cloudflare frequentemente causa problemas de acesso para usuários de VPN e navegadores raros
      Eu mesmo fiquei tão insatisfeito que acabei removendo
    • Não acho adequado como um “serviço de adicionar e remover TLS”
    • Há um projeto relacionado chamado Poison Fountain
    • Se a Cloudflare conseguir reunir sites suficientes, talvez possa até cobrar das empresas de IA pelo acesso ao cache
  • A equipe do SQLite também passou por algo parecido
    O criador, Richard Hipp, criticou isso como um “ato egoísta”, dizendo algo como: “bastaria clonar o repositório inteiro, mas em vez disso preferem raspar causando prejuízo aos outros”
    Veja este post no fórum relacionado

    • Mas houve quem respondesse dizendo que chamar isso de malicioso seria exagero demais
  • Com o tempo, fico cada vez mais convencido de que todo crawling deveria ser consolidado em canais públicos, como o Common Crawl
    É preciso reduzir a carga nos servidores sem perder a abertura e a possibilidade de raspagem da web
    Por exemplo, isso poderia ser padronizado com links para dumps de dados com timestamp sob o caminho /well-known/

    • A MetaBrainz já usa esse método — oferece o banco inteiro em tarball
      Eu mesmo levei cerca de uma hora para baixar e depois resolvi tudo com consultas locais
      Mas a maioria ainda não usa dumps porque raspar continua sendo mais fácil
    • Na minha opinião, precisamos de uma reforma no sistema de direitos autorais
      A proposta seria doar os dados para um “dataset nacional” após certo período, permitindo uso em treinamento de IA e distribuindo a receita aos detentores dos direitos
      Assim, desenvolvedores de IA, titulares de direitos e o público poderiam sair ganhando
    • Eu também faço pequenas raspagens por conta própria com scripts do Tampermonkey
      Uso IA para gerar código e coletar automaticamente coisas como listas de preços de VPS
      No passado, também raspei todas as manchetes do lowendtalk para montar um dataset para análise com LLM
    • Talvez também ajude criar um arquivo padrão como /llms.txt, oferecendo apenas os dados de texto puro de que os LLMs precisam
      Seriam removidos URL, endereços, números de telefone etc., mantendo só o markup mínimo, como <item> e <subitem>
      Ainda assim, muitos sites provavelmente colocariam apenas um arquivo vazio que cumprisse o formato
    • Na verdade, isso não é um problema técnico, mas sim um problema da estrutura econômica
      O grande capital está destruindo a web em busca de lucro de curto prazo
      Mas acredito que, no fim, haverá adaptação e equilíbrio
  • Hoje em dia, além dos scrapers de IA, os próprios usuários fazem raspagem indireta ao pedir resumos
    Por exemplo, o Firefox oferece prévia resumida sem que seja preciso clicar no link
    Imagem relacionada

    • Esse recurso gera o resumo localmente com o modelo SmolLM2-360M rodando em llama.cpp(wllama)
      No fim, como o navegador busca a página diretamente para resumir, para o site isso parece a mesma requisição
      Veja a explicação oficial da Mozilla
    • O problema tem três partes
      1. crawling antiético por empresas de IA
      2. pedidos de resumo baseados em agentes feitos por usuários
      3. esses agentes são mais ineficientes que humanos, mas muito mais rápidos
    • Mas não é que os usuários tenham sido “treinados”; eles usam isso simplesmente porque os LLMs realmente funcionam muito bem
  • Hoje em dia, scrapers usam pools de IPs residenciais para evitar detecção

    • Fico desconfiado se ISPs que fornecem esses pools não criaram um novo modelo de receita
    • Além disso, agora já há muitos bots que executam navegadores reais, então passam até por CAPTCHA da Cloudflare
      Nessas condições, não sei por quanto tempo as defesas continuarão funcionando