8 pontos por GN⁺ 2024-07-25 | 1 comentários | Compartilhar no WhatsApp
  • O Google agora é o único mecanismo de busca capaz de mostrar resultados do Reddit
  • O Reddit atualizou recentemente seu arquivo robots.txt para bloquear o rastreamento de todos os mecanismos de busca, exceto o Google
  • Em mecanismos de busca alternativos que não dependem da indexação do Google, como Bing, DuckDuckGo, Mojeek e Qwant, não é possível ver resultados recentes do Reddit da última semana
    • O DuckDuckGo mostra 7 links ao pesquisar no Reddit, mas não fornece informações sobre o destino dos links nem o motivo
    • O Kagi consegue pesquisar no Reddit porque compra parte do índice de busca do Google
  • Isso acontece num momento em que o monopólio de busca do Google já prejudica a capacidade de concorrência de outras empresas
  • Reddit e Google não responderam aos pedidos de comentário da imprensa sobre o assunto, mas a exclusão de outros mecanismos de busca parece estar ligada a um contrato de muitos milhões de dólares que dá ao Google o direito de coletar dados do Reddit para treinar produtos de IA

Reação do CEO da Mojeek

  • Colin Hayhurst, CEO da Mojeek, disse que no início de junho a empresa percebeu que o rastreamento do Reddit havia sido bloqueado e entrou em contato por e-mail, mas não recebeu resposta
  • Hayhurst afirmou: "Às vezes somos bloqueados por ignorância ou estupidez, mas quando entrávamos em contato conseguíamos resolver. Desta vez, de forma inédita, não recebemos resposta de ninguém"
  • Além de bloquear rastreadores em geral, o Reddit também estaria bloqueando ativamente o crawler da Mojeek

Cresce a tendência de bloquear scraping de dados por empresas de IA

  • Muitos sites estão atualizando seus arquivos robots.txt, e cresce fortemente a tentativa de bloquear bots de empresas de IA que raspam dados para treinamento
  • O Google introduziu recentemente dois rastreadores: o Googlebot, para melhorar os resultados de busca, e o Google-Extended, para melhorar o app Gemini
  • O arquivo robots.txt é apenas uma diretriz simples, e rastreadores podem ignorá-lo

O contexto por trás da medida do Reddit

  • O Reddit vinha demonstrando insatisfação com empresas de IA que raspavam o site para treinar grandes modelos de linguagem e já vinha adotando medidas públicas e agressivas para impedir isso
  • No ano passado, começou a cobrar pelo acesso à API, o que tornou muitos apps de terceiros caros demais para operar e levou ao encerramento deles
  • No início deste ano, firmou um acordo de US$ 60 milhões com o Google, permitindo que a empresa licencie conteúdo do Reddit para treinar produtos de IA

Mudança no arquivo robots.txt do Reddit

  • Antes ele tinha uma forma complexa com piadas, mas recentemente ficou simples e rígido
  • Agora inclui apenas a diretiva User-agent: *, Disallow: /, o que significa que nenhum bot deve raspar qualquer parte do site
  • O Reddit declarou que "acreditamos na internet pública, mas não toleramos o uso indevido de conteúdo público"

Posição do Reddit

  • Recentemente, vem aumentando o número de casos em que entidades comerciais raspam o Reddit e alegam não estar sujeitas aos termos ou políticas da plataforma
  • Esconder-se atrás do robots.txt para dizer que o conteúdo do Reddit pode ser usado para qualquer finalidade é um problema ainda mais grave
  • A empresa disse que fará o máximo possível para encontrar e bloquear proativamente agentes mal-intencionados, mas que é necessário fazer mais para proteger as contribuições dos redditors
  • Daqui para frente, pretende atualizar as diretrizes do robots.txt de forma a deixá-las o mais claras possível. Se você acessa o Reddit com agentes automatizados, deve cumprir os termos e políticas e se comunicar com o Reddit

O acesso a dados do Reddit para fins não comerciais ainda é possível

  • O Reddit afirmou que "atores de boa-fé (pesquisadores, arquivos da internet etc.) continuarão podendo acessar conteúdo do Reddit para fins não comerciais"
  • A empresa disse que seleciona de forma criteriosa entidades confiáveis para conceder acesso em larga escala aos dados do Reddit
  • Segundo o guia de acesso a dados do Reddit, "busca ou publicidade em websites" é considerada "uso comercial", e os dados do Reddit não podem ser usados sem permissão ou pagamento de taxa

As implicações de um cenário em que só o Google suporta busca no Reddit

  • À medida que a relevância da busca do Google cai, uma das formas de ainda obter bons resultados é adicionar "Reddit" ao termo pesquisado
  • Isso porque, há quase 20 anos, usuários reais vêm deixando conselhos e recomendações no Reddit
  • Agora, apenas o Google consegue conduzir os usuários até esse tipo de informação, e o fato de isso ser resultado de um contrato de US$ 60 milhões ligado a dados de treinamento de IA é mais um exemplo das consequências não intencionais de raspar indiscriminadamente toda a internet para fortalecer ferramentas de IA generativa

Preocupações do CEO da Mojeek

  • A Mojeek faz crawling há 20 anos de maneira respeitosa e é um mecanismo de busca tradicional que não treina IA nem rastreia usuários
  • O acordo do Reddit com o Google torna mais difícil oferecer formas alternativas de pesquisar a web
  • Isso faz parte de uma tendência mais ampla de matar e corroer gradualmente a web
  • Esse episódio não ajuda empresas pequenas

Opinião do GN⁺

  • A medida do Reddit busca proteger os direitos dos criadores de conteúdo e evitar exploração comercial, mas pode acabar prejudicando a concorrência no mercado de mecanismos de busca
  • Em especial, a situação em que o Google monopoliza dados do Reddit para treinamento de IA levanta preocupações sobre abuso de poder de mercado
  • No longo prazo, parece urgente criar normas e políticas que permitam convivência benéfica entre provedores de conteúdo, mecanismos de busca e empresas de IA
  • Ao mesmo tempo, é irônico que a própria busca no Reddit esteja ganhando destaque como alternativa à queda de qualidade da busca. No fundo, os mecanismos de busca precisam melhorar relevância e diversidade
  • Também vale acompanhar o crescimento de novos mecanismos de busca como o Kagi, que usam parcialmente o índice do Google enquanto buscam uma abordagem própria

1 comentários

 
GN⁺ 2024-07-25
Opinião no Hacker News
  • A mudança no robots.txt do Reddit é compreensível no contexto de IA, mas é anticompetitiva em relação a outros mecanismos de busca
  • Isso pode se tornar um precedente perigoso para a internet
  • Muitos sites podem passar a ter o poder de cobrar pela indexação
  • Podemos acabar em um mundo em que é preciso usar um mecanismo de busca específico para obter respostas de determinados sites
  • Do ponto de vista da eficiência, seria melhor que os sites alugassem seus dados para os mecanismos de busca
  • Na prática, hoje só existem dois mecanismos de busca
  • Isso é muito ruim para o Kagi, mas também pode levar à redescoberta da web não comercial, antes mantida como hobby
  • Pela legislação dos EUA, mudanças no robots.txt ou nos termos de uso não têm efeito vinculante para web scrapers
    • Isso porque os dados estão acessíveis publicamente
    • Mesmo que o site exiba um banner de concordância com os termos, isso não teria força vinculante
    • Só passa a ter efeito vinculante se o acesso aos dados for restringido e exigir criação de conta
  • O Reddit alterou o robots.txt há um mês
    • Durante 19 anos, usou um robots.txt muito permissivo
    • Parece ter feito a mudança por causa do abuso de dados
    • Há chance de reabrir o acesso se os mecanismos de busca concordarem em não usar os dados para treinamento
  • O problema de bots de IA raspando sites para treinar LLMs está ficando grave
    • Ex.: o site thegreatestbooks.org recebeu 1,2 milhão de requisições de bots/automação em 24 horas
  • O Reddit se tornou um mecanismo de busca que só funciona no Google
  • Não dá para entender se a postura do Reddit não é anticompetitiva
    • Deveria oferecer condições semelhantes também aos concorrentes do Google