Google se torna o único mecanismo de busca que funciona no Reddit graças a acordo de IA
(404media.co)- O Google agora é o único mecanismo de busca capaz de mostrar resultados do Reddit
- O Reddit atualizou recentemente seu arquivo robots.txt para bloquear o rastreamento de todos os mecanismos de busca, exceto o Google
- Em mecanismos de busca alternativos que não dependem da indexação do Google, como Bing, DuckDuckGo, Mojeek e Qwant, não é possível ver resultados recentes do Reddit da última semana
- O DuckDuckGo mostra 7 links ao pesquisar no Reddit, mas não fornece informações sobre o destino dos links nem o motivo
- O Kagi consegue pesquisar no Reddit porque compra parte do índice de busca do Google
- Isso acontece num momento em que o monopólio de busca do Google já prejudica a capacidade de concorrência de outras empresas
- Reddit e Google não responderam aos pedidos de comentário da imprensa sobre o assunto, mas a exclusão de outros mecanismos de busca parece estar ligada a um contrato de muitos milhões de dólares que dá ao Google o direito de coletar dados do Reddit para treinar produtos de IA
Reação do CEO da Mojeek
- Colin Hayhurst, CEO da Mojeek, disse que no início de junho a empresa percebeu que o rastreamento do Reddit havia sido bloqueado e entrou em contato por e-mail, mas não recebeu resposta
- Hayhurst afirmou: "Às vezes somos bloqueados por ignorância ou estupidez, mas quando entrávamos em contato conseguíamos resolver. Desta vez, de forma inédita, não recebemos resposta de ninguém"
- Além de bloquear rastreadores em geral, o Reddit também estaria bloqueando ativamente o crawler da Mojeek
Cresce a tendência de bloquear scraping de dados por empresas de IA
- Muitos sites estão atualizando seus arquivos robots.txt, e cresce fortemente a tentativa de bloquear bots de empresas de IA que raspam dados para treinamento
- O Google introduziu recentemente dois rastreadores: o Googlebot, para melhorar os resultados de busca, e o Google-Extended, para melhorar o app Gemini
- O arquivo robots.txt é apenas uma diretriz simples, e rastreadores podem ignorá-lo
O contexto por trás da medida do Reddit
- O Reddit vinha demonstrando insatisfação com empresas de IA que raspavam o site para treinar grandes modelos de linguagem e já vinha adotando medidas públicas e agressivas para impedir isso
- No ano passado, começou a cobrar pelo acesso à API, o que tornou muitos apps de terceiros caros demais para operar e levou ao encerramento deles
- No início deste ano, firmou um acordo de US$ 60 milhões com o Google, permitindo que a empresa licencie conteúdo do Reddit para treinar produtos de IA
Mudança no arquivo robots.txt do Reddit
- Antes ele tinha uma forma complexa com piadas, mas recentemente ficou simples e rígido
- Agora inclui apenas a diretiva
User-agent: *, Disallow: /, o que significa que nenhum bot deve raspar qualquer parte do site - O Reddit declarou que "acreditamos na internet pública, mas não toleramos o uso indevido de conteúdo público"
Posição do Reddit
- Recentemente, vem aumentando o número de casos em que entidades comerciais raspam o Reddit e alegam não estar sujeitas aos termos ou políticas da plataforma
- Esconder-se atrás do robots.txt para dizer que o conteúdo do Reddit pode ser usado para qualquer finalidade é um problema ainda mais grave
- A empresa disse que fará o máximo possível para encontrar e bloquear proativamente agentes mal-intencionados, mas que é necessário fazer mais para proteger as contribuições dos redditors
- Daqui para frente, pretende atualizar as diretrizes do robots.txt de forma a deixá-las o mais claras possível. Se você acessa o Reddit com agentes automatizados, deve cumprir os termos e políticas e se comunicar com o Reddit
O acesso a dados do Reddit para fins não comerciais ainda é possível
- O Reddit afirmou que "atores de boa-fé (pesquisadores, arquivos da internet etc.) continuarão podendo acessar conteúdo do Reddit para fins não comerciais"
- A empresa disse que seleciona de forma criteriosa entidades confiáveis para conceder acesso em larga escala aos dados do Reddit
- Segundo o guia de acesso a dados do Reddit, "busca ou publicidade em websites" é considerada "uso comercial", e os dados do Reddit não podem ser usados sem permissão ou pagamento de taxa
As implicações de um cenário em que só o Google suporta busca no Reddit
- À medida que a relevância da busca do Google cai, uma das formas de ainda obter bons resultados é adicionar "Reddit" ao termo pesquisado
- Isso porque, há quase 20 anos, usuários reais vêm deixando conselhos e recomendações no Reddit
- Agora, apenas o Google consegue conduzir os usuários até esse tipo de informação, e o fato de isso ser resultado de um contrato de US$ 60 milhões ligado a dados de treinamento de IA é mais um exemplo das consequências não intencionais de raspar indiscriminadamente toda a internet para fortalecer ferramentas de IA generativa
Preocupações do CEO da Mojeek
- A Mojeek faz crawling há 20 anos de maneira respeitosa e é um mecanismo de busca tradicional que não treina IA nem rastreia usuários
- O acordo do Reddit com o Google torna mais difícil oferecer formas alternativas de pesquisar a web
- Isso faz parte de uma tendência mais ampla de matar e corroer gradualmente a web
- Esse episódio não ajuda empresas pequenas
Opinião do GN⁺
- A medida do Reddit busca proteger os direitos dos criadores de conteúdo e evitar exploração comercial, mas pode acabar prejudicando a concorrência no mercado de mecanismos de busca
- Em especial, a situação em que o Google monopoliza dados do Reddit para treinamento de IA levanta preocupações sobre abuso de poder de mercado
- No longo prazo, parece urgente criar normas e políticas que permitam convivência benéfica entre provedores de conteúdo, mecanismos de busca e empresas de IA
- Ao mesmo tempo, é irônico que a própria busca no Reddit esteja ganhando destaque como alternativa à queda de qualidade da busca. No fundo, os mecanismos de busca precisam melhorar relevância e diversidade
- Também vale acompanhar o crescimento de novos mecanismos de busca como o Kagi, que usam parcialmente o índice do Google enquanto buscam uma abordagem própria
1 comentários
Opinião no Hacker News
robots.txtdo Reddit é compreensível no contexto de IA, mas é anticompetitiva em relação a outros mecanismos de buscarobots.txtou nos termos de uso não têm efeito vinculante para web scrapersrobots.txthá um mêsrobots.txtmuito permissivo