Google se torna o único mecanismo de busca que funciona no Reddit graças a acordo de IA

(404media.co)

8 pontos por GN⁺ 2024-07-25 | 1 comentários | Compartilhar no WhatsApp

O Google agora é o único mecanismo de busca capaz de mostrar resultados do Reddit
O Reddit atualizou recentemente seu arquivo robots.txt para bloquear o rastreamento de todos os mecanismos de busca, exceto o Google
Em mecanismos de busca alternativos que não dependem da indexação do Google, como Bing, DuckDuckGo, Mojeek e Qwant, não é possível ver resultados recentes do Reddit da última semana
- O DuckDuckGo mostra 7 links ao pesquisar no Reddit, mas não fornece informações sobre o destino dos links nem o motivo
- O Kagi consegue pesquisar no Reddit porque compra parte do índice de busca do Google
Isso acontece num momento em que o monopólio de busca do Google já prejudica a capacidade de concorrência de outras empresas
Reddit e Google não responderam aos pedidos de comentário da imprensa sobre o assunto, mas a exclusão de outros mecanismos de busca parece estar ligada a um contrato de muitos milhões de dólares que dá ao Google o direito de coletar dados do Reddit para treinar produtos de IA

Reação do CEO da Mojeek

Colin Hayhurst, CEO da Mojeek, disse que no início de junho a empresa percebeu que o rastreamento do Reddit havia sido bloqueado e entrou em contato por e-mail, mas não recebeu resposta
Hayhurst afirmou: "Às vezes somos bloqueados por ignorância ou estupidez, mas quando entrávamos em contato conseguíamos resolver. Desta vez, de forma inédita, não recebemos resposta de ninguém"
Além de bloquear rastreadores em geral, o Reddit também estaria bloqueando ativamente o crawler da Mojeek

Cresce a tendência de bloquear scraping de dados por empresas de IA

Muitos sites estão atualizando seus arquivos robots.txt, e cresce fortemente a tentativa de bloquear bots de empresas de IA que raspam dados para treinamento
O Google introduziu recentemente dois rastreadores: o Googlebot, para melhorar os resultados de busca, e o Google-Extended, para melhorar o app Gemini
O arquivo robots.txt é apenas uma diretriz simples, e rastreadores podem ignorá-lo

O contexto por trás da medida do Reddit

O Reddit vinha demonstrando insatisfação com empresas de IA que raspavam o site para treinar grandes modelos de linguagem e já vinha adotando medidas públicas e agressivas para impedir isso
No ano passado, começou a cobrar pelo acesso à API, o que tornou muitos apps de terceiros caros demais para operar e levou ao encerramento deles
No início deste ano, firmou um acordo de US$ 60 milhões com o Google, permitindo que a empresa licencie conteúdo do Reddit para treinar produtos de IA

Mudança no arquivo robots.txt do Reddit

Antes ele tinha uma forma complexa com piadas, mas recentemente ficou simples e rígido
Agora inclui apenas a diretiva User-agent: *, Disallow: /, o que significa que nenhum bot deve raspar qualquer parte do site
O Reddit declarou que "acreditamos na internet pública, mas não toleramos o uso indevido de conteúdo público"

Posição do Reddit

Recentemente, vem aumentando o número de casos em que entidades comerciais raspam o Reddit e alegam não estar sujeitas aos termos ou políticas da plataforma
Esconder-se atrás do robots.txt para dizer que o conteúdo do Reddit pode ser usado para qualquer finalidade é um problema ainda mais grave
A empresa disse que fará o máximo possível para encontrar e bloquear proativamente agentes mal-intencionados, mas que é necessário fazer mais para proteger as contribuições dos redditors
Daqui para frente, pretende atualizar as diretrizes do robots.txt de forma a deixá-las o mais claras possível. Se você acessa o Reddit com agentes automatizados, deve cumprir os termos e políticas e se comunicar com o Reddit

O acesso a dados do Reddit para fins não comerciais ainda é possível

O Reddit afirmou que "atores de boa-fé (pesquisadores, arquivos da internet etc.) continuarão podendo acessar conteúdo do Reddit para fins não comerciais"
A empresa disse que seleciona de forma criteriosa entidades confiáveis para conceder acesso em larga escala aos dados do Reddit
Segundo o guia de acesso a dados do Reddit, "busca ou publicidade em websites" é considerada "uso comercial", e os dados do Reddit não podem ser usados sem permissão ou pagamento de taxa

As implicações de um cenário em que só o Google suporta busca no Reddit

À medida que a relevância da busca do Google cai, uma das formas de ainda obter bons resultados é adicionar "Reddit" ao termo pesquisado
Isso porque, há quase 20 anos, usuários reais vêm deixando conselhos e recomendações no Reddit
Agora, apenas o Google consegue conduzir os usuários até esse tipo de informação, e o fato de isso ser resultado de um contrato de US$ 60 milhões ligado a dados de treinamento de IA é mais um exemplo das consequências não intencionais de raspar indiscriminadamente toda a internet para fortalecer ferramentas de IA generativa

Preocupações do CEO da Mojeek

A Mojeek faz crawling há 20 anos de maneira respeitosa e é um mecanismo de busca tradicional que não treina IA nem rastreia usuários
O acordo do Reddit com o Google torna mais difícil oferecer formas alternativas de pesquisar a web
Isso faz parte de uma tendência mais ampla de matar e corroer gradualmente a web
Esse episódio não ajuda empresas pequenas

Opinião do GN⁺

A medida do Reddit busca proteger os direitos dos criadores de conteúdo e evitar exploração comercial, mas pode acabar prejudicando a concorrência no mercado de mecanismos de busca
Em especial, a situação em que o Google monopoliza dados do Reddit para treinamento de IA levanta preocupações sobre abuso de poder de mercado
No longo prazo, parece urgente criar normas e políticas que permitam convivência benéfica entre provedores de conteúdo, mecanismos de busca e empresas de IA
Ao mesmo tempo, é irônico que a própria busca no Reddit esteja ganhando destaque como alternativa à queda de qualidade da busca. No fundo, os mecanismos de busca precisam melhorar relevância e diversidade
Também vale acompanhar o crescimento de novos mecanismos de busca como o Kagi, que usam parcialmente o índice do Google enquanto buscam uma abordagem própria

1 comentários

GN⁺ 2024-07-25

Opinião no Hacker News

A mudança no robots.txt do Reddit é compreensível no contexto de IA, mas é anticompetitiva em relação a outros mecanismos de busca
Isso pode se tornar um precedente perigoso para a internet
Muitos sites podem passar a ter o poder de cobrar pela indexação
Podemos acabar em um mundo em que é preciso usar um mecanismo de busca específico para obter respostas de determinados sites
Do ponto de vista da eficiência, seria melhor que os sites alugassem seus dados para os mecanismos de busca
Na prática, hoje só existem dois mecanismos de busca
Isso é muito ruim para o Kagi, mas também pode levar à redescoberta da web não comercial, antes mantida como hobby
Pela legislação dos EUA, mudanças no robots.txt ou nos termos de uso não têm efeito vinculante para web scrapers
- Isso porque os dados estão acessíveis publicamente
- Mesmo que o site exiba um banner de concordância com os termos, isso não teria força vinculante
- Só passa a ter efeito vinculante se o acesso aos dados for restringido e exigir criação de conta
O Reddit alterou o robots.txt há um mês
- Durante 19 anos, usou um robots.txt muito permissivo
- Parece ter feito a mudança por causa do abuso de dados
- Há chance de reabrir o acesso se os mecanismos de busca concordarem em não usar os dados para treinamento
O problema de bots de IA raspando sites para treinar LLMs está ficando grave
- Ex.: o site thegreatestbooks.org recebeu 1,2 milhão de requisições de bots/automação em 24 horas
O Reddit se tornou um mecanismo de busca que só funciona no Google
Não dá para entender se a postura do Reddit não é anticompetitiva
- Deveria oferecer condições semelhantes também aos concorrentes do Google

Google se torna o único mecanismo de busca que funciona no Reddit graças a acordo de IA

Reação do CEO da Mojeek

Cresce a tendência de bloquear scraping de dados por empresas de IA

O contexto por trás da medida do Reddit

Mudança no arquivo robots.txt do Reddit

Posição do Reddit

O acesso a dados do Reddit para fins não comerciais ainda é possível

As implicações de um cenário em que só o Google suporta busca no Reddit

Preocupações do CEO da Mojeek

Opinião do GN⁺

Leituras relacionadas

1 comentários

Opinião no Hacker News