Busca do Google, sobrecarregada por um ataque massivo de spam
- Os resultados de busca do Google vêm sofrendo ataques de spam nos últimos dias e chegaram a um ponto em que a situação está completamente fora de controle.
- Muitos domínios estão conseguindo se posicionar para centenas de milhares de palavras-chave cada, o que indica que a escala desse ataque pode atingir milhões de consultas com palavras-chave.
Como o algoritmo do Google pode ser explorado
- Os sites de spam parecem estar explorando pelo menos três brechas na forma como o Google classifica sites.
- As consultas em que esses sites de spam conseguem ranquear têm baixa concorrência, o que facilita o posicionamento.
- Há brechas relacionadas ao algoritmo de busca local, a palavras-chave de cauda longa e à vantagem de domínios recém-registrados.
- Sites novos têm o benefício de conseguir se posicionar por um curto período enquanto o algoritmo do Google ainda está entendendo o site.
Links ajudam o Google a encontrar sites de spam
- Isso veio à tona por meio de um post de Bill Hartzer, que usou a ferramenta de backlinks da Majestic para revelar a rede de links de vários sites de spam.
- Embora tenha havido muito esforço para criar uma rede de backlinks, os links não são de fato o fator responsável pelas posições elevadas.
- Os links ajudam o Google a descobrir e rastrear novos sites de spam, que acabam sendo ranqueados.
Spam fora de controle nas SERPs do Google
- Vários sites estão se posicionando para expressões de cauda longa fáceis de ranquear e para consultas com componente de busca local.
- O conceito de cauda longa existe há quase 20 anos e foi popularizado pelo livro "The Long Tail", publicado em 2006.
- Os sites de spam conseguem ranquear para termos com pouca concorrência e, com isso, alcançar centenas de milhares de palavras-chave em pouco tempo.
Como são as páginas de spam
- Não é possível visitar as páginas de spam diretamente pelo navegador.
- Os sites de spam redirecionam automaticamente para outros domínios.
- Foi usado o Rich Results Tester do Google para visitar os sites de spam e registrar o HTML das páginas.
Um domínio ranqueia para mais de 300.000 palavras-chave
- A planilha enviada por Bill incluía uma lista das expressões de palavras-chave para as quais um site de spam estava ranqueando.
- Um único site de spam estava ranqueando para mais de 300.000 expressões de palavras-chave.
Por que essa técnica de spam é eficaz
- A busca local usa um algoritmo diferente do algoritmo não local.
- O algoritmo de busca local é mais permissivo para que sites de tipo local consigam se posicionar.
- O Google já sabia desse problema de spam pelo menos desde 19 de dezembro, como confirmado por um tweet de Danny Sullivan.
Opinião do GN⁺
- O ponto mais importante deste artigo é que os resultados de busca do Google são vulneráveis a ataques massivos de spam, o que pode afetar a confiabilidade do mecanismo de busca.
- O motivo de esses ataques de spam serem eficazes é a exploração de vulnerabilidades específicas do algoritmo do Google, o que reforça a necessidade de a empresa melhorar esse algoritmo.
- O texto é interessante não só pelo aspecto técnico, mas também por mostrar que até grandes empresas de tecnologia como o Google ainda podem enfrentar problemas inesperados.
7 comentários
No documento de denúncia de spam do Google, ao denunciar spam da web, se for um domínio como
abc.abc.uk/trashasda, denuncie comoabc.uk; e incluaabc.abc.uk/sitemap.xmlno campo de busca que permita identificar o problema com precisão ao fazer a denúncia. Parece ser um site já estruturado com uma solução, mas com uma arquitetura em que, quando um usuário comum acessa, documentos derivados são recriados imediatamente. A forma correta de responder é fazer denúncias ativamente, e, na mesma proporção em que o Google derruba, novas páginas de spam são criadas novamente. Além disso, há um processo em que bots são induzidos a acessar por meio degoogle.com/url,image.google.com/url, redirecionamento do Naver etc., sendo então levados outra vez para páginas de spamgeradas; portanto, não cliquem, apenas copiem o link e denunciem. Enquanto o algoritmo de redirecionamento explicitamente indicado comogoogle.com/urlnão for abolido, esse problema atual provavelmente continuará ocorrendo.(spam, denúncia de documento web com spam)
Ao denunciar páginas da web que se enquadram nas soluções de spam acima,
o correto é preencher, no total de 5 campos, o domínio principal no primeiro e, nas 4 URLs adicionais, a lista de documentos derivados dele. Também é recomendável colocar o sitemap desse domínio no campo de busca. Ao abrir o sitemap, eles adotam uma estratégia em que algo como
/new/asdasdé gerado assim que se acessa, de modo que, quando você preenche a denúncia, acabam fazendo o Google gerar e acessar documentos adicionais que depois desaparecem. Como é um esquema bem elaborado, é preciso denunciar o domínio em si.No meu caso
(
hfoi trocado porxe/por|)xttp:||baddomain.com
xttp:||baddomain.com/blogs
xttp:||baddomain.com/blogs/asdasd1
xttp:||baddomain.com/asdasd1
xttp:||baddomain.com/asdasd2
Depois de preencher a denúncia assim,
se for um caso que já apodreceu desde o subdomínio, envio a denúncia com a palavra-chave
site:*baddomain.compreenchida assim.Depois, se o próprio site for totalmente spam, também envio junto a denúncia de site de phishing.
Ironicamente, os softwares desses sites de spam têm integração com tag managers e, apesar de usarem sites como https://picsum.photos, continuam sendo indexados normalmente. Isso também significa que o Google não faz revisão. Mesmo quando já ultrapassaram o limite do que seria uma categoria normal de atividade de spam, se páginas web de spam + anúncios do AdWords estiverem ativos, por mais que sejam denunciados, documentos derivados são criados rapidamente na mesma proporção do tráfego vindo dos anúncios. O mais assustador é que sites de spam estão usando tag managers normalmente.
Já faz um mês que estou enviando relatórios de spam, e se vocês denunciarem como documento de spam ou documento fraudulento, e também fizerem a denúncia na página de reporte de sites de phishing, a limpeza acontece mais rápido. Eu também incluo essa página, mas se o domínio de nível mais alto for
abc.abc.uk, vocês precisam informarabc.ukpara ajudar a remover o domínio em si. Isso virou uma tarefa cotidiana para os webmasters.Mesmo antes disso, já era visível havia tempos que a qualidade geral dos resultados de busca do Google tinha caído, e se ele for atacado em massa dessa forma em um curto período, muita gente vai passar a confiar ainda menos nos resultados de busca do Google.
Opiniões no Hacker News
Sites de spam verificam o endereço IP do Googlebot
Experiência de um usuário que migrou para o mecanismo de busca Kagi
Aumento de sites que fornecem uma quantidade excessiva de texto para responder perguntas simples
Observação sobre a queda de qualidade dos resultados de busca do Google
Questionamentos sobre os mecanismos de busca
Críticas às mudanças de algoritmo do mecanismo de busca do Google
Alegação de que o Google abandonou a busca orgânica
Apontamentos sobre as limitações do mecanismo de busca do Google
Relato de migração para o Bing
Crítica ao comportamento do Google como empresa de publicidade