1 pontos por GN⁺ 2023-12-24 | 7 comentários | Compartilhar no WhatsApp

Busca do Google, sobrecarregada por um ataque massivo de spam

  • Os resultados de busca do Google vêm sofrendo ataques de spam nos últimos dias e chegaram a um ponto em que a situação está completamente fora de controle.
  • Muitos domínios estão conseguindo se posicionar para centenas de milhares de palavras-chave cada, o que indica que a escala desse ataque pode atingir milhões de consultas com palavras-chave.

Como o algoritmo do Google pode ser explorado

  • Os sites de spam parecem estar explorando pelo menos três brechas na forma como o Google classifica sites.
  • As consultas em que esses sites de spam conseguem ranquear têm baixa concorrência, o que facilita o posicionamento.
  • Há brechas relacionadas ao algoritmo de busca local, a palavras-chave de cauda longa e à vantagem de domínios recém-registrados.
  • Sites novos têm o benefício de conseguir se posicionar por um curto período enquanto o algoritmo do Google ainda está entendendo o site.

Links ajudam o Google a encontrar sites de spam

  • Isso veio à tona por meio de um post de Bill Hartzer, que usou a ferramenta de backlinks da Majestic para revelar a rede de links de vários sites de spam.
  • Embora tenha havido muito esforço para criar uma rede de backlinks, os links não são de fato o fator responsável pelas posições elevadas.
  • Os links ajudam o Google a descobrir e rastrear novos sites de spam, que acabam sendo ranqueados.

Spam fora de controle nas SERPs do Google

  • Vários sites estão se posicionando para expressões de cauda longa fáceis de ranquear e para consultas com componente de busca local.
  • O conceito de cauda longa existe há quase 20 anos e foi popularizado pelo livro "The Long Tail", publicado em 2006.
  • Os sites de spam conseguem ranquear para termos com pouca concorrência e, com isso, alcançar centenas de milhares de palavras-chave em pouco tempo.

Como são as páginas de spam

  • Não é possível visitar as páginas de spam diretamente pelo navegador.
  • Os sites de spam redirecionam automaticamente para outros domínios.
  • Foi usado o Rich Results Tester do Google para visitar os sites de spam e registrar o HTML das páginas.

Um domínio ranqueia para mais de 300.000 palavras-chave

  • A planilha enviada por Bill incluía uma lista das expressões de palavras-chave para as quais um site de spam estava ranqueando.
  • Um único site de spam estava ranqueando para mais de 300.000 expressões de palavras-chave.

Por que essa técnica de spam é eficaz

  • A busca local usa um algoritmo diferente do algoritmo não local.
  • O algoritmo de busca local é mais permissivo para que sites de tipo local consigam se posicionar.
  • O Google já sabia desse problema de spam pelo menos desde 19 de dezembro, como confirmado por um tweet de Danny Sullivan.

Opinião do GN⁺

  • O ponto mais importante deste artigo é que os resultados de busca do Google são vulneráveis a ataques massivos de spam, o que pode afetar a confiabilidade do mecanismo de busca.
  • O motivo de esses ataques de spam serem eficazes é a exploração de vulnerabilidades específicas do algoritmo do Google, o que reforça a necessidade de a empresa melhorar esse algoritmo.
  • O texto é interessante não só pelo aspecto técnico, mas também por mostrar que até grandes empresas de tecnologia como o Google ainda podem enfrentar problemas inesperados.

7 comentários

 
devstudyman7 2024-03-09

No documento de denúncia de spam do Google, ao denunciar spam da web, se for um domínio como abc.abc.uk/trashasda, denuncie como abc.uk; e inclua abc.abc.uk/sitemap.xml no campo de busca que permita identificar o problema com precisão ao fazer a denúncia. Parece ser um site já estruturado com uma solução, mas com uma arquitetura em que, quando um usuário comum acessa, documentos derivados são recriados imediatamente. A forma correta de responder é fazer denúncias ativamente, e, na mesma proporção em que o Google derruba, novas páginas de spam são criadas novamente. Além disso, há um processo em que bots são induzidos a acessar por meio de google.com/url, image.google.com/url, redirecionamento do Naver etc., sendo então levados outra vez para páginas de spam geradas; portanto, não cliquem, apenas copiem o link e denunciem. Enquanto o algoritmo de redirecionamento explicitamente indicado como google.com/url não for abolido, esse problema atual provavelmente continuará ocorrendo.

 
devstudyman7 2024-03-09

Ao denunciar páginas da web que se enquadram nas soluções de spam acima,
o correto é preencher, no total de 5 campos, o domínio principal no primeiro e, nas 4 URLs adicionais, a lista de documentos derivados dele. Também é recomendável colocar o sitemap desse domínio no campo de busca. Ao abrir o sitemap, eles adotam uma estratégia em que algo como /new/asdasd é gerado assim que se acessa, de modo que, quando você preenche a denúncia, acabam fazendo o Google gerar e acessar documentos adicionais que depois desaparecem. Como é um esquema bem elaborado, é preciso denunciar o domínio em si.

 
devstudyman7 2024-03-09

No meu caso
(h foi trocado por x e / por |)

xttp:||baddomain.com
xttp:||baddomain.com/blogs
xttp:||baddomain.com/blogs/asdasd1
xttp:||baddomain.com/asdasd1
xttp:||baddomain.com/asdasd2

Depois de preencher a denúncia assim,

se for um caso que já apodreceu desde o subdomínio, envio a denúncia com a palavra-chave site:*baddomain.com preenchida assim.

Depois, se o próprio site for totalmente spam, também envio junto a denúncia de site de phishing.

 
devstudyman7 2024-03-09

Ironicamente, os softwares desses sites de spam têm integração com tag managers e, apesar de usarem sites como https://picsum.photos, continuam sendo indexados normalmente. Isso também significa que o Google não faz revisão. Mesmo quando já ultrapassaram o limite do que seria uma categoria normal de atividade de spam, se páginas web de spam + anúncios do AdWords estiverem ativos, por mais que sejam denunciados, documentos derivados são criados rapidamente na mesma proporção do tráfego vindo dos anúncios. O mais assustador é que sites de spam estão usando tag managers normalmente.

 
devstudyman7 2024-03-09

Já faz um mês que estou enviando relatórios de spam, e se vocês denunciarem como documento de spam ou documento fraudulento, e também fizerem a denúncia na página de reporte de sites de phishing, a limpeza acontece mais rápido. Eu também incluo essa página, mas se o domínio de nível mais alto for abc.abc.uk, vocês precisam informar abc.uk para ajudar a remover o domínio em si. Isso virou uma tarefa cotidiana para os webmasters.

 
aobamisaki 2023-12-24

Mesmo antes disso, já era visível havia tempos que a qualidade geral dos resultados de busca do Google tinha caído, e se ele for atacado em massa dessa forma em um curto período, muita gente vai passar a confiar ainda menos nos resultados de busca do Google.

 
GN⁺ 2023-12-24
Opiniões no Hacker News
  • Sites de spam verificam o endereço IP do Googlebot

    • Se identificarem que é o Googlebot, exibem conteúdo nessa página
    • Outros visitantes são redirecionados para outro domínio com conteúdo suspeito
    • No passado, o Google não permitia sites que mostrassem conteúdo diferente para o Googlebot e para usuários comuns, e aplicava penalidades severas em caso de violação
    • Essa política desapareceu, mas ainda pode ser útil se ferramentas automatizadas funcionarem bem
  • Experiência de um usuário que migrou para o mecanismo de busca Kagi

    • Às vezes é difícil obter bons resultados de busca, mas no Google os resultados também não são melhores
    • O usuário ajusta os resultados de busca ao gosto pessoal ao dar "boost" e "pin" em domínios
    • Ainda usa outros serviços do Google, como Gmail e Google Maps, mas não usa mais a busca
  • Aumento de sites que fornecem uma quantidade excessiva de texto para responder perguntas simples

    • A resposta real fica no fim da página
    • Superficialmente parecem relevantes, mas na prática trazem conteúdo genérico
  • Observação sobre a queda de qualidade dos resultados de busca do Google

    • Não está claro quando essa tendência começou, mas talvez não tenha recebido atenção suficiente por muito tempo
    • O ataque de spam pode ser a etapa final
  • Questionamentos sobre os mecanismos de busca

    • O conceito de um mecanismo de busca de propósito único baseado em rastreamento da web pode desaparecer
    • Talvez seja melhor substituir o Google por vários sistemas voltados a finalidades específicas
    • Por exemplo, pesquisar perguntas técnicas diretamente no StackOverflow e no Github, e buscar lugares locais em bancos de dados confiáveis
    • Os mecanismos de busca podem evoluir para usar LLMs (grandes modelos de linguagem) para inferir o tipo de busca e direcionar para buscas especializadas e curadas
  • Críticas às mudanças de algoritmo do mecanismo de busca do Google

    • O Google às vezes altera o algoritmo, afetando o ranking dos sites
    • Essas mudanças podem fazer com que resultados de baixa qualidade subam para o topo em consultas específicas
    • No passado, era importante monitorar e discutir essas atualizações de algoritmo em sites de SEO
  • Alegação de que o Google abandonou a busca orgânica

    • Até mesmo usuários experientes em SEO têm dificuldade para entender por que os resultados do Google são ranqueados de determinada forma
    • O Google torna os resultados pagos mais valiosos para induzir os usuários a clicarem em anúncios pagos
  • Apontamentos sobre as limitações do mecanismo de busca do Google

    • É útil quando se procura algo específico, mas fora isso usam Bing, ChatGPT, Phind etc.
    • O jogo do usuário aparece entre os primeiros resultados no Bing e em outros mecanismos, mas no Google sites de anúncios spam têm prioridade
  • Relato de migração para o Bing

    • Com a evolução do Bing usando ChatGPT, passaram a usar Bing no lugar do Google
    • Não é perfeito, mas, em comparação com o Google, oferece resultados mais satisfatórios
  • Crítica ao comportamento do Google como empresa de publicidade

    • Criaram uma nova conta do Gmail e, mesmo sem informar ninguém, receberam e-mails de spam
    • É razoável supor que o Google vende sua própria lista de endereços de e-mail