29 pontos por xguru 2024-05-29 | 3 comentários | Compartilhar no WhatsApp
  • Há pouco tempo, recebi um e-mail de uma fonte anônima dizendo que uma grande quantidade de documentos da API de busca do Google havia vazado
  • A autenticidade dos documentos foi confirmada por ex-funcionários do Google, e conversas com alguns deles também trouxeram informações adicionais

Principais alegações

  • O Google tem negado repetidamente que use sinais de usuários baseados em cliques, mas os documentos vazados contradizem isso
  • Também são refutadas as afirmações do Google de que subdomínios não são avaliados separadamente, de que não existe sandbox para novos sites e de que a idade do domínio não é considerada
  • Desde o início, a equipe de busca do Google precisava de muitos dados de clickstream dos usuários da web (todas as URLs visitadas no navegador) para melhorar a qualidade dos resultados de busca
  • O sistema NavBoost, citado pelo DoJ, coletava dados do PageRank da barra de ferramentas do Google, e foi uma das principais motivações para o desenvolvimento do navegador Chrome a fim de obter mais dados de clickstream
  • O NavBoost analisa o número de buscas por determinadas palavras-chave, o número de cliques nos resultados e cliques curtos e longos para avaliar a intenção do usuário; se houver muitos cliques em vídeos ou imagens, ele aciona recursos de vídeo ou imagem para consultas relacionadas ao NavBoost
  • Uso de dados de clique: o Google usa histórico de cookies, dados do Chrome com login, detecção de padrões etc. para impedir spam de cliques manual e automático, e analisa os cliques e o engajamento dos usuários para refleti-los nos resultados de busca
  • Avaliação da qualidade do site: os dados do NavBoost são usados para avaliar a qualidade geral de um site (chamado de Panda), e essa avaliação faz o ranking subir ou cair
  • O NavBoost também avalia dados de clique considerando dados geográficos, segmentando em nível de país e estado/província
  • Uma whitelist é aplicada a resultados de busca sobre COVID-19 e eleições para priorizar a exibição de determinados sites

Verificação da confiabilidade dos documentos

  • Parte disso coincide com informações reveladas no caso Google/DoJ, mas a maior parte é inédita
  • A fonte anônima revelou sua identidade em 28/5; trata-se de Erfan Azimi (especialista em SEO)
  • Confirmação de ex-funcionários do Google: dois de três ex-funcionários do Google confirmaram a confiabilidade dos documentos
  • Revisão técnica: o especialista técnico em SEO Mike King revisou os documentos e confirmou sua confiabilidade

Google API Contents Warehouse ?

  • Objetivo desta documentação de API: servir para ajudar membros da equipe do Google a entender os elementos de dados disponíveis para uso em projetos
  • Como vazou: ficou pública por um breve período no GitHub, e os documentos vazaram nesse intervalo

Principais descobertas

#1: NavBoost e uso de dados de clique

  • Filtragem de dados de clique: o Google filtra os dados de clique considerados pelo sistema de ranking e mede a duração do clique e as impressões.
  • Ele tem formas de excluir cliques que não quer incluir no sistema de ranking e incluir os que quer considerar
  • Ao que tudo indica, mede a duração do clique (por exemplo, quando a pessoa clica em um resultado de busca, não fica satisfeita com a resposta encontrada e rapidamente aperta o botão de voltar) e o número de impressões

#2: Uso do clickstream do navegador Chrome

  • Dados de clickstream do Chrome: o Google usa os dados de clique do navegador Chrome para determinar Sitelinks (URLs populares daquele site)

#3: Whitelist para viagens, COVID e política

  • Existência de whitelist: determinados domínios são exibidos com prioridade em resultados de busca relacionados a viagens, COVID e eleições

#4: Uso do feedback de avaliadores de qualidade

  • Dados de avaliadores de qualidade: é possível que as avaliações dos quality raters sejam usadas diretamente no sistema de busca

#5: Uso de dados de clique para determinar o peso do ranking de links

  • Classificação do índice de links: dados de clique são usados para classificar o índice de links em alta, média e baixa qualidade

Principais implicações para profissionais de marketing

  • Importância da marca: o Google prioriza grandes marcas no ranking
  • Menor importância dos fatores E-E-A-T: é possível que os fatores de experiência, expertise, autoridade e confiabilidade, enfatizados por parte do SEO, não sejam refletidos diretamente no ranking
    • Experience, Expertise, Authoritativeness, Trustworthiness
  • Intenção do usuário e padrões de clique são fatores de ranking mais importantes do que conteúdo e links
  • A importância de fatores tradicionais de ranking, como PageRank e texto-âncora, está diminuindo
  • Dificuldade do SEO: para pequenas e médias empresas e novos criadores/publicadores, o SEO está ficando muito mais difícil para competir com grandes marcas

3 comentários

 
yangeok 2024-06-09

Então, que tal simplesmente impedir que o botão de voltar funcione? kkk

 
wkang586 2024-06-03

Eu já tinha uma vaga ideia, mas ver tudo escancarado assim dá até um bug mental...
Até o Navboost dá para aceitar...
A whitelist é chocante. Chamam de whitelist para soar melhor, mas no fim das contas é uma política de discriminação escancarada.

 
xguru 2024-05-29

Documentação vazada do Google Content API Warehouse
https://hexdocs.pm/google_api_content_warehouse/0.4.0/…