Análise dos documentos vazados da API do Google Search
(sparktoro.com)- Há pouco tempo, recebi um e-mail de uma fonte anônima dizendo que uma grande quantidade de documentos da API de busca do Google havia vazado
- A autenticidade dos documentos foi confirmada por ex-funcionários do Google, e conversas com alguns deles também trouxeram informações adicionais
Principais alegações
- O Google tem negado repetidamente que use sinais de usuários baseados em cliques, mas os documentos vazados contradizem isso
- Também são refutadas as afirmações do Google de que subdomínios não são avaliados separadamente, de que não existe sandbox para novos sites e de que a idade do domínio não é considerada
- Desde o início, a equipe de busca do Google precisava de muitos dados de clickstream dos usuários da web (todas as URLs visitadas no navegador) para melhorar a qualidade dos resultados de busca
- O sistema NavBoost, citado pelo DoJ, coletava dados do PageRank da barra de ferramentas do Google, e foi uma das principais motivações para o desenvolvimento do navegador Chrome a fim de obter mais dados de clickstream
- O NavBoost analisa o número de buscas por determinadas palavras-chave, o número de cliques nos resultados e cliques curtos e longos para avaliar a intenção do usuário; se houver muitos cliques em vídeos ou imagens, ele aciona recursos de vídeo ou imagem para consultas relacionadas ao NavBoost
- Uso de dados de clique: o Google usa histórico de cookies, dados do Chrome com login, detecção de padrões etc. para impedir spam de cliques manual e automático, e analisa os cliques e o engajamento dos usuários para refleti-los nos resultados de busca
- Avaliação da qualidade do site: os dados do NavBoost são usados para avaliar a qualidade geral de um site (chamado de Panda), e essa avaliação faz o ranking subir ou cair
- O NavBoost também avalia dados de clique considerando dados geográficos, segmentando em nível de país e estado/província
- Uma whitelist é aplicada a resultados de busca sobre COVID-19 e eleições para priorizar a exibição de determinados sites
Verificação da confiabilidade dos documentos
- Parte disso coincide com informações reveladas no caso Google/DoJ, mas a maior parte é inédita
- A fonte anônima revelou sua identidade em 28/5; trata-se de Erfan Azimi (especialista em SEO)
- Confirmação de ex-funcionários do Google: dois de três ex-funcionários do Google confirmaram a confiabilidade dos documentos
- Revisão técnica: o especialista técnico em SEO Mike King revisou os documentos e confirmou sua confiabilidade
Google API Contents Warehouse ?
- Objetivo desta documentação de API: servir para ajudar membros da equipe do Google a entender os elementos de dados disponíveis para uso em projetos
- Como vazou: ficou pública por um breve período no GitHub, e os documentos vazaram nesse intervalo
Principais descobertas
#1: NavBoost e uso de dados de clique
- Filtragem de dados de clique: o Google filtra os dados de clique considerados pelo sistema de ranking e mede a duração do clique e as impressões.
- Ele tem formas de excluir cliques que não quer incluir no sistema de ranking e incluir os que quer considerar
- Ao que tudo indica, mede a duração do clique (por exemplo, quando a pessoa clica em um resultado de busca, não fica satisfeita com a resposta encontrada e rapidamente aperta o botão de voltar) e o número de impressões
#2: Uso do clickstream do navegador Chrome
- Dados de clickstream do Chrome: o Google usa os dados de clique do navegador Chrome para determinar Sitelinks (URLs populares daquele site)
#3: Whitelist para viagens, COVID e política
- Existência de whitelist: determinados domínios são exibidos com prioridade em resultados de busca relacionados a viagens, COVID e eleições
#4: Uso do feedback de avaliadores de qualidade
- Dados de avaliadores de qualidade: é possível que as avaliações dos quality raters sejam usadas diretamente no sistema de busca
#5: Uso de dados de clique para determinar o peso do ranking de links
- Classificação do índice de links: dados de clique são usados para classificar o índice de links em alta, média e baixa qualidade
Principais implicações para profissionais de marketing
- Importância da marca: o Google prioriza grandes marcas no ranking
- Menor importância dos fatores E-E-A-T: é possível que os fatores de experiência, expertise, autoridade e confiabilidade, enfatizados por parte do SEO, não sejam refletidos diretamente no ranking
- Experience, Expertise, Authoritativeness, Trustworthiness
- Intenção do usuário e padrões de clique são fatores de ranking mais importantes do que conteúdo e links
- A importância de fatores tradicionais de ranking, como PageRank e texto-âncora, está diminuindo
- Dificuldade do SEO: para pequenas e médias empresas e novos criadores/publicadores, o SEO está ficando muito mais difícil para competir com grandes marcas
3 comentários
Então, que tal simplesmente impedir que o botão de voltar funcione? kkk
Eu já tinha uma vaga ideia, mas ver tudo escancarado assim dá até um bug mental...
Até o
Navboostdá para aceitar...A whitelist é chocante. Chamam de whitelist para soar melhor, mas no fim das contas é uma política de discriminação escancarada.
Documentação vazada do Google Content API Warehouse
https://hexdocs.pm/google_api_content_warehouse/0.4.0/…