1 pontos por GN⁺ 2025-12-13 | 1 comentários | Compartilhar no WhatsApp
  • O blog pessoal blog.james-zhan.com foi completamente removido do índice de busca do Google apenas um mês após ser criado
  • Logo após validar por engano a URL do feed RSS no Google Search Console (GSC), todos os posts passaram a aparecer com o status “Crawled – currently not indexed”
  • Várias causas possíveis foram verificadas, como configuração do domínio, qualidade do conteúdo e estrutura de links internos, mas nenhuma apresentou problema
  • Com a ajuda de Herman, fundador do Bear Blog, problemas de DNS, HTML/CSS e da plataforma também foram descartados, e em outros buscadores o site continuou sendo indexado normalmente
  • No fim, o autor decidiu mover o blog para um novo subdomínio e deixar a indexação acontecer naturalmente no Google, mas a causa continua desconhecida

Situação inicial

  • O blog foi criado em 4 de outubro e publicou seu primeiro artigo longo em formato de coluna de opinião
    • Após enviar o sitemap ao Google Search Console (GSC) e solicitar indexação, ele apareceu nos resultados de busca já no dia seguinte
    • Depois disso, a cada novo post o autor repetia o pedido de indexação, e tudo era refletido normalmente

Surgimento do problema

  • Em 14 de outubro, ao ver no GSC uma mensagem dizendo que uma URL não havia sido indexada, o autor clicou no botão “Validate”
    • A URL em questão era o feed RSS (feed/?type=rss), não uma página real
  • Em 20 de outubro, após receber um e-mail do GSC dizendo que algumas correções haviam falhado, todos os posts foram removidos do índice
    • A mensagem de status era “Page is not indexed: Crawled – currently not indexed”
    • Reenviar o sitemap e pedir indexação individual das URLs não teve efeito

Rastreando a causa

  • O dia em que a validação da indexação foi iniciada e o dia em que todos os posts deixaram de ser indexados coincidem
    • Não está claro se a tentativa de validar o feed RSS causou o problema
  • Todos os posts publicados depois disso também permaneceram com o mesmo status de erro
    • Em 3 de novembro, até o último post que ainda restava no índice acabou sendo removido

Verificação das possíveis causas

  • Problema de domínio: o domínio james-zhan.com, usado via GoDaddy, era indexado normalmente em outros subdomínios → não era a causa
  • Qualidade do conteúdo: comparando com outros casos no Bear Blog, não havia problema de volume nem de qualidade do conteúdo → não era a causa
  • Falta de links internos: a estrutura padrão do Bear Blog é a mesma, e outros blogs eram indexados normalmente → não era a causa
  • Outros fatores: segundo a checagem feita por Herman, fundador do Bear Blog
    • DNS, HTML/CSS e configurações da plataforma estavam todos normais
    • O código CSS personalizado do usuário também não afetava a indexação

Outros buscadores e medidas adotadas

  • Em DuckDuckGo, Bing, Brave e outros, o blog continuava sendo indexado normalmente
    • Isso sugere um problema do lado do Google, e não uma falha técnica do site
  • O blog foi movido para um novo subdomínio (journal.james-zhan.com) e
    • o domínio foi transferido da GoDaddy para a Porkbun
    • foi configurado redirecionamento de URL para que os links antigos levassem automaticamente ao novo blog
  • No novo blog, o autor não enviou sitemap ao GSC e deixou a indexação acontecer de forma natural
  • A causa ainda não foi descoberta, e o autor questiona a falta de transparência do sistema de indexação do Google

1 comentários

 
GN⁺ 2025-12-13
Comentários do Hacker News
  • O tráfego do meu blog despencou este ano. Investigando a causa, encontrei dois fatores
    1. Foi por causa do AI Overview. Impressões e posição continuaram iguais, mas a taxa de cliques caiu drasticamente. Os usuários só leem o resumo e não clicam
    2. Foi um problema de exposição a spam. Na página de busca, a consulta do usuário aparecia como h1, e o Google interpretou isso como conteúdo de spam.
      O AI Overview não está sob meu controle, mas depois que adicionei noindex à página de busca, o tráfego se recuperou em uma semana
      Detalhes estão no post do meu blog
    • O segundo problema parece um ataque de SEO negativo. A página /search provavelmente foi armazenada em cache e exposta ao crawler.
      É melhor não fazer cache das páginas de busca e aplicar noindex com X-Robots-Tag
    • Por volta de setembro houve uma mudança na forma como o Google contabiliza cliques e impressões. Dizem que não dá para comparar com os dados anteriores.
      Daqui para frente, acho que vamos ter que acompanhar o tráfego com nossas próprias ferramentas de análise
    • Parece que o Google planeja essa situação há muito tempo.
      1. Aumenta a quantidade de sites de SEO e empurra conteúdo útil para baixo
      2. Coloca anúncios no topo e empurra ainda mais
      3. Introduz resumos por IA e tira do usuário o motivo para clicar
        Agora as pessoas veem só os resumos e os anúncios e vão embora
    • Tenho uma dúvida. Quando alguém pesquisa “crypto” no meu blog, como essa página de resultados acaba sendo indexada pelo Google?
      Será que outro site colocou um link para essa URL de busca e o crawler chegou até ela?
    • O AI Overview provavelmente não vai desaparecer. Usuários comuns leem só o resumo.
      Se o Google colocasse links para as fontes nas frases do resumo, talvez a taxa de cliques se recuperasse um pouco
  • Independentemente de este caso ser verdadeiro ou não, o problema é a estrutura opaca de punições do Google
    Quando um site é penalizado, não há como saber o motivo nem apresentar recurso.
    O Google está atuando, na prática, como um gatekeeper.
    Como funciona quase como um bem público, precisa de um sistema de suporte e de responsabilidade compatível com isso.
    Regulação não resolve tudo, mas empresas desse porte, quase utilitárias, deveriam ter ao menos uma obrigação mínima de garantir acesso
    • Isso é menos um problema de gatekeeper e mais um problema de monopólio. O Google é dono tanto do indexador quanto da ferramenta de busca
    • Se o Google sentisse alguma responsabilidade ética, deveria aliviar a competição dos lances de anúncios para que sites legítimos apareçam na primeira página.
      Do jeito que está, só aparece na busca quem paga por anúncios
  • Há 6 meses, seguindo recomendação do Ahrefs, removi os caracteres Unicode do caminho das URLs e configurei redirecionamentos.
    Como resultado, as páginas indexadas caíram de milhares para 100
    Veja o screenshot.
    Mesmo depois de 6 meses, não se recuperou. Como era um projeto pessoal, tudo bem, mas se fosse um negócio eu estaria furioso
    Screenshot atualizado
    • Provavelmente, como o Google concentrou recursos em IA, o ranking das páginas recrawleadas depois da invalidação de cache acabou mudando
    • O Google já coletou todo o conteúdo de que precisava. Agora os sites viraram concorrentes para o treinamento de IA
    • A lição é simples — se está funcionando bem, não mexa
    • Passei pela mesma coisa. Milhares de páginas foram desindexadas e acabei encerrando meu negócio de conteúdo baseado em anúncios
  • No Google Maps há muitos anúncios ilegais. Hospedagens sem licença e lojas de bebidas aparecem cadastradas abertamente.
    Depois de operarem por algum tempo, às vezes acabam reconhecidas como “direito adquirido”.
    Cheguei até a ver capturas de tela do Google Maps sendo apresentadas como prova em tribunal
    • Eu também fui vítima disso. Procurei um chaveiro próximo no Google Maps,
      mas na prática era uma empresa golpista. Danificaram a fechadura e cobraram 600 dólares.
      Quando denunciei, o Google removeu rápido, mas acho que esse tipo de cadastro deveria exigir verificação de identidade real no momento do registro
    • Isso me lembra as trap streets que cartógrafos antigos colocavam nos mapas.
      O problema é que, às vezes, a realidade acaba mudando para se adequar ao mapa
    • Fico curioso se esses anúncios são tratados de forma diferente dos outros anúncios.
      Em processos administrativos, muitas vezes passa a ideia de “se ninguém contestou, então está tudo bem”
    • Isso parece uma espécie de citogênese legal — quando informação errada acaba se consolidando em documentos oficiais
  • Ultimamente, a qualidade da busca do Google caiu muito.
    Meu site está sendo confundido com conteúdo duplicado e sendo desindexado.
    No Bing não há problema, mas o Google comete esse erro
    • Tenho sensação parecida. Modelos populares do Hugging Face não aparecem na busca,
      e páginas do Reddit só aparecem em versões traduzidas para idiomas aleatórios.
      Parece que a lógica de deduplicação está falhando
    • Talvez seja preciso verificar se as requisições SNI estão sendo roteadas de forma errada.
      Se houver reverse proxy em outro domínio, o Google indexa como duplicado.
      É melhor usar tag canonical e links com caminho absoluto
    • Amazon e Google estão ambos cheios de produtos falsos e resultados spam
    • O Bing funciona bem em todos os meus sites, mas o Google falha em todos
    • Hoje em dia a busca do Google está quase inútil. Surpreende ver uma competência central dessas sendo tão negligenciada
  • Eu também passei pelo mesmo problema. Uso o tema Bear do Hugo, e recentemente fui completamente desindexado no Bing.
    Era um blog que não tinha problemas havia 17 anos
  • É possível que uma falha na validação do RSS tenha disparado a sinalização de spam.
    Como há spam demais, parece que os falsos positivos aumentaram
    • Se um único erro de RSS puder desindexar o site inteiro, isso é um problema grave.
      Esse método acaba tendo o efeito contrário, reduzindo a proporção de conteúdo legítimo
  • Sinceramente, quando vi o título “Google de-indexed my Bear Blog”, cliquei achando que era sobre um blog de ursos
    • Se você procurar um blog realmente sobre ursos, talvez encontre resultados inesperados
    • Eu ainda não entendo por que o “Bear” está no título
    • Como uma quietfox, é importante proteger a si mesmo ^^
  • Isso é parecido com este tópico anterior no HN.
    É semelhante no ponto em que o Google decide quem sobrevive
    • Como caso relacionado, há também este texto.
      O erro de RSS pode ter sido apenas um gatilho para desinteresse
    • Antigamente o TripAdvisor tinha 60% do mercado de avaliações locais no Reino Unido,
      então o Google Maps teria alcançado isso tão rápido assim?
      Também não dá para ignorar a influência de Instagram e TikTok,
      então parece uma interpretação que dá poder demais ao Google
  • A busca do Google favorece sites grandes e prejudica sites novos.
    No fim, isso leva ao problema do ovo e da galinha.
    Sites pequenos não conseguem exposição e não podem crescer,
    enquanto sites grandes continuam aparecendo no topo sem dificuldade