Parece que o Google agora nos odeia
(twitter.com/pokemoncentral)- A Pokémon Central Wiki era, há mais de 15 anos, a principal fonte de informações sobre Pokémon em italiano, mas agora praticamente desapareceu dos resultados de busca do Google
- Mesmo sendo uma grande wiki baseada em MediaWiki,
site:em wiki.pokemoncentral.it retorna literalmente apenas 4 resultados - A queda brusca na indexação começou por volta do core update de março de 2026, e o Search Console mostra em massa
"crawled - currently not indexed" - Bing, DuckDuckGo e outros seguem indexando normalmente, o que sugere um problema restrito ao Google; o bloqueio de Google-Extended, segundo a documentação, não deveria afetar a indexação
- Foram aplicadas otimizações em servidor/Cloudflare, tags Open Graph e schema.org, além de SWR, mas ainda sem efeito e com causa indefinida
Queda brusca na indexação da busca do Google
- A Pokémon Central Wiki era, há mais de 15 anos, a fonte mais conhecida de informações sobre Pokémon em italiano, mas hoje quase não aparece nos resultados do Google
- wiki.pokemoncentral.it roda em MediaWiki, o software open source usado pela Wikipedia, e é uma das 500 maiores instâncias de MediaWiki do mundo, segundo o Wikistats
- A PCW faz parte da rede internacional de wikis Encyclopaediae Pokémonis, que também inclui a Bulbapedia
- Muito conteúdo foi traduzido da Bulbapedia com permissão, com o trabalho de milhares de voluntários humanos
- Outras wikis da EP continuam sendo indexadas normalmente, tanto pela checagem da comunidade quanto pelo
site: - Hoje, uma busca por
site:http://wiki.pokemoncentral.itretorna apenas 4 resultados - Há algumas semanas, por volta do core update de março de 2026, muitas páginas começaram a aparecer no Google Search Console com o status
"crawled - currently not indexed" - O Google apenas informa que essas páginas podem ou não ser indexadas no futuro, sem dar um motivo específico
Causas investigadas e resposta
- Parece improvável que seja um problema de qualidade de conteúdo ou de operação
- Não houve mudança de política editorial, abuso nem piora de qualidade
- Se fosse um problema puramente técnico, como erros 5xx, isso provavelmente apareceria de outra forma no Google Search Console
- Tudo indica que é um problema restrito ao Google
- Bing, DuckDuckGo e outros buscadores continuam indexando a PCW normalmente
- Scrapers para treinamento de IA estão sendo bloqueados via Cloudflare
- Bots de IA que usam a PCW como fonte ou referência para responder perguntas de usuários não são bloqueados
- O Google-Extended é bloqueado no
robots.txt, mas, segundo a documentação do Google, isso não deveria afetar a indexação na busca
- O managed challenge do Cloudflare é aplicado apenas a seções sem importância para indexação, como histórico de páginas e páginas técnicas
- Essas seções não são explicitamente permitidas no
robots.txt - Essas páginas são difíceis de cachear e consomem muitos recursos do servidor
- Bots enviam milhares de requisições por minuto e sobrecarregam o servidor
- Essas seções não são explicitamente permitidas no
- Ajustes foram feitos no servidor e no Cloudflare para acelerar o site
- Nas últimas semanas, foram adotadas práticas honestas de SEO e otimização aplicáveis ao caso
- Tags Open Graph e schema.org foram melhoradas iterativamente com Claude Code
- O SWR do Cloudflare foi configurado para funcionar, permitindo que a maioria das requisições seja atendida na borda em milissegundos, sem passar pelo servidor, com revalidação em segundo plano
- Essas mudanças ainda não surtiram efeito
- Pode levar algumas semanas para refletirem, e o Google é opaco, então é difícil verificar de imediato se houve resultado real
- Uma hipótese possível é que o Google tenha ajustado o algoritmo e passado a considerar a “qualidade de conteúdo” da PCW insuficiente na era da IA
- Os LLMs podem já ter sido treinados com o texto da PCW antes do bloqueio
- Outros sites que copiaram bastante conteúdo da PCW continuam aparecendo nos resultados de busca
- O conteúdo da PCW está sob licença CC BY-NC-SA, então a simples cópia em si normalmente não seria o problema
- Visitantes fiéis não estão entendendo a situação e têm enviado perguntas; houve até uma postagem sobre isso no Reddit
- No momento, a orientação é favoritar diretamente wiki.pokemoncentral.it para acessar o site
- A expectativa é conseguir falar com alguém dentro do Google que possa ajudar a entender o que está acontecendo
2 comentários
Acho que isso é mesmo um problema do lado do Google. Também está acontecendo da mesma forma em vários sites que eu opero.
O Google simplesmente não está indexando sem motivo nenhum. Dizem que talvez faça isso algum dia, mas parece que vai ser realmente algum dia mesmo
Opiniões do Hacker News
Não é que o Google nos odeie; pior ainda, parece mais indiferença
Para odiar, no mínimo teria que reconhecer nossa existência. Talvez esse caso isolado não signifique muito, mas, no geral, o Google está indo numa direção estranha. Já foi de ponta, mas em 20 anos parece ter virado só mais uma grande empresa que sacrificou a qualidade em nome do lucro para os acionistas
Como mecanismo de busca, não serve mais. Os links promovidos aparecem antes do que eu realmente procuro. Depois que migrei para o Kagi, nunca mais olhei para trás
Também não funciona tão bem para IA. Há limites de uso arbitrários que resetam depois de 5 horas, e uma cota semanal mostrada em porcentagem, no auge da falta de transparência. No Kagi, os detalhes de uso mostram claramente quanto ainda resta. E, só para constar, não sou funcionário do Kagi, só um cliente satisfeito
Como armazenamento em nuvem também deixa a desejar. Periodicamente recebo alertas sobre conteúdo adulto porque em alguma pasta compartilhada onde colaboro deve haver um spammer ou uma conta invadida. E não acontece só comigo (https://www.reddit.com/r/techsupport/comments/1azf25v/myster...). Mudei para o Apple iCloud e encerrei o assunto
O email é ok. Depois de usar por 22 anos, já o rebaixei para algo sem tanta importância na minha vida. As coisas importantes, de qualquer forma, já transferi para provedores europeus
Também testei o DDG, mas para o meu uso foi ainda pior que o Google
Acabei de procurar A&W e também apareceram Tim Hortons, Popeyes e McDonald's. O Apple Maps nunca faz isso. Ainda assim, geralmente uso o Google porque quero saber se está aberto e se o horário de funcionamento está correto
Dito isso, ainda é admirável que uma gigante como o Google publique pesquisas gratuitas e excelentes como o AlphaFold ou, em menor grau, o Gemma. Parece uma espécie de ATT PAC Bell ou IBM da nossa era
Já pago pelo serviço de busca há um ano, mas ainda não explorei os recursos de IA
Talvez seja por ser uma wiki. Hoje em dia os spammers de wiki são persistentes
Até uma wiki pequena e pouco conhecida de um jogo com menos de 10 mil jogadores, que eu ajudo a administrar, recentemente teve que bloquear novos cadastros. O spam estava pesado demais, e estávamos presos a uma versão antiga do MediaWiki que não oferece suporte a CAPTCHA
Se for uma wiki popular, e esta parecia ser bem popular, CAPTCHA sozinho provavelmente não basta para deter spammers de wiki. Se eles não estavam só postando lixo do tipo “compre remédio para potência”, mas também links para sites maliciosos, é possível que o Google tenha considerado, com alguma razão, essa wiki como origem desse malware
A solução para o autor do post original provavelmente seria auditar e limpar a fundo o conteúdo malicioso da wiki e depois contestar isso junto ao Google. Claro, como é o Google, mesmo que respondam, provavelmente levará meses
No fim, a situação parece bem sem saída, a menos que haja um fã italiano de Pokémon na equipe do Google responsável por isso
Não posso excluir a possibilidade de haver um link de spam perdido em algum lugar pouco visitado entre mais de 37 mil páginas, mas isso dificilmente parece explicar a remoção do índice. Se fosse isso, imagino que também apareceria no Google Search Console
Se for pequeno o bastante, normalmente basta colocar um fluxo não padrão no cadastro para escapar de quase todos os bots de spam. Por exemplo, mostrar uma imagem estática ou um áudio que só o público daquele site reconheceria e pedir que a pessoa escolha a resposta correta num menu “não sou um robô”, ou exigir uma verificação extra por email no primeiro post/edição, ou pedir a resposta que aparece em um ponto específico de um vídeo longo no YouTube. Qualquer coisa não padrão funciona
Isso quebra 99,9% das automações, e os spammers que manipulam resultados de busca não vão criar automação exclusiva para uma wiki ou fórum específico
Se o site for muito famoso, claro, vira uma corrida armamentista sem fim. Nesse caso, dá para usar algo como Hashcash para forçar um gasto grande de CPU/GPU/RAM a cada tentativa, a ponto de os spammers talvez simplesmente colocarem o site na blacklist
Então mesmo uma versão nova com CAPTCHA talvez não tivesse ajudado
Bloquear domínios de email no cadastro funcionou bem para mim. Minha lista está em https://www.rejectionwiki.com/index.php?title=MediaWiki:Emai.... É um recurso nativo do MediaWiki, então deve funcionar razoavelmente bem na maioria das versões
Eles deixaram claro no thread do Twitter que não estava cheia de conteúdo lixo gerado por IA, e disseram que verificaram a lista de páginas marcadas como “rastreadas, mas não indexadas” sem encontrar sinais de abuso
Entendo o susto de ter visto uma wiki sob sua gestão sofrer ataque de spam, mas generalizar essa experiência para o caso deles não parece razoável
Sinceramente, há uma boa chance de ser um bug malfeito do lado do Google
Em busca existe muita relação de causa e efeito com atraso, e é muito mais fácil um site cometer um pequeno erro que faz 0,1% da web deixar de ser rastreada ou indexada do que perceber que isso aconteceu. Especialmente antes de os sites afetados avisarem
Já tive um bug desses no marginalia. Um site não era indexado quando o caminho raiz não suportava HEAD, mas suportava GET com o cabeçalho
Rangee respondia corretamente com HTTP 206. Isso acontecia porque o código que verificava problemas no documento raiz durante a exploração inicial tratava essa situação como erroA maioria dos sites que suporta requisições por intervalo também suporta HEAD. Em geral isso significa que o documento não é gerado dinamicamente. Ainda assim, algumas configurações baseadas em Caddy, cerca de 0,3% dos servidores, eram exceção
Não existe como esse tipo de classificação ser perfeito
Se o Google já raspou os dados e até treinou o modelo com eles, por que ainda se dar ao trabalho de mandar tráfego para o site?
Criadores de conteúdo e sites legítimos basicamente foram usados e descartados
Só a equipe de busca do Google já é composta por milhares de pessoas, todas trabalhando em coisas diferentes sob uma missão ampla de tornar a web mais acessível, não menos. Qualquer implantação de qualquer uma delas pode causar esse tipo de efeito colateral
Pode até ter sido uma política deliberada, mas a probabilidade parece muito baixa
Se o corpus já está funcionalmente completo, não entendo por que continuar rastreando e indexando repetidamente coisas de baixo valor
Acho que o Bowie foi um dos que popularizou a expressão “wham bam, thank you ma’am”
Dar downvote não vai explicar a diferença
Quando se dizia que usuários com ad blocker impediam a receita dos criadores, a resposta costumava ser que a internet de 1996 também era boa, ou que ninguém deveria esperar recompensa por publicar conteúdo online, ou que o computador é da pessoa e ela escolhe o que carregar. Para onde foi essa lógica?
Isso aconteceu com o meu blog também algumas semanas atrás
Era um blog bem referenciado há anos, e de repente quase todos os posts deixaram de ser indexados. No Search Console aparece que as URLs foram rastreadas, mas não estão indexadas no momento, e, diferente de um problema técnico, não há nada que eu possa corrigir. Agora só me resta aceitar que a maior parte dos meus textos não pode mais ser encontrada pelo Google
Não acho que seja realmente relacionado, mas, olhando em retrospecto, o timing coincide com o momento em que comecei a configurar TDMRep para impedir o uso do meu conteúdo em treinamento de LLMs
Quando entrei no Google Search Console, todos os links estavam com o status “rastreado, mas não indexado”, sem nenhum motivo informado
O erro clássico de SEO foi ter construído um site de comunidade de verdade
Deveria ter criado thread no Reddit, subpastas de cupons e resumo por IA. Brincadeiras à parte, espero que consigam se recuperar em breve
Dá até para dizer que o Google odeia todos nós
Como instituição, só se importa em enfiar o máximo possível de anúncios na frente do maior número de pessoas, para formar pilhas de dinheiro cada vez mais absurdas
Não estou dizendo isso para defender o Google. O Google, como quase toda grande empresa, é completamente sociopático
A propósito, o Google também odeia o OpenCV
Coisas que antes eram fáceis de achar, como pesquisar “opencv orb”, agora mostram sites de spam página após página. Basicamente spam de blog do tipo “aprenda OpenCV aqui!”
O primeiro resultado de “docs.opencv.org” aparece literalmente na quarta página, e ainda aponta para a versão 3.4 de 9 anos atrás
A página que eu quero, https://docs.opencv.org/4.13.0/dc/dc3/tutorial_py_matcher.ht..., não aparece em lugar nenhum
Temos que votar com o dinheiro e migrar para produtos melhores, orientados ao cliente em vez de ao anunciante
Guardo boas lembranças de quando eu navegava pelo Newgrounds na adolescência e juventude e sentia gratidão por quem bancava os custos dos servidores. Eu prometi a mim mesmo que, quando estivesse estável e com sobra de dinheiro, faria o mesmo pela geração seguinte. Demorou mais do que eu esperava, mas já faço isso há quase 10 anos
Então eu encorajaria a normalizar essa cultura. Um modelo em que uma porcentagem dos usuários pagantes permite manter o gratuito para quem não pode pagar, ou sustentar o crescimento. É bem provável que dezenas de milhares de carreiras em programação e animação tenham começado, ou ao menos sido inspiradas, por sites excelentes como o Newgrounds, e vejo nisso um enorme efeito líquido positivo para a sociedade
Depois do keynote de ontem e das mudanças na Search, ficou claro que, num futuro próximo, o Google vai parar de enviar tráfego para sites
Os resultados de busca vão virar só notas de rodapé das respostas do Gemini
Wikis têm alto risco do ponto de vista de SEO
Tornar minha wiki pessoal indexável foi tão difícil que eu quase desisti, e só consegui porque um amigo mais familiarizado com isso me ajudou a deixar todas as configurações necessárias no lugar
Se você não tomar cuidado, as pessoas podem facilmente espalhar spam pelo site, e isso realmente destrói sua presença em mecanismos de busca
Só que o Google é gigantesco. Gigantesco mesmo. Tão grande que nem as pessoas de dentro do próprio Google são automaticamente vistas como plenamente confiáveis pelo Google quando o assunto é esse
Ainda assim, não é que o Google odeie wikis em geral. Só que há muito trabalho a fazer: garantir que não haja spam na wiki, preencher informações de metatags, ter um sitemap.xml, entre outras coisas. Aqui está o exemplo da minha wiki: https://wiki.roshangeorge.dev/w/images/8/89/Screenshot_-_Goo...