2 pontos por GN⁺ 1 시간 전 | 2 comentários | Compartilhar no WhatsApp
  • A Pokémon Central Wiki era, há mais de 15 anos, a principal fonte de informações sobre Pokémon em italiano, mas agora praticamente desapareceu dos resultados de busca do Google
  • Mesmo sendo uma grande wiki baseada em MediaWiki, site: em wiki.pokemoncentral.it retorna literalmente apenas 4 resultados
  • A queda brusca na indexação começou por volta do core update de março de 2026, e o Search Console mostra em massa "crawled - currently not indexed"
  • Bing, DuckDuckGo e outros seguem indexando normalmente, o que sugere um problema restrito ao Google; o bloqueio de Google-Extended, segundo a documentação, não deveria afetar a indexação
  • Foram aplicadas otimizações em servidor/Cloudflare, tags Open Graph e schema.org, além de SWR, mas ainda sem efeito e com causa indefinida

Queda brusca na indexação da busca do Google

  • A Pokémon Central Wiki era, há mais de 15 anos, a fonte mais conhecida de informações sobre Pokémon em italiano, mas hoje quase não aparece nos resultados do Google
  • wiki.pokemoncentral.it roda em MediaWiki, o software open source usado pela Wikipedia, e é uma das 500 maiores instâncias de MediaWiki do mundo, segundo o Wikistats
  • A PCW faz parte da rede internacional de wikis Encyclopaediae Pokémonis, que também inclui a Bulbapedia
  • Muito conteúdo foi traduzido da Bulbapedia com permissão, com o trabalho de milhares de voluntários humanos
  • Outras wikis da EP continuam sendo indexadas normalmente, tanto pela checagem da comunidade quanto pelo site:
  • Hoje, uma busca por site:http://wiki.pokemoncentral.it retorna apenas 4 resultados
  • Há algumas semanas, por volta do core update de março de 2026, muitas páginas começaram a aparecer no Google Search Console com o status "crawled - currently not indexed"
  • O Google apenas informa que essas páginas podem ou não ser indexadas no futuro, sem dar um motivo específico

Causas investigadas e resposta

  • Parece improvável que seja um problema de qualidade de conteúdo ou de operação
    • Não houve mudança de política editorial, abuso nem piora de qualidade
    • Se fosse um problema puramente técnico, como erros 5xx, isso provavelmente apareceria de outra forma no Google Search Console
  • Tudo indica que é um problema restrito ao Google
    • Bing, DuckDuckGo e outros buscadores continuam indexando a PCW normalmente
  • Scrapers para treinamento de IA estão sendo bloqueados via Cloudflare
    • Bots de IA que usam a PCW como fonte ou referência para responder perguntas de usuários não são bloqueados
    • O Google-Extended é bloqueado no robots.txt, mas, segundo a documentação do Google, isso não deveria afetar a indexação na busca
  • O managed challenge do Cloudflare é aplicado apenas a seções sem importância para indexação, como histórico de páginas e páginas técnicas
    • Essas seções não são explicitamente permitidas no robots.txt
    • Essas páginas são difíceis de cachear e consomem muitos recursos do servidor
    • Bots enviam milhares de requisições por minuto e sobrecarregam o servidor
  • Ajustes foram feitos no servidor e no Cloudflare para acelerar o site
    • Nas últimas semanas, foram adotadas práticas honestas de SEO e otimização aplicáveis ao caso
    • Tags Open Graph e schema.org foram melhoradas iterativamente com Claude Code
    • O SWR do Cloudflare foi configurado para funcionar, permitindo que a maioria das requisições seja atendida na borda em milissegundos, sem passar pelo servidor, com revalidação em segundo plano
  • Essas mudanças ainda não surtiram efeito
    • Pode levar algumas semanas para refletirem, e o Google é opaco, então é difícil verificar de imediato se houve resultado real
  • Uma hipótese possível é que o Google tenha ajustado o algoritmo e passado a considerar a “qualidade de conteúdo” da PCW insuficiente na era da IA
    • Os LLMs podem já ter sido treinados com o texto da PCW antes do bloqueio
    • Outros sites que copiaram bastante conteúdo da PCW continuam aparecendo nos resultados de busca
    • O conteúdo da PCW está sob licença CC BY-NC-SA, então a simples cópia em si normalmente não seria o problema
  • Visitantes fiéis não estão entendendo a situação e têm enviado perguntas; houve até uma postagem sobre isso no Reddit
  • No momento, a orientação é favoritar diretamente wiki.pokemoncentral.it para acessar o site
  • A expectativa é conseguir falar com alguém dentro do Google que possa ajudar a entender o que está acontecendo

2 comentários

 
xguru 1 시간 전

Acho que isso é mesmo um problema do lado do Google. Também está acontecendo da mesma forma em vários sites que eu opero.
O Google simplesmente não está indexando sem motivo nenhum. Dizem que talvez faça isso algum dia, mas parece que vai ser realmente algum dia mesmo

 
GN⁺ 1 시간 전
Opiniões do Hacker News
  • Não é que o Google nos odeie; pior ainda, parece mais indiferença
    Para odiar, no mínimo teria que reconhecer nossa existência. Talvez esse caso isolado não signifique muito, mas, no geral, o Google está indo numa direção estranha. Já foi de ponta, mas em 20 anos parece ter virado só mais uma grande empresa que sacrificou a qualidade em nome do lucro para os acionistas
    Como mecanismo de busca, não serve mais. Os links promovidos aparecem antes do que eu realmente procuro. Depois que migrei para o Kagi, nunca mais olhei para trás
    Também não funciona tão bem para IA. Há limites de uso arbitrários que resetam depois de 5 horas, e uma cota semanal mostrada em porcentagem, no auge da falta de transparência. No Kagi, os detalhes de uso mostram claramente quanto ainda resta. E, só para constar, não sou funcionário do Kagi, só um cliente satisfeito
    Como armazenamento em nuvem também deixa a desejar. Periodicamente recebo alertas sobre conteúdo adulto porque em alguma pasta compartilhada onde colaboro deve haver um spammer ou uma conta invadida. E não acontece só comigo (https://www.reddit.com/r/techsupport/comments/1azf25v/myster...). Mudei para o Apple iCloud e encerrei o assunto
    O email é ok. Depois de usar por 22 anos, já o rebaixei para algo sem tanta importância na minha vida. As coisas importantes, de qualquer forma, já transferi para provedores europeus

    • Parece coisa de maluco, mas, como último recurso, estou usando o Yandex, e ele tem dado bons resultados para encontrar material que o Google aparentemente decidiu não mostrar mais
      Também testei o DDG, mas para o meu uso foi ainda pior que o Google
    • Quando você pesquisa um restaurante específico no Google Maps, parece que ele simplesmente assume que você está com fome de forma geral
      Acabei de procurar A&W e também apareceram Tim Hortons, Popeyes e McDonald's. O Apple Maps nunca faz isso. Ainda assim, geralmente uso o Google porque quero saber se está aberto e se o horário de funcionamento está correto
    • O Kagi é excelente
      Dito isso, ainda é admirável que uma gigante como o Google publique pesquisas gratuitas e excelentes como o AlphaFold ou, em menor grau, o Gemma. Parece uma espécie de ATT PAC Bell ou IBM da nossa era
    • Os links promovidos chegaram a um nível insano, e muitas vezes os 5 ou 6 primeiros links parecem anúncios
    • Tenho curiosidade sobre como usar a IA do Kagi
      Já pago pelo serviço de busca há um ano, mas ainda não explorei os recursos de IA
  • Talvez seja por ser uma wiki. Hoje em dia os spammers de wiki são persistentes
    Até uma wiki pequena e pouco conhecida de um jogo com menos de 10 mil jogadores, que eu ajudo a administrar, recentemente teve que bloquear novos cadastros. O spam estava pesado demais, e estávamos presos a uma versão antiga do MediaWiki que não oferece suporte a CAPTCHA
    Se for uma wiki popular, e esta parecia ser bem popular, CAPTCHA sozinho provavelmente não basta para deter spammers de wiki. Se eles não estavam só postando lixo do tipo “compre remédio para potência”, mas também links para sites maliciosos, é possível que o Google tenha considerado, com alguma razão, essa wiki como origem desse malware
    A solução para o autor do post original provavelmente seria auditar e limpar a fundo o conteúdo malicioso da wiki e depois contestar isso junto ao Google. Claro, como é o Google, mesmo que respondam, provavelmente levará meses
    No fim, a situação parece bem sem saída, a menos que haja um fã italiano de Pokémon na equipe do Google responsável por isso

    • Operamos um sistema antibot com restrições de permissão para contas novas, regras bem ajustadas do Cloudflare e uma equipe dedicada de voluntários patrulhando continuamente as edições recentes
      Não posso excluir a possibilidade de haver um link de spam perdido em algum lugar pouco visitado entre mais de 37 mil páginas, mas isso dificilmente parece explicar a remoção do índice. Se fosse isso, imagino que também apareceria no Google Search Console
    • Se um projeto fica famoso a ponto de merecer automação personalizada, na prática não há como vencer o spam
      Se for pequeno o bastante, normalmente basta colocar um fluxo não padrão no cadastro para escapar de quase todos os bots de spam. Por exemplo, mostrar uma imagem estática ou um áudio que só o público daquele site reconheceria e pedir que a pessoa escolha a resposta correta num menu “não sou um robô”, ou exigir uma verificação extra por email no primeiro post/edição, ou pedir a resposta que aparece em um ponto específico de um vídeo longo no YouTube. Qualquer coisa não padrão funciona
      Isso quebra 99,9% das automações, e os spammers que manipulam resultados de busca não vão criar automação exclusiva para uma wiki ou fórum específico
      Se o site for muito famoso, claro, vira uma corrida armamentista sem fim. Nesse caso, dá para usar algo como Hashcash para forçar um gasto grande de CPU/GPU/RAM a cada tentativa, a ponto de os spammers talvez simplesmente colocarem o site na blacklist
    • Dias atrás alguém aqui disse que usa rotineiramente bots de IA para captcha, e que o custo por resolução era de US$ 0,003
      Então mesmo uma versão nova com CAPTCHA talvez não tivesse ajudado
    • CAPTCHA não faz nada contra spammer
      Bloquear domínios de email no cadastro funcionou bem para mim. Minha lista está em https://www.rejectionwiki.com/index.php?title=MediaWiki:Emai.... É um recurso nativo do MediaWiki, então deve funcionar razoavelmente bem na maioria das versões
    • Não sei se há base para dizer que essa wiki foi tomada por spam, ou se isso é só chute apressado
      Eles deixaram claro no thread do Twitter que não estava cheia de conteúdo lixo gerado por IA, e disseram que verificaram a lista de páginas marcadas como “rastreadas, mas não indexadas” sem encontrar sinais de abuso
      Entendo o susto de ter visto uma wiki sob sua gestão sofrer ataque de spam, mas generalizar essa experiência para o caso deles não parece razoável
  • Sinceramente, há uma boa chance de ser um bug malfeito do lado do Google
    Em busca existe muita relação de causa e efeito com atraso, e é muito mais fácil um site cometer um pequeno erro que faz 0,1% da web deixar de ser rastreada ou indexada do que perceber que isso aconteceu. Especialmente antes de os sites afetados avisarem
    Já tive um bug desses no marginalia. Um site não era indexado quando o caminho raiz não suportava HEAD, mas suportava GET com o cabeçalho Range e respondia corretamente com HTTP 206. Isso acontecia porque o código que verificava problemas no documento raiz durante a exploração inicial tratava essa situação como erro
    A maioria dos sites que suporta requisições por intervalo também suporta HEAD. Em geral isso significa que o documento não é gerado dinamicamente. Ainda assim, algumas configurações baseadas em Caddy, cerca de 0,3% dos servidores, eram exceção

    • Ou talvez alguma IA tenha marcado aquilo como um tipo de conteúdo que ela não queria mostrar
      Não existe como esse tipo de classificação ser perfeito
    • Se as páginas indexadas caíram de 511 mil para 11, então é uma trapalhada bem séria
  • Se o Google já raspou os dados e até treinou o modelo com eles, por que ainda se dar ao trabalho de mandar tráfego para o site?
    Criadores de conteúdo e sites legítimos basicamente foram usados e descartados

    • Personificar o Google desse jeito não é muito realista
      Só a equipe de busca do Google já é composta por milhares de pessoas, todas trabalhando em coisas diferentes sob uma missão ampla de tornar a web mais acessível, não menos. Qualquer implantação de qualquer uma delas pode causar esse tipo de efeito colateral
      Pode até ter sido uma política deliberada, mas a probabilidade parece muito baixa
    • Pensei a mesma coisa. Boa parte desses dados não é estável e estática?
      Se o corpus já está funcionalmente completo, não entendo por que continuar rastreando e indexando repetidamente coisas de baixo valor
    • Eu estava ouvindo Suffragette City, do David Bowie, quando li essa expressão
      Acho que o Bowie foi um dos que popularizou a expressão “wham bam, thank you ma’am”
    • Então isso não é o mesmo tipo de coisa que os usuários de bloqueador de anúncios vêm fazendo há 20 anos?
      Dar downvote não vai explicar a diferença
      Quando se dizia que usuários com ad blocker impediam a receita dos criadores, a resposta costumava ser que a internet de 1996 também era boa, ou que ninguém deveria esperar recompensa por publicar conteúdo online, ou que o computador é da pessoa e ela escolhe o que carregar. Para onde foi essa lógica?
  • Isso aconteceu com o meu blog também algumas semanas atrás
    Era um blog bem referenciado há anos, e de repente quase todos os posts deixaram de ser indexados. No Search Console aparece que as URLs foram rastreadas, mas não estão indexadas no momento, e, diferente de um problema técnico, não há nada que eu possa corrigir. Agora só me resta aceitar que a maior parte dos meus textos não pode mais ser encontrada pelo Google
    Não acho que seja realmente relacionado, mas, olhando em retrospecto, o timing coincide com o momento em que comecei a configurar TDMRep para impedir o uso do meu conteúdo em treinamento de LLMs

    • Comigo foi igual. Tenho um blog pessoal há mais de 20 anos, e no ano passado não consegui encontrar um único link dele no Google
      Quando entrei no Google Search Console, todos os links estavam com o status “rastreado, mas não indexado”, sem nenhum motivo informado
    • Se o Google já sugou os dados do site para treinamento, deixar de indexá-lo pode virar uma espécie de fosso contra concorrentes que usam a busca do Google para descobrir sites
  • O erro clássico de SEO foi ter construído um site de comunidade de verdade
    Deveria ter criado thread no Reddit, subpastas de cupons e resumo por IA. Brincadeiras à parte, espero que consigam se recuperar em breve

  • Dá até para dizer que o Google odeia todos nós

    • O Google não odeia nem ama nenhum de nós
      Como instituição, só se importa em enfiar o máximo possível de anúncios na frente do maior número de pessoas, para formar pilhas de dinheiro cada vez mais absurdas
      Não estou dizendo isso para defender o Google. O Google, como quase toda grande empresa, é completamente sociopático
  • A propósito, o Google também odeia o OpenCV
    Coisas que antes eram fáceis de achar, como pesquisar “opencv orb”, agora mostram sites de spam página após página. Basicamente spam de blog do tipo “aprenda OpenCV aqui!”
    O primeiro resultado de “docs.opencv.org” aparece literalmente na quarta página, e ainda aponta para a versão 3.4 de 9 anos atrás
    A página que eu quero, https://docs.opencv.org/4.13.0/dc/dc3/tutorial_py_matcher.ht..., não aparece em lugar nenhum

    • Acho que, para produtos que não vivem de assinatura, já fazia tempo que a escrita na parede estava clara por causa da enshittification
      Temos que votar com o dinheiro e migrar para produtos melhores, orientados ao cliente em vez de ao anunciante
      Guardo boas lembranças de quando eu navegava pelo Newgrounds na adolescência e juventude e sentia gratidão por quem bancava os custos dos servidores. Eu prometi a mim mesmo que, quando estivesse estável e com sobra de dinheiro, faria o mesmo pela geração seguinte. Demorou mais do que eu esperava, mas já faço isso há quase 10 anos
      Então eu encorajaria a normalizar essa cultura. Um modelo em que uma porcentagem dos usuários pagantes permite manter o gratuito para quem não pode pagar, ou sustentar o crescimento. É bem provável que dezenas de milhares de carreiras em programação e animação tenham começado, ou ao menos sido inspiradas, por sites excelentes como o Newgrounds, e vejo nisso um enorme efeito líquido positivo para a sociedade
    • Também tive problema parecido com a documentação do OpenStack no Google
  • Depois do keynote de ontem e das mudanças na Search, ficou claro que, num futuro próximo, o Google vai parar de enviar tráfego para sites
    Os resultados de busca vão virar só notas de rodapé das respostas do Gemini

  • Wikis têm alto risco do ponto de vista de SEO
    Tornar minha wiki pessoal indexável foi tão difícil que eu quase desisti, e só consegui porque um amigo mais familiarizado com isso me ajudou a deixar todas as configurações necessárias no lugar
    Se você não tomar cuidado, as pessoas podem facilmente espalhar spam pelo site, e isso realmente destrói sua presença em mecanismos de busca
    Só que o Google é gigantesco. Gigantesco mesmo. Tão grande que nem as pessoas de dentro do próprio Google são automaticamente vistas como plenamente confiáveis pelo Google quando o assunto é esse
    Ainda assim, não é que o Google odeie wikis em geral. Só que há muito trabalho a fazer: garantir que não haja spam na wiki, preencher informações de metatags, ter um sitemap.xml, entre outras coisas. Aqui está o exemplo da minha wiki: https://wiki.roshangeorge.dev/w/images/8/89/Screenshot_-_Goo...