A deterioração do Google
(baldurbjarnason.com)- Ficou difícil continuar contando de forma estável com o tráfego de mídia na web vindo de Google e Facebook, e até veículos independentes operados de forma enxuta estão vendo sua base de sobrevivência balançar
- O Google introduziu ranking baseado em machine learning para melhorar a qualidade da busca, mas vem sendo criticado por deixar passar spam gerado por LLMs enquanto blogs e sites pequenos foram empurrados para fora dos resultados
- Um dos participantes do Google Web Creator Summit 2024 disse que havia faturado 250 mil dólares no ano anterior, mas com uma queda de 97% no tráfego agora depende de banco de alimentos
- Participantes do Summit relataram que o Google disse que “o problema não era o conteúdo”, e que Danny depurou exemplos com a equipe de engenharia, mas não conseguiu descobrir por que eles não apareciam
- À medida que o sistema de ranking de busca se tornou uma caixa-preta difícil de entender até dentro do próprio Google, surgem críticas de que, em uma posição monopolista, a queda na utilidade do produto não se traduz imediatamente em resultado de negócio
O colapso do tráfego da mídia independente na web
- “The End Of Independent Publishing And Giant Freakin Robot” anuncia o fechamento do Giant Freakin Robot e afirma que, nos últimos dois anos, centenas de editoras independentes fecharam as portas, com milhares de outras prestes a seguir o mesmo caminho
- Após entrar em contato com editoras independentes de vários temas, o relato é que nenhuma vai bem e que a maioria já espera encerrar as atividades em breve
- O problema foi levado diretamente ao Google, mas a mensagem recebida de volta foi a de que o Google simplesmente não se importa, chegando-se a dizer que “nosso setor acabou”
- As empresas de mídia na web já não podem mais esperar com estabilidade pelo tráfego de entrada vindo de Google ou Facebook, e são pouquíssimas as que conseguem sobreviver só com o tráfego restante
Como o ranking de busca virou uma caixa-preta
- O problema não se limita ao fracasso de alguns sites; ele está ligado ao movimento do Google de usar machine learning no ranking de sites para corrigir os resultados de busca
- Segundo What we can learn from the Google creators summit for HCU impacted sites, o helpful content system era um sistema de machine learning que aprendia exemplos bons e ruins para prever de qual lado se aproximavam casos que ele ainda não tinha visto
- Mas, no último ano, a busca do Google passou a ser criticada por deixar passar muito spam gerado por LLMs e por fazer blogs e sites pequenos desaparecerem da maior parte dos resultados
- Alguns sites foram, na prática, excluídos pelo modelo de machine learning, e ninguém sabe ao certo o motivo
- Em I Drank the Kool-Aid at the 2024 Google Web Creator Summit, um participante diz que, após faturar 250 mil dólares no ano anterior, viu o tráfego cair 97% e agora busca comida em banco de alimentos
- O problema fica ainda mais evidente porque essas pessoas foram convidadas ao Summit justamente por criarem o tipo de conteúdo que o Google dizia querer ver nos resultados de busca
- Em uma conversa no Twitter, foi compartilhado que o lado do Google repetiu várias vezes que “o problema não era o conteúdo”, e que Danny levou os exemplos dos participantes para depurar com a equipe de engenharia, mas não conseguiu descobrir por que eles não estavam sendo exibidos
- O algoritmo de busca parece ter se tornado uma caixa-preta difícil de decifrar até para os próprios engenheiros do Google
Uma estrutura em que a piora do produto não afeta o desempenho do negócio
- Esse problema também se conecta ao fato de que especialistas em ML do Google teriam alertado que LLMs poderiam tornar o produto confuso e difícil de controlar, e que por isso deveriam ser evitados
- Quando demissões em massa levam embora pessoas que entendiam profundamente os sistemas internos, o que sobra pode virar uma caixa-preta com ainda mais facilidade
- A razão fundamental para a deterioração continuar é que ela não afeta diretamente o desempenho do negócio do Google; empresas monopolistas conseguem capturar o valor gerado ao redor mesmo quando a utilidade do produto diminui
- Considerando a situação política dos EUA, a perspectiva é que os monopólios e oligopólios da indústria de tecnologia fiquem ainda mais fortes, e que a produtividade, o desempenho e a eficácia reais dos produtos se tornem cada vez menos importantes
1 comentários
Opiniões no Hacker News
Fundamentalmente, acho que começou no momento em que o pessoal de anúncios venceu a disputa de poder contra o pessoal do mecanismo de busca. Antes, anúncios eram um meio de financiar a criação de tecnologias incríveis e, de quebra, uma forma de ficar absurdamente rico.
Hoje são apenas um meio de extrair até a última gota de valor do sistema e fazer os números subirem para sempre, e a alta liderança do Google parece completamente sem visão ou estratégia.
O Google Docs era incrível em 2006, mas, quase 20 anos depois, teve só algumas melhorias de usabilidade; quanto ao resto, muita coisa parece ter sido encerrada, ou nem era tão inovadora desde o início, ou apenas seguia de forma apática o trabalho dos outros.
Anúncios podem preencher os resultados patrocinados no topo, mas não afetam os resultados orgânicos. Se “o lado dos anúncios venceu” significa que há mais espaços patrocinados, então isso só quer dizer que há mais espaços; não explica a qualidade dos resultados orgânicos.
Caso contrário, essa tecnologia incrível talvez seja apenas uma isca para atrair alvos de anúncios, ou seja, um componente da tecnologia de serviço de anúncios. Também fico curioso por que não vender ou licenciar essa tecnologia, em vez de contratar gente de publicidade.
Como Morgan disse, foi marcante o Danny sentar numa sala com a equipe de engenheiros, dar exemplos perguntando “por que essas pessoas não aparecem?”, eles seguirem o procedimento de depuração e mesmo assim não encontrarem a causa.
Enquanto isso, uma pessoa na Suécia, com uma única máquina de nível desktop na sala de estar, criou um mecanismo de busca bom o bastante para eu alternar para ele com frequência quando o Google falha. Hoje uso o Kagi, que tem prioridades e listas de bloqueio, mas os resultados já são bons por padrão, então nem uso esses recursos.
É interessante que o Kagi, embora esteja criando seu próprio índice, por muito tempo esteve mais próximo de revender uma camada sobre resultados do Google+Bing, e ainda assim era muito melhor.
Há duas possibilidades. Ou o Kagi tem um sistema muito inteligente que lê e reordena as dezenas de primeiros resultados, ou, mais provavelmente, o acesso via API contorna o “expansor e emburrecedor de consultas” na entrada do Google e a etapa de personalização na saída, interagindo diretamente com o núcleo da Busca do Google que ainda funciona.
Aqui, “emburrecedor” se refere a um pipeline que troca
obscure-js-libpor algo de nome parecido comowell-knowm-js-lib-with-kind-of-similar-name, ou que, ao pesquisarmat-tabledo Angular, decide que você quer uma mesa com um tapete em cima, sem relação com Angular.exactly-this-thing.pyno Google, ele responde: “você quis dizersorta-related.js; aqui está”. A reação natural é: “eu gaguejei?”Não tenho certeza de qual problema exatamente o autor está apontando. Não fica claro se é o fato de alguns sites terem criado um modelo de negócios baseado nos resultados de busca, se é que o Google mudou o algoritmo de busca e eles não gostam das prioridades, ou se é outra questão
Esperar que o Google nunca faça experimentos com o algoritmo é meio irracional e, no fundo, isso se aproxima de um jogo de soma zero. Quem vence hoje pode perder amanhã
Se a preocupação é divisão de receita, tráfego de entrada, posicionamento de anúncios etc., não é muito sensato criar um negócio cujo sucesso depende totalmente dos caprichos de outra empresa
A busca está sendo lentamente substituída por grandes modelos de linguagem e, por ter sido gamificada durante anos por otimização para mecanismos de busca, está ficando cada vez pior como forma de descoberta de conteúdo
Para descoberta de conteúdo, faz mais sentido um modelo em que comunidades com interesses parecidos, como o Hacker News, encontrem coisas coletivamente, ou em que haja curadoria. Se o curador ou a comunidade se afastar dos seus interesses, você precisa procurar outro, mas, curiosamente, isso ainda é possível dentro do mesmo formato
Antigamente, sites recebiam tráfego de webrings, diretórios e vários mecanismos de busca menores; hoje é quase tudo Google ou suas propriedades, e uma fatia menor da Meta. Modelos de descoberta baseados em curadores e comunidades são vítimas do Google, não a solução
Em outras palavras, o Google lançou 1000 experimentos que pareciam inofensivos e aumentavam a taxa de cliques em 0,2%, e o resultado foi um sistema que só quer entregar links do Reddit e do Quora
Vi essa discussão várias vezes na seção privada do Blind do Google, normalmente junto com conversas dizendo que o responsável pela busca antes de 2020 se preocupava com esse tipo de resultado e adotava uma abordagem mais cautelosa
Como ex-funcionário do Google, saí em outubro de 2023 e não trabalhei na equipe de busca, mas fora do Google essa teoria parece não ser bem compreendida. As únicas exceções são uns dois posts famosos de blog, cujos nomes não lembro, que acertaram no ponto central
Fico me perguntando se existe uma lista de consultas em que o Google retorna resultados ruins. Olhei meu histórico de busca por alguns minutos, e a maioria eram consultas simples, como nomes de pessoas, que o Google resolveu bem. Às vezes acho que, para buscar pessoas, o Google é até melhor que o LinkedIn
Também comparei algumas consultas complexas com o Kagi. Em “How much bitcoin does microstrategy own”, o Google retornou o snippet correto daqui, enquanto o Kagi só linkou artigos sobre quanto a empresa comprou nos últimos dias
Em “how to pronounce stratchery”, o Google mostrou o snippet correto do site Stratechery, enquanto o primeiro resultado do Kagi era um item de spam com a pronúncia errada, e o segundo resultado era um tweet com a pronúncia correta
Também me lembrei do texto do Dan Luu (https://danluu.com/seo-spam/), mas, olhando meu histórico de busca, as consultas que ele usa não representavam de forma alguma minhas buscas do dia a dia
[0]https://www.forbes.com/sites/digital-assets/2024/11/29/micro...
[1]https://stratechery.com/category/about/#:~:text=UPDATE%3A%20...
[2]https://www.howtopronounce.com/stratechery
Avaliações de produtos estão cheias de lixo de otimização para mecanismos de busca, ou seja, listas “Top 10” de spam de blog; em viagens, os anúncios ocupam uma página inteira antes de aparecer qualquer resultado orgânico. Dá tanta preguiça que você nem tenta, e no fim sobram apenas as consultas que ainda funcionam
Fico curioso se há exemplos concretos de coisas difíceis de encontrar no Google, mas fáceis em outro mecanismo
As estatísticas globais recentes de uso são: Google 89,33%, Bing 4,15%, YANDEX 2,8%, Yahoo! 1,33%, Baidu 0,83%, DuckDuckGo 0,69%. Dados de outubro de 2024: https://gs.statcounter.com/search-engine-market-share
Se o Google é tão ruim assim, fico me perguntando por que as pessoas, inclusive eu, não clicam em outros mecanismos de busca. É uma pena que o Giant Freakin Robot não receba cliques, mas isso é uma questão diferente de dizer que, do ponto de vista do usuário, o Google é ruim
Cliquei em todos e todos funcionam. O Baidu aparece em chinês e, quando pesquisei The Sound of Music, veio um resultado em chinês que, pelo Google Tradutor, era algo como “a freira e as sete crianças levadas”, o que foi meio engraçado
O Google claramente deixou de priorizar o valor para o cliente e para os criadores de conteúdo, passando a priorizar indicadores-chave de desempenho internos e opacos. Isso é ainda mais verdadeiro para criadores, que não são anunciantes
Depois de migrar para o DuckDuckGo alguns anos atrás e para o Kagi no ano passado, toda vez que volto ocasionalmente ao Google fica evidente o quanto eles se perderam
Vai levar mais uns 10 anos para perderem a dominância, mas os sinais são claros. Inércia e posição de mercado são os únicos motivos pelos quais ainda estão no topo. Enquanto isso, as gerações mais jovens quase não usam busca na web, e as pessoas mais técnicas estão saindo cada vez mais rápido
Do ponto de vista de uma startup, isso é promissor. O Google agora não é mais o gorila de 800 libras que vai roubar seu almoço, mas algo mais próximo de um gigante morto-vivo ambulante esperando para ter seus componentes conceituais colhidos
Neste ano, foram poucas as vezes em que fui ao Google pelo Kagi usando
!g, e em todas me arrependi imediatamenteAlguns anos atrás, quando eu usava DuckDuckGo,
!gera instintivo, e provavelmente em metade das vezes os resultados do Google pareciam melhores. Continuar no DuckDuckGo parecia idealismo, e a qualidade parecia de segunda linha, mas com o Kagi não é assim. Os 10 dólares por mês se pagam facilmente em ganho de produtividadeComo o Kagi também usa o índice de busca do Google como uma das fontes, não é que o Google seja tecnicamente incapaz de melhorar os resultados ou a experiência do usuário. Só parece organizacionalmente impossível
Havia o alerta de que uma consequência comum de demissões em massa é transformar sistemas internos em caixas-pretas, porque todas as pessoas que entendiam profundamente esses sistemas vão embora
Perder diretamente pessoas com conhecimento é algo real, mas não é o principal motivo pelo qual esses sistemas viram caixas-pretas
Para cada pessoa com conhecimento demitida, há umas vinte que ficam e se adaptam à realidade de que seu futuro na empresa ficou muito mais incerto. Essa adaptação varia de pessoa para pessoa, mas literalmente ninguém diz: “uau, preciso melhorar a documentação e compartilhar conhecimento para facilitar a minha demissão!”
Um mês depois, a empresa entrou em contato oferecendo trabalho como contratado, mas recusei. Durante o ano seguinte, funcionários me procuraram diretamente pedindo ajuda, e tudo em que ajudei já estava documentado
Acho que não existe uma solução adequada nas empresas para uma transferência de conhecimento de verdade. Por isso é interessante ver pessoas sendo demitidas de improviso, porque a empresa perde muito mais do que apenas um funcionário
Silos de conhecimento não garantem estabilidade profissional. Pelo contrário: limitam a capacidade de promoção, a colaboração entre organizações, a adaptabilidade, a capacidade de assumir outras tarefas e de delegar; também reduzem a colaboração e a taxa de sucesso dos projetos, diminuindo o desempenho visível dentro da organização. Há ainda muitos outros motivos pelos quais isso é ruim não só para a organização, mas também para o engenheiro que vive dentro do silo, e existem vários estudos sobre o tema
O Yandex, ou seja, o Google da Rússia, na prática está mais próximo do Google de 2006. No sentido de que ele me mostra o que eu quero, não o que os advogados do Google e as pessoas em SF preparando materiais de promoção querem mostrar
Conteúdos relacionados à própria Rússia podem ser censurados, mas isso fica bem fora do meu escopo de uso
Não sei o que impede um novo mecanismo de busca além de escala e servidores. Se tudo o que queremos é a velha busca comum que existia em 2006, parece reproduzível
Existem outros mecanismos, como o DuckDuckGo, mas descobri que na prática ele é mais próximo do Bing. Então também me pergunto por que o Bing não toma conta, se o Google é tão ruim assim. Ele não é excelente, mas também não é tão ruim
Lendo mais, parece que o Kagi está fazendo isso
É um texto sóbrio que mostra como o Google foi destruído por dentro
https://www.wheresyoured.at/the-men-who-killed-google/
Na verdade, aconteceu mais tarde do que eu esperava, mas parece um evento claro o bastante para que seus efeitos continuem até hoje
Giant Freakin' Robot era um site agregador. Aquele “conteúdo” era apenas links para outras páginas da web e textos prolixos sobre eles. Parece que agora o Google reconhece sites agregadores e os classifica mais baixo
O próprio Google é um site agregador, então não há motivo para repassar tráfego a outros agregadores. Seria bom se rebaixassem coisas como o Yelp também
Fico curioso para saber para que pessoas que usam a internet há muito tempo usam a busca na internet. No meu caso, é uma de três coisas
Primeiro, sei em qual site a informação está e vou direto até ele. Por exemplo, Wikipedia, Github, Google Maps
Segundo, preciso da opinião ou do feedback de pessoas reais, então geralmente faço uma busca no Google limitada apenas ao domínio do Reddit
Terceiro, preciso de uma informação conhecida e fácil de verificar, e esse é um problema em que os grandes modelos de linguagem são muito bons
Como isso representa mais de 95% da minha atividade de “navegação”, acho que eu quase nem perceberia se um grande mecanismo de busca saísse do ar um dia