2 pontos por GN⁺ 2024-12-01 | 1 comentários | Compartilhar no WhatsApp
  • Ficou difícil continuar contando de forma estável com o tráfego de mídia na web vindo de Google e Facebook, e até veículos independentes operados de forma enxuta estão vendo sua base de sobrevivência balançar
  • O Google introduziu ranking baseado em machine learning para melhorar a qualidade da busca, mas vem sendo criticado por deixar passar spam gerado por LLMs enquanto blogs e sites pequenos foram empurrados para fora dos resultados
  • Um dos participantes do Google Web Creator Summit 2024 disse que havia faturado 250 mil dólares no ano anterior, mas com uma queda de 97% no tráfego agora depende de banco de alimentos
  • Participantes do Summit relataram que o Google disse que “o problema não era o conteúdo”, e que Danny depurou exemplos com a equipe de engenharia, mas não conseguiu descobrir por que eles não apareciam
  • À medida que o sistema de ranking de busca se tornou uma caixa-preta difícil de entender até dentro do próprio Google, surgem críticas de que, em uma posição monopolista, a queda na utilidade do produto não se traduz imediatamente em resultado de negócio

O colapso do tráfego da mídia independente na web

  • “The End Of Independent Publishing And Giant Freakin Robot” anuncia o fechamento do Giant Freakin Robot e afirma que, nos últimos dois anos, centenas de editoras independentes fecharam as portas, com milhares de outras prestes a seguir o mesmo caminho
  • Após entrar em contato com editoras independentes de vários temas, o relato é que nenhuma vai bem e que a maioria já espera encerrar as atividades em breve
  • O problema foi levado diretamente ao Google, mas a mensagem recebida de volta foi a de que o Google simplesmente não se importa, chegando-se a dizer que “nosso setor acabou”
  • As empresas de mídia na web já não podem mais esperar com estabilidade pelo tráfego de entrada vindo de Google ou Facebook, e são pouquíssimas as que conseguem sobreviver só com o tráfego restante

Como o ranking de busca virou uma caixa-preta

  • O problema não se limita ao fracasso de alguns sites; ele está ligado ao movimento do Google de usar machine learning no ranking de sites para corrigir os resultados de busca
  • Segundo What we can learn from the Google creators summit for HCU impacted sites, o helpful content system era um sistema de machine learning que aprendia exemplos bons e ruins para prever de qual lado se aproximavam casos que ele ainda não tinha visto
  • Mas, no último ano, a busca do Google passou a ser criticada por deixar passar muito spam gerado por LLMs e por fazer blogs e sites pequenos desaparecerem da maior parte dos resultados
  • Alguns sites foram, na prática, excluídos pelo modelo de machine learning, e ninguém sabe ao certo o motivo
  • Em I Drank the Kool-Aid at the 2024 Google Web Creator Summit, um participante diz que, após faturar 250 mil dólares no ano anterior, viu o tráfego cair 97% e agora busca comida em banco de alimentos
  • O problema fica ainda mais evidente porque essas pessoas foram convidadas ao Summit justamente por criarem o tipo de conteúdo que o Google dizia querer ver nos resultados de busca
  • Em uma conversa no Twitter, foi compartilhado que o lado do Google repetiu várias vezes que “o problema não era o conteúdo”, e que Danny levou os exemplos dos participantes para depurar com a equipe de engenharia, mas não conseguiu descobrir por que eles não estavam sendo exibidos
  • O algoritmo de busca parece ter se tornado uma caixa-preta difícil de decifrar até para os próprios engenheiros do Google

Uma estrutura em que a piora do produto não afeta o desempenho do negócio

  • Esse problema também se conecta ao fato de que especialistas em ML do Google teriam alertado que LLMs poderiam tornar o produto confuso e difícil de controlar, e que por isso deveriam ser evitados
  • Quando demissões em massa levam embora pessoas que entendiam profundamente os sistemas internos, o que sobra pode virar uma caixa-preta com ainda mais facilidade
  • A razão fundamental para a deterioração continuar é que ela não afeta diretamente o desempenho do negócio do Google; empresas monopolistas conseguem capturar o valor gerado ao redor mesmo quando a utilidade do produto diminui
  • Considerando a situação política dos EUA, a perspectiva é que os monopólios e oligopólios da indústria de tecnologia fiquem ainda mais fortes, e que a produtividade, o desempenho e a eficácia reais dos produtos se tornem cada vez menos importantes

1 comentários

 
GN⁺ 2024-12-01
Opiniões no Hacker News
  • Fundamentalmente, acho que começou no momento em que o pessoal de anúncios venceu a disputa de poder contra o pessoal do mecanismo de busca. Antes, anúncios eram um meio de financiar a criação de tecnologias incríveis e, de quebra, uma forma de ficar absurdamente rico.
    Hoje são apenas um meio de extrair até a última gota de valor do sistema e fazer os números subirem para sempre, e a alta liderança do Google parece completamente sem visão ou estratégia.

    • É difícil lembrar de uma única coisa realmente impressionante que o Google tenha feito nos últimos 15 anos. A busca atingiu o auge por volta de 2009; o Maps ficou mais lento e com menos informações, passando a mostrar só o que é popular ou pago, em vez de mostrar tudo dentro dos lugares como antes.
      O Google Docs era incrível em 2006, mas, quase 20 anos depois, teve só algumas melhorias de usabilidade; quanto ao resto, muita coisa parece ter sido encerrada, ou nem era tão inovadora desde o início, ou apenas seguia de forma apática o trabalho dos outros.
    • Parece a sátira de que o maximizador de clipes de papel relatou avanços constantes e animadores na tarefa de transformar toda a matéria disponível do sistema terrestre em clipes de papel, e que, com a notícia, a ação $PCLIP subiu 20%.
    • O ponto mais importante é que o conteúdo continua explodindo, mas a atenção total humana não aumenta. Então como a tecnologia de anúncios consegue gerar mais receita e vender mais anúncios ano após ano? A resposta simples, na minha opinião, é fraude.
    • Não vejo como dizer que o lado dos anúncios venceu explica a piora dos resultados da Busca do Google. Anúncios só são visualizados quando a qualidade da busca é alta e as pessoas não migram para concorrentes.
      Anúncios podem preencher os resultados patrocinados no topo, mas não afetam os resultados orgânicos. Se “o lado dos anúncios venceu” significa que há mais espaços patrocinados, então isso só quer dizer que há mais espaços; não explica a qualidade dos resultados orgânicos.
    • Se antes os anúncios eram um meio de financiar tecnologias incríveis, é preciso perguntar o que os anúncios são hoje. Se a “tecnologia” que recebe financiamento é, na verdade, entrega de anúncios por redes de computadores, então é duvidoso que isso seja uma tecnologia incrível.
      Caso contrário, essa tecnologia incrível talvez seja apenas uma isca para atrair alvos de anúncios, ou seja, um componente da tecnologia de serviço de anúncios. Também fico curioso por que não vender ou licenciar essa tecnologia, em vez de contratar gente de publicidade.
  • Como Morgan disse, foi marcante o Danny sentar numa sala com a equipe de engenheiros, dar exemplos perguntando “por que essas pessoas não aparecem?”, eles seguirem o procedimento de depuração e mesmo assim não encontrarem a causa.
    Enquanto isso, uma pessoa na Suécia, com uma única máquina de nível desktop na sala de estar, criou um mecanismo de busca bom o bastante para eu alternar para ele com frequência quando o Google falha. Hoje uso o Kagi, que tem prioridades e listas de bloqueio, mas os resultados já são bons por padrão, então nem uso esses recursos.
    É interessante que o Kagi, embora esteja criando seu próprio índice, por muito tempo esteve mais próximo de revender uma camada sobre resultados do Google+Bing, e ainda assim era muito melhor.
    Há duas possibilidades. Ou o Kagi tem um sistema muito inteligente que lê e reordena as dezenas de primeiros resultados, ou, mais provavelmente, o acesso via API contorna o “expansor e emburrecedor de consultas” na entrada do Google e a etapa de personalização na saída, interagindo diretamente com o núcleo da Busca do Google que ainda funciona.
    Aqui, “emburrecedor” se refere a um pipeline que troca obscure-js-lib por algo de nome parecido como well-knowm-js-lib-with-kind-of-similar-name, ou que, ao pesquisar mat-table do Angular, decide que você quer uma mesa com um tapete em cima, sem relação com Angular.

    • Esse emburrecedor também transforma buscas por SmartOS ou Illumos em Solaris, retornando apenas resultados irrelevantes.
    • Operar um mecanismo de busca pequeno pode trazer uma vantagem embutida: especialistas em otimização para mecanismos de busca não se dão ao trabalho de manipular seus resultados.
    • Parece que, quando você pesquisa exactly-this-thing.py no Google, ele responde: “você quis dizer sorta-related.js; aqui está”. A reação natural é: “eu gaguejei?”
    • Segundo o FAQ do Kagi, “os resultados de busca também incluem chamadas de API anonimizadas para os principais provedores de resultados de busca do mundo”, então ele não parece depender totalmente apenas de um índice próprio.
    • Fiquei curioso para saber qual é esse mecanismo de busca sueco.
  • Não tenho certeza de qual problema exatamente o autor está apontando. Não fica claro se é o fato de alguns sites terem criado um modelo de negócios baseado nos resultados de busca, se é que o Google mudou o algoritmo de busca e eles não gostam das prioridades, ou se é outra questão
    Esperar que o Google nunca faça experimentos com o algoritmo é meio irracional e, no fundo, isso se aproxima de um jogo de soma zero. Quem vence hoje pode perder amanhã
    Se a preocupação é divisão de receita, tráfego de entrada, posicionamento de anúncios etc., não é muito sensato criar um negócio cujo sucesso depende totalmente dos caprichos de outra empresa
    A busca está sendo lentamente substituída por grandes modelos de linguagem e, por ter sido gamificada durante anos por otimização para mecanismos de busca, está ficando cada vez pior como forma de descoberta de conteúdo
    Para descoberta de conteúdo, faz mais sentido um modelo em que comunidades com interesses parecidos, como o Hacker News, encontrem coisas coletivamente, ou em que haja curadoria. Se o curador ou a comunidade se afastar dos seus interesses, você precisa procurar outro, mas, curiosamente, isso ainda é possível dentro do mesmo formato

    • Que opções existem quando essa outra empresa é um monopólio? A ascensão do Google basicamente matou todas as outras fontes de tráfego
      Antigamente, sites recebiam tráfego de webrings, diretórios e vários mecanismos de busca menores; hoje é quase tudo Google ou suas propriedades, e uma fatia menor da Meta. Modelos de descoberta baseados em curadores e comunidades são vítimas do Google, não a solução
    • A teoria é que, à medida que camadas de otimização baseadas em aprendizado de máquina foram sendo adicionadas à busca, ela se tornou praticamente impossível de depurar
      Em outras palavras, o Google lançou 1000 experimentos que pareciam inofensivos e aumentavam a taxa de cliques em 0,2%, e o resultado foi um sistema que só quer entregar links do Reddit e do Quora
      Vi essa discussão várias vezes na seção privada do Blind do Google, normalmente junto com conversas dizendo que o responsável pela busca antes de 2020 se preocupava com esse tipo de resultado e adotava uma abordagem mais cautelosa
      Como ex-funcionário do Google, saí em outubro de 2023 e não trabalhei na equipe de busca, mas fora do Google essa teoria parece não ser bem compreendida. As únicas exceções são uns dois posts famosos de blog, cujos nomes não lembro, que acertaram no ponto central
    • Fico curioso sobre como um modelo de encontrar conteúdo por comunidades de interesses semelhantes ou curadoria poderia ganhar escala. O Google processa 8,5 bilhões de buscas por dia, e não parece escalável processar 8,5 bilhões de “Ask HN: quais são os melhores materiais sobre X?”
    • Nesse sentido, seria bom existir uma loja de apps Android com curadoria. O fato de ainda não ser possível filtrar por apps sem anúncios diz muita coisa
    • O motivo de todos os subreddits minimamente relacionados a política ou notícias serem tão enviesados é justamente a curadoria baseada em comunidade. Claro que não sei qual é a alternativa; se soubesse, estaria criando esse site ideal em vez de ficar rolando o HN
  • Fico me perguntando se existe uma lista de consultas em que o Google retorna resultados ruins. Olhei meu histórico de busca por alguns minutos, e a maioria eram consultas simples, como nomes de pessoas, que o Google resolveu bem. Às vezes acho que, para buscar pessoas, o Google é até melhor que o LinkedIn
    Também comparei algumas consultas complexas com o Kagi. Em “How much bitcoin does microstrategy own”, o Google retornou o snippet correto daqui, enquanto o Kagi só linkou artigos sobre quanto a empresa comprou nos últimos dias
    Em “how to pronounce stratchery”, o Google mostrou o snippet correto do site Stratechery, enquanto o primeiro resultado do Kagi era um item de spam com a pronúncia errada, e o segundo resultado era um tweet com a pronúncia correta
    Também me lembrei do texto do Dan Luu (https://danluu.com/seo-spam/), mas, olhando meu histórico de busca, as consultas que ele usa não representavam de forma alguma minhas buscas do dia a dia
    [0]https://www.forbes.com/sites/digital-assets/2024/11/29/micro...
    [1]https://stratechery.com/category/about/#:~:text=UPDATE%3A%20...
    [2]https://www.howtopronounce.com/stratechery

    • Você já mudou inconscientemente seu comportamento de busca para evitar as categorias em que o Google é péssimo
      Avaliações de produtos estão cheias de lixo de otimização para mecanismos de busca, ou seja, listas “Top 10” de spam de blog; em viagens, os anúncios ocupam uma página inteira antes de aparecer qualquer resultado orgânico. Dá tanta preguiça que você nem tenta, e no fim sobram apenas as consultas que ainda funcionam
    • Eu tinha a mesma dúvida. Vejo muita reclamação de que o Google está horrível e quebrado, mas, tirando aquilo em que todos os mecanismos de busca têm dificuldade, ele parece funcionar em geral
      Fico curioso se há exemplos concretos de coisas difíceis de encontrar no Google, mas fáceis em outro mecanismo
      As estatísticas globais recentes de uso são: Google 89,33%, Bing 4,15%, YANDEX 2,8%, Yahoo! 1,33%, Baidu 0,83%, DuckDuckGo 0,69%. Dados de outubro de 2024: https://gs.statcounter.com/search-engine-market-share
      Se o Google é tão ruim assim, fico me perguntando por que as pessoas, inclusive eu, não clicam em outros mecanismos de busca. É uma pena que o Giant Freakin Robot não receba cliques, mas isso é uma questão diferente de dizer que, do ponto de vista do usuário, o Google é ruim
      Cliquei em todos e todos funcionam. O Baidu aparece em chinês e, quando pesquisei The Sound of Music, veio um resultado em chinês que, pelo Google Tradutor, era algo como “a freira e as sete crianças levadas”, o que foi meio engraçado
  • O Google claramente deixou de priorizar o valor para o cliente e para os criadores de conteúdo, passando a priorizar indicadores-chave de desempenho internos e opacos. Isso é ainda mais verdadeiro para criadores, que não são anunciantes
    Depois de migrar para o DuckDuckGo alguns anos atrás e para o Kagi no ano passado, toda vez que volto ocasionalmente ao Google fica evidente o quanto eles se perderam
    Vai levar mais uns 10 anos para perderem a dominância, mas os sinais são claros. Inércia e posição de mercado são os únicos motivos pelos quais ainda estão no topo. Enquanto isso, as gerações mais jovens quase não usam busca na web, e as pessoas mais técnicas estão saindo cada vez mais rápido
    Do ponto de vista de uma startup, isso é promissor. O Google agora não é mais o gorila de 800 libras que vai roubar seu almoço, mas algo mais próximo de um gigante morto-vivo ambulante esperando para ter seus componentes conceituais colhidos

    • Depois de mudar para o Kagi e passar pelos últimos dois anos de mudanças irritantes na busca do Google, é difícil imaginar voltar para o Google
      Neste ano, foram poucas as vezes em que fui ao Google pelo Kagi usando !g, e em todas me arrependi imediatamente
      Alguns anos atrás, quando eu usava DuckDuckGo, !g era instintivo, e provavelmente em metade das vezes os resultados do Google pareciam melhores. Continuar no DuckDuckGo parecia idealismo, e a qualidade parecia de segunda linha, mas com o Kagi não é assim. Os 10 dólares por mês se pagam facilmente em ganho de produtividade
      Como o Kagi também usa o índice de busca do Google como uma das fontes, não é que o Google seja tecnicamente incapaz de melhorar os resultados ou a experiência do usuário. Só parece organizacionalmente impossível
    • Se as gerações mais jovens quase não usam busca na web, fico curioso para saber o que fazem no lugar. Talvez eu esteja um pouco defasado
    • Os clientes do Google são os anunciantes. Cliente é quem paga; o consumidor é apenas o produto
  • Havia o alerta de que uma consequência comum de demissões em massa é transformar sistemas internos em caixas-pretas, porque todas as pessoas que entendiam profundamente esses sistemas vão embora
    Perder diretamente pessoas com conhecimento é algo real, mas não é o principal motivo pelo qual esses sistemas viram caixas-pretas
    Para cada pessoa com conhecimento demitida, há umas vinte que ficam e se adaptam à realidade de que seu futuro na empresa ficou muito mais incerto. Essa adaptação varia de pessoa para pessoa, mas literalmente ninguém diz: “uau, preciso melhorar a documentação e compartilhar conhecimento para facilitar a minha demissão!”

    • Quando decidi sair, comecei a documentar e deixei uma documentação sólida pronta antes de dar o aviso prévio de duas semanas. No período restante, refinei o material, e ele ficou bem bom
      Um mês depois, a empresa entrou em contato oferecendo trabalho como contratado, mas recusei. Durante o ano seguinte, funcionários me procuraram diretamente pedindo ajuda, e tudo em que ajudei já estava documentado
      Acho que não existe uma solução adequada nas empresas para uma transferência de conhecimento de verdade. Por isso é interessante ver pessoas sendo demitidas de improviso, porque a empresa perde muito mais do que apenas um funcionário
    • É verdade que as pessoas criam silos de conhecimento com a ideia equivocada de proteger o emprego, mas quero apontar as consequências para quem faz isso deliberadamente
      Silos de conhecimento não garantem estabilidade profissional. Pelo contrário: limitam a capacidade de promoção, a colaboração entre organizações, a adaptabilidade, a capacidade de assumir outras tarefas e de delegar; também reduzem a colaboração e a taxa de sucesso dos projetos, diminuindo o desempenho visível dentro da organização. Há ainda muitos outros motivos pelos quais isso é ruim não só para a organização, mas também para o engenheiro que vive dentro do silo, e existem vários estudos sobre o tema
    • Também vi o efeito oposto. Houve casos de pessoas em grandes organizações tentando tornar projetos open source mais resistentes a mudanças organizacionais e de prioridade. Ainda assim, é verdade que demissões têm efeitos colaterais
  • O Yandex, ou seja, o Google da Rússia, na prática está mais próximo do Google de 2006. No sentido de que ele me mostra o que eu quero, não o que os advogados do Google e as pessoas em SF preparando materiais de promoção querem mostrar
    Conteúdos relacionados à própria Rússia podem ser censurados, mas isso fica bem fora do meu escopo de uso

    • O Yandex só é bom quando se pesquisa em inglês. Isso porque eles não têm interesse no mercado em inglês. Parecem interessados apenas nos mercados de russo e de línguas túrquicas; tenho uma lembrança vaga de que talvez também fosse o caso do Vietnã
    • O Yandex também está seguindo a mesma trajetória. A busca reversa de imagens do Yandex antes encontrava sites que tinham a imagem, como o Google antigo, mas agora virou o mesmo lixo de “imagens parecidas”
    • A maior parte do Google de 2006 não era open source ou conhecida por artigos públicos? Se for assim, deveria ser possível recriar o Google nos EUA também e voltar ao PageRank básico
      Não sei o que impede um novo mecanismo de busca além de escala e servidores. Se tudo o que queremos é a velha busca comum que existia em 2006, parece reproduzível
      Existem outros mecanismos, como o DuckDuckGo, mas descobri que na prática ele é mais próximo do Bing. Então também me pergunto por que o Bing não toma conta, se o Google é tão ruim assim. Ele não é excelente, mas também não é tão ruim
      Lendo mais, parece que o Kagi está fazendo isso
    • Concordo totalmente. Parece uma internet alternativa em que o Google continuou sendo legal
    • Uso o DuckDuckGo como mecanismo de busca principal e o Yandex como auxiliar
  • É um texto sóbrio que mostra como o Google foi destruído por dentro
    https://www.wheresyoured.at/the-men-who-killed-google/

    • Mesmo sem informações internas, lembro da atualização do Google no fim de 2019. Naquela época ele realmente quebrou, e passou de “não seja mau” para o lado totalmente mau
      Na verdade, aconteceu mais tarde do que eu esperava, mas parece um evento claro o bastante para que seus efeitos continuem até hoje
  • Giant Freakin' Robot era um site agregador. Aquele “conteúdo” era apenas links para outras páginas da web e textos prolixos sobre eles. Parece que agora o Google reconhece sites agregadores e os classifica mais baixo
    O próprio Google é um site agregador, então não há motivo para repassar tráfego a outros agregadores. Seria bom se rebaixassem coisas como o Yelp também

    • Dando uma olhada rápida no site, para mim parece que há apenas links para conteúdo original
  • Fico curioso para saber para que pessoas que usam a internet há muito tempo usam a busca na internet. No meu caso, é uma de três coisas
    Primeiro, sei em qual site a informação está e vou direto até ele. Por exemplo, Wikipedia, Github, Google Maps
    Segundo, preciso da opinião ou do feedback de pessoas reais, então geralmente faço uma busca no Google limitada apenas ao domínio do Reddit
    Terceiro, preciso de uma informação conhecida e fácil de verificar, e esse é um problema em que os grandes modelos de linguagem são muito bons
    Como isso representa mais de 95% da minha atividade de “navegação”, acho que eu quase nem perceberia se um grande mecanismo de busca saísse do ar um dia

    • Isso não é usar a internet; é usar o Reddit como um jardim murado. Se você acredita que há valor em uma internet descentralizada, é uma forma perigosa de fazer isso