21 pontos por GN⁺ 2025-09-12 | 2 comentários | Compartilhar no WhatsApp
  • Um projeto DIY que construiu os buscadores Searcha Page/Seek Ninja em um servidor pessoal colocado na lavanderia, oferecendo uma experiência comparável à do Google
  • Começando com um índice de cerca de 2 bilhões de páginas e mirando 4 bilhões de documentos em meio ano, combina métodos tradicionais de indexação com expansão de palavras-chave e compreensão de contexto baseadas em LLM
  • Com um equipamento montado com peças de servidor usadas, no nível de um AMD EPYC 7532 (32 núcleos)·RAM de 0,5 TB, investiu um total de US$ 5 mil e reduziu custos com uma estratégia de arbitragem de upgrade (upgrade arbitrage)
  • Minimiza a dependência de nuvem, mas usa a Llama 3 da SambaNova para inferência de LLM; o Seek Ninja é uma versão voltada à privacidade, sem salvar perfis nem usar localização
  • A adoção de IA tornou possível uma expansão de baixo custo, e sua base de código de 150 mil linhas teve o desenvolvimento iterativo acelerado por LLMs, permitindo que uma única pessoa construísse um sistema de grande escala
  • Mesmo com uma configuração pessoal e de baixo custo, obteve precisão e velocidade em buscas locais e mostra a possibilidade experimental de uma busca alternativa, inclusive considerando migrar para colocation se o tráfego crescer

Contexto: uma experiência de busca ‘quase como o Google’ com hardware pequeno

  • Em contraste com a história do Google, que começou em Stanford com um servidor em uma caixa de Duplo, este caso mostra que mesmo com um único servidor antigo é possível chegar perto de uma experiência moderna de busca
  • Há 30 anos, o Google começou como Backrub no campus de Stanford e usava um servidor experimental com 40 GB de dados em um gabinete feito com blocos de Duplo
    • Depois foi atualizado para um pequeno rack de servidores com doações da IBM e da Intel, mas em 2025 a Busca do Google cresceu a um ponto em que nem cabe em um único data center
  • O Searcha Page de Ryan Pearce implementa uma experiência moderna de busca em uma máquina do tamanho aproximado dos servidores originais do Google
    • O servidor foi instalado ao lado da máquina de lavar e da secadora, tendo sido movido do quarto para aliviar problemas de calor e ruído
    • Mesmo com a limitação física da lavanderia, a qualidade real dos resultados de busca é avaliada como perceptivelmente próxima do topo do mercado
  • O tamanho do índice é atualmente de cerca de 2 bilhões de documentos, com projeção de chegar a 4 bilhões em 6 meses
    • Métricas de comparação: Google em 1998 com 24 milhões de páginas, em 2020 com 400 bilhões de páginas
    • Em escala absoluta ainda é pequeno, mas para um único servidor self-hosted é um volume enorme

Tecnologia central: indexação tradicional + suporte de LLM

  • A arquitetura geral segue a estrutura tradicional de um motor de busca, mas com um desenho híbrido em que LLMs ajudam na expansão de palavras-chave e na interpretação de contexto
    • Relembra a história de incorporação de IA em grandes motores de busca, como o RankBrain, e enfatiza que, independentemente da rejeição atual aos LLMs, a IA já era um elemento central da busca
    • Os LLMs são usados como ferramenta prática para elevar velocidade de desenvolvimento e escalabilidade na construção de datasets e contextualização
  • O operador desenvolvia iterativamente, implementando primeiro com LLM e depois substituindo por lógica tradicional, fazendo a base de código crescer até cerca de 150 mil linhas
    • Considerando as iterações, ele estima uma carga real de trabalho equivalente a 500 mil linhas

Infraestrutura: indexação autônoma e a ‘arbitragem de upgrade’ com servidores usados

  • O equipamento é um servidor usado baseado em AMD EPYC 7532 (32 núcleos), aproveitando ativamente a queda de preço de uma CPU que custava mais de US$ 3 mil no lançamento e hoje é negociada por menos de US$ 200
    • O custo total da montagem ficou em torno de US$ 5 mil, dos quais cerca de US$ 3 mil foram para armazenamento
    • Com uma configuração de 0,5 TB de RAM, entre outros pontos, ele garante capacidade para centenas de sessões simultâneas
  • Mantém uma linha de self-hosting para minimizar o uso de nuvem, mas para inferência de LLM utiliza a SambaNova (Llama 3) com baixo custo e alta velocidade de acesso
    • Usa corpora públicos da web, incluindo o Common Crawl, para acelerar crawler e indexador, com plano de reduzir essa dependência no longo prazo

Produto: Searcha Page e Seek Ninja

  • Searcha Page: uma UX de SERP tradicional semelhante à do Google, com bons resultados inclusive em buscas locais
    • Em vez de meta descriptions, menciona o uso de resumos gerados por LLM para reforçar a explicação da relevância entre consulta e documento
  • Seek Ninja: uma variante privacy-first, sem salvar perfil e sem usar localização
    • Uma abordagem leve e minimalista, adequada como alternativa ao modo anônimo
  • Na monetização, em vez de banners excessivos, está testando anúncios de afiliados mais moderados e planeja migrar para colocation se o tráfego aumentar

Caso comparativo: a abordagem de nuvem e vetores de Wilson Lin

  • Em outro experimento individual contemporâneo, Wilson Lin busca operação de baixíssimo custo combinando uma estratégia cloud-native com seu próprio motor vetorial (CoreNN)
    • Gera um resumo por LLM para cada documento, expressando a correspondência entre consulta e documento de uma forma diferente
    • Compartilha a visão de que a maior barreira está menos na tecnologia e mais em mercado e canais
  • Pearce chegou a testar um banco de dados vetorial, mas disse que os resultados eram tão ambíguos e artísticos que voltaram às técnicas tradicionais do ponto de vista de precisão de ranqueamento

Questões operacionais: calor e ruído, e a limitação física da lavanderia

  • O servidor causava problemas de convivência por conta do calor quando estava no quarto, então foi movido para a área de serviço, com perfuração para cabos a fim de manter a conectividade
    • Se a porta ficar fechada por muito tempo, a retenção de calor pode virar problema, por isso a ventilação é um fator importante
  • Apesar de uma postura cética em relação à nuvem, ele considera uma migração para colocation em data center de forma baseada em gatilhos, levando em conta os limites de LLM e tráfego

Significado: o experimento de um desenvolvedor solo para perseguir o Google e o papel realista dos LLMs

  • Ao contrário da ideia comum de que LLMs são ferramentas que pioram a qualidade da busca, eles aparecem aqui como aceleradores de desenvolvimento e escala, dando a indivíduos a capacidade real de construir motores de busca
    • A combinação de indexação tradicional + suporte de LLM é um meio-termo prático que busca precisão e poder explicativo ao mesmo tempo
  • A combinação de servidores usados de baixo custo + corpora públicos + APIs baratas de LLM prova que é possível tentar uma busca alternativa sem os recursos massivos das big techs
    • Ainda restam desafios como expansão para outros idiomas, custo de crawling contínuo e resistência a spam, mas o caso mostra competitividade experimental em áreas como busca de nicho e privacidade em primeiro lugar

2 comentários

 
savvykang 2025-09-12

Homem opera um serviço concorrente do Google em uma lavanderia graças à IA

Link para contornar o paywall https://archive.is/dLEl5

 
GN⁺ 2025-09-12
Comentários do Hacker News
  • Eu mesmo criei um índice de domínios. Não rastreei todas as páginas internas de cada domínio, mas esse não era o objetivo. Atualmente tenho 1.542.766 domínios. Não é muito, mas são dados coletados honestamente. Está disponível para qualquer pessoa no repositório do GitHub, então, se você quiser começar a rastrear, pode usar como referência: Internet-Places-Database

    • Projeto muito legal. Fiquei curioso sobre o que te inspirou no começo. E há um link quebrado no Readme: https://rumca-js.github.io/internet full internet search

    • Se você pedir os zone files da ICANN, não consegue a lista oficial de domínios daquele dia?

  • Eu tentei fazer algo assim em 2023! A parte mais difícil de criar um buscador na verdade não é a "busca" em si, mas sim montar o índice e, como outras pessoas já disseram, rastrear uma internet bastante hostil, ainda mais quando tudo roda em um único servidor residencial sem rotação de IP. Espero que essa pessoa tenha sucesso e vire uma referência na comunidade, como o criador do Marginalia. Ler isso me deu vontade de tentar de novo

    • Acho uma boa deixar nos favoritos o open-webindex do openwebsearch.eu. Ainda não é open source, mas talvez seja liberado quando a fase beta terminar. O plano detalhado ainda é incerto

    • Fico curioso se os dados do commoncrawl servem para esse tipo de projeto

    • Pensei em como seria terceirizar o rastreamento via crowdsourcing. Isso talvez resolvesse o problema de rotação de IP e também distribuiria a carga

    • Essa questão de IP é interessante. No passado, tentei criar um bot de CSGO para raspar preços da Steam, e mesmo alugando um serviço de proxy, acabei bloqueado pela Steam. Então fico me perguntando se as pessoas compram IPs reais

    • Ter um índice ou não ter faz uma diferença clara. Mas ordenar os resultados é outra história. Por exemplo, o que deveria aparecer na página 200, e se os resultados dali sequer têm sentido

  • Fiz uma busca aleatória em https://searcha.page/ e recebi a mensagem "ocorreu um erro ao gerar os resultados da busca"

    • Espero que não tenha levado o abraço da morte. A temperatura da lavanderia deve subir bastante

    • Meu uso nesta semana aumentou 20 vezes em relação à semana passada. O gargalo nem foi exatamente o serviço de busca, e sim a expansão de contexto. O gráfico de uso está quase vertical. Não sei dizer se esta foi uma semana boa ou não

    • Tive exatamente o mesmo problema em https://seek.ninja/s?q=beatles

    • Antes disso acontecer, a primeira página de resultados (SERP) estava bastante impressionante

  • Fui informado de que atingi o limite de artigos. Acho que a última vez que vi um link da fastcompany foi há uns 10 anos! Fiquei animado com a chance de ler algo deles de novo, mas só fiquei frustrado. Vi o conteúdo relacionado no archive, e nele diz que:

    • o novo buscador Search-a-Page também tem uma versão focada em privacidade, o Seek Ninja,
    • o segredo é o uso de grandes modelos de linguagem. É quase igual à busca tradicional, com a diferença de que a IA ajuda na expansão de palavras-chave e na compreensão de contexto.
    • há um post de blog sobre como um desenvolvedor hobby ambicioso chamado Wilson Lin criou seu próprio mecanismo de busca blog
    • também são mencionados casos de buscadores experimentais não comerciais, como o Marginalia
    • "Por que na lavanderia? Por causa do calor e do barulho". O mecanismo usa um AMD EPYC 7532 de 32 núcleos, 0,5 TB de RAM, custo total de $5.000 e $3.000 em armazenamento
    • Recentemente maratonei os posts do Wilson Lin, e eles são muito úteis e de altíssima qualidade para amadores interessados em mecanismos de busca e LLMs blog

    • O modo leitor do Firefox (às vezes com um recarregamento extra) consegue passar por boa parte dos paywalls, incluindo o deste artigo

  • "O processador AMD EPYC 7532 de 32 núcleos custava mais de $3.000 quando foi lançado, mas hoje dá para achar no eBay por menos de $200." Por que essas pechinchas nunca aparecem quando eu estou procurando peças para homelab?

    • Você precisa investir tempo procurando até as ofertas com títulos ruins e estar disposto a comprar até de vendedores sem reputação

    • Se você pesquisar por 'AMD EPYC 7532', vai ver um monte de anúncios na faixa de $150 a $200. Fico pensando se na época em que você estava procurando peças para homelab ainda não era esse tipo de oferta

    • Não foi CPU, mas no começo deste ano comprei no eBay uma workstation Thinkpad fabricada em 2020 por $500. Quando era nova, custava $5.700. O mercado de hardware no eBay é assim mesmo. É só esperar 5 anos e o preço cai para um décimo

    • O TheServerStore.com às vezes tem boas ofertas. No começo deste ano montei de uma vez um servidor com EPYC 7702 de 64 núcleos (256 GB de RAM, 8 TB NVMe), novo, por cerca de $3.000

    • Outra opção é comprar chips de grau QC e tentar por conta própria. Eu também comprei assim. Meu maior custo foi disco, depois RAM. O chip em si pareceu relativamente barato

  • Acho o projeto muito legal e espero que ele continue sendo divertido. Eu também já fantasiei dezenas de vezes em criar um buscador por conta própria, mas sempre bato numa parede. A internet de 1999 e a de hoje são muito diferentes. Hoje, a própria descoberta do mundo já não é algo tão significativo. Por exemplo, você pode achar um blog pessoal sobre dinossauros, mas ele não é atualizado desde 2004, as imagens e links estão todos quebrados, e agora Wikipedia ou Smithsonian acabam sendo bem melhores. Ainda é divertido encontrar esses sites pessoais peculiares, mas o valor deles não é mais o mesmo de antes. Olhando de forma realista, estamos voltando para uma rede centrada em "hubs", em que YouTube, TikTok, Medium, Reddit, Mayo Clinic e outros monopolizam certos tipos de conteúdo. Essas grandes plataformas são conservadoras com rastreadores independentes, mas amigáveis com o crawler do Google. Afinal, o Google entrega tráfego de usuários. Será que com o meu crawler elas me liberariam facilmente? Mesmo assim, não desisto. Talvez essa internet baseada em hubs precise de um mecanismo de busca consciente dos hubs

  • A expressão 'Google rival' é um pouco exagerada. Simplesmente chamar de 'mecanismo de busca' parece até mais preciso, considerando tudo o que o Google faz hoje em dia

  • É difícil responder diretamente a todo mundo, mas eu sou a pessoa que realmente opera esse mecanismo de busca. Sim, hoje ele caiu por causa do pico de tráfego. O uso aumentou 20 vezes em relação à semana passada, e eu não estava nem um pouco preparado. Em algum lugar da minha cabeça, eu imaginava vagamente que o crescimento de usuários seria lento e constante. Obrigado a todos que usaram, e peço desculpas se o serviço não funcionou direito para vocês. Hoje foi a primeira vez que ele passou por um verdadeiro "teste de fogo"

  • Excelente combinação de inovação com self-hosting cético em relação à nuvem. Acho que deveria existir muito mais disso