1 pontos por GN⁺ 2024-02-26 | 1 comentários | Compartilhar no WhatsApp

A evolução do mecanismo de busca Marginalia

  • A busca Marginalia começou como um pequeno experimento, mas agora se tornou um projeto em tempo integral.
  • O mecanismo de busca está funcionando melhor do que nunca até agora e alcançou muitos marcos.
  • O mecanismo de busca saiu da sala de estar e foi migrado para um servidor enterprise adequado.

Organização da base de código e simplificação da aplicação

  • O principal tema deste ano foi organizar a base de código e simplificar a aplicação.
  • O foco foi manter a carga operacional administrável e facilitar para outras pessoas o acesso à aplicação e à base de código.
  • Foi necessário muito trabalho, mas isso já está começando a dar frutos.

Melhorias operacionais

  • No passado, eram necessários vários dias de interrupção ao trocar os índices, mas isso agora desapareceu.
  • Recentemente, também passou a ser possível fazer upgrades com zero downtime.
  • Do ponto de vista operacional, coisas que antes exigiam semanas de processos manuais agora foram substituídas por apertar um botão na GUI.

Adição de suporte a palavras-chave de texto âncora

  • Adicionar suporte a palavras-chave de texto âncora teve um grande impacto na capacidade do mecanismo de busca de encontrar resultados relevantes.
  • Quando a mudança foi feita pela primeira vez, ela não se integrou bem e não ficou imediatamente perceptível, mas conforme o novo sinal de relevância foi se estabelecendo, houve momentos surpreendentes.

Transição para tempo integral

  • Graças ao patrocínio da NLnet, a transição para tempo integral aconteceu há cerca de 8 meses.
  • A parte mais difícil foi não trabalhar demais, e há um esforço para descansar pelo menos um dia por semana.
  • Como se sabe que se fica mais inteligente quando se descansa o suficiente, em teoria é importante parar de vez em quando para trabalhar melhor.

Meta de indexar 1 bilhão de documentos

  • A jornada rumo à indexação de 1 bilhão de documentos está avançando lentamente.
  • As dificuldades são maiores do que o esperado não porque o software não consiga lidar com isso, mas porque a relação sinal-ruído da web é ruim.
  • Um dos grandes motivos pelos quais o mecanismo de busca funciona relativamente bem é justamente aquilo que ele não indexa.
  • Há um ano, o índice estava entre 50 milhões e 100 milhões, mas no último rastreamento chegou a 220 milhões, e a expectativa é que fique entre 290 milhões e 300 milhões quando a próxima rodada de crawling terminar.

Melhorias no parsing e na execução de consultas

  • Ainda há bastante espaço para melhorar na área de parsing e execução de consultas.
  • Já começou o trabalho preparatório para organizar o código afetado antes que o trabalho de fato se inicie.
  • Os grandes saltos do projeto sempre foram experimentais; há coisas planejadas, mas parece que as não planejadas é que realmente terão grande impacto.

Agradecimentos

  • Agradecimentos à NLnet, FUTO, aos apoiadores do Patreon, aos defensores e aos usuários.
  • Sem o apoio deles, nada disso teria sido possível.

Opinião do GN⁺

  • O mecanismo de busca Marginalia é um caso de um pequeno experimento que cresceu até se tornar um projeto em tempo integral por meio de melhorias contínuas e do apoio da comunidade.
  • Melhorias funcionais como o suporte a palavras-chave de texto âncora atuam como mudanças importantes que elevam bastante o desempenho do mecanismo de busca.
  • Este projeto oferece à comunidade open source e aos desenvolvedores oportunidades de colaboração e contribuição, além de ajudar no avanço da tecnologia de mecanismos de busca.

1 comentários

 
GN⁺ 2024-02-26
Comentários do Hacker News
  • Um usuário favoritou esse site para encontrar material muito específico sobre modelagem numérica. Encontrou materiais sobre solvers, geração de malha e métodos de otimização dos anos 80 e 90 que não conseguia achar no Google, além de sites escritos por especialistas que o Google jamais encontrava, e por isso considera a ferramenta muito valiosa.
  • A relação sinal-ruído da web não é boa, então a tarefa está sendo mais difícil do que o esperado. Um dos motivos de os mecanismos de busca funcionarem relativamente bem é justamente aquilo que eles não indexam.
  • Um usuário encontrou um site aleatório com um patch binário de C&C Tiberian Sun para suporte a IPv6 e sentiu saudade da web antiga. Isso lembra os Searchlores de Fravia e seria como se Umberto Eco tivesse se interessado por computadores. É como descobrir algo surpreendente no labirinto da biblioteca de O Nome da Rosa e depois perdê-lo para sempre.
  • Outro usuário comentou que isso realmente parece com antigamente. Em 1998, nem com o AltaVista dava para encontrar diferenças entre o livro e o filme Nada de Novo no Front, mas agora é possível achar inúmeras páginas de blogs pessoais, trabalhos acadêmicos, sites de código, discussões em listas de e-mail, blogs, grupos de discussão de Rust, sites pessoais e debates de especialistas sobre esse tema.
  • Um usuário disse ter ficado surpreso ao buscar por "transformers intuition". Enquanto os resultados do Google mostravam sites otimizados para SEO, em sua maioria no Medium, e páginas chamativas com conteúdo inferior, os resultados desse mecanismo de busca foram impressionantes.
  • Um usuário se perguntou se o Common Crawl seria útil. Atualmente são cerca de 100 TB e 3,35 bilhões de páginas, então levaria muito tempo para baixar, a menos que o processamento fosse feito diretamente no S3, e ele não sabe como seria a relação sinal-ruído.
  • Há um usuário questionando o recurso de "site aleatório". Ele esperava uma amostragem uniforme, mas tem a impressão de que certos sites aparecem repetidamente.
  • Um usuário disse que não usa com frequência por estar acostumado ao Google, mas acha o Marginalia um projeto muito legal e acredita que passará a usá-lo mais à medida que sites de spam SEO e respostas geradas por IA se tornam cada vez mais comuns.
  • Por fim, um usuário comparou recentemente os resultados com os do Google: a busca pela menor pontuação no críquete de teste da Índia foi ruim, a de calculadora de RAID foi aceitável mas com ruído, e a busca pelas diferenças entre o filme e o livro Nada de Novo no Front não retornou resultado algum.