A evolução do mecanismo de busca Marginalia
- A busca Marginalia começou como um pequeno experimento, mas agora se tornou um projeto em tempo integral.
- O mecanismo de busca está funcionando melhor do que nunca até agora e alcançou muitos marcos.
- O mecanismo de busca saiu da sala de estar e foi migrado para um servidor enterprise adequado.
Organização da base de código e simplificação da aplicação
- O principal tema deste ano foi organizar a base de código e simplificar a aplicação.
- O foco foi manter a carga operacional administrável e facilitar para outras pessoas o acesso à aplicação e à base de código.
- Foi necessário muito trabalho, mas isso já está começando a dar frutos.
Melhorias operacionais
- No passado, eram necessários vários dias de interrupção ao trocar os índices, mas isso agora desapareceu.
- Recentemente, também passou a ser possível fazer upgrades com zero downtime.
- Do ponto de vista operacional, coisas que antes exigiam semanas de processos manuais agora foram substituídas por apertar um botão na GUI.
Adição de suporte a palavras-chave de texto âncora
- Adicionar suporte a palavras-chave de texto âncora teve um grande impacto na capacidade do mecanismo de busca de encontrar resultados relevantes.
- Quando a mudança foi feita pela primeira vez, ela não se integrou bem e não ficou imediatamente perceptível, mas conforme o novo sinal de relevância foi se estabelecendo, houve momentos surpreendentes.
Transição para tempo integral
- Graças ao patrocínio da NLnet, a transição para tempo integral aconteceu há cerca de 8 meses.
- A parte mais difícil foi não trabalhar demais, e há um esforço para descansar pelo menos um dia por semana.
- Como se sabe que se fica mais inteligente quando se descansa o suficiente, em teoria é importante parar de vez em quando para trabalhar melhor.
Meta de indexar 1 bilhão de documentos
- A jornada rumo à indexação de 1 bilhão de documentos está avançando lentamente.
- As dificuldades são maiores do que o esperado não porque o software não consiga lidar com isso, mas porque a relação sinal-ruído da web é ruim.
- Um dos grandes motivos pelos quais o mecanismo de busca funciona relativamente bem é justamente aquilo que ele não indexa.
- Há um ano, o índice estava entre 50 milhões e 100 milhões, mas no último rastreamento chegou a 220 milhões, e a expectativa é que fique entre 290 milhões e 300 milhões quando a próxima rodada de crawling terminar.
Melhorias no parsing e na execução de consultas
- Ainda há bastante espaço para melhorar na área de parsing e execução de consultas.
- Já começou o trabalho preparatório para organizar o código afetado antes que o trabalho de fato se inicie.
- Os grandes saltos do projeto sempre foram experimentais; há coisas planejadas, mas parece que as não planejadas é que realmente terão grande impacto.
Agradecimentos
- Agradecimentos à NLnet, FUTO, aos apoiadores do Patreon, aos defensores e aos usuários.
- Sem o apoio deles, nada disso teria sido possível.
Opinião do GN⁺
- O mecanismo de busca Marginalia é um caso de um pequeno experimento que cresceu até se tornar um projeto em tempo integral por meio de melhorias contínuas e do apoio da comunidade.
- Melhorias funcionais como o suporte a palavras-chave de texto âncora atuam como mudanças importantes que elevam bastante o desempenho do mecanismo de busca.
- Este projeto oferece à comunidade open source e aos desenvolvedores oportunidades de colaboração e contribuição, além de ajudar no avanço da tecnologia de mecanismos de busca.
1 comentários
Comentários do Hacker News
C&C Tiberian Sunpara suporte a IPv6 e sentiu saudade da web antiga. Isso lembra os Searchlores de Fravia e seria como se Umberto Eco tivesse se interessado por computadores. É como descobrir algo surpreendente no labirinto da biblioteca de O Nome da Rosa e depois perdê-lo para sempre.