搜索架构引擎、方案与细节

xiaoxiao2021-04-19 903

参考搜索架构

文字很多，有宏观，有细节，对于大部分不是专门研究搜索引擎的同学，记住以下几点即可：（1）全网搜索引擎系统由spider， search&index， rank三个子系统构成（2）站内搜索引擎与全网搜索引擎的差异在于，少了一个spider子系统（3）spider和search&index系统是两个工程系统，rank系统的优化却需要长时间的调优和积累（4）正排索引（forward index）是由网页url_id快速找到分词后网页内容list<item>的过程（5）倒排索引（inverted index）是由分词item快速寻找包含这个分词的网页list<url_id>的过程（6）用户检索的过程，是先分词，再找到每个item对应的list<url_id>，最后进行集合求交集的过程（7）有序集合求交集的方法有 a）二重for循环法，时间复杂度O(n*n) b）拉链法，时间复杂度O(n) c）水平分桶，多线程并行 d）bitmap，大大提高运算并行度，时间复杂度O(n) e）跳表，时间复杂度为O(log(n))

自研搜索的话，历史数据怎么迁移到新的架构上。产生数据的业务服务是否要重构？工程上要考虑哪些方面和流程？

（1）数据初始化，需要重建索引（2）为了保证数据一致性，索引紧密性，也需要定期重建索引（3）搜索的接口、架构变化了，调用需要升级

转载请注明原文地址: https://ju.6miu.com/read-676280.html

技术

最新回复(0)