搜索引擎原理
搜索引擎如何建立索引
由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。
网络蜘蛛的实现方式
(1) 基于广度优先。基于广度优先的算法按照所遇到的链接的先后顺序进行访问。它是所有网络蜘蛛中是最简单的一种策略。
(2) 基于深度优先。基于深度优先的思想根据选定的条件计算网页与搜索主题之间的相似度,选择相似度最高的链接进行搜索,在相似度的计算过程中,通常采用余弦进行计算。
(3) 基于网页评级。基于网页评级是利用网页评级并结合内容对搜索到的文档集合进行评级,利用计算得到的结果从中挑选评级最高的链接作为下一个搜索的对象。
(4) InfoSpider。InfoSpider是利用进化的关键词表和神经网络方法,对与主题相关的网页进行相似度的计算,根据计算的结果决定下一个将要搜索的对象,同时计算新获得的文档与主题的相关程度以及在获取文档过程中所花费的代价修正代理的能量,并根据其能量级别决定对该代理进行撤消、再生与生存。
以上内容是之前看到不错的内容,摘来给大家分享。
















