摘要:本文简要介绍了搜索引擎的定义和分类,系统地描述了经典链接搜索引擎排序算法,以及它的优缺点,总结了搜索引擎排序算法的搜索方向。
索引擎并提供相关搜索的参考。键词:搜索引擎; PageRank分级算法; HITS算法中图分类号:TP39文献标识码:A文章编号:1671-7597(2011)1020136-01简介互联网上信息的泛滥和信息检索环境的演变人们在广阔的信息世界中获取准确的信息更加困难。索引擎作为必备的搜索工具,使用户能够在大量返回的结果中快速找到最准确的信息非常重要。为搜索引擎的关键技术,该算法是提高网络服务质量的热点。索引擎分类和定义搜索引擎[1]是指互联网上一种主动搜索万维网信息并可自动索引和提供查询服务的网站。搜索引擎操作原理的角度来看,目前有三种类型的搜索引擎:全文搜索引擎,它通过蜘蛛从网页中探索信息并将它们存储在数据库中然后创建索引,用户在索引数据库中搜索结果,例如Google和百度。于目录的搜索引擎依靠网站管理员主动注册搜索引擎,手动分类,并在不同级别创建目录,如雅虎。索元引擎仅提供搜索引擎界面,使用多个搜索引擎按关键字搜索,并根据引擎的设置规则返回结果。典链接排序算法超链接分析。因特网上,网页之间存在复杂的链接关系:如果网页被视为点,则形成超链接作为有向边以形成有向图。

此,在这个巨大的有向图中,我们可以看到网页之间的联系关系:在地图中,点和有向边缘密集的点,意味着这些网页密切相关并具有共同的主题;它也非常庞大:引用了高度结合的点,因此它具有更大的重要性。此,可以通过网页之间的参考(链接)来判断判断页面的重要性,这是对链接的分析。经典的是PageRank算法和HITS算法。PageRank算法。PageRank由Sersey Brin及其合作者于1998年提出[2]。

页按权威值排序,以便首先显示最重要的网页。如,Google通过PageRank元算法计算网页的PageRank值,以确定结果集中网页的位置。法描述。PageRank算法基于以下原则:网页被多次引用或被重要的网页引用,称为作者网页。设用户在网页集合中一次随机访问一个网页,然后跟随网页的外部链接浏览网页而不重新发送导航。览以下网页的可能性是正在查看的网页的PageRank值。法的优点和缺点。

点:这是一种静态算法:离线计算网页的pr值,执行在线查询时减少计算量,减少查询的响应时间。点:由于这是一种与研究关键词无关的算法,因此忽略了主题的相关性,导致结果的相关性和主题减少;另一个PageRank对新网页不公平。强算法相关联。PageRank算法仅返回包含查询项的网页,然后根据网页的排名值对搜索结果进行排序。
是,如果最重要的网页未在结果集网页,PageRank算法无能为力;华盛顿大学的Matthew Richardson提出了一个组合。于链接和内容信息的PageRank算法考虑了用户直接从一个网页移动到另一个不直接相邻但与内容相关的网页的情况。算法仅查看链接并受主题漂移影响;斯坦大学的TaherHaveliwala提供了一种对事物敏感的PageRank算法。过简单地依赖链接,旧网页不仅仅是新的网页,因此该算法不公平地处理新旧网页处理方法。HTTS算法(超链接主题搜索)。论不同链接(尤其是权威网页)的重要性如何,PageRank算法中对外向链接权重的贡献都是平均的。J.Kleinberg介绍了Hub页面,这是一个提供权威网页链接集合的网页。本身可能并不重要,但为给定主题提供了非常重要的站点链接集合;一个好的权威页面是:有许多好的Hub页面指向网页。
Hub和Authoritive Web页面之间的这种相互加强的关系是Hub / Authority方法的基本思想。HITS算法的描述。取S根集:使用集线器/授权方法的搜索方法将q查询提交给相应的基于关键字的搜索引擎。索引擎返回大量网页,其中前n个网页被视为根集S.S中的网页数量小且准确,并且有更多权威网页。中广泛集合T:S被扩展到通过将引用网页s到S和所引用的网页二分法向图SG的S.施工设置较大的T:搭T集线器网页作为整体顶点V1,作为一组顶点V2的权威网页和两组中网页的超文本链接作为一组边E,形成二分有向图SG =(V1 V2 E)。行操作:对于V1的任何顶点v,h(v)表示网页v的Hub值,对于V2的u顶点,网页u的权限值由(u)表示)。开始时,h = a = 1,统计地累积该组边缘的所有点的进入和退出程度,然后归一化直到(u)和h(v)收敛。HITS的优点和缺点。HITS算法是基于Web结构探索的领先搜索引擎算法之一。详尽的方式考虑页面的权威性和中心性,评估页面排名是一种更合理的排序算法。S产生T的时间过载太重要了;网页中的一些不相关的链接直接导致HITS算法等的不准确,主题漂移,因为基本集包含与查询主题无关但又密切相关的网页,
宁波网站优化例如赞助商。
接,算法将认为它形成的区域更重要,并返回偏离结果中的初始主题的页面。强算法相关联。

Bharat和他的合作者提出了一种有效控制主题漂移的实施策略:删除与子图请求主题无关的节点,不参与迭代操作。据关联程度纠正不同页面节点的权重,具体方法是在相应的超链接中加权。向链接算法的挑战面向链接的搜索引擎算法也存在影响算法准确性的常见问题:例如,如果根集的质量不高,扩展页面集将增加更多许多不相关的网页,会导致主题漂移;好吧,我没有在质量差的页面中找到很多高质量的页面。何删除不相关的链接,如广告,网站导航,赞助商,也是该算法的关键部分。文本包含对链接和目标网页的相对准确的描述。文本的准确和完整使用对算法的准确性有很大影响。种算法都有自己的应用程序,必须动态调整才能获得最佳结果。论基于链接分析算法,它提供了一种测量网页质量的客观方法。论语言和内容如何,它都可以在没有人为干预的情况下自动发现Web上的重要资源,并已成为生活中不可或缺的一部分。相信未来的研究将更加人性化和智能化。

本文转载自
宁波网站优化www.leseo.net
补充词条:
宁波谷歌优化
宁波seo优化公司
宁波seo推广公司
宁波网站seo优化
宁波seo哪家好