宁波seo优化专栏

宁波网站优化:Intranet搜索引擎算法分析和搜索

发布时间:2019-01-22 20:18:37

  近年来,内联网迅速发展,产生了大量信息。此,如何让用户找到他们想要的信息成为内联网搜索引擎的问题。这个问题上,他将分析和比较几种经典的Intranet搜索排序算法。希望在未来的发展中,我们可以将它作为参考,改进相关算法,使算法更接近完美,使搜索结果更能满足用户的需求。键词:搜索引擎;算法;原则;功能; PageRank的; HITS中图分类号:TP393文献标识码:A文章编号:1009-3044(2014)01-0120-03概述随着公司的发展,各种信息随着快速增长,搜索引擎已经成为允许用户查找信息的首选工具。搜索引擎方面,国外比中国早了近10年,但在中国仍有优秀的搜索引擎,如:百度,中搜。着搜索技术的成熟,内联网搜索引擎将成为获取信息和掌握知识的工具。云信息时代,传统搜索引擎提供的服务已无法满足日益增长的个性化服务需求。此,搜索引擎将有更多的发展和进步空间,搜索功能将更加整合,更加亲和,更加人性化。

宁波网站优化:Intranet搜索引擎算法分析和搜索_no.150

  法是搜索引擎的灵魂:改进搜索服务本质上是一种改进的算法。在现有算法的基础上进一步改进,您必须首先了解它。本文中,对两种经典的PageRank和HITS算法进行了分析和比较,并强调了它们的优缺点。介绍了这两种算法的扩展算法,Hilltop和SALSA:它们结合了两种HITS和PageRank算法的基本思想。

宁波网站优化:Intranet搜索引擎算法分析和搜索_no.142

  后,强调了当前算法的问题和改进方向。种经典算法,PageRank和HITS,是经典的搜索引擎算法。多算法在此基础上得到了改进,构成了搜索引擎算法分析的两个最基本,最重要的算法。PageRank算法PageRank算法由Sergey Brin和Lawrence Page于1998年提出[1]。

宁波网站优化:Intranet搜索引擎算法分析和搜索_no.19

  算法基于“由许多好的网页引用的网页必须是良好的网页”的关系来确定网页的质量。网页包含在许多其他网页中时,网页可能是高质量的网页。

宁波网站优化:Intranet搜索引擎算法分析和搜索_no.173

  是,如果有一个网页的链接未包含在许多网页中,但链接指向一个好的网页,则它可能也是一个高质量的网页。网页被均匀分发并传输到它所引用的所有网页的重要性。用户随机浏览除当前网页集之外的网页时,要访问的网页的似然值等于所访问的网页的PageRank值。PageRank算法的原理:首先,基于网页之间链接的参考关系建立关系图,并将PageRank的相同初始值分配给下层的每个页面,然后页面值根据其引用的网页之间的引用关系均匀分布。有页面;最后,宁波网站优化PageRank的值是每个页面通过引用具有的所有值的总和。于这些图层计算,所有页面最终都找到了他们的PageRank值。据每个传递的计算,每个页面不断更新其PageRank的值。1是一个简单计算的例子。1示出了从卡的PageRank计算的实例:的PageRank(14)=的PageRank(12)/ 2 +的PageRank(24)/ 3 = 6 + 8 = 14 PageRank算法的功能是一离线评估算法与请求主题无关。有PageRank值都是在查询之前预先计算的,这大大减少了搜索到达时要执行的计算次数,这使得它更快。是,此方法忽略了这样的事实:结果与用户的查询有关,并且分发的平均权重不公平地用于某些新网页。导致非常高的页面权重,不相关的结果等。文本链接超文本搜索(HITS)算法最初由康奈尔大学的Jon Kleinberg博士于1997年提出。算法将Web页面划分为两种类型:Authority页面和Hub页面。限页面是一个与特定方面或主题非常相关的高质量页面,中心页面是指导许多高质量页面的页面,例如hao123。HITS算法认为一个好的Hub页面会显示很多好的权限页面,当然,一个好的权威页面会有很多Hub Pages指向[3]。HITS算法仅计算更接近主题的页面:它根据页面中的条目数计算其权威权重,然后根据页面的链接数计算其Hub权重。过迭代计算和计算的收敛闭合值不断更新权限权重和中心权重,直到结果收敛[2]。后,查找权限和集线器权重最佳的页面。法原理:)获取根集:使用传统搜索引擎搜索用户搜索的关键词,获取与主题相关的网页,并从这些网页获取权威网页网页作为游戏的根源。2)扩展根组:将其集合页面的传入和传出页面添加到根组以形成更大的集合。
  取最佳页面集合:查看扩展集合的Hub页面作为Vls顶点集合,将权威网页作为V2顶点游戏,Vl网页和网页之间的参考关系在V2中是边缘E的集合,形成图SG =(V1,V2,E)。
  图2所示:图2关系图V1和V2对于V1集中的任何网页,如果它指向更高质量(权威)的页面,其中心性值更大;对于V2页面,如果它由良好的Hub页面引用,则其权威值也更大。后,基于页面的权威权重等于指向它的所有页面的中心权重之和,中心权重等于它指向的所有页面的权威权重之和。代计算和权威值和中心值的不断更新,直到结果收敛。后,基于每个页面的最终和中心权威值执行完整分析,并从扩展集中获得最佳页面。
  HITS算法的特点:HITS算法可以很好地描述网络的结构,它只计算一小组网页的权重,这只需要很少的时间。是,必须在收到用户请求后根据相关主题计算算法。多迭代是获得最终结果所必需的,这使得计算效率低。“扩展网页集”中的页面增加或减少或关系发生变化时,HITS算法的排名结果将发生很大变化,容易受到“不需要的链接”的影响。使得得分异常,主题漂移和网页作弊。HITS算法与PageRank算法的比较根据HITS算法和PageRank算法的上述思想和原理,这两种算法的一些特征在表1中进行了比较。顶算法算法的改进算法的基本思想Hilltop算法由Krishna Baharat在2000年左右研究并于2001年获得专利。后他加入Google并将其授权给谷歌。Hilltop算法不仅采用PageRank算法,利用链中给定页面的数量和质量来计算页面的权重,而且还吸收了HITS算法与查询主题之间的相关性。户获得高质量页面的子集。想。算法认为只有与用户的搜索主题相对应的页面才是用户真正需要的页面。此,与主题相关的页面之间的链接比与主题无关的页面之间的链接具有更高的贡献值。Hilltop算法计算与用户搜索的主题最密切相关的专家页面列表(专家页面:所有链接都大于s并指向与同一组织无关的网站或其所有者)。);结果页面由列表中的离线专家页面找到;重要性的权重是根据网站上的页面数量以及与同一组织或其所有者无关的引用结果页面主题的相关性计算得出的。
  果页面按重要性排序重要性价值。法特征HillTop算法是一种客观测量网页质量的排序方法。查询与语言或内容无关。过应用Hilltop算法中的专家页面,搜索和确定页面在算法中起着关键作用,从而提高了搜索结果的质量。
  是,很难在一定程度上保证专家页面的质量和公平性:该算法降低了人工操作的排名效果,忽略了大多数非专家页面的影响。且HillTop算法没有考虑搜索结果中遇到的问题:当在计算中找不到足够的专家页面时,它没有返回的结果。SALSA算法SALSA算法由以色列专家R. Lempel和S. Moran在2000年第9届国际互联网大会上提出。文名称是随机方法,用于分析链接结构[3]。
  算法的算法保持SALSA的PageRank随机访问和与在HITS应用相关特征的基本思想,也分为网页和枢纽管理局的集合的网页,但取消了Authority和Hub之间的相互贡献分数之间的关系。SALSA算法不仅考虑用户随机向前浏览的一般习惯,还增加了用户有时取消网页以使其更加健壮的事实。应用程序中,算法可以分为两个阶段:计算对象集和使用随机访问的链接关系传播过程,如PageRank算法。法特征SALSA算法在扩展组时消除了HITS相互增强的迭代过程,节省了资源,减少了计算量,并忽略了无效链接(例如广告和赞助链接)。一定程度上,解决了主题漂移问题,使搜索更加准确。
  是,当SALSA算法搜索网页的权限值时,它不会考虑其他网页的影响而不是直接相邻网页的集合。论基于以上几种搜索引擎算法的分析,虽然经典,但算法仍然不完善,仍然是长期开发过程的一部分。然,我们可以利用各种算法来获得更好的搜索结果,这是许多人所做的。是,为了在这方面取得重大改进,开发人员需要更加关注用户或用户的观点,以搜索现有问题和解决问题的方法。
  计在不久的将来,内网搜索引擎算法将进一步增强,以应对云时代,满足更高标准的需求。

宁波网站优化:Intranet搜索引擎算法分析和搜索_no.131

  
  本文转载自
  宁波网站优化www.leseo.net
  补充词条:宁波网站优化推广  宁波seo网站优化  宁波seo外包  宁波谷歌优化  宁波网站排名优化