宁波seo优化专栏

宁波seo:搜索引擎中Web链接算法的搜索与改进

发布时间:2019-02-20 00:20:31

  本文研究了搜索引擎中链接结构算法的问题,分析了PageRank和HITS两种不同的算法,并提出了改进算法明显缺陷的措施。试使得验证改进算法可以显着提高搜索质量等成为可能。键词:搜索引擎;网站链接; PageRank的; HITS中图分类号:TP393文献标识码:A文章编号:在发动机1009-3044(2009)24-6748-02Recherche和改进网站链接的算法rechercheWANG梅(江苏海事学院,Nanjing211170,中国)摘要:本文研究了搜索引擎中的链接结构算法,HITS PageRank分析和表观故障算法。出了改进措施,对搜索算法的测试提高了质量,等等。
  键词:搜索引擎;网站链接; PageRank的; HITS随着互联网的快速发展,网络上的信息量爆炸,互联网上的资源丰富,但同时也富含垃圾邮件。用户根据搜索引擎的关键词建立链接时,迫切需要从复杂的信息中找到有用的信息,因此使用算法判断网页是非常重要的。效的。
  前,谷歌的链接算法,百度等。用PageRank算法和HITS算法。PageRank算法的特点是基于权威值对Web页面进行排序。重要的网页显示在结果的顶部。HITS算法介绍网页制作机构(AMF)和插页(HUB)的概念来描述网页相比受试者的相关性,反映了网页和权威网页之间的相互促进的关系植物。
  PageRank算法和HITS算法PageRank算法PageRank算法根据权威值按顺序组织链接的网页。
  页的权威值是基于以下考虑:1)一个网页被引用多次,或者说,它不被引用多次,但它是由一个大的网页引用,这很重要。个重要的网页称为权威网页。2)假设用户访问随机在第一网页的网页集合,然后按照网页上的外部链接到浏览网页,而不参照的可能性navigation.La浏览网页下一个Web是正在查看的网页的PageRank值。PageRank算法描述如下:A(u)为网页中的网页的U的集合,N(v)为链接的数量,其尖端网页v∈A(U),为c归一化因子(谷歌通常需要0.85)。后,PR值R(R)计算如下:R(U)=cΣA(U)/ N(V)(1)但是,如果有两个相互指向的网页A,B,它们链接到任何其他网页,也有一定的网页ç指向a和b,如A.然后,在计算的PageRank的值和b不能分发和连续积累的。个问题的解决方案可以引入衰落在算法系数E(u)的,以使得公式(1)提高如下:算法HITS R(U)= CA(U)/ N( v)+ EC(U)(2)算法HITS主要反映网页制作机构(AMF)和中心网页(HUB)之间的密切关系。

宁波seo:搜索引擎中Web链接算法的搜索与改进_no.101

  个页面都有相应的权限值和中心值。果页面具有指向它的高中心值的多个页面,则它具有高权限值,以及指向许多权威页面的页面。么它将具有更高的中心价值。

宁波seo:搜索引擎中Web链接算法的搜索与改进_no.49

  算法描述如下:基于关键字的匹配将查询q提交给搜索引擎。索引擎返回大量网页,从中将前n个网页作为根集(标注为S.)。S满足以下三个条件:S中的网页数量相对较少。2)大多数S页是与查询q相关的网页。3)的Web页中包含更多权威的网页:通过添加引用的网页和网页S S〜引用S,S已经发展成为一个更大的机构T,称为基本集。拿中心网页T作为游戏的顶点V,网页权威性当U峰的游戏,在V网页到U-网页超链接是边集E,并形成二分导向图SG =(V,U,E)。于V中的任何顶点v,h(v)表示网页v的Hub值;对于U中的顶点u,网页的权限值由(u)表示。先,H(V)= A(U)= 1,则执行该操作(3)接着u到修改其一个(u)和执行下面的等式(4)来改变其第V H(v)的。复计算直到(u),h(v)收敛。个(U)= H(V)(3)H(V)= A(U)(4)(3)指出,如果网页是由许多良好集线器,其值增加权威相应指向(C也就是说,权限值增加到指向它的所有网页的现有中心值的总和。(4)指出,如果一个网页指向许多权威页面,中心值也会相应增加(也就是说,集线器值成为所有网页的权威值之和链接到网页)。
  算法和措施,以改善基础上的PageRank值与HITS和PageRank算法只返回包含应用程序的元素,然后将网页排序的搜索结果的PageRank算法问题的问题网页。把在前台最高的PR值的页面,但如果最重要的页面是不是总的结果页,PageRank算法不能做任何事情。外,当用户导航页面时,它将进一步降级。样,也有问题与HITS算法,如:1)某些网页与不相关的应用程序的主题链接,如广告,赞助商和贸易环节产生友谊,这降低了HITS算法的准确性。2)有时,在主机A的许多文件可以指向上的另一个主机B,这增加了集线器文件A的值和文件B的权限反向也是真实的文档。3)HITS算法的最大弱点是它不处理主题漂移,这是紧密的社区效应。

宁波seo:搜索引擎中Web链接算法的搜索与改进_no.200

  果集合T包含未在请求联系的,但密切相关的某些网页时,HITS算法的结果可能是这些网页从原始请求的话题偏离。4)当使用HITS进行受限主题查询时,可能会出现主题泛化问题,即扩展引入了比原始主题更重要的新主题新主题可能与原始查询无关。高PageRank算法删除的PageRank算法的原理是用户直接进入一个网页到另一个网页,而不是相邻的相关内容,以增加对案件的审议。进算法点击)提高HITS算法的第一个问题提取每个文档的第一词语的集合S根串联它们作为查询主题T和计算关于基于每个文档的相似度不同的门槛。了进行画笔选择,阈值可以选择所有文档相似度的中值,根集合的文档相似度的中值,或文档的最大相似度。

宁波seo:搜索引擎中Web链接算法的搜索与改进_no.132

  据不同的阈值处理并删除不符合条件的文档。HITS算法的第二个问题的改进:假设有在主机ķ网页一个指向主机B上的文档,权威的贡献值K A到文件B等于1,每个文档贡献1 / k,而不是为HITS中的每个文档贡献1,总共贡献k。似地,集线器值,假设文档上主机确实的点到的m文件主机B,米文件B,则有助于吨的1个共计集线器值,并且每个文档有助于在1 / m。高HITS算法的第三个问题(问题RTK)以获取该组根和扩大它在牛逼的网页游戏,删除孤立节点,并建立所有TG =的无向图(VH ,Ua,E)Vh = {Sh | S∈T和out-degree(S)> 0}(G的集中器侧)。

宁波seo:搜索引擎中Web链接算法的搜索与改进_no.53

  (5)Ua = {Sa | S∈T和in-degree(S)> 0}(G的权限方)。(6)E = {(Sh,Sa)}这定义了两个马尔可夫链,一个权威链和一个集中器链。上改进算法是不是要做完美的算法,并仍有很多:例如,宁波seo计算网页的权威值,只有在游戏中的网页的受欢迎程度时,忽略直接相邻网页的内容,忽略其他网页对其的影响。证和结果自行开发的搜索引擎系统,测试上面的HITS算法和改进的算法。
  试数据使用搜索引擎中的基于Web的机器人来抓取网页,并从100多个网站收集超过200,000个网页。析并保存这些页面。息首先由HITS算法索引并保存在索引文件夹中。索器是根据这些索引构建的,映射到内存中,并快速检索提交的查询关键字。后,通过改进的算法将网页上的信息编入索引并保存到新的索引文件夹中。试结果)生成的基本集的质量方面表2将增强算法的质量与HITS算法生成的基本集合进行比较。
  索质量使用不同的算法搜索上面的前20页关键字链接,对其进行排序以确定页面是否与关键字匹配。3比较了改进算法和HITS算法之间的搜索质量。试结论:链接搜索采用改进算法,结果比HITS算法更令人满意。束语本文分析了两种算法的搜索引擎链接的目前存在的问题,并提出了这两种算法的缺陷改进措施,所以对搜索引擎的链接显着提高性能。然,也有很多问题,与搜索引擎的链接结构:许多算法可以总结出一些成功的算法,例如,有一个准确的判断,如果链接中包含的信息或没有有效的方法重要的问题。类没有明确的界限等等。果您希望使用该算法获得更好的结果,则必须继续进行研究。
  本文转载自
  宁波seowww.leseo.net
  补充词条:宁波seo优化公司  宁波seo外包  宁波seo网站优化  宁波网站seo优化  宁波seo排名