宁波seo优化专栏

宁波seo优化:基于超链接分析的搜索引擎页面排序

发布时间:2019-03-02 00:19:42

  搜索结果中的排名(工程安徽理工大学计算机科学与计算机工程系,安徽淮南232001,中国的学校)是在搜索引擎的关键技术。法的质量直接取决于用户在输入关键字后快速找到搜索的能力。息系统介绍了基于超链接分析的超文本链接分析技术和搜索引擎页面排序算法。发了两种最基本的页面排序算法,PageRank和HITS的算法思想和实现原则。过分析和比较,总结各自的优缺点,并突出适用于其应用的条件字段。后,它指出了应用超链接分析时搜索引擎应该注意的一些影响因素。键词:搜索引擎;超链接分析;页面排序; PageRank的; HITS中图分类号:TP301文献标识码:A [WT]商品编号:16721098(2008)02007305Analyse两种类型的搜索引擎的基础上的超链接科学大学计算机科学与工程PageRecherche AnalyseZHANG椒江(学校技术安徽,安徽淮南232001,中国)摘要:搜索结果的排序是在搜索引擎的关键技术,算法中rith直接影响用户快速找到自己想要的结果的能力。经系统地呈现了用于基于超链接分析的超链接分析和寻呼算法的技术。个最基本的寻呼机和王算法,PageRank和HITS的想法和原则都暴露出来了。后,总结了它们各自的优点和缺点,并指出了适用它们的适当条件和领域。键词:搜索引擎,链接分析超文本pageranking,PageRank的,打在互联网发展初期,网站相对较少和查找信息是相对容易的。而,随着互联网的爆炸性增长,万维网的1994年(WWW或Web)的出现,开发比包含在其中的十年中,开放性和信息的广泛无障碍多一点极大地鼓舞了人们。作的热情使其成为越来越丰富的信息资源库。于一个普通的用户可以看到他们在这个庞大的数据库需要的信息就像是大海捞针,并符合需求的大量信息提取拥有专业的搜索网站看到了这一天。索引擎技术是这些专业搜索网站的核心。搜索引擎技术在搜索结果页面的排序算法中扮演着搜索引擎的重要作用,因为它决定了网页的请求的系统和目的索引的相关性用户的大小,以及网页在查询结果中出现的顺序。质量与用户在输入关键字后获取信息的能力直接相关。此,用于对搜索引擎页面进行排序的算法越来越受到许多研究人员的青睐,尤其是基于超链接的排序算法是无穷无尽的。文本链接分析技术简介传统的Web搜索引擎主要依赖于关键字匹配。回的结果是包含查询元素的文档。有基于目录分类的搜索引擎,例如第一个Yahoo和Sina搜索服务。这些搜索引擎的搜索结果并不令人满意。些网站所有者特意增加特定关键字的频率,使自己的网站在搜索结果中占据了更加突出的位置,从而破坏搜索结果的客观性和准确性。外,一些重要的Web页面可能不包含查询元素,因此搜索引擎无法检索。而,一些研究人员渐渐发现,在网络上超链结构是,如果它可以被充分利用,可以显著改善搜索结果[1] 189.另外的质量是非常丰富和重要的资源,提出了一种基于超链接分析对搜索结果进行排序的算法。[2] 78中提出的PageRank算法打开了超链接分析研究的热潮。链接分析的基本原理是:在所有的搜索结果(主要的购物搜索引擎通常有几十万甚至上百万的搜索结果),页数其他页面指向超链接很重要。出排序必须越高,结果必须越多[3]。

宁波seo优化:基于超链接分析的搜索引擎页面排序算法分析_no.6

  句话说,一个网页的重要性取决于链接到其他网页,特别是确定为网页中的链接数量的网页数量“重要”。链接的分析实际上是通过投票机制,这意味着如果一个网页链接,一旦另一个网页,它相当于另一个网页,其重要性被再次确认参考。于静态网页或网站主页,此机制是合理的。为这样的网页容易生成基于它从Internet收发的评估超链接的数量,链接分析的结果可以大致反映网页的真正的重要性和能使搜索用户接近他的搜索目标。常有价值的搜索结果事实上,宁波seo优化除了分析网页本身的文本,链接分析技术,超文本分析所有链接的URL,链接文本,甚至周围的链接文字。样一来,即使某一个网页HTML1不包含特定的词,如“下载”,如果另一个网页HTML2使用链接文本“下载”指向HTML1网页,用户搜索关键字“下载”。还可以找到html1页面。

宁波seo优化:基于超链接分析的搜索引擎页面排序算法分析_no.100

  外,如果有多个网页(HTML2,HTML3,HTML4,HTML5 ......)的链接 “下载” 指点HTML1网页,或网页源代码(HTML2,HTML4,HTML5 ...) ,链接更好,然后是网页。用户搜索“下载”并且在搜索结果中排名更好时,HTML 1代码将被认为更相关。们可以从那个所谓链接分析是基于两个重要的假设推断:中包含网站对用户的判断信息的超链接;一个网站如果其他网站生成一个链接到该网站,链接越多,您是数(即d。接的数量),更多的网站是非常重要的。个假设都反映在这样或那样的基于链接分析基于这个想法超级链分析[2] 78.各种算法,一些学者提出了许多算法排序页面。

宁波seo优化:基于超链接分析的搜索引擎页面排序算法分析_no.132

  前有:PageRank算法,HITS算法,SALSA(对于链接结构分析随机的方法),PHITS算法(概率类似物HITS),贝叶斯算法,信誉算法[3] 6.还有一些变体由改进产生的算法。中一些算法已经在实际系统中实现和使用,并且已经给出了良好的结果。这些算法中,PageRank和HITS是最知名和最基本的页面排序算法。他算法基于某种程度的改进。细介绍和分析了以下两种基本算法,为今后的研究做好准备。于超链接分析的算法。1PageRank算法的基本思想在基于超链接分析的排序算法中,PageRank算法最为着名。初由Sergey Brin和Lawrence Page于1998年推出,后来在谷歌这个世界上最着名的搜索引擎中使用。歌使用元计算的PageRank计算网页的PR值,从而确定该组搜索结果的网页的位置。PageRank值越高,结果中的位置越高。
  基本思路是这样的:如果一个网页有一个链接到T网页A,它表示T网页的所有者认为网页A大于T的重要性分数的值越大(即T网页的pageRank值)。一部分被A.A得分给定由T的PageRank,(T)PR的数目和T链的值确定(链键T)C(T)。示为:PR(T)/ C(T)。此,对于页面A,其PageRank值PR(A)是指向它的所有页面的重要性注释的总和。面的公式可以用于计算PR(A)= PR(T1)/ C(T1)+ ... + PR(TN)/ C(TN)(1)其中:T1,T2,T3 .. Tn是页面的A点不舒服链接。于Internet上的某些页面既未链接也未导出,因此无法计算PageRank的值。了避免这个问题(称为LinkSink问题),一些研究人员已经通过添加阻尼系数d到等式(1)成为PR(A)=(1-d)+ d改善[PR(T1)/ C(T1)+ ... + PR(TN)/ C(TN)](2)d是阻尼系数如谷歌经常指定0.85 [4]。
  这种方式,整个网络的页面被迭代地在多个迭代,直到达到RA收敛值并获得页面的PageRank值来计算。优点和PageRank式的缺点分析以上,还可见一页面均匀地分布为页面它是指其PageRank值。PageRank的价值越小。此,一个页面会增加其PageRank值,因为其他页面将把自己,但不会其PageRank值增加,由于其自​​身的参考其它页面。过这种方式,要使网页获得更高的排名,您需要获得更高的PageRank值。获得更大的PageRank值,最重要的网站将是,因为只有这些重要的网站具有很高的PageRank值。
  果两个页面的PageRank值非常低,则在相互链接后它们不会增加太多。复链接对两者都是危险的。于链接到页面的数量越高,通过链接页面获得的PageRank值会更低,所以顶级网站将不会被低质量的网站所取代。个网站的一种方式,以获得较高的PageRank的高低是询问店主诚实网站每个公司自己的网页,并提高整个网站的品质,以获得一个链接到一个高级网站。此,PageRank技术可以有效地防止某些网站误导搜索引擎以获得更高的排名。PageRank技术的另一个优点是它是一个独立于请求的静态算法。然所有的网页是由递归迭代计算的收敛值计算Pagera值NK,计算量非常大,但这些计算并不需要实时性能,可脱机一次被保存得到的结果。可以有效地减少在线查询期间的计算次数,并显着缩短查询的响应时间。而,PageRank技术的弱点也很明显。

宁波seo优化:基于超链接分析的搜索引擎页面排序算法分析_no.5

  于PageRank的只取决于外部链接的数量来计算的页面来确定网页排名,而忽略页面的用户查询内容的相关性,从而影响的充分性和准确性搜索结果。外,一些中心网页本身并不重要,没有比和链接指向它的几个环节等很多内容,但它指向一个主题的最重要的页面链接。们可以说几个好的Hub页面指向一个好的页面,一个好的Hub页面指向几个好的页面。应该是一种互动关系,但在PageRank [5]中不予考虑。外,对于一些较新的网页,引用次数较少,因为尚未找到它们。此,即使质量很高,也不会获得高的PageRank值。意味着PageRank在新页面上会非常有辨别力。2算法的基本思想撞击HITS算法(超链接诱导主题搜索),在1998年提出的克林伯格,是基于通过超链接排序算法上最有名的算法之一。理局网页(权威)和Hub页面(索引页):在此算法中,网页是按照超链接的方向分为两种类型的页面。者都是HITS算法中的两个重要概念。
  理局页面是指查询关键词,并结合最近的页面,而中心页是指页面在其连锁机构的很多页面,其主要功能是统一这些权威页面[6]。HITS的基本思想是将请求提交q基于关键字,这是指许多网页的传统搜索引擎,并采取第一网页由R. R通常代表满足全根三个条件:R中的网页数量相对较少,R中的网页主要是与查询q相关的网页; R包含更多权威网页。后根据整个页面定向图中的集合R的位置来扩展该根集合。就是说,通过将R添加到引用的网页R和引用的网页R,R被扩展为更大的集合,称为基集T。义此集后,它将开始计算集合中每个页面的目录类型权重和权威权重。用页面权威程度和中心页面,以提高每个属性的T收集链接和分析,迭代计算的方法被用于计算集线器的权威的使用价值和价值作为结果页面排名基础的T的每一页。设基础游戏T的页面是1,2,3,...p。页p具有权威值ap和Hub值hp;该组的进入页面的页面是由pBp(m)和该组出页面的表示由Fp(n)的表示。后APhp由下式计算:P = [DD(]米[] I = 1 [DD)]在(IBP(米))的HP = [DD(] n的[] I = 1 [DD) ] ai(i∈Fp(n)),这种递归公式很容易用矩阵方法表示。
  所有选定的网页进行编号,以获得所有网页的数字集{1,2,...,n}。在相邻的矩阵A是一个矩阵的n×n.Si超链接从网页我链接到网页Ĵ,在矩阵A的元素(I,J)设定为1,否则为0。此同时,权威重量x和它目录下的所有网页的重量分别由向量x =(X1,X2,X3,...,xn)映射,Y =(Y 1,Y 2,Y 3表示,...,yn)。那里,一个简单的矩阵公式来计算x和y可得:Y = A X,X = Y,其中AT•AT是A的转置矩阵。外,我们有:•ATx= Y = AT•组Ax =(ATA)••ATXY = X = =AATy(AAT)•Y,因此,矢量x,y可以通过几次迭代获得。多次递归操作之后,获得集合中每个页面的权威权重和目录类型权重。
  据这两个不同的权重,将前k页的输出返回给用户。据线性代数理论,迭代序列被归一化,并最终收敛于矩阵A的重心和权威上面计算的特征向量是一组页面的固有特性,而不是由矢量和初始参数的选择决定。缺点分析在HITS计算过程中,我们可以看到该算法是一种依赖于查询关键字的算法。当获得搜索,他必须在数据库中找到相应网页,提取指向这些网页,这些链接子图的化合物,并得到每个网页的相应链接权重运营媒介。实际应用中,R生成T所需的时间非常昂贵。
  必要下载并分析R中每个网页中包含的所有链接,并排除重复链接。常,T远大于R,并且从T生成有向图需要花费很多时间。须单独计算网页的A / H值,并且计算量大于PageRan k算法。验数据表明,该算法的排名精度优于PageRank算法。而,当在用户恢复期间执行如此大量的操作时,恢复效率显然不高。HITS算法的最大的弱点是主题漂移,这是现象TKT(Tigh TlyKnit社区的影响)的管理不善[7]。于HITS只计算主要特征向量,也就是说,只有集合的主要社区,可以发现发现T等大型社区被忽略。
  然有一些网页的集合pagesT不相关的应用程序的主题,但密切相关的,在HITS算法的结果可能是这些网页,从而从请求的主题出发原。
  此,HITS更适合广泛主题的查询。外,HITS算法不能有效地识别网站创建者对搜索引擎的欺骗。网页包含许多为其他目的而创建的链接,例如付费广告,浏览网站本身等。此,仅根据链接数来判断页面的权限值和Hub值是不合理的。使用HITS关闭有关的查询,也可能产生普遍的问题的一个主题是说,根游戏扩展到基本的游戏导致了一个新话题比原始主题更重要,并且新主题可能与原始查询无关。括的原因是网页包含具有不同主题的出站链接,并且指向新主题的链接更为重要。
  析超链接时要注意根据超链接分析算法的问题,衡量网页的质量提供了客观的方法,无论何种语言,内容,自动发现网络上的资源,而不人为干预并提取网络。大型社区,文档的分类是自动实现的[3] 4。而,由于开放性和互联网的自由,网页超链接也被混合,造成了一些干扰对超链接的分析有些失望。免损坏和好处,力求最高的算法准确性和效率。须考虑影响算法准确性的一些常见问题。(1)游戏的根的质量必须非常高,否则扩展页集增添了许多不相关的网页,产生了一系列诸如漂移和主题的传播问题,计算量会大大增加。

宁波seo优化:基于超链接分析的搜索引擎页面排序算法分析_no.166

  算法并不是更好,并且不可能在低质量的网页中找到许多高质量的网页。(2)噪声周三链接所有链接不包含任何有用的信息,如广告,网站导航,赞助商,友好交流环节,不仅不帮链接分析,也影响结果[1]。196.如何有效地消除这些多余的链接也是算法的关键要素。(3)锚文本使用锚文本,精度高,链接和目标页面的描述更精确。具体实现中,我们应该使用锚文本来优化算法。文本的精确和完整使用对算法的准确性具有显着影响。(4)查询分类每种算法都有自己的应用,对于不同的查询,必须使用不同的算法来获得最佳结果。此,查询的分类也非常重要。论随着互联网信息的爆炸式增长,人们越来越多地使用搜索引擎来获取所需的信息。然目前的商业搜索引擎非常成功,但仍有许多设施需要改进。文主要介绍和分析了基于超链接分析的最基本搜索结果,PageRank和HITS的两种算法。希望将来改进这两种算法,为更准确,更完整的排序算法奠定基础。搜索引擎的搜索是一个热门话题,就必须能够真正做研究,不断创新,以及研究和深入理解现有的基础技术理论。
  本文转载自
  宁波seo优化www.leseo.net
  补充词条:宁波网站排名优化  宁波谷歌优化  宁波seo网站优化  宁波seo哪家好  宁波seo优化公司