宁波seo优化专栏

搜索引擎排序技术研究

发布时间:2018-12-19 17:02:40
  摘要:查找引擎是一项簇新而深奥的技能,该文主要研讨了查找引擎的排序问题,首先简单介绍了查找引擎的开展和查找排序的重要性,然后剖析了当时用户对搜排序索成果中存在的问题并结合查找引擎的作业流程论述了查找排序的巨大作用。接着研讨了当时查找引擎中运用比较广泛的查找排序算法,如Alexa算法、PageRank算法、HillTop算法等,并比较了各个算法的不同,最终并指出当时查找引擎排序算法存在的一些缺乏,并展望了今后查找引擎排序算法的开展趋势。
  关键词:查找引擎;排序;排序算法
  中图法分类号:TP393文献标识码:A文章编号:1009-3044(2009)05-1250-03
  TheResearchontheRankAlgorithmsofSearchEngine
  WANGTao,XUJie
  (SchoolofComputerScienceandEngineering,UniversityElectronicScienceandTechnologyofChina,Chengdu,610054,China)
  Abstract:Searchengineitselfisanewandesoterictechnique.Thispaperismainlyonthesearchenginerankingproblem.Firstthepaperbrieflyintroducedthedevelopmentofsearchengineandthesignificanceoftherankingalgorithmsofsearchengine.Andsomeproblemsoftheuseronthesearchresultareintroduced.ThepaperstudythecommonlyusedrankingalgorithmsofpopularsearchenginessuchasAlexa,PageRank,HillTopandsoon.Thedifferencesbetweentherankingalgorithmsarecomparedandtheirshortcomingsarepointedout.Finally,thedevelopmenttrendofrankingalgorithmsofsearchengineisalsomappedinthefuture.
  Keywords:searchengine;sorttechnology;rankingalgorithms
  查找引擎是要给对互联网上的海量信息资源进行搜集并整理,然后给用户查询的系统。它一般包含信息搜集、信息整理和用户查询三个部分组成。
  前期的查找引擎是把Internet中的丰富的资源地址搜集起来,然后又由其提供的资源的不同类型而分成不同的目录,在逐层地进行分类,这就是目录索引查找引擎的原理。跟着因特网上的信息成几何级数式增长[1],呈现了真实意义上的查找引擎,这些查找引擎搜集很多网站的地址,随后逐个查找网站的一切链接,把网站的一切链接和链接中的一切词汇分类存入数据库中,便于用户能够方便地进行查询,并快速回来用户查询的成果信息,宁波seo优化并对查询的成果进行排序,其间,查找成果的排序对查找引擎起着重要的作用,也是衡量查找引擎的一个重要方针。
  1查找排序的作用
  查找引擎的方针是帮助用户敏捷查找到所需的网络资源,并快速将查找的信息反馈给用户。作为用户希望最符合自己需求的网络资源能在放置在查找成果行列里排在前面。从用户的查找行为习惯来看,用户通常最关怀前几页的信息,而越往后的信息用户越不愿意检查。
  但是,针对当时用户反响,查找引擎排序主要存在如下一些问题:
  1)查找成果重复;
  2)查找成果排序欠佳;
  3)查找成果太陈腐;
  4)广告太多。
  由此可见,查找引擎排序中查找成果的排序在查找引擎中发挥着很重要的作用。好的查找引擎总能将用户需求的成果信息放置在查找成果的前面,相反假如用户需求的成果信息总被排在检索成果的后边,则被用户点击的机率就很小,这样的查找引擎也不会取得成功。图1中展示了查找引擎的作业原理以及查找排序在查找引擎中的方位和作用,由图中能够看出,查找排序是整个流程中与用户的接口层,其排序的好坏直接影响整个查找引擎的规划流程。总而言之,排序是查找引擎最关键的技能之一,排序策略和算法决议了排序作用的好坏。
  2排序技能介绍
  2.1Alexa网站排序算法
  Alexa是发布国际网站排名而有目共睹的一个网站,在搜集URL数量上,ALexa位居四大查找引擎第一位,超越350亿。Alexa的网站国际排名主要分两种:综合排名和分类排名。综合排名也叫肯定排名,即特定的一个网站在一切网站中的名次。Alexa每三个月发布一次新的网站综合排名,此排名的依据是用户链接数(usersreach)和页面阅读数(pageviews)三个月累积的几何平均值。当时国际排名最靠前的网站:yahoo(www.yahoo.com)高居榜首,而国际闻名的查找引擎Google排名第二。
  但Alexa网站排名会遭到一些要素的影响,如Alexa工具栏仅在windows操作系统下,InternetExploer阅读器中管用,运用其它操作系统或者阅读器的拜访将不能被计数。Alexa工具栏也遭到言语、地域、文明等各方面的影响,网站宣传广告的影响等。
  2.2PageRank排序算法
  Goolge是当时全球用户运用最多的查找引擎。Google之所以能够如此成功,一个重要的要素是Google对查找成果的排序比其它的查找引擎都要好,总能将成果回来到前几个页面。这与Google的查找引擎排序算法分不开,Google的查找成果的质量在很大程度上受益PageRank排序算法。
  PageRank算法的基本思想是:假如一个页面被许多其他页面引证[2],则这个页面很可能就是重要页面;一个页面虽然没有被屡次引证,但被一个重要页面引证,那么这个页面很可能也是重要页面,一个页面的重要性被均分并将传递到它所引证的页面中。其间页面的重要程度量化后的分数就是PageRank值。闻名的查找引擎Google所用的就是PageRank算法,该排序依据网页间的链接信息迭代核算得到,这儿的链接信息是相对静态的,没有考虑网页运用的动态信息。
  依据这个思想,能够得出页面A的PageRank值PR(A)的核算公式为:
  式中:PR(A)——页面A的PageRank值;PR(Ti)——页面Ti的PageRank值,页面Ti链向页面A;C(Ti)——页面Ti链出的链接数量;d——阻尼系数,d=0-1,实际使用时设0.85;N——互联网上一切网页的数量。
  由上面的公式能够看出,一个网页链入的数量越多,这些链入网页的PageRank值越高,这些链入网页自身的链出数量越少,则该网页的PageRank值越高。和Alexa算法不同,PageRank算法并不是将整个网站排名而是以单个页面核算的。其次,页面A的PageRank的值取决于那些连接到A的PageRank的递归。
  PageRank技能依据网页之间的链接结构对网页的重要性进行了客观的点评,并将网页的PageRank值使用于检索已过的排序,网页的PageRank值越高,标明其越重要,排序越前。这样,在很大程度上避免和减少了人为要素,做到客观地将最恰当的检索成果展现给用户。消除了经过用不公平的方法处理网页级别,使真实有信息资源价值的任何小网站的网页在检索时和有名的网站的网页占有平等的方位,使查找用户不会被假排名靠前的网站所搅扰,保证用户能够检索到真实有用的信息。
  2.3HillTop排序技能
  和PageRank相同,HillTop相同是一项查找引擎成果排序的专利,是Google一个工程师Bharat在2001年获得的专利。
  HillTop算法的指导思想和PageRank的是一致的,都是经过网页被链接的数量和质量来断定查找成果和排序权重。但HillTop以为只核算来自具有相同主题的相关文档链接关于查找的价值会更大。Bharat称这种对主题有影响的文档为“专家”文档,从这些专家文档页面到方针文档的链接决议了被链接网页“权重得分”的主要部分。与PageRank结合HillTop算法断定网页与查找关键词的匹配程度的基本排序进程替代了过分依托PageRank值去寻觅那些威望页面的方法,这关于两个具有相同主题并且PR值相近的网页排序进程中,HillTop算法就显得非常重要了。一起,HillTop也能避免了许多想经过添加许多无效链接来进步网页PageRank值的做弊方法。
  2.4竞价排名
  竞价排名是现在商业查找引擎非常重要的一个手法,关于某些关键词查找引擎进行拍卖,出价高的单位能够获得较高的排名,即在该关键词的检索成果中处于较前的方位,通常情况下,主页排名竞价最高。例如在“百度”购买一个关键词足球,主页的可能要2000元人民币乃至更多,下面以百度竞价为例作一个简单的介绍。
  查找引擎是使用最广泛的网络效劳,每天有上千万的用户经过查找引擎来寻觅各种信息,企业的潜在用户也在其间。因此,存在了关键词竞价排名的商机。参与百度查找竞价排名,注册属于企业的产品关键词(如产品或效劳的详细名称),当企业的潜在用户经过查找引擎寻觅相关产品信息时,企业的网站将呈现在查找成果的夺目方位上。百度查找竞价排名,能够将那些只在寻觅企业产品的潜在客户直接带到企业的网站进行拜访,然后为企业带来很多事务咨询,进而发生新订单,赢得新客户,实践证明,竞价排名是现在作用最好、出资报答最高的网络推行效劳。
  百度竞价排名是百度创始的一种按作用付费的网络推行方法[3],用少数的投入就能够给企业带来很多潜在客户,有用提高企业销售额,每天有超越一亿人次在百度查找信息,企业在百度注册与产品相关的关键词后,企业就会被查找这些产品的客户找到“竞价排名”依照给企业带来的潜在客户拜访数量计费,企业能够灵活控制网络推行投入,获得最大报答应该说收费排名并不属于排序技能,这儿指的收费排名也包含竞价排名,而是一种查找引擎的赢利形式,但收费排名现已最直接的影响到了查找引擎的排序,在此也略做一下说明,用户能够购买某个关键词的排名,只要向查找引擎公司交纳必定的费用,就能够让用户的网站排在查找成果的前几位,依照不同关键词、不同方位、时间长短来界说价格收费,排名一方面给查找引擎公司带来收益,一方面给企业带来拜访量,别的对拜访者也有必定好处由于拜访者想找“足球”,企业想卖“足球”,所以出钱让拜访者能找到他,这样,买家和卖家能立刻碰头但收费排名给拜访者带来更多的却是不真实,成果排序现已失去了公平性,有时候还带来很多垃圾。
  当然,关于企业来说,收费排名是提高网站在查找引擎中排名的最直接和最简单的方法。如前所述的针对查找引擎排序,经过修正网页或者网站结构和自动添加网站链接等方法来让查找引擎以为这些网页是很重要的,然后提高网页在查找引擎成果中的排序,这对很多没有参与竞价排名的网站来说,是有失公平的。
  3排序成果存在的问题
  现在各种查找引擎的技能都有改进和优化,都直接反响到查找成果的排序上。许多查找引擎都在进一步研讨新的排序方法,来提高用户的满意度。
  查找引擎排序算法上还存在两大缺乏:[4]
  1)没有真实处理相关性
  相关性是指检索词和页面的相关程度。仅仅经过链接、字体、方位等外表特征,不能真实判别检索词和文章的相关性,更何况许多时候这些特征不会都一起存在。这也是许多对查找引擎做弊方法能起效的原因。别的,有些文章中没有呈现检索词,但说的就是和检索词十分相关的内容,例如检索“篮球”,但有网页是介绍的一些赛事活动,文中没有呈现“篮球”的字眼,查找引擎就无法检索到该网页。外表特征只能治标,不能治本。处理相关性的的方法应该是添加语意了解,例如主题词和关键词的提取,从语意上剖析,得出检索词和网页的相关程度,剖析得越准,作用就会越好。
  2)查找成果的单一化
  在查找引擎上,任何人查找同一个词的成果都是相同。这样显着不能满意拜访者。科学家查找“星球”,可能是希望了解星球的常识,但普通人可能是想找“星球大战”电影,但查找引擎所给的都是相同的成果。如何满意这些不同类型的拜访者,需求对查找成果的个性化。Vivisimo公司就是想处理这个问题,他们选用对检索成果自动聚类的方法来满意不同类型客户的需求。检索成果排序假如要完成从单一化到个性化,该公司现已迈出了重要一步,但最理想的成果应该是针对每个拜访者,排序成果直接和他们的检索习惯和意愿有关。例如查找“体育”,对喜爱足球的人应该把足球的相关成果排在前面,对喜爱篮球的人应该把篮球的相关成果排在前面。
  4结束语
  综上剖析可知,现在现有的一切引擎排序算法并不能很好的满意用户的需求,因此,关于查找排序算法的改进和优化有深入研讨的必要。如何处理信息的相关性,如何将查找的成果完成个性化,查找引擎的排序技能也会朝着处理这两个缺乏的方向开展语意相关性和排序个性化,前者需求完善的自然言语处理技能,后者需求记录巨大拜访者信息和复杂的核算。相信这方面问题的研讨会给查找引擎技能带来巨大的开展,也必将会更好的满意用户的需求。
  参考文献:
  [1]RicardoBaeza-Yates,BerthierRibeiro-Neto.ModernInformationRetrieval[M].北京:机械工业出版社,2005,(3):275~276.
  [2]Google的秘密-PageRank彻底说明[EB/OL].http://www.kreny.com/pagerank_cn.htm.
  [3]谈大军,林明茵,叶赛.中文和百度的排序方法与检索效率比较剖析[J].现代情报,2005.3.
  [4]许丽丽.专业查找引擎对比研讨[J].现代情报,2005,(1):188~190.
  本文转载自
  宁波seo优化www.leseo.net
  补充词条:宁波谷歌优化  宁波seo优化公司  宁波seo外包  宁波网络seo公司  宁波seo推广公司