宁波seo优化专栏

浅谈元搜索引擎的关键技术

发布时间:2018-12-13 20:42:20
  摘要:元查找引擎能够很好解决传统查找引擎的覆盖率不全的问题,并且能够综合多个传统查找引擎的优势。专门树立一个根据多个传统的查找引擎的成果集之上的查找引擎,以进步查找服务质量,元查找引擎经过整合多个成员查找引擎的查找成果来供给自己的查找成果,在这个进程中就涉及到查询转化、成员查找引擎调度、查找成果排序组成等一系列关键技术。
  关键词:元查找引擎;查询转化;引擎调度
  中图分类号:TP393
  元查找引擎又称调集型查找引擎。它并没有自己的索引数据库,也没有抓取机器人,只是只是充任中心署理的作用。元查找引擎将多个单一的查找引擎集成在一起,供给一致的检索界面,将用户的检索恳求分别提交给多个独立的查找引擎,一起检索多个数据库;并依据多个独立查找引擎的检索成果进行二次加工,如对检索成果去重、排序等;然后再输出给用户因为元查找引擎整合了多个查找引擎的查找成果。元查找引擎一般具有比传统的查找引擎更大的信息覆盖面,能够有效的进步查全率。
  元查找引擎能够划分为三个模块部分:用户恳求端、后台事务逻辑处理模块、成果从头显现模块。用户恳求端负责与用户的交互,接纳用户的恳求,并把恳求传至后台的服务模块处理。用户恳求端还负责处理用户的个性化装备,如装备成员查找引擎的信赖权重值等等用户个性化装备。后台事务逻辑处理模块的首要功能是负责将用户的恳求转化为成员查找引擎所能了解的形式,并在接纳成员查找引擎所返回来的成果后,对查找成果进行解析、提取、排序组成等处理。成果显现首要负责终究成果的显现,一起供给一些额定的效果以供给更好的用户体会,如将用户检索关键字分词后高亮显现等等[1]。
  元查找引擎虽然能够方便用户一起检索多个查找引擎,可是进步查全率的一起,也引入了新的问题:关于特定的用户查找,有的成员查找引擎有较高的准确率,而有的则具有极低的准确率,即成员查找引擎的有效性存在较大的差异。如果排序组成算法处理的不当,则容易淹没满意用户检索需求的查找成果。别的元查找引擎需求一起向多个成员查找引擎发送恳求并获取检索成果,然后再对查找成果进行整合,添加了时间损耗,也添加了用户的检索等待时间。所以怎么解决好这两个问题,是构建一个成功的元查找引擎的关键。因为元查找引擎的成果集成了多个成员查找引擎的查找成果,信息量一般比较大。用户一般不会对所有的成果进行遍历,而是只是关注前几条或者前几页的信息。怎么将用户需求的成果尽或许的排在前面就显得尤为重要。元查找引擎的排序组成正是完成对多个成员查找引擎的查找成果进行整合的模块,排序组成算法的优劣将直接影响到元查找引擎的功率。因而怎么对成员查找引擎的成果进行有效的整组成为元查找引擎的核心问题。
  1元查找引擎关键技术
  元查找引擎经过整合多个成员查找引擎的查找成果来供给自己的查找成果,在这个进程中就涉及到查询转化、成员查找引擎调度、查找成果排序组成等一系列关键技术[25,26]。
  1.1查询转化
  因为不同的成员查找引擎关于查询的格局要求往往是不一样的,因而元查找引擎体系在向成员查找引擎发送检索恳求之前,先要将用户输入的检索关键字转化为各个成员查找引擎所规则的格局。例如编码的转化、特殊字符的处理等。
  除了供给最基本的查询转化之外,有的元查找引擎为了进步查询的准确率,还供给了一些扩展的操作符和查询语法以扩大用户的查询恳求。这一般需求预先对用户的检索关键字进行处理,然后依据预界说的操作符和查询语法的格局,将用户的检索关键字转化为新的检索关键字。例如有的查找引擎供给了“与”和“或”操作。为了供给愈加专门化的检索,有的查找引擎还会对用户的检索关键字进行分词,然后依据每个分词单元所属的类别的信息,来断定所要调用的成员查找引擎[1]。
  1.2成员查找引擎调度
  每个查找引擎所拿手的领域一般有所不同,例如百度拿手中文查找,谷歌和必应拿手英文查找。并且每多调用一个成员查找都会耗费必定的体系资源,一起也会添加查询延迟,添加用户的等待时间。因而需求挑选适宜的成员查找引擎来获取满意用户检索需求的查找成果。
  目前常用的成员查找引擎调度有两种:一种是由用户自界说所要调用的成员查找引擎。这种方法的长处是给予了用户较大极限的挑选权,一起也免去了体系核算成员查找引擎调度信息的损耗。可是每逢用户检索不同类别的关键字时,往往需求从头指定成员查找引擎。可是大部分互联网用户一般不知道自己所检索的关键字应该挑选那些成员查找引擎,因而具有较差的用户体会。别的一种是由体系决议挑选那些成员查找引擎。这种方法的长处是用户检索时不必预先指定成员查找引擎,具有较好的用户体会。可是体系往往需求很多的核算以断定每次用户查找所需求调度的成员查找引擎。例如经过学习的战略来断定所要调度的成员查找引擎,往往需求预先用很多的材料来练习算法。这往往需求耗费很多的体系资源[2,3]。
  1.3查找成果排序组成
  查找成果排序组成,就是对元查找引擎体系中集成的各个成员查找引擎的查找成果进行组成、去重和重排序的进程,这也是现在大多数元查找引擎体系的核心。查找成果排序组成一般分为三个进程:去重、组成、重排序。兼并,就是将元查找引擎中各个成员查找引擎的查找成果进行整合的进程,在这个进程中,往往还要记载一些其他的信息,例如关于每个成员查找引擎或许需求记载抓取的查找成果的总数、抓取到的查找成果总数等信息,关于每条查找成果或许需求记载所在的成员查找引擎、在原成员查找引擎中的方位等信息。去重,就是将元查找引擎体系中集成的各个成员查找引擎中重复的查找成果进行去除的进程,在这个进程中往往也需求记载一些其他的信息,例如每条查找成果的“共识度”,即包含它的成员查找引擎的个数,不同的元查找引擎体系或许会采用不同的去重算法,常见的去重方法有两种,一种是只是依据查找成果的URL信息来判断是否是重复的,另一种除了依据URL信息判断之外,还依据具体的内容信息来判断是否是重复的信息,例如关于原创和重载的文章,就认为是重复的。重排序,就是关于去重后的查找成果进行从头排序的进程。重排序往往采用从头核算每条查找成果的权重信息,然后再依据权重信息来从头排序。不同的元查找引擎体系往往考虑不同的因素和采纳不同的算法来进行权重的核算。常见的影响权重的因素有成员查找引擎的有效性、查找成果在原成员查找引擎中的方位、查找成果的摘要信息和描绘信息与用户检索关键字之间的匹配度、查找成果在元查找引擎体系集成的成员查找引擎中的共识度等。常见的权重核算方法有两种,一种是由用户自界说相应的权重信息,另一种是由元查找引擎体系自身依据相关信息来核算每条查找成果的权重,例如机器学习算法就是一种常被用来核算权重的算法,经过采用很多的数据来练习算法以断定相应的参数,宁波seo然后采用练习后的算法来进行权重信息的核算[4]。
  参考文献:
  [1]强弓,喻国宝,廖湖声.一种元查找引擎的查询成果处理模型[J].华南理工大学学报(自然科学版),2004,32:47-51,57.
  [2]李村合,孟文杰.根据分类点评的元查找引擎调度战略[J].核算机工程与设计,2008,29(5):1065-1066,1119.
  [3]张卫丰,徐宝文,周晓宇.根据遗传算法的查找引擎调度[J].微电子学与核算机,2001(4):34-38.
  [4]杨春明,何天翔.元查找引擎的成果去重及排序研究[J].软件,2012,33(6):51-53.
  作者单位:湖南铁道职业技术学院,湖南株洲412001
  本文转载自
  宁波seowww.leseo.net
  补充词条:宁波网站优化推广  宁波网站排名优化  宁波seo优化公司  宁波seo外包  宁波网络seo