根据模糊积分融合办法的智能元搜索引擎体系

发布时间：2018-12-18 18:02:14

　　摘要：运用含糊积分交融办法，给出了一个完好的智能元查找引擎体系。选用智能查找署理的规划结构，完结体系的高度并发性，使体系具有必定的智能性。结合决策树算法和遗传算法对查找源的调度作了优化。提出运用含糊积分原理应用于成果集的交融技术，并给出了详细算法。经过在Web上的实践测验，在相同条件下同常用的查找引擎和其他元查找引擎别离作了比较，证实了本文所描绘的元查找引擎有着更好的查找作用。
　　关键词：元查找引擎；决策树；遗传算法；含糊积分
　　中图分类号：TP311.13;TP391.3
　　文献标识码：A
　　0引言
　　WWW中包含着很多的异构文档资源，Web查找引擎现在已经成为查找Web网页的首要东西。单个查找引擎的查找才能不只受到其判别文档是否符合要求的才能的约束，一起也受到其掩盖网页的数量的约束。单个查找引擎的查找才能不超过整个Internet上16％的网页，那些不能树立索引的Web网页大概有五千亿张，这个数量据估计是当前查找引擎数据库所能够记录的网页数量的500多倍。Internet的巨大容量和Web网页快速改变的内容是导致许多查找失利的首要原因。
　　元查找引擎[1]是一类运用Web查找引擎作为数据源的特殊的查找引擎。元查找引擎与其他信息获取体系的不同之处是操控方式，元查找引擎不会操控其他查找引擎怎样处理它所提交的内容，也不会操控查找引擎回来的信息。它经过允许用户将查询提交给多个查找引擎来进步查找成果的一致性和掩盖率。这一过程一般分为3个步骤来进行：1）信息集的选取；2）查询的提交；3）回来成果的兼并。
　　怎么依据查询的问题选取不同的信息集，很多学者对此进行了研究。现在，挑选的算法首要有3种[2]：1）CORI（collectionretrievalinferencenetwork）办法由原有的对文档进行相关性判别的贝叶斯推理网而来；2）GlOSS(GlossaryofServersServer)试图处理得到多个匹配源的时分怎么挑选合适的源，并开发了向量空间查找版本和布尔变量版本；3）CVV(theCueValidityVariance)，留意到了Internet的查询特点，在向量空间算法的基础上对算法作了改进。
　　查询的处理上，能够经过元查找引擎，依据相关反应来进一步精密查找的成果。办法是在继续的查询中，交互地从用户处得到一个相关文档的子集。也能够针对查找引擎只能接受简略的查询，先运用查询者提出的问题结构一个查询本体，该本体与传统的查找不同的是它是按层次和范畴结构的一个上下文本体，随后向若干查找引擎提交查询，并用此本体检验回来的成果。
　　在上述查询中首要存在的问题有：1）用户在填写在线查询东西要求的表单时，缺乏满足的信息来完结表单的每一项；2）在线东西仅搜集了部分信息。3）用户仅有它所期望服务的反例。文献[3]针对以上缺乏，开发了一个WebAgent来更好地处理这些状况，首要处理了两个问题：1）怎么和在线服务相结合；2）怎么经过本地数据库和知识库产生新的查询替换原查询，以协助用户进步查准率。
　　查询的最终需求将一个按与查询问题相关度排序的成果回来给查询者。由于查询成果是从多个独立的信息集检索出的，因而必然会在成果中出现相同或者相似文档，这些来自于不同信息集的相似和相同成果应该在一个一致的规范上兼并为一个最终成果。
　　1元查找引擎MySearch体系结构
　　为了改进在Internet上的查找效率，进步查准率和查全率，咱们开发了元查找引擎MySearch，其结构如图1所示。
　　用户接口模块是用户和体系之间的接口，负责接收用户的输入并显现输出成果。调度模块依据用户的输入产生查找查询恳求，决议查询哪一个查找引擎，以及依照不同的查找引擎的要求修正用户输入的查询恳求。成果处理模块从调度模块挑选的查找引擎中获取网页成果，并依据各查找引擎的回来网页的不同格局提取元查找引擎需求的内容。排序模块运用交融战略将多个查找引擎的排序成果兼并成一个独自的排序成果。查找引擎署理与某一个查找引擎相对应，以执行一些与调度和成果处理有关的子使命。
　　体系运用了智能署理（Agent）的结构。Agent是一种规划形式，它模拟了所代表的实在事物的某些行为，对外提供一致的接口，躲藏不同实在事物之间的差别。运用Agent形式的体系具有更大的灵活性，当实在事物的特点或行为发生改变时，体系不需求任何改动，只需求调整Agent的详细行为即可。
　　Agent的种类，依据其应用环境的不同有很大差异，信息获取范畴内的查找署理的规划已成为今年来研究的热门。例如，代替某个独立实体的署理往往具有必定的目的而且能够做出必定的判别。在元查找引擎中运用署理是非常有用的，因为选用这种结构有利于进行模块化的规划，每个署理都能够独自规划而且能够进一步应用于分布式体系中。元查找引擎署理其实是代替实在的查找引擎来接收用户的查询与输入并产生Web恳求的一段程序，一起它也代替相应的实在的查找引擎来处理成果，由此完结了体系的高度并发性、自主性并使体系具有必定的智能。
　　2调度算法
　　MySearch结合决策树和遗传算法来调度和挑选查找源。这样做的优点是一起结合了静态学习和动态学习，在分析了基于用户反应的决策树调度的缺陷之后，再运用遗传算法进行了优化。MySearch经过分析用户日志和用户反应信息，对成员查找引擎的调度进行学习和练习。决策树是界说布尔函数的一种办法，其输入是一组特点描绘的对象，输出为yes/no决策。MySearch选用ID3算法完结决策树的学习。ID3算法核算每一个候选特点(如查找引擎运用的言语、查找引擎的情绪、查准率等)的信息增益，挑选信息增益最高的一个。一个特点A相对样例调集S的信息增益Gain(S，A)被界说为：
　　Gain(S，A)=E(S)-∑v∈Values(A)｜Sv｜｜S｜E(Sv)
　　其中，Values(A)是特点A一切可能值的调集，Sv是S中特点A的值为v的子集，函数E为信息熵。经过挑选信息增益的最大值构建决策树挑选源查找引擎。
　　MySearch依据用户的点击率来核算用户反应，再依据用户反应对各个成员查找引擎进行评分。为了防止堕入局部最优，在调度时运用遗传算法进行了随机选取和进化。设Sse={E1，E2，…，Em}为查找引擎的调集，宁波seo优化在体系中将查找引擎的序号编码，即E1，E2…是查找引擎的编码。挑选查找准确率p，平均呼应时刻t，作为习惯函数的变量。查找准确率p界说为与该查找相关的文档数目，用二元组（s，p）表明，一切这种二元组的调集叫作查找空间T在查找引擎E上的查找准确率，用P(E)表明：P(E)=((s，p)｜s∈T，0≤p≤1)(2)
　　T为查找空间，s为某个分类。成员查找引擎E上的呼应时刻t界说为该成员查找引擎的呼应时刻，用二元组（s，t）表明，一切这种二元组的调集叫作查找空间T在查找引擎E上的呼应时刻，用B(E)表明。
　　B(E)=((s，t)|s∈T)（3）
　　习惯函数（Sei）=T(p，t)，T为份额改换函数，p，t为单个搜擎引擎上的性能指标。遗传算法经过对初始种群的重组、变异，产生必定子代种群，求出一切子代种群序列中前四个（Sei）之和最大的。
　　4实验成果
　　对查找的成果的点评一般选用查全率（Recall）和查准率（Precision）作为点评规范。相似的实验一般在TREC集或其他测验集上进行，能够方便地核算出这两个参数。而关于Internet而言，网页的状况是不知道的，因而无法核算该值。这时，能够运用下式点评查找成果[6]：
　　其中ur是检索到一篇相关文档的价值，R是检索到的相关文档总数，un是检索到一篇不相关的文档价值，N是一切不相关的文档总数。明显，u的值越大，检索作用越好。
　　取ur=1，un=2对查找引擎各进行5次查询，对回来的前50条记录核算u值，而且和Google、AllTheWeb、Yahoo及AskJeeves的查找成果比照如图2所示。
　　从图2中能够看到，MySearch在综合了4个查找引擎的成果上取得了较好的查询成果。运用更多的关键字查询，能够得到相似的成果。运用更多的关键字查询，能够得到相似的成果。
　　关于相同的查询和数据，将Mysearch和BordaCount及CombMIN（CombMAX）元查找模型成果做了比照，如图3所示。
　　从图3中看到，Borda办法和MIN办法对文档的排序和含糊积分之间有着较大的差异。但Borda办法和含糊办法两者的u值核算却相差不大，含糊积分略好于Borda法，说明了这两种办法虽然对前50篇相关的文档的详细排序有着必定的差异，但对“哪些文档是最相关的50篇文档”的看法却是基本一致的。一起也反映出由于CombMIN（MAX）算法较为简略，尤其是没有权重的考虑，因而在排序成果在u值上和含糊积分有较大的距离。含糊积分相关于CombMIN（MAX）在文档交融排序上给出了更优的成果。
　　5结语
　　元查找引擎在掩盖率和查准率上均高于Web查找引擎。怎么能够进步查询效率及更好地组织从不同查找引擎回来的成果，是一个好的元查找引擎首要要处理的问题。在进步效率方面，本体系经过WebAgent的规划，一起对多个查找源进行自主的查询，在有新的查找源被发现的时分，只需参加一个新的对应的WebAgent即可，这样进步了体系的灵活性和并行性。一起，为了防止挑选一切的查找引擎消耗过多的时刻，选用决策树和遗传算法相结合的思维，只调度最佳的查找引擎，进一步进步了查询效率。用决策树和遗传算法决议哪些是最佳的查找引擎，为防止堕入总是调度相同的查找引擎，遗传算法的变异，参加了不常被调度的查找引擎。在最终的成果表现上，运用含糊积分交融的办法对一切回来成果进行了从头排序。取得较好成果的原因是含糊积分是一个单调函数，经过兼并各信息源的含糊衡量值得到总的点评。含糊积分在交融时不简略地疏忽较为“微小”的声响，而是将这些建议累加参与最后的点评。也就是说，假如一篇文档被一个权重很高的查找引擎点评为重要，那么这篇文档很可能重要，假如一篇文档被多个权重较低的查找引擎点评为重要，那么这篇文档也很可能重要。
　　本文转载自
　　宁波seo优化www.leseo.net
　　补充词条：宁波seo推广公司宁波seo外包宁波网站seo 宁波seo优化公司宁波网络seo

乐华观点

上一篇：企业信息门户搜索引擎技术的研究

下一篇：搜索引擎优化的链接策略分析