元搜索引擎的成果去重及排序研究

发布时间：2018-12-18 18:01:36

　　摘要：成果去重和排序是进步元查找引擎成果质量的两个关键问题，文章分析余弦类似度、根据TF-IDF的文本类似度三种去重算法，运用URL、标题和核算摘要类似度三方面去重；研讨了Board排序、星星排序、轮询法、方位排序和概念可行度对检索成果的影响，提出了一种归纳排序算法。试验成果表明，归纳排序算法在准确率、召回率等方面都优于其他算法。
　　关键词：元查找;类似度;去重;排序
　　中图分类号：TP311文献标识码：ADoI:10.3969/j.issn.1003-6970.2012.06.016
　　MetaSearchEngineResultstoWeightandSortingof
　　【Abstract】Goheavyandsortingaretwokeyissuestoimprovethequalityoftheresultsofthemeta-searchengine，thearticleanalyz
　　esthecosinesimilarity，threekindsoftextsimilaritybasedontf-IDfweightalgorithm，usingtheUrL，title，andcalculationofsummarysimilaritytoweight;Boardsortstarssort，thepollingmethod，location，sort，andtheconceptoffeasiblesearchresults，acomprehensivesortingalgorithm.theexperimentalresultsshowthattheintegratedsortingalgorithmaccuracy，recallrateofbetterthanotheralgorithms.
　　【Keywords】Meta-search;Similarity;toheavy;Sort
　　元查找引擎是指通过集成多个独立的查找引擎，将用户的检索恳求转换处理后提交给它们，并将每个独立查找引擎回来的成果一致进行去重，并从头排序后反馈给用户[1][2]。由于元查找的数据来源是独立查找引擎，回来的成果中一般会有重复数据，同一条成果在不同查找引擎中回来成果的方位也不一样，因而，如何去除重复数据，一起将质量好的成果排序靠前是元查找要解决的两个关键问题。
　　元查找的成果来自用多个独立的成员查找引擎，尽管不同的成员查找引擎的覆盖规模不一样，但回来的成果中会呈现重复数据，降低了检索成果的质量[3]。因而，在将成果回来给用户前，宁波网站优化需要将重复内容去除。重复内容一般会有如下两种状况：一种是内容彻底一样，另一种是内容类似，好像一个内容主题，在不同的网站用了略微有区别的表明。
　　第一种重复只需要判别URL或网页标题即可识别，第二种内容重复则需要核算回来成果中的标题、摘要的类似度，到达某一类似度即可判别为重复。因而，在成果去重时首要判别两网页的URL和标题是否相同，若是，则认为重复；否则，提取两网页的摘要并进行类似度核算，判别两网页是否为重复网
　　文本类似度的核算办法一般选用文本发掘中的余弦类似度来衡量，基本思想是将待检测的文本表明为一个特征向量，通过核算向量的夹角余弦值来判别。余弦值接近于1，阐明类似度较高。特征向量一般用字或者词呈现的次数来表明，如：令Di为待检测文档，其特征向量表明为：
　　Di=D((ti1，wi1)，(ti2.wi2)，…，(tin.win))
　　其间tij表文档i的第j个特征词，wij表明该特征词的频次。文档Di和Dk之间的类似度运用公式（2）核算：
　　TF-IDF算法是通过核算文档词频来核算词权重[4]，基本思想是：一个词在特定文档中呈现的次数越高，阐明它在区别该文档内容特点方面的才能越强（TF），一个词语在文档中呈现的规模越广，阐明它区别文档内容的特点越低（IDF）。其核算公式为：
　　wij=tfij×idfj=tfij×log(
　　其间tfij指词语tj在文档di中呈现的次数；idfj指呈现词语tj的文档的倒数。N表明文档总数，nj指呈现词语tj的文档数。wij表明了词语tj在文档的权重，运用该值来表明文档特征向量。
　　元查找的成果排序是指对其调用的所有成员查找引擎回来成果从头进行排序处理。目前元查找引擎选用的排序算法多种多样，有的是对成员查找引擎回来的成果信息进行归纳，根据各个成员查找引擎的排序信息，来从头进行排序；有的则先将成员查找引擎的成果搜集起来，再从头选择某种排序办法对这些成果进行处理；有的是给不同成员查找引擎的检索成果分配必定的分值，对其进行交融处理，之后按序显现给用户[5]。常见的算法有如下几种：
　　Board排序类似于推举，根据票数多少进行排序。在元查找中，关于某个查询，它被几个成员查找引擎检索到，则该成果记载就得几票，最终核算各个成果记载的票数，依照票数多少排序。为了更好地运用原来成员查找引擎的排序信息，对每个成员查找引擎的成果依照早年到后的次第分配必定的权值，核算成果时乘以相应的权值，可细化每个成果所得票数。
　　星星排序是首要核算某个查找成果记载在多少个成员查找引擎的前面几条信息中呈现，以此作为相关度点评目标。关于某个查询成果，若在一个成员查找引擎的前几条中呈现，就得到一个“星”，得到的“星”越多，则该记载就越重要。最终比较每个成果所得的“星”的个数，并以此排序。
　　轮询法(round-robin)首要把成员查找引擎根据其功能依照必定次第排列好，然后依照这些次第将每个查询成果中的第一项顺次列出，再把每个查询成果中的第二项顺次列出，依此类推。一个成果呈现在多个查找引擎中的以第一次呈现该成果的为基准，后边呈现的不再参加排序。半途呈现某查找引擎的成果现已取完时，则跳转到下一个查找引擎。
　　方位排序的是充分运用各独立查找引擎回来的成果记载调集中原来的排序信息，一起给每个成员查找引擎分配了优先级。不同的查找引擎关于相同的查询可能会得到一些相同的成果，可是相同的几个查找成果在不同的成员查找引擎中回来的次第可能不一样。关于某个元查找引擎来说，假定其调用的成员查找引擎个数为n，成员查找引擎Si=(1，2，3，…，n)的优先度为Pi=(1，2，3，…，n)。关于某个查找成果，令其在查找引擎Si中的排序方位为qi(若不在该查找引擎中呈现，则qi为无
　　从表1能够看出，归纳排序的准确率和召回率显着高于其他算法，DCG值也有同样体现。由于检索成果均来自6大查找引擎的前四页，所以检索成果的准确率、召回率、和DCG值都较高，其间的准确率、召回率和DCG值都只要细微的变化。其间也包含了网络环境、输入关键词、检索时间和人工标示偏差等的影响。实际上，对某元查找引擎来说(排序办法已定)，不同的查询，它的查准率和查全率也有不同；关于同一个查询，不同的排序方式也会引起很大的不同，导致这种问题的主要是
　　本文转载自
　　宁波网站优化www.leseo.net
　　补充词条：宁波网站排名优化宁波网站优化推广宁波网站seo 宁波seo优化公司宁波谷歌优化

乐华观点

上一篇：巨子纷争我国搜索引擎商场等

下一篇：根据JAVA的搜索引擎的设计与实现