摘要:本文提出了一个根据多本体的搜索引擎框架,分析了本体、智能署理程序、搜索引擎本身在框架中的效果和作业模式。同时,针对互联网异构本体的查询问题,提出了一个分布式多本体查询的模型。引进本体技能后,web搜索引擎的作业办法由关键词全文检索转为常识检索,然后增强了搜索引擎处理杂乱查询的才干。
关键词:语义网;本体;搜索引擎
中图分类号:TP391.3文献标识码:A文章编号:1007-9599(2011)04-0000-02
WebSearchEngineFrameworkBasedonOntology
LiuZhigang,YeShuisheng
(SchoolofInformationEngineering,NanchangHangkongUniversity,Nanchang330063,China)
Abstract:Thispaperintroduceasearchengineframeworkbasedonontology,andanalysisthefunctionandtheworkingmodeofontology,agentandSEitselfinthisframework.Meanwhile,thispaperpresentsadistributedmulti-ontologyretrievalmethodtoprocessaqueryofheterogeneousontologyontheinternet.Withontology,searchengine(SE)convertitsworkingmodefromfull-textretrievalbasedonkeywordstoKnowledgeretrieval,andenhanceSEabilityfordealingacomplicatedquery.
Keywords:Semanticweb;Ontology;Searchengine
一、研究布景
搜索引擎是信息检索在互联网上的应用。选用根据关键词全文检索技能的搜索引擎存在着查全率、查准率低的问题。首要表现如下:
(一)检索成果对词汇高度灵敏,而不能忠实表现的查询者的目的。文献表明,能表明查询者目的的查询份额只要25%。[1]
(二)高匹配、低精度。相关页面与很多相关性差或根本不相关的页面混杂在一起。
(三)检索成果分布在离散的网页中,而非完整的、可供直接使用的常识。需求人工干预以提取这些信息,并构成可用常识。
为了让搜索引擎愈加智能地找到用户所需的常识,业界、学术界提出了多种技能来完善搜索引擎的作业机制。如查询引荐技能[2]、PageRank技能等[3]。可是搜索引擎检索成果的准确度和相关度依然不抱负。导根本原因有以下两点:
1.计算机对天然语言了解的不足阻碍了用户对查询目的的表达。
2.WEB中的信息安排办法是按照人类习气的显现样式进行安排的,而没有携带计算机可了解的语义信息。
互联网创始人TBerners-Lee在文献中提出语义网的概念[4],强调了信息之间按语义整合的重要性。依靠语义,体系之间不同词汇术语的逻辑连接才干够建立互操作[5]。本体(Ontology)是对语义网进行描写的有力东西,是共享概念模型的形式化标准阐明[6]。本体技能助于搜索引擎实现由现在全文检索向常识检索的转变。
二、根据本体的搜索引擎模型规划
传统的信息检索模型可由以下三元组表明[7]:
其间,D是文档的表明,Q是查询的表明。是一个排序函数,回来一个与查询表明和文档表明有关的实数,以定义查询成果的排序。
在此模型中引进本体常识,信息检索模型能够表明如下:
其间,D是文档的表明,K是本体常识库的表明,Q是对用户原始目的的查询表明。函数能够实现对本体常识库的查询、对检索词进行推理、多本体的发现和查询。是排序函数,其回来与查询相关的成果排序值。其间=。此函数不仅要根据检索关键词,还要根据检索扩展成果的与潜在文档匹配的成果进行排序。体系结构图如图1所示。
整个体系包含以下两个重要的署理程序:
(一)智能人机接口署理。用户以标准而天然的办法提出查询目的,智能人机接口将天然语言分解成为可供查询的语义元素。
(二)智能查询署理。本署理为整个体系的核心。其间,本体查询模块对一个或多个OWL本体常识库进行检索,回来待检索概念的上下位概念以及概念之间的联系(对象属性);本体推理模块开掘实例之间隐含的联系;多本体发现模块能够自动发现和调度相关本体,并协助本体查询模块完结多本体的查询。
三、分布式多本体查询模型规划
多本体查询的首要技能是本体集成。可是对于异构的本体,效率很低。文献提出了分布式查询的思维[8],可是这种办法对于相关性差的本体之间的查询支撑不行。
本文提出一种使用webservice的思维对分布式多本体进行发现和查询办法。该办法模型如图2所示。
多本体发现与查询的进程大致分为以下进程:
(一)在宏观上将一个本体看作二元组(Oi,Si)。其间i=1,2…n。Oi是本体模型本身,Si是本体模型的语义描绘,包含本体的名称、分类、功用、姓名空间的阐明。
(二)本体通过互联网上的UDDI服务器进行发布,为本体供给了标准的描绘办法和发现服务。UDDI支撑SOAP协议调用,是现在比较抱负的本体发现和信息交换平台。
(三)本体发现模块通过SOAP调用UDDI的API对一切注册本体进行查询。UDDI还能够与OWL-S结合起来,以支撑根据本体的查询和语义推理,以补偿UDDI语义信息不足的问题。其匹配模型如图3所示:
在此,标准的UDDI查询恳求会转换为面向OWL-S本体的查询恳求,由OWL-S匹配引擎进行推理和查询。匹配成功后,由OWL-S/UDDI转换器将相关的OWL-SProfile转换为标准的UDDI格局保存。
(四)成功匹配后,
宁波网站优化本体发现模块将通知本体查询模块,将从OWL-S得到的数据标准以及访问办法和方针本体进行绑定,完结对方针本体的查询。
此办法很大程度上消减了本体和搜索引擎之间的耦合,减小了异构本体对查询的影响。有利于本体的工业化和标准化应用。
四、实例阐明
(一)多本体搜索引擎体系规划
考虑以下实例:某用户要采购一台电脑,要求能够流通运行S1(如:maya2010)、S2(如:极品飞车14)两款应用软件。用户委托搜索引擎为其找到满意需求的电脑,并供给品牌、类型、价格、装备、出售地址、售后服务等附加信息以供决议计划。
这些信息一般分散在多个成果页面中。传统的搜索引擎需求通过屡次人工查询和反复挑选才干得出结论。准确度差,查询时间长,覆盖率低。引进本体模型后,以上查询作业由搜索引擎智能署理自动完结,无需用户干预。用户只需对查询成果进行点评。
(二)试验成果
办法1:选用Google进行查询。
为了有比较和选择,仅仅对2家电脑厂商(联想和HP)的产品进行查询。最小查询进程如图4所示:
装备与电脑厂商的产品类型一一对应,试验共进行了11次查询。通过对联想和HP两家电脑厂商的查询比较后得出:“联想启天M8250”计算机契合使命要求。在对该机型的出售信息进行查询时回来8600条记录,相关性并不好。
本例中的查询的杂乱度与方针使命数m与方针电脑供给厂商的数量n密切相关。用户查询杂乱度可用R(m,n)=O(m(1+2n))来度量。设Z为由用户建议的查询次数,X为方针使命数量,Y为候选电脑厂家数量。则Z与X、Y之间的试验数据折线见图5“办法1”。
办法2:选用多本体搜索引擎进行查询。
建立程序装备需求本体、品牌电脑装备本体和电脑出售本体。用本体系对以上使命进行检索时,查询进程如图6所示:
本体系环境中,相同变量意义下,Z与X、Y之间的变化趋势如图5“办法2”所示。
Z大于1的原因是因为用户对回来的成果不满意,要求体系需从头查询。本例中在X=Y=4的情况下,终究得出契合要求的计算机类型为:“方正文祥E520”。经比较发现,“方正文祥E520”价格比“联想启天M8250”价格低709元,且装备相同能满意使命要求,显着比办法1的成果愈加合理。终究搜索引擎还能够回来与该类型计算机与用户所在地匹配的官方出售地址,因而相关度为100%。
(三)试验成果分析
从图5可见,办法1的用户查询次数跟着方针使命和方针厂商的添加而显着上升,而办法2则的查询次数与使命规模无显着相关,用户查询次数远小于办法1。此外,办法2在查准率和查全率方面也显着优于办法1。
导致以上成果的原因有以下几点:
(1)本体搜索引擎的搜索作业由署理程序完结,中间查询进程无需人工干预。因而用户查询次数大大削减。
(2)在办法2中,所复用的电脑出售本体内已经包含了比较全面的国内外计算机厂商信息,因而查全率高于办法1。
(3)办法2能够根据用户所在地个性信息挑选查询成果,因而相关性大大添加。
五、结束语
多本体智能搜索引擎能充分了解用户查询语义,在多个本体中查询用户需求的信息,并将查询成果以常识的形式回来给用户,而不是一组相关或不相关的网页调集。与传统的关键词全文搜索引擎比较,提高了搜索引擎的智能化处理程度,智能查询署理使用户无需参加具体的查询进程,仅需对查询成果进行评价。这将大大提高搜索引擎的查询效率和查准率。因为本体具有语义推理功用,因而,对于查全率也会有大幅提高。
参考文献:
[1]M.Strohmaier,M.Krill,C.Karen.IntentionalQuerySuggestion:MakingUserGoalsMoreExplicitduringSearch[C]//Proceedingsofthe2009workshoponWebSearchClickData,2009:68-74
[2]D.Kelly,K.Gyllstrom,E.W.Bailey.Acomparisonofqueryandtermsuggestionfeaturesforinteractivesearching[C]//SIGIR’09.NewYork:ACM,2009:371-378
[3]李亚楠,王斌,李锦涛.搜索引擎查询引荐技能综述[J].中文信息学报,2010,6:76-77
[4]TimBerners-Lee,J.Hendler,O.Lassila.TheSemanticWeb[J].ScientificAmerican,2001,284(5):34-43
[5]NigelShadbolt,WendyHall,TimBerners-Lee.TheSemanticWebRevisited[J].IEEEIntelligentSystems,2006,21(3):96-101
[6]GruberTR.ATranslationApproachtoPortableOntologySpecifications[J].KnowledgeAcquisition,1993,5:199-220
[7]邰晓英.信息检索技能导论[M].北京:科学出版社,2006.3-4
[8]徐德智,谭毅.根据本体映射的多本体查询办法[J].计算机技能与发展,2008,11(18):14-16
本文转载自
宁波网站优化www.leseo.net
补充词条:
宁波谷歌seo
宁波网站seo
宁波谷歌优化
宁波网站优化推广
宁波seo排名