宁波seo优化专栏

基于搜索引擎的揭露情报自动化搜集模型

发布时间:2018-12-08 22:11:58
  摘要:跟着核算机和网络技能的开展,互联网揭露情报收集现已成为一种重要的情报收集手法。网络信息的爆炸式增加,使得通用查找引擎东西用于揭露情报收集的缺点越来越凸显。在通用查找引擎的基础上,对查询输入运用语义词典进行查询扩展和检索成果聚类处理,能有用地进步检索的精度和有用性,运用智能署理实现互联网揭露情报的自动化收集,加快了情报收集的速度和作业功率。
  关键词:互联网;揭露情报;查找引擎;查询扩展;聚类
  中图分类号:TP393文献标识码:A文章编号:1009-3044(2008)26-1654-03
  AutomaticOpenIntelligenceCollectionModuleBasedonSearch-engine
  ZOULiang-qun,ZHOUChun-lei
  (PLAUniversityofInternationalStudies,Nanjing210039,China)
  Abstract:Withthedevelopmentofthecomputerandnetworktechnology,tocollecttheopenintelligenceontheinternethasbecomeavitalwayofintelligencecollection.Theexplosivegrowthofthenetworkinformationincreasinglymagnifiesthelimitationsofusingtheuniversalsearch-enginetocollecttheopenintelligence.Onthebasisoftheuniversalsearchengine,theuseofthesemanticdictionarytoexpandthequeryinputandclusterthesearchresultscaneffectivelyimprovethesearchprecisionandvalidity.Furthermore,therealizationoftheautomaticcollectionoftheopenintelligenceontheinternetviatheintelligentagentquickenstheintelligencecollectionandimprovesworkefficiency.
  Keywords:internet;openintelligence;search-engine;queryexpansion;clustering
  1导言
  互联网以及核算机技能和信息技能的迅猛开展为揭露情报研讨供给了大量便利条件,互联网揭露情报收集现已开展成为一种重要的揭露情报的收集手法,其位置和效果也进一步进步。美国等一些西方发达国家对于互联网揭露情报收集的技能研讨较早,他们成立专门的研讨机构或依托大型软件公司共同开发自动化的互联网揭露情报的收集体系,能够对互联网揭露情报进行自动化的收集和剖析。而我国由于起步较晚,自动化的程度不高,主要运用一些信息检索东西(如查找引擎等)进行查找,然后在成果中进行人工挑选。这种收集办法由于现在查找引擎的缺点,使得其收集的功率不高。近年来由于信息检索、人工智能、数据发掘等技能的开展,对查找引擎的优化和改善成为研讨的热门,但大部分都还处于理论阶段。运用这些研讨的理论基础,在现有查找引擎的基础上,对查询输入和检索成果进行处理,能有用的进步检索的精度和功率。
  2查找引擎
  互联网揭露情报是从互联网揭露来源获取和收集的情报。互联网揭露情报具有时效性强、更经济、更全面、来源更广泛的特色。一起经过互联网获取情报不受时刻和空间的约束,具有高度的灵活性。80年代后,网络揭露情报的长处越来越杰出,并越来越遭到各国情报部门的重视,现已开展成为情报机构获取情报资料的一种重要手法。
  跟着网络的遍及和网络带宽的增加,越来越多的个人和安排把网络当作一种与外界沟通的东西,互联网现已敏捷地开展成为继报纸、电台和电视之后的“第四媒体”。在网络这个高度敞开的世界里,充满着各种信息,有发作在世界各地的新闻,有各国政府发布的各种法律和规章制度,有科研机构发布的最新研讨成果,又对竞争有利的各种经济情报,有个人经过博客、论坛等发表的各种思维,还有恐怖安排和反政府安排为了宣扬和联络所树立的网站等等。据SIFY.COM报道,“西藏流亡政府”已将互联网当作了一个“强有力的招引藏人对抗中国的武器”,报道说,所谓的“西藏流亡政府”树立了自己的网站,而其它一些“藏独”安排也非常倚重互联网。不仅如此,达赖喇嘛等“藏独”喽罗也树立了自己的个人网站。某些网站还专门供给这些“藏独”安排的网络链接地址。
  从1995年开端出现的查找引擎,因其能帮忙人们在浩瀚的信息海洋中便利、快速地找到自己所需的信息,现已成为人们网上冲浪的常用东西,一起也成为情报人员在互联网上收集情报的常用东西。其作业原理是:首先履行信息采集模块,经过人工或自动采集,定时在网上收集相关的新网页;然后运用自动标引模块,对网页进行标引,树立索引数据库;信息检索模块履行检索操作,依据检索发问式,对检索词与索引词进行匹配运算,检索出包含检索词的网页,进行相关排序,然后出现给用户。
  跟着互联网上数据量的敏捷增加,运用查找引擎东西进行情报收集的缺点现已越来越杰出,其主要缺点有:1)现有查找引擎单纯考虑表达查询的关键字和网页文本的匹配性,不能依据情报人员查询目的进行查询内容的扩展,疏忽了用户需求的语义,导致查找引擎往往不能得到满意的检索成果;2)回来的成果依据查找引擎所规定的排序办法按相关度从高到低分页出现,成果中包含了大量与查询无关的信息,情报人员有必要逐个点击阅读才能确定是否是自己需求的,这种办法大大地约束了情报收集的功率[1]。有查询标明:71%的用户在运用查找引擎的时分遇到过费事,平均查找12分钟后发现查找受挫;86%的互联网用户告倒应当出现更有用的、准确的信息查找技能处理查询成果[2]。
  3相关改善技能
  3.1查询扩展技能
  查询扩展技能是改善信息检索中查全率和查准率的关键技能之一,并成为近年来研讨的热门。查询扩展指的是运用核算机言语学、信息学等多种技能,把与原查询相关的词语或许言语查询语义相关的概念添加的原查询,得到比原查询更长的新查询,然后检索文档,以改善信息检索的查全率和查准率。
  McCune最先开端在关键字检索的基础上引入依据概念的检索。依据概念的检索也称为依据语义的检索,运用关键词在概念上的同义性和相关性,进一步扩展查询恳求,检索成果将一起包含查询关键词近义词的文档。即把用户提交的关键词经过语义理解和核算转换成语义概念,检索出与此概念有关的、用户真正想要的信息,而不只是字面上想要的,进步查全率。现在常见的做法是,经过对用户的查询条件进行概念/词条扩展,从而转化为关键字检索。
  语义资源的开发和使用是语义处理的基础问题。近几年来,国内外研讨人员经过人工总结或人机辅助处理,开发出许多大规模的语义核算资源,在英语方面有WordNet、FrameNet、MindNet等,在汉语方面有知网HowNet、近义词词林等。
  3.2文本聚类技能
  文本聚类就是彻底依据文本文档的内容相关性来安排文档调集,将整个调集聚集成若干各类,并使得归于同一类的文档尽量类似,归于不同类的文档差别明显。由于事先没有关于这些文本信息的分类常识或能够运用的分类表,所以,文本聚类处理被看作是一种“无监督的学习”,他的特色能够归纳为“先有文档后有类”。聚类办法不象分类办法那样需求预先定义类别,因而文本聚类多用于检索体系中对检索成果的后处理,即经过将检索成果调集进行联机实时聚类,以帮忙用户敏捷提出自己不需求的文档,一起还能够帮忙他们发现单纯运用输出成果是很难发现的有用文档。这样,将大大缩小用户所需阅读的成果数量,缩短用户查询所需求的时刻。
  现在针对文本聚类算法的研讨也许多,可是常用于文本聚类的算法仍是K-Means、SingleLink、DBSCAM和SOM算法,这些算法一起也是划分聚类算法、层次聚类算法、依据密度和依据模型的聚类算法的典型代表[3]。
  3.3智能署理技能
  智能署理技能是代表全部具有智能的实体的一个抽象名词,它具有自治性、社会性、反应性和能动性的特性,与用户有灵活的彼此效果,在彼此效果中能智能地帮忙用户完结琐碎的作业[4]。
  4互联网多语种揭露军事情报自动化收集体系模型规划
  4.1规划思维
  本体系针对查找引擎的在情报收集上的缺点,以及情报收集作业的特色,依托商用查找引擎Google强壮的信息检索功用,在Google的基础上,运用语义词典对查询的输入进行语义扩展,并对成果进行聚类处理,进步查找的精度和功率,进步情报收集的自动化处理程度。
  在Google的基础上改善的优点是:
  1)Google作为全球最大的查找引擎是最受欢迎的商用查找引擎之一。其收录的网页达到20多亿,网址达到10亿,并且查找时刻一般不到半秒;
  2)避免了不必要的重复开发,节约了研讨开发经费;
  3)能够供给多种言语的查找。
  4.2体系体系结构
  依据体系的规划思维,本体系采用现在流行的阅读器/服务器形式,能够分为阅读层、中间层和数据层三层,如图1所示。阅读层主要供给人机交互的接口,如查询要求的提出、查询成果的可视化显示等。中间层主要是对查询的整个过程进行处理,包含查询前的语义和跨言语的扩展处理、查询的调用以及查询后对成果的聚类等。数据层存储常识库和中间层所需的数据库。各层之间运用智能署理进行彼此通讯,宁波seo实现体系的自动化。
  4.3体系各模块及功用
  本体系按照功用可分为四个模块:查询扩展模块、查找引擎检索模块、成果聚类模块和可视化成果模块,体系全体模型如图2所示。下面就各子模块进行必定的说明和剖析。
  4.3.1查询扩展模块
  查询扩展模块的功用主要是对用户输入的查询串运用语义词典进行查询扩展,其作业的流程图如图3所示。
  在查询扩展中需求对近义词的词语类似度进行核算。词语类似度就是两个词语在不同的上下文中能够相互替换运用而不改动文本的句法语义结构的程度。两个词语,假如在不同的上下文中能够相互替换且不改动文本的句法语义结构的可能性越大,二者的类似度就越高,否则类似度就越低。类似度是一个数值,一般取值范围在[0,1]之间。一个词语与其本身的语义类似度为1。假如两个词语在任何上下文中都不行替换,那么其类似度为0。
  查询扩展的算法为:
  1)运用语义词典对用户提交的查询串进行近义词查询,假如有近义词则转过程2),没有则转过程3);
  2)核算每个近义词与其词语本身之间的词语类似度,并按类似度大小进行排序,然后转过程4);
  3)运用分词词典对输入的查询串进行分词,假如分词后词语数>=2,则对分词后的每一个词转过程1)进行近义词查询,否则转过程5);
  4)依据词语类似度阈值,对近义词进行挑选,一般不超过两个;
  5)运用扩展后的词运用查找引擎进行检索。
  本模块中所用到的是通用的语义词典,中文语义词典为知网HowNet,英文的语义词典为WordNet。在实际的使用中将通用词典与范畴常识库相结合[5],能使扩展的近义词更符合用户的语义要求,但范畴常识库的树立是一项庞大而繁琐的工程,需求由范畴专家来完结。因而咱们能够运用智能署理盯梢用户的检索行为,树立个性化的用户数据库,经过多次的反馈来逐步求精。
  4.3.2查找引擎检索模块
  查找引擎模块的功用是对经过语义扩展词运用布尔表达式进行查询串扩展,将扩展后的查询串提交查找引擎进行检索。
  设原始查询串为q,扩展后的查询串为Q,经分词处理后原始查询串q划分成n个关键词,每个词的近义词个数为m1,m2,…,mn。
  则扩展后的词为:q11,…,q1m1,q21,…,q2m2,…,qn1,…,qnmn。
  扩展查询子串的个数为:k=m1×m2×…×mn+1,则各查询子串为:
  q1=q,
  q2=q11andq21and…qn1,
  …
  qk=q1m1andq2m2and…qnmn
  扩展后的查询串为:Q=q1orq2or…qk
  4.3.3成果聚类模块
  为了便运用户阅读和选取网页,查找引擎回来的检索成果一般包含标题、网页链接地址、摘要和网页快照等内容,标题和摘要能代表与网页最相关的内容。大多数传统的聚类算法是处理查询成果的网页内容,依据内容的类似性将文档分成相关的组,可是下载原文要耗费许多时刻,因而为了进步处理的速度,本体系只将标题和摘要作为处理的对象[6]。
  本模块用改善的K-Means办法进行聚类,过程为:
  1)由于查询串与标题相匹配的命中率高于摘要,即假如查询串与标题相匹配,则该网页一般就是所查询的目标,因而赋予标题比摘要高的权值。选取与查询子串彻底匹配或匹配程度最高的文档作为每个类的凝集点;
  2)将经过查询扩展后的查询子串作为聚类的类名,类的个数k由查询子串的个数决定;
  3)设定阈值dr作为文档与各类凝集点之间的最大间隔;
  4)按照间隔最近原则,将剩余n-k文档逐个并入最近凝集点所代表的类。每引入一个文档,要核算它与各凝集点的间隔,当文档与一切凝集点的间隔大于阈值dr则丢弃,否则将文档合并进入最近的凝集点地点的那一类。
  该算法结合了语义扩展的特色,对查找引擎回来的成果进行处理和挑选,使得处理后的成果在最大程度上符合查询需求,进步了查询精度。
  4.3.4可视化成果模块
  该模块的功用主要是把最终的成果用分类列表的形式出现给用户,为用户供给良好的、便于阅读的阅读界面。
  5结束语
  本体系的规划是在现有资源的基础上,本着实现互联网揭露情报怎样实现自动化、智能化收集的目的,力争改动当时互联网情报收集严重依赖人工、处理速度低、成效差的现状,为情报自动化处理探索一条新的途径。
  参考文献:
  [1]高少琛.依据查询拓展和聚类技能的资源检索体系的研讨与使用[D].上海交通大学共学硕士论文,2007.
  [2]苏新宁.信息检索理论与技能[M].北京:科学技能文献出版社,2004:372.
  [3]余洋.聚类在信息检索范畴中的使用研讨[J].信息体系,2007,30(3):405-408.
  [4]王汝传,徐小龙,黄海平.智能Agent及其在信息网络中的使用[M].北京:北京邮电大学出版社,2006.
  [5]梅翔.语义检索中若干关键问题的研讨[D].北京邮电大学博士研讨生学位论文,2007.
  [6]ZengHJ,HeQC,ChenZ,etal.LearningtoClusterWebSearchResults[A].In:Proceedingsofthe27thannualinternationalACMSIGIRconferenceonResearchanddevelopmentininformationretrieval[C].NewYork:ACMPress,2004.210-217.
  本文转载自
  宁波seowww.leseo.net
  补充词条:宁波网站seo  宁波seo推广公司  宁波网站排名优化  宁波网络seo  宁波seo优化公司