摘要:随着核算机技能的开展,档案信息的检索技能有待进步,笔直查找引擎作为面向特定主题的查找引擎,十分合适用来开发专业范畴的查找引擎。介绍了笔直查找引擎的特色和体系结构,引入了Lucene.net的开源项目,提出了完成依据Lucene.net的档案笔直查找引擎的规划方案,给出了查找引擎体系中收集模块、索引模块和检索模块的完成办法。
关键词:档案检索笔直查找引擎Lucene.net技能
核算机技能和网络技能的快速开展推动了档案信息化的开展。可是,我国档案信息化建造还处于开始开展阶段,存在许多问题,一些档案馆只供给档案目录的简单检索而不能供给智能化或专门用于档案范畴的查找效劳,各类档案资源成为信息孤岛。如何充分使用现有档案资源,进步档案使用率成为我们急需解决的问题。查找引擎作为互联网开展的中心技能,将互联网上各种不同格局的网络资源收集并收拾,挖掘其中许多隐含资源,供给海量数据效劳于用户,在各行各业发挥着重要的作用①。笔直查找引擎是在一般查找引擎的基础上开展而来的,是指专门针对某一特定范畴的查找引擎。档案笔直查找引擎就是将查找引擎技能引入档案范畴,构建面向档案范畴的查找引擎,该查找引擎能够许多收集互联网上档案相关资源,进行优化整合,供给给用户具有价值的档案信息,最大极限的满足档案用户的需求。
一、笔直查找引擎
查找引擎一般分为通用查找引擎和笔直查找引擎,百度、谷歌、搜狗等均属于通用查找引擎,通用查找引擎是针对互联网上一切网站的信息进行收集和检索,其规模覆盖了各个范畴和各个职业。笔直查找引擎是一种特定面向主题的专业查找引擎,是针对某一特定范畴、某一特定人群或某一特定需求,面向某一特定的用户集体,供给更有价值、更精确的信息效劳,是通用查找引擎的细分和延伸②。与通用查找引擎比较,笔直查找引擎具有如下特色:
榜首,笔直查找引擎面向特定的范畴,其信息量相对较小,但对其特定范畴资源的覆盖率较高,信息质量较高,确保了查找引擎对本范畴信息收集的全面性和实时性。
第二,笔直查找引擎只涉及特定的范畴,用语中出现一词多义的可能性比通用查找引擎小许多,经过使用特定范畴的专业词库,能够确保信息检索的精确性。
第三,网络爬虫在收集特定范畴的信息后,需求对该信息进行结构化提取,并进行深度处理,这样就确保了网页信息抽取的精确性,进步用户的查询功率。
二、Lucene.net技能介绍
Lucene.net是一个由c#开发的开源全文索引库,是从apache的lucene项目移植到.Net平台上的③。Lucene.net的开源代码分为中心包和用户接口包,中心包用来完成查找功用,用户接口包来用完成高亮显示等辅佐功用。Lucene.net的中心包是由7个子包组成:
(1)索引办理包(Lucene.Net.Index):完成索引的树立、删去和文档中词的排序;(2)检索办理包(Lucene.Net.Search):使用减半查找进行检索,回来成果;(3)数据存储办理包(Lucene.Net.Store):完成数据存储等IO操作;(4)共用算法包(Lucene.Net.Util):封装了一些常用的函数;(5)文档结构包(Lucene.Net.Documents):描述索引存储中文档结构的办理和操作;(6)查询剖析器包(Lucene.Net.QueryParsers):解析查询串,构成查询目标,经过检索器对其调用,回来查询成果;(7)语言剖析器包(Lucene.Net.Analysis):用于切分放入索引的文档和查询词,能够经过对Analysis进行扩展来完成对自然语言的处理。
三、依据Lucene.net的档案笔直查找引擎的规划与完成
1.体系的总体规划
依据Lucene.net的档案笔直查找引擎的规划与完成是在windows平台下进行的,开发东西是VisualStudio2010和SQLServer2008数据库。笔直查找引擎主要是由收集模块、索引模块和检索模块组成。体系的总体规划方案如图1,首要,使用面向档案的主题爬虫经过互联网抓取档案信息。然后使用分词东西对抓取的档案信息进行处理,并树立档案信息对应的索引。最终,由用户输入的关键词,依据已树立的索引进行检索,并回来查询成果给用户。
2.收集模块
(1)一般的网络爬虫是从一些种子站点出发,下载种子URL的网页,剖析网页中的超链接,并遍历这些超链接,在遍历链接下载网页的一起,提取网页中有用的信息存储在本地。这种爬虫是不合适档案范畴的,因为档案范畴的爬虫需求查找的网络规模有限,它不需求去查找整个互联网,只需求查找一些指定的档案网站就能够。所以,数据收集模块的中心就是树立一个档案范畴的主题爬虫。该主题爬虫的完成办法是:(1)预先界说好要从哪些档案类网站进行信息收集,即将收集档案网站的URL地址作为初始地址放入到一个专门行列URLQueue中,该行列是用来记载网络爬虫需求遍历拜访的一切URL地址,如上图(2)。
(2)从爬虫行列URLQueue中,提取出行列的榜首个URL地址,并下载该URL地址对使用的网页。如上图中的(2)。
(3)网络爬虫下载的网页是以文本格局回来的,文本的内容是含有html标签的网页源文件。网页解析器是将网页源文件作为字符串,经过界说不同的正则表达式与该字符串进行匹配,并从网页中提取需求的信息,去掉无关的信息和html标签。上图中的(3)就是使用网页解析器剖析下载的网页,提取网页中含有的一切超链接存入一个用来存储链接地址的列表List中,一起,从网页中解析出档案文件的题名、关键词、内容、发布时刻、责任者等信息。
(4)将从网页中解析出的档案题名、关键词、内容、发布时刻、责任者等信息增加到数据收集库中。在增加数据前,需求对每条档案数据进行查重,防止相同的数据多次刺进数据库而影响体系的运转功率。如上图中的(4)。
(5)对于从网页中提取出来的一切超链接,使用PageRank算法核算每个超链接与档案主题的相关度,链接的相关度越高,说明该链接指向的网页越具有较高的价值。经过对每个超链接与主题相关度的核算,排除不相关的链接,将与主题相关的链接加入到网络爬虫要拜访的行列URLQueue中。
循环重复(1)至(5)的进程,直到爬虫行列URLQueue为空的时分,说明网络爬虫已经遍历了一切与档案主题相关的网页,一起,相关档案信息也被收集到了数据库中。
3.索引模块
档案信息被收集到数据库后,就能够对每条信息树立索引了。树立索引的中心是分词,分词的质量会直接影响查找引擎的查找速度和查找精度,因为英文单词是以空格来分开的,所以英文分词相对比较容易,而中文分词就杂乱多了,这是因为汉字的排列组合不同,可能使得相同的汉字具有不同的含义,比如“上海”和“海上”虽然由相同的汉字组成,可是其排列办法不同就使得两个词汇的含义彻底不同。因为Lucene.net供给的中文分词(CJKTokenizer和ChineseTokenizer)功用较弱,
宁波seo所以使用依据词库的分词办法MMAnalyzer,其分词原理是树立专业词库,并依据词库中的词汇进行分词处理。这样做虽然延长了分词处理时刻,却使得分词效果更加理想。树立索引的进程如下:
(1)提取收集模块中收集的数据,回来结构化的数据。如上图中的(6)。
(2)要对一条数据进行索引,需求将该数据转化成Lucene.net中的Document格局。如上图中的(7)。
(3)使用MMAnalyzer分词东西对Document数据进行分词,过滤停用词,树立文档与关键词的倒排序索引。倒排序索引是相对于正向索引而言的,是指树立关键词到文档的映射关系,经过单词来索引文档。最终,树立文档的索引到索引库。如上图中的(8)。
4.检索模块
检索模块是依据用户输入的关键词,进行分词处理、过滤处理,并将检索条件封装到查询剖析器QueryParse中,经过QueryParse完成检索,回来查询成果,查询成果是与关键词相关的文档调集,这时文档的数目可能很大,Lucene.net会依照这些文档与关键词的相关度由大到小进行排序。,与关键词相关度高的文档排在查找成果的前面,所以,在每次检索的时分,Lucene.net都需求依照关键词对检索到的一切文档进行评分,依据分值来判断文档与关键词的相关程度。Lucene.net是选用向量空间检索模型,经过Tf-idf算法来核算关键词与文档的相关度来给每个文档进行评分。检索模块的详细完成如下:
(1)用户输入关键词,如上图中的(9)
(2)分词东西对关键词进行分词切分,停用词过滤等处理,如上图中的(10)
(3)将分词后的词汇组成查询条件,封装到查询剖析器中,如上图中的(11)
(4)查询剖析器经过与索引库中的索引进行匹配,检索得到与关键词匹配的一切文档,如上图中的(12)
(5)经过索引模块中树立的文档倒排序索引,使用Tf-idf算法对一切匹配文档进行文档评分,如上图中的(13)
(6)依照匹配成果中对每个文档的评分,对匹配成果进行相关度排序,与关键词相关度高的文档排在匹配成果的前面,如上图中的(14)
(7)将经过排序的文档以Hits目标的办法回来用户,完成检索使命,如上图中的(15)
四、结束语
现在,我国档案范畴的查找引擎技能还相对滞后,研讨和开发档案笔直查找引擎含义重大。在Lucene.net全文索引库的基础上,开发档案范畴的笔直查找引擎,有利于快速精确的定位到具有价值的档案资源,为档案用户供给更有用更专业的信息效劳。
项目基金:高校青年自然科学基金(52WU1002)依据.Net的电子档案办理体系开发与使用
注释:
①王振华.档案范畴笔直查找技能的研讨与完成[D].上海:东华大学,2010
②刘朋.依据lucene的笔直查找引擎关键技能的研讨使用[D].武汉:武汉理工大学,2009
③李占波等.依据DotLucene的笔直查找引擎的研讨[J].微核算机信息,2007,23
作者单位:天津师范大学档案馆
本文转载自
宁波seowww.leseo.net
补充词条:
宁波seo排名
宁波网站seo优化
宁波网络seo
宁波网站优化推广
宁波seo网站优化