摘要:在信息高速开展的今日,查找引擎越来越重要。本文就是咱们使用lucene框架和nutch的二次开发规划了的属于自己湖南女子学院的轻量级校园网查找引擎。
关键词:校园网;查找引擎;Nutch;Lucenea
2012年湖南省大学生研讨性学习和创新性试验计划项目《轻量级校园网查找引擎规划》
1导言
在信息高速开展知识大爆炸的今日,在互联网上怎么高效的查找咱们所需求的信息,怎么面对海量的信息而不至于摸不着头脑,查找引擎的存在给咱们在黑暗中亮起了一盏明灯。现在网络上干流使用的查找引擎不外乎于老牌的百度、谷歌和最近异军突起的搜狗查找、360查找,可是用这些查找引擎只对在校园网的内容查找,它们还是有许多缺乏的。
首要这些通用的查找引擎的侧重点各有不同,并且通用查找引擎的覆盖率都不太高,许多局域网的信息都无法查找彻底,对咱们在校园网上寻找信息构成的很大的困扰,另外,通用的查找引擎对页面的更新比较缓慢,关于信息的实时性和准确性都无法确保。
并且,随着校园的开展,各系部、行政部门都有了自己的网站,校园网中的站点、页面也越来越多,用导航栏来进行下一步浏览越来越不能满意咱们的需求。根据此,咱们使用lucene框架和nutch的二次开发规划了属于咱们自己湖南女子学院的校园网查找引擎。
2查找引擎、nutch和lucene
2.1查找引擎
现在干流的查找引擎首要以页面迭代抓取、全文索引以及关键词查找为基本特征。查找引擎首要由四个部分组成:查找器、索引器、检索器和用户接口四个部分组成。查找器其功用是在互联网中周游,发现和搜集信息;索引器其功用是了解查找器所查找到的信息,从中抽取出索引项,用于表明文档以及生成文档库的索引表;检索器其功用是根据用户的查询在索引库中快速检索文档,进行相关度点评,对将要输出的成果排序,并能按用户的查询需求合理反应信息;用户接口其作用是接纳用户查询、显现查询成果、供给个性化查询项。
2.2网络爬虫nutch和lucene
在轻量级查找引擎快速开展的同时,越来越多的人致力于研讨和开展这些轻量级查找引擎开发技能,Lucene和Nutch是其间的代表效果。lucene是一个高性能、纯Java的全文检索引擎,彻底免费、开源。Lucene几乎适合于任何需求全文检索的使用,尤其是跨渠道的使用。在成为Apache下的一个子项目后,Lucene得到快速开展,它的规划目标就是为各种中小型使用程序参加全文检索功用。
Nutch是一个开放源代码(open一source)的Web查找引擎。相关于大型通用查找引擎,Nutch首要面向小型专业查找,运转的本钱较低。可是由于Nutch的代码开源,用户能够很便利的使用Nutch,并能够结合具体情况对Nutch进行研讨与改进。Nutch是以Lucene为基础完成的查找引擎使用程序,Lucene为Nutch供给了文本索引和查询效劳的API,而Nutch在Lucene的基础上完成了网页搜集与查找。Nutch在总体架构上分为网页搜集、树立索引和查询效劳三个部分。
(1)网页搜集程序经过定时搜集和增量搜集方式从互联网中抓取网页,并将原始网页树立索引存入数据库中;
(2)树立索引程序则从抓取过来的网页提取其间的URL、标题、内容等关键词,将不同格局的数据源转换成其内部能够辨认的文件格局,然后树立倒排文件,即用文档中的关键词作为索引,文档作为索引目标的一种结构,从而树立并保护索引库;
(3)查询效劳程序接纳用户提交的查询词条,加以分词与过滤,在索引库及数据库中查找相应的网页,并按照其内部评分算法对成果进行排序,
宁波网站优化返回成果。
2.3轻量级查找引擎与通用查找引擎对比
轻量级查找引擎与通用查找引擎比较有许多长处,由于它本身的信息量小,它不可能取代通用查找引擎。可是,它是对通用查找的很好的弥补。随着Web上信息的进一步扩展,轻量级查找引擎也将会进一步开展,其间现已引起人们关注的笔直查找引擎在未来的查找将发挥更大的作用。
3构建轻量级校园网查找引擎的规划与完成
3.1经过nutch进行网页抓取
网络抓取由一个特定范畴里的种子开始,试验进程中所抓取的高校信息以湖南女子学院的官网作为体系的初始种子。经过Nutch进行网页抓取,并对其主题相关性进行判别和核算直到抓取完毕。
3.2树立数据仓库
总体的体系是Nutch和Lucene两个首要组件的整合,并且使用ApacheTomcat技能的完成网络技能。Nutch是负责主页的抓取作业,将其次级范畴的信息整理到本地效劳器中。这儿的抓取作业的构架是很重要的,由于构架能够使抓取器盯梢外部链接并使其可用。当现已搜集到适量的信息时,索引就会持续下一个程序.Lucene具有良好的信息抓取能力,在文件的处理和树立索引时使用了一个反向式的索引技能。这促成了一个快速优质的查找成果。在文件中也整合了一个分析器,这个分析器整理了标准JavaTokenzer的功用,将一切的线路转换成小写文字并过滤掉禁用词和索引中的描述.
3.3索引树立
3.3.1生成索引
索引作业部分是经过Lucene技能运用Java语言完成对数据库中的结构化数据生成索引文件。Lucene供给了非常简单的树立索引的办法,在树立文档类型的对象时,文档的域(Field)要与数据库的表或视图的结构对应,有两个能够使用的索引分类,IndexFiles和IndexHRML。这两类创建了Lucene索引,IndexFiles控制一切类别的数据,IndexHTML索引html(或许htm),XML和文本文件。使用IndexFile履行试验,来搜集一切类别的数据,将其符号并追溯有用关键词。
3.3.2中文分词
体系选用根据词典的正向最大匹配分词算法和双字哈希索引词典机制.首要,加载词典,树立词典中词条前2个字的哈希表,构成三级索引结构.然后,关于待切分的字串,读取其第1个字,假如在一级哈希表中找不到这个字,则把它作为单字切分,同时,指针后移一位持续从头匹配.相反,假如在一级哈希表中包含这个字,则看它后一个字是否在二级哈希表中.假如不存在,则首字仍作为单字切分;假如存在,则映射到以这2个字最初的有序字串数组中,遍历数组找到最长的匹配,假如匹配成功,则将该子串从原字串中切分出来后,再对原字串持续处理直到为空停止。
3.4页面的完成
本模块的完成是使用Tomcat和JSP搭建了一个Web渠道,用户在前台的Web页面上能够输入关键字和挑选检索类别,然后将这些信息交给后台的检索类,这些类在索引和数据库中进行查找,最后将查找成果显现给用户。在查找引擎中查找“信息技能”能够得到以下页面,如下图。
4总结
本次咱们规划开发的湖南女子学院轻量级校园查找引擎有效的解决了咱们在对校园网的信息进行检索时遇到的种种困难,为同学们供给了便利的信息检索的渠道,对校园信息化作业起到了促进作用。虽然体系还有许多地方缺乏,可是咱们会尽量的改进咱们的缺乏,为全校的老师和同学带来便利。■
参考文献
[1]lucene官方网站:http://lucene.apache.org/
[2]Nutch官方网站:http://lucene.apache.org/nutch.2008
[3]邱哲,符滔滔.发自己的查找引擎[M].北京:人民邮电出版社,2007.
[4]马志强等.校园网查找引擎的研讨与完成[J].北京机械工业学院学报,2007(22):12-15.
[5]王仕仲,宁龙兵.根据Nutch的中文查找引擎的研讨与完成[J].电脑开发与使用,2009(7):76-79.
[6]张锦炘.根据Nutch的中文查找引擎的构建[J].图书馆研讨与作业,2009(1):54-57.
本文转载自
宁波网站优化www.leseo.net
补充词条:
宁波网站排名优化
宁波网站优化推广
宁波网络seo公司
宁波seo外包
宁波seo网站优化