摘要:针对企业界部资源散落在各运用体系中,而使企业资源得不到有用运用问题,规划并完结了一致局域网与互联网的查找引擎计划。该处理计划依据Intranet VPN技能,选用C/S和B/S混合结构办法,运用本计划规划的数据获取、解析器、分词办理以及权限认证等子体系,获取并整理企业界部各运用体系数据信息,然后使各种数据得到合理运用。对各子体系规划与完结计划及其要害技能进行了深化介绍。
要害词:查找引擎;分词办理;权限认证;Lucene剖析器
中图分类号:TP302.1文献标识码:A文章编号:1007-9599 (2011) 04-0000-02
The Design and Implementation of Unified LAN and the Internet Search Engine
Huo Renchong1,Du Bin2,Wang Hui3
(1.Teaching Affairs Office,Shijiazhuang Institute of Railway,Shijiazhuang050041,China;2.Beijing Railway Bureau,Electricity Department of Shijiazhuang,Shijiazhuang050043,China;3.Computer Department,Shijiazhuang Railway Institute,Shijiazhuang050043,China)
Abstract:Aiming at the problem of enterprise resources distribut in different application systems and result in the resources cannot be used efficiently,a search engine solution is designed and implemented which combines both unified LAN and the Internet.The solution is based on Intranet VPN technology,adops C/S and B/S mixed structure model,uses the subsystems which are designed in this solution,such as catcher,parser,participle management and permissions authenticator and so on.Then we obtains and classfies data from systems in enterprise to make good use of them.The design and implementation of the solution and key technologies are also given in depth.
Keywords:Search engines;Participle management;Permissions authenticator;
Lucene analyzer
一、导言
跟着计算机技能的发展和企业界部信息化需求的不断添加,各个企业及企业界部各个部门都依据自己的事务流程引进不同的企业信息体系,因此企业界部存在很多事务数据库和很多的文文件,这些资源散落在各个运用体系中和效劳上,致使企业界部的数据规模越来越庞大。并且这些庞大的数据资源没有得到很好的运用,一方面需求获取檔资源的人员没有办法搜寻到必要的檔,另一方面很多的资源无法被运用,长期闲置,导致了工作效率低下,但在商业竞争日益激烈的今日,企业之间的竞争集中体现在创新和效率上,其本质就是信息和办理的竞争。为了进步办理水平、进步工作效率、保证信息的准确性和快速性,现已成为当代商业竞争准备中迫切需求处理这些问题。
本文对以上问题剖析得出企业各种事务体系和办公体系全体上只是考虑体系间的数据交互,没有以资源办理为中心进行结构规划,海量数据白白占据企业界的存储空间得不到运用,在此根底上提出了一致局域网与互联网的查找引擎的规划计划,并介绍了其要害完结技能。此计划不只处理找檔难和工作效率低下问题,并且大大扩展了信息技能在企业中运用的广度和深度,为使企业从粗豪式办理向精细化办理转变供给了根底保证。
二、体系规划
(一)体系总体规划
企业界外网结合的查找引擎是依据Intranet VPN(企业界部虚拟网)与互联网相结合和Lucene技能,其总体规划如上图1所示。Intranet是指运用Internet技能树立的企业界部信息网络,它以TCP/IP协议为根底,以Web为中心运用,构成企业界部一致的信息交换渠道。VPN(虚拟专用网)是运用开放的公众网络资源树立专用数据传输信道,经过隧道、加密、密钥办理、身份认证等特性,供给安全的端到端数据通讯的一种广域网技能。Lucene是一个高性能、可弹性的信息查找(IR)库。它可认为运用程序添加索引和查找才能,Lucene只关注文本的索引和查找,并且这些事它完结的非常好,因此它能够使得运用程序只针对它的问题域来处理事务规则,而把杂乱的索引和查找完结隐藏在一组简单易用的API之后。
本体系互联网信息需求选用主动搜集引擎将数据信息搜集到本地机器,然后再对企业界部虚拟网上和互联网的资源进行格局转化、消重处理,将处理后的信息存入索引库内,对数据库的查找运用数据库查找体系进行数据库内部检索。并可依照数据库中的表结构完结多种办法的检索效果。关于网站信息,选用“全文检索效劳”,直接对搜集到的网页信息检索,此种办法,即各数据源别离索引别离查询。
(二)体系结构规划。本体系在Eclipse集成开发环境下,依据JavaBeans技能和Sturts、Hibernate、DWR、Ext 结构完结了软件体系的三层架构,如下图2所示。其中,表明层为客户端供给对运用程序的拜访,首要是承受用户的恳求、显现回来的页面;一起选用了先进的AJAX技能完结了Web状态下的异步通讯,运用了开源的Ext界面包,丰厚了页面的展现办法,使页面具有了各种菜单,弹出窗口等丰厚效果。运用DWR与Ext相结合,DWR与体系的表明层接口进行通讯,传递恳求和呼应。DWR将得到的呼应材料赋值给Ext进行显现。事务层用于处理事务逻辑、拜访数据层,一方面,处理表明层搜集过来的数据并传递给数据耐久层耐久化;另一方面,完结对数据的相应的事务处理;操控程序运转的全局变量。因此,事务层可进一步划分为事务逻辑层和数据耐久层两个子层,数据耐久层选用了Hibernate中间件,完结了ORM映像,即完结了方针与联系数据库之间的映像,然后在运用面向方针的编程语言Java中仍然能够用方针的办法来存储方针信息;事务逻辑层首要完结对数据的相应的事务处理,包含查询,修正,删去,插入数据库。操控程序运转的全局变量;供给数据库操作贮存进程的数据拜访方针(DAO)。数据层是数据库或者数据源起到数据存储效果。
体系选用Client/Server、Browser/Server相结合的开发办法,这样既发挥了传统C/S办法交互性强、具有安全的存取办法、呼应速度快、有利于处理很多数据的长处,又能充分发挥B/S办法易于办理和保护、无需开发客户端软件、开发效率高且周期短,与渠道无关等长处。
本体系抓取器规划选用Client/Server开发办法。运用被分为前台和后台,前台接纳用户数据和显现处理成果,在效劳器上的后台担任处理前台恳求,得到成果后只将处理成果送回客户机。C/S办法能够充分发挥客户机和效劳器的处理才能,向用户供给有用的效劳。用户查找、办理接口规划规划则选用Browser/Server开发办法。客户端经过浏览器拜访Web效劳器、发出数据恳求,Web效劳器从后台数据库效劳器中获得数据并进行计算,将成果回来给浏览器,完结整个操作进程。
三、体系功用规划与完结
针对企业对资源查找的需求,规划开发了企业界外网结合的查找引擎。下面对各个子体系功用及完结技能进行详细介绍。
(一)数据获取规划与完结。抓取器是查找引擎的前端组件,是Lucene索引的数据来历,本体系中的抓取器选用插件思想来对不同数据方针进行处理;选用开源组件PdfBox、Jacab、Poi等对数据方针进行抽取转化,构成纯文本的二进制元位元组流,然后将其转为Lucene的Document类型进行索引;一起它是经过操控台运转的运用程序,能够经过传递参数,和读取XML配置文件两种办法来运转,因此具有较强的独立性,一起完结分布式索引。对不同的数据方针选用插件规划思想,然后使程序具有了极强的扩展性。
该模块对Web抓取部分完结了署理、窗体主动提交等,该部分首要针对HTML解析。对FTP、本地文件体系,首要选用递归文件夹的遍历操作,对数据库索引首要是对表遍历操作;一起该模块可被查找引擎的办理接口调用,承受任务调度信息,如任务的站点列表、搜集深度、站点子目录等。若没有传入任何调度信息时,将从默认的XML配置发动。
(二)办理功用规划。
1.解析插件办理。本模块完结对查找引擎所用的一切插件的一致办理。完结插件的热插拔,查找引擎能够经过插件的办法,在不影响体系运用的前提下,添加新功用。插件办理能够方便的添加删去以Jar包办法的插件,并将插件的功用,集成到体系中。
插件办理的完结首要依赖于抓取器中插件的开发。在针对不同数据方针进行解析的进程中,本体系规划了不同数据方针的插件。插件的规划是要遵从体系主结构供给的接口准则,针对每一种或几种数据方针封装成一个Jar包,然后指定Jar包所在的目录,在DocumentFactory类进行实例化的时分,对Jar包所在的目录进行遍历,对Jar包中供给的类进行实例化,每个类的结构函数中指明了该类担任解析的数据方针类型,然后将这些类型集封装起来。这样一来对插件进行办理时只需求供给一个目录配置接口即指明插件Jar包所在的途径,然后针对这个途径做一个文件上传操作,和一个檔删去操作。当有新的插件开发出来之后,只需求用檔上传操作将新开发的Jar包上传到指定的目录。当不需求对哪种檔类型解析时,只需删去调解析该文檔类型的Jar包即可。
2.分词词典办理。分词是查找引擎树立索引时的重要环节,分词的效果直接影响查找引擎的查找成果,关于中文来说,一般分词是依据词库的。所以又完结了词库办理模块,
宁波seo它完结对查找引擎所需词库的进行办理,它能够依据事务需求添加新词到词库中,也能够删去词库中现有的词。用户能够以文本文件的办法,将需求添加的词导入到词库中,也能够经过页面,手动将个别词汇添加到词库中。词库办理特别设定了发掘机制,能够将用户查找过而词库中没有的词汇添加到词库中。
词库构成的三种机制
(1)批量导入。批量导入适合于某一行业的专有名词加入到自己的分词词库中。这部分要求方针词库是一个文本文件,以UTF-8编码,每次一行。然后经过檔上传操作,将檔传到效劳器的指定目录,然后再在效劳器端对檔进行读操作。将词批量读取出来添加到词库中。
(2)单个词汇录入。当将要添加的词汇只要几个时,咱们能够经过一个多行文本框的接口直接录入,点击提交后保存到词典库中。
(3)体系主动发掘。为使词库具有较强的扩展性,咱们还供给了体系主动发掘新词汇的功用,咱们先设置一个发掘战略,这里有两种发掘战略能够设置,就是依据用户的查找频率,当用户的查找频率达到咱们体系中设定的值时,体系将现判别该词是否存在与词典中,若不存在则加入词典,并记载日志信息。
3.计算与日志办理。计算和日志是查找引擎非常重要的部分,由于这一部分体现着用户的输入。能够动态的了解用户的需求,依据用户的需求来发掘用户真实想要的,这才是企业的意图。
计算办理模块完结对查找引擎运用进程中所发生的一切感兴趣的信息的计算功用。依据用户需求,需求进行查找词频计算,不一起间段拜访计算,拜访IP计算,索引计算。
日志办理模块完结对查找引擎运用进程中所发生的一切日志信息的一致办理。体系会将一切来访日志,词典日志,操作日志记载下来,用户能够经过动态检索的办法,察看一切日志信息。
计算办理在很大程度上依赖于日志所记载的信息,这部分首要是将日志信息以图表等办法做分类显现。在计算办理进程中,本模块结合Jfreechart组件完结以饼图和柱状图的办法向直观的用户出现各种计算信息。
4.权限认证办理。企业在信息化进程中,各个运用体系都有自己的认证体系,跟着运用体系的不断添加,一方面企业员工在事务体系的拜访进程中,不得不记忆很多的账户口令,而口令又极易遗忘或泄露,为企业带来损失;另一方面,企业信息的获取途径不断增多,但是缺乏对这些信息进行归纳展示的渠道。
本体系中查找引擎权限操控机制选用内网门户体系的权限操控体系,不做独自权限操控,一切用户账号及人物分配,由一致用户认证系一致并办理。
身份认证体系是运用支撑渠道与事务体系的认证接口,其首要功用是将事务体系中的认证逻辑提取出来,清晰运用和安全之间的边界,封装底层信息安全处理的杂乱进程,屏蔽不同操作体系和异构网络的不同,然后构成一致的身份认证中心,为用户供给身份认证效劳。
经过在B/S架构的运用体系前端布置署理拦截用户的拜访恳求,关于未经认证的用户,强制将其复位向到身份认证效劳器进行身份认证,只要现已经过身份认证的用户才能够拜访运用体系。从运用体系的角度看,但凡拜访到运用体系的用户都是现已经过身份认证的,运用体系开发人员能够直接从HttpRequst或HttpSession中的指定方位获得用户的身份信息。
(三)查找引擎规划
为了使查找引擎具有更好的分类效果,更精准的定位,规划完结了按网页、本地文件体系、FTP、数据库、LDAP、MP3、图片、视频等分类检索。在前台查找进程中运用了Jsp卷标来对查找的窗体,成果等进行显现,Jsp卷标库(也被称作定制标签)是一种经过JavaBean生成依据XML的脚本的办法,从概念上讲,标签就是很简单并且可重用的代码结构。最后将一切的窗体提交操作一致提交到东西JavaBean(SearchToolkit)中,该JavaBean接纳后将一切数据封装在PageRequest中供查找进程中运用。然后经过页面后面标签的执行再调用SearchToolkit 的getSearchResult办法来获得查询成果。这样SeasrchToolkit便成了接口操作与查找器之间的中转器。
四、结束语
本文规划并完结了依据C/S和B/S两种办法企业界外网结合的查找引擎体系,充分运用并集成企业现有各运用体系功用,使企业界部及外部的资源得到充分运用,一起一致的身份认证办理,使企业用户不再需求记住繁复的用户及口令,充分体现了实用性和可扩展性,本体系进步了企业的办理水平,添加了企业的经济效益,具有推广运用价值。
参考文献:
[1]周祥,王丽芳,蒋泽军,张羽.依据Lucene的企业信息门户查找引擎规划[J].微处理机,2009,4:62-68
[2]刘冰,卢秀山,赵红波,石奉华.依据.NET的煤矿安全监测体系的规划与完结[J].计算机运用,2007,27(6):392-394
[3]张学军,黄丽亚,包亚萍.依据VPN的连锁企业网的研讨与完结[J].计算机运用研讨,2004,21(3):191-193
[4]唐杰,张福炎.一种全特征递进网格模型生成算法[J].计算机运用,2004,7:1-3
[5]张志刚,王科平,李长青.依据Web的煤矿视频监控体系的规划与完结[J].微计算机信息,2007,23(3):18-20
[作者简介]霍仁崇(1982-),男,河北邢台人,助教,硕士,研讨方向:计算机信息体系、电子商务。
本文转载自
宁波seowww.leseo.net
补充词条:
宁波seo排名
宁波网站seo优化
宁波seo网站优化
宁波seo外包
宁波网站seo