摘要:企业信息门户(EIP)是企业信息体系的运用结构,它将各种运用体系、数据资源和互联网资源一致集成到一个信息办理渠道之上供给给用户。面临门户建造中数据堆集日渐增大,以及数据信息涣散等问题,经过引进企业信息门户查找引擎技能,供给快速、高效的检索功用,有效地整合了企业信息资源、进步了企业信息资源有效运用和访问。进一步加强了企业门户体系的建造和运用,使企业决议计划水平缓信息公开功率得到进步。
要害词:企业信息门户;查找引擎;数据收集;信息查找;分类;聚类
中图分类号:TP311文献标识码:A文章编号:1009-3044(2011)31-7574-02
StudyonEnterpriseInformationPortalSearchEngine
FENGShu-wen1,ZHANYing1,LIYi-wei2
(1.AutomationResearchInstituteofLanzhouPetrochemicalCompany,Lanzhou730060,China;2.OilandGasStorageandTransportationBranch,PetrochinaXinjiangOilfieldCompany,Karamay834002,China)
Abstract:EIPisanapplicationframeworkofenterpriseinformationsystem.Itsuppliesuseraplatformwhichintegrateswithallkindsofapplicationsystems,dataandnetwork..Facingtheaccumulateddataanddistractedinformation,wemustintroduceEIPsearchenginetosupplyafast,effectivesearchfunction.EIPSEintegratealltheenterpriseinformationresourceandimproveefficiencyinapplicationandaccessiontoenterpriseinformationsystem.EIPSEenforcetheconstructionandapplicationofEIP,improvethelevelofdecisionmaking.
Keywords:enterpriseinformationportal;searchengine;dataacquisition;informationresearch;categorization;Clustering
企业信息门户(EIP,EnterpriseInformationPortal)是在Internet的环境下,将各种运用体系、数据资源和互联网资源一致集成到一个信息办理渠道之上,并以一致的界面供给给用户,是企业信息体系的运用结构。EIP供给对企业的内部、外部各类信息的访问,协助企业进步决议计划水平、优化出产运作。面临门户建造中堆集的海量数据,以及门户技能本身导致的信息不能有效剖析、缺乏一致规范、可拓展性差等问题,供给快速、高效检索的功用成为企业信息门户亟待解决的问题。
因为通用查找引擎存在信息冗余量大、查找深度不行、查找精度差、海量信息无序化等问题,无法满意企业对于查找成果精确度和信息保持最新性的要求等。因此,直接运用通用查找引擎进行企业信息门户的信息检索并不合适,需求结合企业本身特色和需求开发专用的企业信息门户查找引擎(EnterpriseInformationPortalSearchEngine)。
1企业信息门户对查找引擎需求
经过企业门户查找引擎与互联网查找引擎的比较,并结合本企业本身特色,提出企业信息门户对查找引擎的需求。如表1所示。
本企业信息门户对查找引擎的需求首要包含以下几方面:
1)查找引擎有必要将门户网站的一切信息都索引进去,支撑office系列、txt、PDF等多种文档格式抓取;支撑微软AD域的权限模型抓取;支撑zip、rar、tar等压缩文件的收集。
2)数据收集之后,对于相应的数据更新,要具有灵敏的机制,确保数据的质量与完善,查找引擎的索引可以及时反映企业信息的变更。
3)体系应供给强大的智能内容查找功用,查找办法除了涵盖传统的要害字、布尔表达式、字段匹配查找等外,还需求支撑概念查找,
宁波seo训练查找,查找导航,查找聚类,甚至能对用户查找偏好和对成果拟合度的选择进行学习,以进步查找成果的准确度和价值。
4)体系要对收集到的全部信息进行内容发掘,完成主动化处理,包含主动分类、聚类。
2EIPSE规划
2.1EIPSE的规划准则
1)规范化:遵循技能规范化、结构规范化、数据规范化等相关要求。
2)开放性:体系在体系结构、硬件产品、软件产品、数据交换协议等方面,充分利用开放渠道,确保体系具有较好的互操作性、可移植性。
3)可扩展性:软硬件装备具有动态滑润扩展能力,可以经过调全体系结构和相应效劳单元的装备,适应业务量的变化。体系架构在开放的、安全运用支撑体系结构之上,具有良好的可扩充性。
4)技能的先进性和成熟性:选用先进和成熟的技能,满意体系在生命周期内具有继续的可保护性和可扩展性,获得更高的开展起点。
5)安全性:充分考虑体系安全性规划,保证数据备份、运用流程、权限办理等各个环节的安全性。在规划体系结构时,各个层次都充分考虑到体系的冗余装备和灾难恢复。
6)可办理性:选用合理的体系体系结构,完成对体系的集中办理和监控。
2.2EIPSE的架构规划
智能内容查找效劳渠道是架构于智能数据处理层(IntelligentDataOperatingLayer,IDOL)上,其核心是建立在共同的信息论和概率论的基础之上的模式识别技能,抽取概念和内容发掘后,为外围供给多种的查找运用效劳。因此,体系全体架构按照实践运用的流程完成,即从数据的收集和处理,索引和剖析、运用与发布三个层次完成,规划结构如图1所示。
2.3EIPSE的功用规划
为了充分完成本企业信息门户强大的查找功用,整个体系首要完成数据收集、信息查找、分类、聚类、特性化、主动相关以及部分可视化的办理功用。
2.3.1数据收集渠道
数据收集渠道是整个体系的基础,是体系对外供给内容效劳的源泉,首要从各种数据源(包含文件体系、数据库、内部其他体系以及独立信息源)收集信息。针对不同的数据格式,选用不同的办法,将各数据孤岛的信息收集过来,用于资源渠道的整合与运用。如图2所示。
2.3.2信息查找
信息查找包含要害字的查找、规范查找、高级查找、联合查找、参数查找、主动摘要等功用。参数查找可以完成各元数据的统计和剖析,并可以以柱状图、饼图、线图等图形形式进行输出,运用户实时了解查找对象的数量特征。同时,体系可依据每篇文章中的首要概念,主动生成摘要。而且依据用户浏览内容或者检索条件,发生变化的动态摘要,运用户可以经过摘要来判别是否为所需信息。
2.3.3信息分类
信息分类完成主动分类,精确地依据非结构化文本中的概念进行分类。主动分类是依据一些分类规范,将某个规模的信息内容生成分类树,依据不同的分类主题,用户点击相关的分类树节点即可查看成果。选用主动分类办法,克服了人工分类中信息检索不全面、更新速度慢的缺点,进步了用户的检索速度和检索准确度。
2.3.4信息聚类
用户运用查找引擎时会得到大量返回信息组成的线性表,其中很大一部分与用户的查询请求无关,经过对检索成果调集进行聚类,可以运用户检索成果相关的信息比较接近。经过主动地剖析收集过来的一切信息内容,把类似的文档聚类到一同,同时主动生成类别的标题,以可视化的各类办法供给给用户,由用户选择浏览。
2.3.5特性化
这儿的特性化效劳首要包含特性订阅、主动提示、推送等功用。经过用户自己设定感兴趣的内容规模与条件,体系依据用户的设定主题供给内容效劳。同时体系可以主动保护用户档案,一旦发现有新的契合用户要求的信息,可以主动收藏到用户档案夹中,或者经过短信、邮件等手法来对用户进行提示。
2.3.6模块监控办理
模块监控办理体系为内容查找各模块供给要害的保护、办理、操控和监测功用,选用b/s架构办法从中央方位与一切内容效劳(例如连接器、DIH、DAH等等)进行通讯。同时模块监控体系也供给了可视化的全体面板,使内容办理员可以对一切内容模块(或效劳)操作进行本地或远程办理,供给可视化的参数办理、参数装备、模块监测、状况报表等。
3结束语
本文是以某炼化企业正在施行的门户查找引擎技能为首要研讨内容,经过现有的查找引擎技能进行简单剖析,结合企业实践需求和本身特色,对该企业目前选用的门户查找技能进行了深入研讨。研讨标明通用查找引擎用于企业信息门户存在诸多缺陷和不足,只有针对门户查找开发的查找引擎具有较好的灵敏性和可扩展性,才干满意企业信息化开展的需求。
参考文献:
[1]周祥,王丽芳,蒋泽军.基于Lucene的企业信息门户查找引擎规划[J].微机处理,2009(4):62-64.
[2]李岩,陈新中,杨炳儒.基于Web发掘的智能门户查找引擎的研讨[J].计算机工程与运用,2002(4):34-36.
[3]陈治平,林亚平,李军义.智能门户查找引擎技能[J].计算机工程,2004,30(3):12-13.
本文转载自
宁波seowww.leseo.net
补充词条:
宁波网站seo
宁波seo网站优化
宁波seo哪家好
宁波网站排名优化
宁波seo外包