宁波seo优化专栏

宁波网站优化:设计和实现基于Lucene的企业搜索引

发布时间:2019-01-04 00:11:26

  现代企业的信息增加了长期水平积累了大量的信息往往是不同的原因,以及散落在公司网络或IT人员,商界领袖找到他们需要变得非常难以依靠搜索引擎解决这个问题的数据。
  过深入的分析,其优点和系统体系结构的研究中,数据流和所述Lucene索引结构,最后的Lucene为核心,与分割系统ICTCLAS组合,成功地建立一个企业搜索引擎系统,这些非结构化的PDF,Word,HTML全文搜索数据。键词:搜索引擎; Lucene的;商业研究;中国的分词中图分类号:F49文件编号:A文章编号:1672-3198(2011)14-0218-03引言随着企业信息,研究信息和技术进程加快查询已成为影响公司整体效率的关键因素。多公司已经建立了自己的内部网络(Intranet),公司数量的增长和累积的信息库也在不断增加。息检索的传统方法需要大量的人力和物力,但最重要的,因为信息的流动差和缺乏使用,研究和数据使用的过程中往往受某些因素的影响,从而产生人力和物力。于无法快速准确地获取正确的信息,浪费甚至失去了发展机会。此,利用搜索引擎快速准确地获取公司内部的信息自然成为合理的选择。索引擎搜索引擎是一种自1994年以来逐步发展的技术,随着网络信息的迅速增加。实上,搜索引擎是一种特殊的软件,可以自动从Internet收集信息并为用户提供查询服务。索引擎提供原始文档的一系列完成和处理。索引擎根据某些规则获得用户请求的结果。联网搜索引擎通常由五大功能模块,包括获取信息,内容分析,创建索引工具和排序界面和提取结果。要功能模块结合其他信息处理和信息检索技术,形成整个搜索引擎。于Lucene的Lucene是Apache软件基金会的Jakarta项目组的成员,并且是发动机工具箱开源全文搜索。Lucene的目的是提供软件开发者一个简单的工具框中添加全文搜索功能,目标系统或者建立一个完整的全文检索系统。

宁波网站优化:设计和实现基于Lucene的企业搜索引擎_no.151

  Lucene是一个全文搜索引擎,其系统结构具有面向对象的功能。一种是定义独立于平台的索引文件格式。次,系统的主要组件被设计为抽象抽象类。台的实现部分被设计为抽象类。装是一类,并通过在面向对象的对象层处理,弱耦合到搜索引擎系统,高效率,容易二次开发终于达成。1显示了系统的结构和源代码的流程图。业搜索引擎的设计和现代企业信息化水平的实施迅速增加。业信息管理现在已经完成了备份数据和文档的初始阶段。每年200%和数据的约80%的速度增长的企业数据存储在非结构化数据的形式,公司的计算机系统的不同部分,如文本文件和邮件。对这样,搜索万维网的时候就开始力不从心,管理层和员工在公司的基地有自己的搜索工具,这导致了搜索系统的出现公司。业搜索引擎(ESE)是企业,政府,金融,教育,科研,传媒,医疗,军事和安全的内部网络的研究体系。业搜索引擎系统结构的企业搜索引擎是基于公司和网络环境的硬件平台提供非结构化文档的综合研究服务套餐该公司主要过程包括分析,索引,检索和非结构化文档的结果的显示,如图2:该系统的开发环境是:Windows7操作系统, JDK1.6环境,Tomcat6.0,myEclipse8.0。结构化的文档分析HTML网页(超文本标记语言)是专为标记语言“创建网页,并在Web浏览器中可见的其他信息。这是世界上信息的媒体使用最多的,有大量存储在公司的HTML页面中的一个,使HTML页面的分析是搜索引擎发展的一个不可回避的问题业务。文使用开源HTMLParser项目来解析HTML页面。本是HTMLParser-2.0。在解析过程中通过一系列Tag对象形成网页树。共静态无效ParserHtmlText(串串,网页编码)抛出ParserException {解析器解析器=新的解析器(URL); parser.setEncoding(pageEncod)节点= parser.extractAllNodesThatMatch(textFilter);对(INT I = 0; iTextNode textnode =(textNode)nodes.element(I)字符串行= textnode.toPlainTextString()修剪()......} parser.vistiALLNodesWith(访客); ... ...}文件分析PDF PDF的全称是可移植文档格式,是由Adobe公司开发的电子文件格式,独立于平台的操作系统,它可以在Windows,Unix或Mac OS中使用。8]。本挖掘工具,常见的PDF PDFBox的,xpdf的,等gunjpdf最常用的是PDFBox的,(字符串文件名)13759的PDFBox的-版本0.7.3。共GetTextFromPdf字符串抛出异常{的FileInputStream插播=新的FileInputStream(文件名)分析器=新PDFParser PDFParser(流); parser.parse(); PDFDocument PDFDocument parser.getPDFDocument =(); PDFTextStripper pdfstripper PDFTextStripper =新();字符串= contenttxt pdfstripper .getText(PDFDocument); ......} Word Office文档扫描是ac最广泛使用的文档格式,几乎成为标准文档标准,Word已成为Office文档的首选。公司内部,Word格式的大量文档是分散的。Java中,已经有用于Word许多开源解决方案,最好的就是Apache Jakata项目的POI子项目。文使用POI版本3.6。WordExtractor提供了一个简单的界面来记录对内容的访问,保护内部流程和概念。Word文档的全文的内容可以直接从对象获得,但不能由柔性和复杂的提取控制。
  码基础如下:公共静态无效GetWordContent(字符串文件名)抛出异常{的FileInputStream =新的FileInputStream(新文件(文件名)); WordExtractor extractor = new WordExtractor(in); text String = extractor.getText(); ......}的中国话分割使得中国词法分析是中国的基础和关键,以信息处理。国词法分析系统ICTCLAS(科技,中国词法分析系统的ofComputing研究所),主要功能包括中国字,标志着讲话,NER新词识别还支持用户词典中,中国传统支持,支撑GBK,UTF-8,UTF -7,Unicode和其它编码格式。9] ICTCLAS3.0单个字速度996KB /秒,98.45%的字的准确度,API不超过200 KB,3M在各种压缩字典数据后是词法分析器之一中国人目前是世界上最好的。

宁波网站优化:设计和实现基于Lucene的企业搜索引擎_no.182

  WhuChineseAnalyzer是基于Lucene的在工作和生产的中国话的强大效果分割ICTCLAS修改的中国断字。
  引是在索引之前索引给定数据所必需的。以通过Lucene提供的不同方式创建索引文件。过扫描指定目录的内容来分析和识别文件,以扫描具有指定后缀的文件。

宁波网站优化:设计和实现基于Lucene的企业搜索引擎_no.143

  分析后获得的文本内容编制索引,并将形成的索引文件保存在磁盘上以供以后提取。
  个过程围绕索引的创建而构建,以递归方式补充创建索引的工作。程序流负责完成源路径和目标文件访问对象的生成。用目录索引方法并使用索引生成器来形成索引。图3中所示的主程序流程:......的IndexWriter fsWriter =新的IndexWriter(indexPath,新WhuChineseAnalyzer(),TRUE); RamDirectory目录=新的RAMDirectory();的IndexWriter ramWriter =新的IndexWriter(ramdirectory,新WhuChineseAnalyzer(),假); FileReader fpReader = new FileReader(file); document document = new document();字段FIELD_NAME =新的字段( “姓名”,file.getName()Field.Store.YES,Field.Index.UN_TOKENIZED);文档。
  add(field_name);字段field_path =新的字段( “路径” file.getAbsolutePath()Field.Store.YES,Field.Index.UN_TOKENIZED); document.add(field_path); Field field_content = new field(“content”,fpReader); document.add(field_content); ramWriter.addDocument(document); ramWrter.close(); fsWriter.addIndexes(new directory [] {ramDirectory}); ......猎犬检索设计并实现了根据用户的查询快速提取在索引库中的标题功能,并评估有关出口要求的相关性。结果进行排序,并将查询结果返回给用户。本过程如下:首先,分析器程序接受用户请求的输入,分析该查询语句和分析后获得的请求的逻辑,并发送该请求的逻辑搜索模块,负责匹配索引数据库中的查询。后,在找到匹配集后,它将通过Lucene的默认排序显示给用户。本代码是:......分析器ananlyzer =新的WhuChineseAnalyzer(); QueryParser解析器=新的QueryParser(“内容”,解析器); try {query = parser.parse(SearchWords); =命中searcher.search精度(查询)对(INT I = 0;我......}赶上(ParseException的E1){...}}赶上(IOException的E){...} .....结论本文探讨的基本原则和搜索引擎的相关技术,并提出了Lucene的开源项目。用Lucene的扩大,企业的搜索引擎系统已成功实施..的研究成果也获得了成功,但是,由于缺乏知识和经验,这款产品也有很多地方没有考虑到以下几个方面需要改进。先,为了获得更多的分析非格式化的文档,如Excel,XML等第二,以进一步增强中国字分割设备,以获得的中国字的更好的分割效果;第三,优化系统,更好的排序的结果e研究等参考文献[1]王雪松。Lucene + Nutch [M]搜索引擎开发。京:人民电力出版社,2008:... 3 [2]The的Apache Jakarta Project.Lucene [EB / OL] .http // // Jakarta.apache.org Lucene的,2010-05-21 [3]薛裕兴Heritrix的基础和网站检索系统Lucene的[d]。安:西安科技大学,2008。4]宁.Lucene全面实施[d]的平台上教育网络中搜索大连:大连海事大学,2007。5] eneLucene中国[EB / OL] .http // www.lucene.com.cn,2010-05-27。[6]李力武装。

宁波网站优化:设计和实现基于Lucene的企业搜索引擎_no.140

  于语义的企业搜索引擎的研究与实现[J]。算机知识与技术,2007,宁波网站优化(8):39-40。7]。Lucene:基于Java的全文搜索引擎[EB / OL]简介。

宁波网站优化:设计和实现基于Lucene的企业搜索引擎_no.98

  Http://www.chedong.com/tech/lucene ..的.html,18/05/2010 [8]李军队基于Ajax和语义企业搜索引擎,实现[d]长沙。防科技大学,2007年[9]ICLCLAS.orgICICCLASde。点[EB / OL]。Http://ictclas.org/sub_1_2.html.[10] “杨拥椅的研究与实现基于Lucene的二手车贸易的垂直搜索引擎信息[d]重庆..重庆大学,2009年注:请阅读原文PDF格式,例如表格,注释,公式等。
  本文转载自
  宁波网站优化www.leseo.net
  补充词条:宁波网络seo  宁波seo排名  宁波seo哪家好  宁波网站seo  宁波网站优化推广