宁波seo优化专栏

宁波seo优化:搜索和应用基于Lucene的企业搜索引擎

发布时间:2019-03-16 00:21:56

  本文分析了企业搜索引擎的功能和全局体系结构,研究了系统的结构和Lucene恢复原理,并提出了统一处理许多常见文档的思想,如html,pdf和单词。索引擎构建技术是针对中国特色而设计的,包括源数据采集,文档分析和分词,索引,信息检索和检索的全过程。序结果。Lucene软件创建原型系统,并提供良好的搜索效果。

宁波seo优化:搜索和应用基于Lucene的企业搜索引擎_no.179

  键词:Lucene;企业搜索引擎;汉语词的分词;非结构化文档中图分类号:TP393文献标识码:A文章编号:1009-3044(2009)04-0926-04基于LuceneLI的企业搜索引擎的搜索和应用摘要:搜索引擎的结构和功能公司研究分析,介绍了Lucene的结构和索引原则,提出了海峰(南方林业科技大学计算机科学系,长沙410004)中国)html,pdf,word文档的交易方法。于中文特色的搜索引擎技术设计,包括源数据采集,文档分析和分割的过程,索引器,搜索信息,各种度假村。现基于Lucene的原型系统,并获得了良好的搜索结果。键词:lucene;企业搜索引擎;汉语词的分词;非结构化文档简介随着Internet的兴起,构建业务信息也很快到达。对庞大的内部数据和网络数据,如何更快,更高效地成为一个非常重要的问题,企业搜索引擎已经很好地解决了这个问题。络信息数据分为两类:一类信息可以用数据表示或统一结构,称为结构化数据,如数字,符号等,另一类信息不能用数字或统一结构表示,例如Word文档。PPT演示文稿,PDF甚至网页,它们不是传统数据库的一部分。着企业计算机化水平的提高,企业内部和网络上的大多数数据都是非结构化信息。复现有数据库是结构化数据恢复的主要目标,但其实现相对简单,宁波seo优化但对于非结构化数据,由于事务操作,恢复效率较低复杂的数据和低效的高级接口。Lucene [1]是一个开源项目的发布和开发,为开发人员提供了一个出色的信息搜索引擎。Lucene技术简介Lucene是一个优秀的全文搜索引擎,其系统结构[2]具有强大的面向对象功能。一种是定义独立于平台的索引文件格式。次,系统的主要组件被设计为抽象抽象类。

宁波seo优化:搜索和应用基于Lucene的企业搜索引擎_no.31

  平台实现相关的部分被设计为抽象类。过逐层对象面向对象的处理封装在类中,最终导致低耦合,高效率和简单的搜索引擎系统。Lucene系统结构Lucene系统由三部分组成:基础设施调节,索引核心和外部接口。接操作索引文件的索引内核位于系统的中心,如图1所示.Lucene为每个包执行特定的功能,如表1所示.Lucene Lucene的功能如下全文搜索引擎具有以下显着优势:)索引文件格式独立于应用程序的平台。Lucene定义了一组基于字节的索引文件格式,允许不同平台上的兼容系统或应用程序共享已建立的索引文件。于传统全文搜索引擎的反向索引,实现了块索引,这使得可以为新文件建立简化的文件索引并提高索引速度。后,通过与原始索引的合并,优化的目标。色的面向对象系统架构简化了Lucene扩展的学习,并促进了新功能的扩展。本分析界面的设计独立于语言和文件格式。
  引器通过接受令牌流来完成索引文件的创建。个域都有三个参数:索引,存储或不分词。户扩展了新语言和新文件格式。需要用于文本分析的界面。认情况下已经实现了强大的查询引擎,因此用户无需编写自己的代码即可获得强大的查询功能,例如语法查询,模糊查询,前缀匹配,区间查询,条件过滤,逻辑运算符等系统设计概述公司使用的企业搜索目标与Web搜索的目标不同。擎必须满足特定要求:1)支持多个数据源(数据库,Web,邮件,Office等),2)支持多种文件格式。持(文本,邮件,网页,办公文档等)3)提供对文件的访问控制,即必须根据用户的权限更改搜索结果申请人; 4)为几种研究方法提供支持;其他要求,如信息推送,信息分类聚类等。统结构的企业搜索引擎[3]依赖于公司的硬件平台和网络环境,提供非结构化文档信息的全局恢复计划。
  司的结构化异构数据库。要内容包括异构文档分析,异构数据库分析,信息分类系统,文档索引系统,信息检索系统,系统管理控制,安全控制和其他内容。统的整个数据流从原始数据开始。其进行格式化和处理以获得统一的中间纯文本形式。信息被分类为不同的属性,并且文档的索引功能与安全管理和系统管理协作执行。统用户通过信息检索系统搜索系统数据。统功能流程如图2所示。
  统模块和数据源数据收集企业搜索引擎是一种搜索机制,可以索引和检索企业文档资源和数据源。据库资源。业搜索引擎搜索用户提交的查询匹配字符串对应的文档链接,收集业务文档的目录列表,并向用户提供信息查询服务。业搜索引擎上的信息收集不仅需要收集公司外部的网站,还需要收集公司内的网站。业中通常很少有网站,并且URL(或IP地址)相对固定,因此所有这些网站都可以添加到搜索引擎的内部网络网站集中。
  果创建了新站点,则用户只需将URL添加到内部网络网站集。于Intranet上的信息收集,Web蜘蛛扫描的范围仅限于内部网络,并且这些内部网站的页面中的外部网站链接将添加到整个网络中。联网基地。了确保在外部网站上搜索信息的质量,必须仔细选择用于收集外部网络信息的参考站点。联网上的种子站点集包含两个级别:一组种子站点和一组候选种子站点。

宁波seo优化:搜索和应用基于Lucene的企业搜索引擎_no.197

  考网站集由两种方法生成:1)行业或用户推荐的域中的权威站点,以及2)链接到Intranet站点的外部站点。些站点经常被业务用户访问,并且通常包含商业用户的有用信息。选起始网站的游戏也以两种方式生成:1)使用企业关键字游戏的关键字,使用几个通用搜索引擎来恢复,通过获得排名最高的网站, 2)在企业搜索引擎的更新周期中。企业用户在搜索时具有成功率和高点击率的站点数。组参考站点相对固定,并且每次更新搜索引擎数据库时重新计算候选参考站点集。加候选种子网站集的数量允许发现用户尚不知道的权威网站,以及该区域中出现的一些新网站。子站点和候选种子站点的数量可以根据公司的具体情况来定义,通常从十几个到几十个。司的关键词由公司的不同部门推荐,由业务专家决定,并根据行业和公司的发展动态调整。字中的文档分析和分词是基于汉字的。
  词之间没有明显的形态边界。用中文进行计算机处理,你必须将中文单词与单词分开,即单词的分词[4]。们普遍认为汉语中有三种主要的分词形式:基于字典匹配的分词方法基于字典的分词方法的三个要素是字典分词字典。词,文本的扫描顺序和匹配原则。词词典包括常规词典和专业词典。本分析顺序包括正向扫描,反向扫描和双向扫描。前扫描是指从被剪切的链中的第一个字符向后扫描,向后扫描是指从要剪切的链中的最后一个字符进行扫描。
  向扫描是前向和后向扫描的组合。配主要包括最大匹配,最小匹配,单词对应字符和最佳匹配。见的基于字典的分词方法包括最大下游匹配,反向最大匹配,双向分析,逐字导航和最佳匹配。于统计的统计分割方法的基本思想是,从形式的角度来看,单词是稳定单词的组合。此,在文档中按顺序出现的相邻单词越多,它们就越可能。成一个词。此,单词和单词共现的频率或可能性可以更好地反映其作为单词的可信度。此,基于统计的分词方法的基本原理是计算语料库中相邻单词组合的频率,并根据给定的频率计算公式确定该字符串将成为单词的概率。汇共现的频率反映了汉字之间关系的狭隘性。电压高于某个阈值时,可以认为该串已形成一个字。计分割方法应用的主要统计或统计模型是:互信息,N-gram语法模型,神经网络模型,隐马尔可夫模型。于理解的分词方法基于语义理解:分词方法模拟人类大脑对语言和句子的理解,并允许识别词汇单元。本模型包括并行执行分词,语法和语义分析,并使用句法和语义信息来解决分词的模糊性。于Lucene只支持纯文本索引,如txt,我们需要解析和过滤异构文档数据,如html,pdf,word和Excel,然后才能对它们进行索引。们使用各种相关工具来提取来自异构文档的文本。用ICTCLAS中文分词工具[5]对分析的文本进行分段。一步是停止文字处理器以节省存储空间并提高搜索效率,然后将其传输到Lucene索引器进行索引。析和建立Lucene文件格式的索引结构,定义基于字节的数据类型,因为它们是基于字节定义的,因此它与平台无关,这也独立于Lucene索引文件格式平台。Lucene将索引信息存储为文件的主要原因。索引存储文件的设计更为通用,输入输出结构与数据库表→记录→字段非常相似。此,许多应用程序文件,数据库等。统方法可以更容易地映射到Lucene存储结构/接口。Lucene索引由一个或多个段组成,每个段由多个文档组成。Document对象包含一个或多个不同的命名字段。档的域表示文档或与文档相关联的一些元数据。个域对应于在搜索过程中可以在索引中查询或提取的数据。个域由域名和一对值组成。语是研究的基本单位。
  为域对象,它由一对字符串元素组成:对应于域名(名称)和域的域值(值)。索引擎的有效性在很大程度上取决于索引的质量。引器主要完成由倒排索引数据中的剪切单词形成的文档的组织。引的创建主要分为两个阶段,因为只有满足Lucene.Document要求的文档才能被Lucene索引。此,您必须首先创建一个doc文档对象文档,其中包括数据字段和正文数据字段的描述。后索引doc文档。
  于描述数据,由于其小尺寸,大量字段和高恢复率,它直接存储在索引库中,而大文本数据仅存储其存储地址。
  他的文件名。索引库中。于企业搜索引擎[6]要处理的信息包括大量的异构数据库和异构文档,因此有必要为不同类型的信息编写不同的处理函数。取文本然后索引。辑索引模式如图3所示。

宁波seo优化:搜索和应用基于Lucene的企业搜索引擎_no.195

  息检索的核心是确定要检索的项是否与用户的查询样式相关,通常是通过恢复相关性评估数据。该数据提取模型中,给出了文档的表示,提取的表示以及提取和文档之间的匹配过程。据查找信息和相关方法的搜索引擎,信息检索方法可分为:布尔逻辑模型,模糊逻辑模型,向量空间模型和概率模型。
  于索引的构建,我们需要建立一个搜索API .Lucene的搜索机制基于用户输入的关键字,使用他的解析器(这里我们使用ICTCLAS进行分割)中文中的单词)分析关键词,然后将分析结果传送给搜索。函数旨在返回一组咨询文件。这个系统中,我们提供了两个搜索功能:一个是Lucene搜索功能的改进版本,它将Lucene的记录规则与PageRank [7]相结合,另一个按时间排序。搜索引擎研究的背景下,评分规则的确定是一个基本问题:如何确保用户对网页感兴趣或者通过上面重要的信息丰富的网页标记,什么这是一项艰苦的工作,也是研究的热点。于Lucene只考虑文档本身的内容,因此没有考虑文档之间的关系和文档之间的引用关系,这往往反映了文档的重要性。如,经常引用的文档通常是一份好文档,尽管它可能是其文档的内容。高,但因为它是权威的,我们仍然需要提高它的分数。PageRank使用类似的链接来计算基于类似想法的网页的重要性。此,我们引入PageRank来修改Lucene表示法机制,在计算向量模型时添加PageRank的值,然后对其进行标准化。复排序技术Lucene排序技术[8]通常是一种查找一般信息的模型方法,TF / IDF关键字匹配方法用于计算过程中的量化权重排序。

宁波seo优化:搜索和应用基于Lucene的企业搜索引擎_no.188

  同文件中的关键词。Lucene中文档评估相关的因素包括文档中的TF频率关键字,IDF文档频率的倒数,文档的加权Boost值,文档关键字的长度以及文档报告。LengthNorm等此外,在特定恢复中,还可以通过定义临时排序字段来控制结果的顺序,如图4所示.Lucene中使用的评分机制在原型系统中引用。式为:tf(id)(id)(t),boost(t,field),lengthNorm,其中:tf(t in,d)表示文档d出现。索元素t的频率; idf(t)表示搜索项t在反转文件中出现的频率; boost(d中的字段t)表示在索引过程中定义其值的字段的加权因子; lengthNorm(d中的t字段)表示域的归一化值,即给定域的所有元素的数量,通常在索引时计算并存储在索引中;我们最终根据得分从大到小产生研究结果。Pagerank的PageRank是Google用来根据网页之间的链接关系给出网页权重的算法。本思想是当网页A具有指向其他网页的n个链接时,网页A的等级值被分成n个副本,并且分别分配n个网页。代计算方法用于重复计算网页集合中使用的网页,直到它收敛到固定点。们在其中使用该算法。索引擎的安全搜索引擎主要由公司内部用户使用,包括来自内部网的信息,有些信息不实用。外,企业搜索引擎服务器的性能也是有限的。此,必须考虑企业搜索引擎的安全性考虑因素,并且必须采取一些技术步骤来限制外部用户的使用。论该系统提供了两种内容和时间相似的方法,实现了中文分词和PageRank。谢Lucene的深入研究,一个完整的企业搜索引擎实例基于Lucene:它的组织相对完整,查询功能强大,恢复速度快,准确性高搜索很高。未来的研究中,它将基于这个系统。进Lucene中对搜索结果进行排序的算法,以提高搜索的准确性。
  本文转载自
  宁波seo优化www.leseo.net
  补充词条:宁波seo优化公司  宁波网站排名优化  宁波网站优化推广  宁波谷歌seo  宁波seo哪家好