信息服务公司通常有自己的门户网站。多人每天都会访问这个网站,手动回复不可避免会消耗大量的人力和资源。户习惯通过搜索引擎获取信息Lucene是一个功能强大的搜索引擎框架,可用于智能响应。用基于Java的,问题/定制智能发动机响应,由于问题/智能响应的组合的搜索引擎结构和手动响应,已显著改善不合时宜的响应手动接入问题,节省费用和改善网站的性能。键词:智能问答;搜索引擎; Lucene的;余弦相似度; JavaDOIDOI:10.11907 / rjdk.151291中图分类号:TP319文献标识码:A文章编号:1672-7800(2015)007-0109-02引言随着企业的发展,用户已经有越来越多的问题咨询企业门户网站:如果他们依靠传统方法逐一回答,他们会消耗大量员工,往往无法得到快速响应。外,大多数人或多或少都有类似的问题。来越多的公司重视快速准确地回答常见问题。果您能够快速找到搜索引擎等问题并避免员工重复回答,那么这具有非常重要的实际意义。Lucene是一种非常受欢迎且广泛使用的全文搜索工具。用Lucene和文本分类技术,创建了一个智能问答系统,并随着时间的推移自我学习,大大提高了问答系统的效率,系统可以很容易地与各种信息网站集成。于Lucene Lucene是一个高性能的Java全文搜索工具包。

不是全文全文搜索引擎,而是全文搜索引擎架构,可以与其他应用程序轻松集成,以进行完整的分析,查询和索引。Lucene的目标是为软件开发人员提供用户友好的工具箱,用于在目标系统中进行全文搜索或创建全文搜索引擎。为全文搜索引擎,Lucene具有以下主要优点[1]:索引文件格式独立于应用程序的平台。
Lucene定义了一组基于字节的索引文件格式,允许不同平台上的兼容系统或应用程序共享已建立的索引文件。群组查询等功能。

统设计和实现由Lucene创建文本库索引,您可以查看,分类用户问题和文本相似度计算,并返回与您所拥有的问题最相似的答案。户并让用户写下答案。果用户没有满意的答案,则问题留给工作人员。
员工回复后,响应将返回给用户并由Lucene自动索引。次用户询问类似问题时,系统会给出答案。现过程如下所述。
先在根据公司活动格式化的文本库中创建和组织知识库。“一对问答”是在自然语言的基础上创建的,并且是动态开发的。为原始系统的文本模板,索引方法使用倒排索引[4]。加索引以创建包含此索引的Directory目录。
过目录创建指定的索引存储位置[2]。建一个tokenizer。词分隔符使用中文单词分隔符Mmseg4j。MMSeg算法有两种分词方法:简单和复杂,都基于正的最大匹配。制Mmseg4j字典扩大词库非常简单,它是实现在中国话的分割方便anglais.Il可能产生区域的较完整的自定义词典库的基础上,需要针对公司的问答系统。
造函数中的matchVersion参数是Lucene版本,解析器是单词分隔符,它是Mmseg4j标记化器。他施工方法已经过时。有IndexWriter索引器配置都由IndexWriterConfig索引器配置管理类处理。
交搜索Lucene搜索与索引一样快捷方便。建一名研究人员,搜索用户问题的答案。用QueryParser解析Lucene Query Query对象中的查询关键字。
建QueryParser时使用单词分隔符。标记生成器必须与上一个索引创建期间使用的标记生成器一致,即中文标记生成器Mmseg4j。用FSDirectory打开索引[3]所在的目录。回TopDocs搜索的结果对象。TopDocs包含一个ScoreDocs表,用于搜索结果和结果的总数。动ScoreDocs结果集,根据每个scoreDoc的文档编号获取文档。明地回答用户的问题。返回响应之前,
宁波网站建设搜索结果由余弦相似度算法重新组织,其实现如下:首先分割用户的问题,删除停用词,然后映射n维空间中向量上的单词分割结果。顶部,Lucene寻求的问题单词的分段被映射到n维向量以计算所寻求的问题和用户问题的余弦值。弦值越接近1,角度越接近0度,即两个矢量越相似。弦相似性用于处理文本的相似程度。公式如下:[5] COS(θ)=Σni= 1AI×BiΣni= 1(AI)2×NI = 1的(Bi)2 = A·B×BA(1)的值的大小余弦用作排序条件,重新排序,结果显示在用户界面上。果搜索没有找到与用户问题相关的答案,或者如果找不到答案的用户不满意,则用户可以记录智能答案的结果,评分间隔为在0到10之间,用户评分为0,问题继续保存。据库,等待手动响应,手动完成后,使用Lucene重新设计和索引问题和答案,使用Lucene的增量索引函数添加它并自动合并文件索引在合适的时间。

下一个用户再次询问相同的问题时,系统会从用户返回满意的答案(参见图1)。1系统流程结论使用Lucene创建一个智能回答问题的系统,自动搜索问题的答案并对余弦相似度和用户分数进行排序,以提高答案的准确性。来,在计算相似度时,我们会考虑添加算法,比较两个问题之间的相似性并加权问题。如,在这两个问题的结构是类似的,它们是越接近,即,距离和的两个问题的关键字的顺序考虑的两个之间的相关性的基础上,然后语法和语义分析[6]。]。成上述工作后,准确率将进一步提高。
本文转载自
宁波网站建设 http://www.leseo.net
补充词条:
宁波网站排名优化
宁波seo哪家好
宁波网站优化推广
宁波网站seo优化
宁波seo排名