宁波seo优化专栏

宁波seo优化:设计和实现基于Lucenenet的全文搜索引

发布时间:2019-01-26 00:21:32

  本文考察了作物生产技术的特定领域基于Lucene.Net全文搜索的关键技术,并使用开放式工具箱中国分词源,如分割盘古词整合Lucene.Net平台。分词的基础上,对索引,恢复结果的排序进行了改进和优化。出了Lucene.net工厂生产技术服务平台的全文检索过程,并指出了搜索引擎实施过程。
  键词:作物生产技术服务平台; Lucene.net;中国的分词中图分类号:TP393文献标识码:A文章编号:1009-3044(2015)29-0177-02在传统文化的过程中,大多数农民种植由于个人的主观经验,或在农业技术人员手中,农民之间的口口相传并没有形成完整的生产技术知识体系,严重影响了农作物产量。
  对这种情况,建议建立一个作物生产技术平台。平台主要提供与农业有关的各种信息和新农业生产技术的推广,促进农民调查,学习先进的生产技术,害虫防治技术及其对农民的应用。产实践。功能方面,除了执行商业功能外,还必须为农民提供有效的生产技术,害虫防治技术的搜索和恢复功能。
  于上述要求,传统的解决方案是通过全文搜索提供信息查询功能。而,传统的全文搜索是一种信息检索技术,它使用文档中的所有文本信息作为搜索对象。论文档的具体内容和判断是否包含搜索关键字的简单事实,灵活性都不强。

宁波seo优化:设计和实现基于Lucenenet的全文搜索引擎,用于作物生产的技术服务平台_no.102

  于上述传统解决方案的要求和不足,本文设计并实现了基于Lucene.Net的作物生产技术服务平台的全文搜索引擎。工厂生产技术设计全文搜索引擎框架我们开发了一个满足数据访问层上述要求的搜索引擎。于Lucene.Net操作界面和数据访问界面的封装,它是一项生产技术,农民害虫控制的研究。供查询界面。取植物生产技术知识和建立主要代表数据的知识平台分为文本数据,制图数据和视频数据。过从现有平台系统知识库中获取现有科技信息,选择现场农业专家正式发布的手册,地图,视频等信息资源,分割作物生长,总结和完善描述性文本数据的知识库。图和视频资源形成多媒体数据库。搜索引擎中,您可以从地图和视频资源的图像和视频中提取文本,并通过文本索引地图和视频。置基于关键字的索引以便于搜索。
  知识库的组织形式中,平台的数据资源的所有分类号都被索引。引算法的质量直接影响平台的响应速度和生产者查询结果的质量。平台使用索引来构建索引,从而有效地提高了回忆和准确性。Lucene.net使用倒排索引来记录关键字所属的文档,以及它在文档中的位置和频率。
  建关键字索引时,单词反转文件按关键字的升序写入,然后相应的索引信息按顺序写入反向索引文件中,按照文字的顺序。键字的提取主要由以下几个方面进行评估:使用TF [1] * IDF [2],的总次数的字的统计频率和所述字出现在所有文件;标题中的单词比包含的单词更重要;位置信息:根据语义聚合新兴名称,提取广义词作为关键词。国的分词算法的选择该平台使用由Lucene.net提供的分割界面中国话,实现的一个中国字的分割模块的技术服务平台,实现作物几个关键词的组合:作物品种的名称,疾病和昆虫的名称,症状和使用的农药。成错误的推理。前,常用的中文分词算法包括基于分词的分词,基于统计的分词,宁波seo优化基于理解的分词和基于语义的分词。平台使用基于分词的分段,也称为机械分段,根据某种策略匹配字符串以匹配特定词典。果在词汇表中找到字符串,则匹配成功(识别)一个单词。据单词的分割,信函和扫描顺序的原理,它可以被分为:相应字最大分割,最高反向分割,分割和全双向分割算法。平台使用Lucene提供的位置匹配算法来搜索单词前缀的直接对应算法。先使用“半折叠搜索”在单词列表中搜索单词,然后搜索单词作为单词表中第一个单词的单词。用最大 - 最小匹配算法快速查找单词并在数据库中获取其标记号。置值,以便在索引文件中找到该单词,找到特定记录并查找目标结果。进的搜索结果排序Lucene在IndexSearcher中提供了一种解释方法,它返回搜索结果中每个文档的详细评估。过调整或修改排序算法,增加或减少不同文档的权重,我们可以获得所需的排序结果。分计算公式如下:分数(Q,d)=坐标(Q,d)* queryNorm(Q)*(TF(在d T)* IDF(T)* getBoost(t.field在d)* lengthNorm其中文档频度TF(T d)为每个出现的次数(在d T字段。(T:术语)的结果文件(d)IDF(T)中的反函数允许提取对应的文档的数量,以及增强因子是索引的元素的权重,lengthNorm因子是由在该领域的索引词的总长度确定。ueryNorm为调整因子比较询问的各种条件之间排序的结果。标函数是表示所述文件(多个)。语(t)的发生的百分比协调因素。萃取的技术的实际应用文化,可以通过在Lucene中实现SortComparatorSource和ScoreDocComparator接口来实现自定义排序功能, nce表示Lucene扩展了全文搜索引擎。Net的分词界面采用基于字符串匹配的中文分词算法,实现了植物生产技术服务平台的中文分词模块。文搜索功能的索引库使用FSDirectory类指定索引文件库的存储位置:首先,使用的IndexWriter类写索引文件,其中Analyzer参数是文档的词法分析和语言处理(例如PanguAnalyzer)。建表示要编制索引的文档的文档,并通过“添加”(字段)将各种文件添加到文档中。后,使用IndexWriter对象调用addDocument将索引写入索引文件。找作物技术服务平台结合几个关键词名称,如作物品种名称,病虫害以及症状。找生产技术,农民通常使用本地谚语来使用搜索同义词来执行扩展语义搜索。如,当农夫发现搜索“桂花”,它看起来与数据库的代名词和搜索几个同义词,如“番茄”,“桂花”和“外国卡其”。时,它也可以跟随诸如“oxachlor”和“alachlor”之类的从属词的扩展。
  义搜索的基本步骤如下:)准备相关的生产技术语义词典,使用word格式的代名词林)按下按s(Synset_id的语义词典,w_num,“字” ,ss_type,sense_number,TAG_COUNT)被转换为格式,并转换wn_s.pl库Lucene索引同义)同义研究文库通过SynonymAnalyzer用于研究扩展同义调用。用IndexSearcher类来实现搜索功能。Search方法包括(查询请求查询,过滤条件过滤器和恢复后的存储容器收集器)。PhraseQuery用于拼接多个关键字的类。键字之间的关系是和。BooleanQuery实现关键字之间的一个或多个关系。定义搜索结果通过实现SortComparatorSource接口,完成作物生产技术搜索结果的自定义排序功能。们通过首先对相似性进行排序,然后对时间进行排序来定义搜索结果。Lucene.Net.Search.SortField [] =新sortF的SortField [] {Lucene.Net.Search.SortField.FIELD_SCORE,新Lucene.Net.Search.SortField( “踵” Lucene.Net.Search.SortField.STRING,真;;} = Lucene.Net.Search.Sort scoreSort newLucene.Net.Search.Sort(sortF)命中= chercheur.Recherche(请求,scoreSort)总结了全文搜索技术平台生产服务的需求基于对.Net全文检索,分词,索引,提取结果排序和提取效率的关键技术的搜索增强和优化在数据访问层,设计并实现了提供多种恢复方法的工厂生产技术服务平台的全文搜索引擎框架,农民对研究的极大安慰文化技术。意:[1] TF表示单词的频率,单词在文档中出现的次数。[2] IDF表示文档频率的倒数。
  本文转载自
  宁波seo优化www.leseo.net
  补充词条:宁波seo网站优化  宁波seo优化公司  宁波网站seo优化  宁波网站seo  宁波seo外包