[摘要]全文恢复系统最关键的部分是全文搜索引擎,需要在该引擎上构建各种应用程序。何从单个文本中提取主题词是全文搜索的核心,这是本文要解决的主要问题,同时提高了全文搜索引擎的效率。[关键词]全文检索,搜索引擎,关键词条目提取快速信息增长必然需要强大的信息检索工具,而在信息检索工具中,搜索全文是最通用和实用的。过互联网提供的信息的快速增长对全文搜索技术提出了新的要求。明显,鉴于在人们的日常生活中搜索全文搜索系统的重要性和重要性,必须准确地搜索用户需要的信息。络数据并有效地呈现给他们。键字提取用于提取关键技术主题的算法设计必须确保提取的主题词能够反映文档的目的。此,采用了一种新的主题提取算法:基于单词同义词林的关键词提取。词的频率和单词位置越频繁出现在文档中,单词主题的可能性就越大。献中出现的词语的位置也对词语 - 主语的提取有重要影响:通常,词语出现在不同的位置,如标题和正文。文中的单词,定义其位置loci = 1,标题中的单词,定义其在loci = 0上的位置。题中出现的单词通常比出现在正文中的单词更重要。义词权重设计如果文本中出现单词的同义词,则该单词将获得额外的权重。了确定文章的单词是否具有同义词,主要基础是搜索单词的同义词词典。

果单词和同义词出现在文本中,
宁波seo优化则同义词林必须具有标记“=”,标记单词和单词。单词相关的同义词。后,单词的权重增加:如果单词的相应单词出现在文本中,则单词也会被赋予额外的权重,并且在同义词词典中,它被标记为“#”作为关联单词。果文章中的单词既没有同义词也没有关联单词,那么很可能它是一个独立单词,并且足以判断该单词的TF值。键字提取算法尽管许多研究人员使用TF-IDF等算法来计算受试者的权重,但该算法不属于文献主题的词语提取算法而且不采用不计算与单词相关的其他信息以确定主题的价值。
响在设计提取主体的算法时,考虑进入确定单词加权的因素:文本中单词的词频,单词的位置,同义词,相关词,独立词。算加权算法如下:(1)首先,Wj是用于确定是否可以检索单词作为主题词的唯一加权因子。Wj的值越高,单词主语的可能性越大。一因子和第二因子分别计算单词和单词的频率的相对位置,位置因子算法的第一因子对应于单词出现在文本中第i个位置的次数。题中的单词往往比正文中的单词更加重要。Loci是这个词的位置因素。Loci = 0时,单词出现的位置是标题,λ的值是0.6。果Loci = 1,表示单词的位置在体内,则λ的值为0.3。二个元素是指森林词同义词因子,h是该词的相关同义词类别。同义词相关联的类别是指同义词,相关词和独立词。型是基于有关同义词的信息的相关因子:类型有三种形式:当文章中的单词具有同义词时,类型的值为1,关联的单词出现的类型为0, 6。果没有同义词和关联词,则类型不是“增加”。计算所有单词的权重之后,生成链表中具有最高权重的前N个单词作为文章的主题。此过程中,可检索关键字的数量设置在3和6之间。处理关键字分割模块关键字检索模块时:首先,将函数定义为预处理分词。

处理是确定要匹配的字段是否包含要分段的文档的非中文字符。果不是,请以最大或反向对应方式调用分段。果相应的字段包含非中文字符,则在处理期间首先将字符设置为无符号字符类型,几乎存储所有字符。先,用户选择加载文件以打开要写入的文档。相应的OnSplitBack()按钮进行匹配或OnSplitFront()按钮上的相应最大值,调用事件处理程序以开始分割中文单词。

载同义词库文件后,输入SplitWord函数。是分词的开始,bDick参数是用户选择的分词方法。bDick = 1执行最大正参与,而bDick = 2执行最大反向含义。果按下正最大匹配单词段按钮,请输入MaxFrontMatching()函数以进行正最大匹配。果按倒置匹配字的最大分段按钮,则输入MaxFrontMatching()函数以进行反向匹配。过反复调用此函数,中文单词的分段终于结束了。设计主题加权算法时,主题提取模块参考主题词提取算法的相关数据,并定义影响单词权重的因素:单词的频率,单词的位置,同义词,相关单词和独立单词。据单词提取加权算法,权重被用作唯一权重,以确定单词是否可以作为关键字被检索。Count_loc输入函数确定文本中单词的单词频率,并且在计算文章中每个单词的单词频率之后,调用WordPosition位置函数以确定单词出现的位置。果单词出现在正文中,则基因座的值为1.如果单词出现的位置是标题,则基因座值为0.替换出现在文章标题中的词汇表的nPos标志如果列表m_WordList为0,则链表中的列表m_WordList的词汇表被放置在与搜索相对应的词汇表中,并且记录(#=&)被登记在对象地址中。用CountThesaurus函数以确定该单词在当前文章中是否具有同义词。果是这种情况,则其权重增加1.当单词具有关联单词时,权重增加0.6,如果它是一个独立单词,则单词的权重不会增加。关键字提取的设计中,用户可以根据需要选择提取关键字的数量。

索引擎模块搜索引擎在设计时直接调用现有的基于Google界面的搜索引擎程序,将程序代码与关键字提取代码集成并完成提取系统基于程序调用中的搜索引擎的关键字。
接调用Google接口程序的.exe文件。按下OnSearchEngine按钮时,首先确定关键字检索对象是否为空,如果关键字检索为空,则搜索引擎中的搜索结果不匹配。
法显示给用户。全文关键字搜索算法的设计的最开始,TF算法用于计算文本中单词的频率。

题提取的最后一部分基于同义词森林算法。合算法执行中文单词的分割。于算法在中文分词程序设计中的不断改进和调整,最终将这两种不同的分词方法结合起来。时,需要改进一些元素,包括关键字提取的准确性。快更准确始终是全文搜索技术的追求。
本文转载自
宁波seo优化www.leseo.net
补充词条:
宁波谷歌seo
宁波seo外包
宁波网络seo
宁波seo优化公司
宁波seo网站优化