宁波seo优化专栏

根据相关性剖析的搜索引擎设计

发布时间:2018-12-21 12:35:27
  摘要随着核算机系统性能的提高和网络技能的不断进步,如何在互联网这个巨大的信息资源中供给高效的查找效劳,帮助用户在海量的数据中快速找到需求的信息是查找引擎亟待处理的问题。通常用户只关心回来的排在前面的成果,但是当时查找引擎回来的查询成果与用户需求的相关性并不高。于是查找引擎的相关性规划--按照与用户查询的相关程度对查找引擎的索引文档进行排序,成为当时研讨的要点。
  关键词查找引擎相关性用户查询索引
  中图分类号:TP391文献标识码:A
  0引言
  本文对查找引擎的相关性进行了深化的研讨,主要作业归纳为以下几点:
  (1)文本查找引擎的相关性排序模型,选用向量空间模型。
  (2)文本查找引擎数据源选用网络爬虫完结。
  (3)文本查找引擎数据分类选用朴素贝叶斯算法。
  1相关性分析与完结
  TF-IDF:是一种常用的检索系统的加权技能。
  基本思想:是每个字词的重要性随着它在文件中呈现的次数成正比,与在其他文件中呈现的次数成反比。
  TF:TermFrequency:关键词词频,是指一篇文章中关键词呈现的频率,比如在一篇M个词的文章中有N个该关键词,则:TF=为该关键词在这篇文章中的词频。
  IDF:InverseDocumentFrequency:逆向文本频率,是用于衡量关键词权重的指数,由:IDF=log()核算而得。
  D:表明文章总数,DW:表明关键词呈现过的文章数。
  2依据向量空间的余弦算法
  算法步骤:预处理→文本特征项选择→加权→生成向量空间模型后核算余弦。
  (1)预处理。预处理主要是进行中文分词和去停用词。然后按照停用词表中的词语将语猜中对文本内容辨认含义不大但呈现频率很高的词、符号、标点、及乱码去掉。例如:“这,的,和,会,为”等词呈现在任何一篇中文文本中,宁波seo优化但是他们对这个文本所表达的意思几乎没有任何贡献。运用停用词表来除掉停用词的进程,就是一个查询进程,对每一个词条,看其是否位于停用词表中,假如是则将其从词条串中删除。
  (2)文本特征性选择与加权。过滤掉常用副词、助词等频率高的词之后,依据剩下词的频度断定若干关键词。频度核算参照TF公式。
  (3)加权是针对每个关键词对文本特征的体现作用小大不同而设置的机制,权值核算参照IDF公式。
  (4)向量空间模型VSM及余弦核算。向量空间模型的基本思想是把文档简化为以特征项(关键词)的权重为重量的N维向量表明。
  假设一篇文档中有a、b、c、d四个特征项,那么这篇文档就能够表明为D(a,b,c,d),关于其他要与之比较的文本,也将遵从这个特征项顺序。对含有n个特征项的文本而言,通常会给每个特征项赋予一定的权重表明其重要程度,即D=D(T1,W1;T2,W2;…;Tn,Wn)简记为D=D(W1,W2,…,Wn)把他叫做文本D的权值向量表明,其间Wk是Tk的权重,1≤k≤N。
  两个文本D1和D2之间的内容相关度SIM(D1,D2)常用向量之间夹角的余弦值表明,即
  式中W1k、W2k表明文本D1和D2第k个特征项的权值,1≤k≤N。
  3朴素贝叶斯算法规划与完结
  朴素贝叶斯的思想根底是:关于给出的待分类项,求解在此项呈现的条件下各个类别呈现的概率,哪个最大,就认为此待分类项归于哪个类别。
  文本分类在查找引擎中归于必备言语处理模块,每篇文章都由成百上千个词语组成,能够当做个向量集W=(w1,w2,w3,…,wn),其间wi即表明其间第i个词语。文章的分类也能够视为一个分类标记调集C=(c1,c2,c3,…,cm)。在wi呈现的情况下,文本是文本分类C的概率,可依据贝叶斯核算,公式为:
  在文本分类的视点理解贝叶斯公式为:在wi词呈现的情况下是否是文本类别取决于在文本分类cj情况下wi呈现的概率,以及wi在所有词中呈现的概率。p(w)的含义在于假如这个词在所有文档中呈现,那么用wi去断定是否是cj的概率越低,越不具备代表性。
  朴素贝叶斯是一种有监督的学习方式,能够利用伯努利模型以文件为粒度进行文本分类。能够归纳朴素贝叶斯大致分为数据准备、分类器训练及分类辨认三个阶段。
  (1)数据准备。语料库的准备作业阶段,这个阶段的使命是为朴素贝叶斯分类做必要的准备,主要作业是依据具体情况断定特点特征,并对每个特点特征进行恰当划分,然后由人工对一部分待分类项进行分类,形成训练样本调集。这一阶段的输入是所有待分类数据,输出是特征特点和训练样本。这一阶段是整个朴素贝叶斯分类中唯一需求人工完结的阶段,其质量对整个进程将有重要影响,分类器的质量很大程度上是由特征特点、特征特点划分及训练样本质量决议的。
  (2)分类器训练。这个阶段的使命是生成分类器,主要作业是核算每个类别在训练样本中的呈现频率及每个特征特点划分对每个类别的条件概率估量,并将成果记录。其输入是特征特点和训练样本,输出是分类器。这一阶段是机械阶段,依据前面讨论的公式能够由程序自动核算完结。
  (3)分类辨认。这个阶段的使命是运用分类器对待分类项进行分类,其输入是分类器和待分类项,输出是待分类项与类别的映射关系。这一阶段也是机械性阶段,由程序完结。
  4结语
  查找引擎相关性的研讨在未来还将是研讨热门,学者将会从愈加全面的视点分析相关性的影响要素,添加用户习惯、需求等要素;检索功能也将不断得到弥补,多媒体检索、移动检索等检索技能将成为未来各个查找引擎企业要点研讨的检索功能;同时,除了检索功率、网页相关性的评价研讨外,检索成果排序、检索信息重复率、网页死链或呼应时间等问题也将成为下一阶段亟待研讨处理的重要问题。
  参考文献
  [1]王黎.查找引擎的相关性排序算法研讨[D].合肥:中國科学技能大学,2010.
  [2]王亮.查找引擎及其相关性排序研讨[D].武汉:武汉大学,2004.
  [3]孙靖.依据云渠道的数据库查找引擎完结方法的研讨[D].南京:南京邮电大学,2014.
  本文转载自
  宁波seo优化www.leseo.net
  补充词条:宁波网络seo公司  宁波seo推广公司  宁波seo网站优化  宁波网站排名优化  宁波网络seo