宁波seo优化专栏

宁波seo:基于概念聚类的Web数据挖掘搜索引擎的构

发布时间:2019-01-22 20:15:54

  对于Web数据挖掘的搜索过程,准确性在很大程度上取决于用户输入的关键字数量。索引擎执行的关键字的语义分析对应于用户的初始意图。索引擎分析关键字。括基于链接的聚类方法和基于概念的聚类方法。文针对基于链接的聚类方法的不足,采用概念聚类方法,基于二分图的概念和存储方法,设计并实现了自定义Web数据挖掘搜索引擎,并对其进行了验证。越性。键词:二分图;邻接矩阵;分类;数据挖掘;搜索引擎号码CLC:TP311.1文档代码:A简介(简介)众所周知,关键词越多,单个词就越能清楚地表达查询的要求。索引擎可以准确地计算网页的相关性越多,用户就越能获得期望的结果。是,当大多数用户使用搜索引擎时,他们输入的关键字少于三个,并且在很多情况下,他们无法正确表达用户的查询要求,这使得不满意的要求。文采用聚类概念的方法设计自定义搜索引擎,可以大大提高Web搜索的准确性。类包括使用任何算法将对象集合划分为多个类:分类后,不同类的对象不再相似,同一类的对象相似[1]。
  询聚类是将类似的需求查询表达式聚合到类中并选择关键字的数量作为该类型的请求的表达式以扩展查询表达式的过程。高搜索的准确性。[2]]。
  二分图及其存储的设计中,关键词和相应的文本被联合考虑,也就是说,根据关键词形成的聚类信息对文本进行分组。组过程的数据结构定义如下::设G =无向图,如果有V1∪V2= V且V1∩V2=Φ,则E(V1,V2)= V1×V2,也就是说,E的每个边缘的两端等于1。V1,另一个属于V2,对于V1中的所有y和V2中的所有y,存在边e∈E,因此e =(x,y),则G是完全的二分图。
  | V1 | = m,| V2 | = n,G表示为Km,n。于G来实现存储,eij是边[i,j]的权重,然后将G指定为邻接矩阵。类算法使用许多搜索引擎基于网页中包括的关键字的数量来计算查询关键字和网页的相关性。超过三个,加上一些关键词含糊不清,由于网页内容的多样性,被访问的网页与用户的需求之间存在很大差距。了使用锚文本来补充和描述网页的内容以提高查询的准确性之外,另一种有效的方法是使用用户的点击率作为补充网页的内容。搜索引擎日志获得的用户点击数据可以在一定程度上反映关键字和页面之间的关系,并且可以用作用于相关性计算的加权参数。
  于二分图的分类算法有两种:基于超链接的分类算法和基于概念的分类算法。超文本链接算法中,每次用户点击链接时,链接和关键字都被视为链接,并且只要两个不同的关键字具有相同的链接,就会认为这些链接两个关键字组合在一起。于关键字的语义多样性,很有可能对具有不同语义的关键字进行分组。
  外,互联网上几乎没有相同的链接。户选择两个随机关键字的概率是相同的。此,基于超链接的算法有很大的缺点[3]。
  择基于概念的聚类算法为在Web数据挖掘中高精度地设计自定义搜索引擎系统提供了更好的结果。于构造分类的二分图模型如下:所有查询都是在顶点集Q中构建的,顶点集C中关键字的概念以及关键字和概念之间的关系建立在边缘集合以获得概念。分组模式如图1所示。
  如,当关键字是apple ipad,apple和apple iphone时,使用的概念是ipad,fruit,iphone和product。构的二分概念图如图2所示。
  念分组根据二分图,如果关键词中涉及的概念重叠,则关键词的相似性更大。N(x)为节点x的邻居集合,N(y)为节点y的邻居集合。键字的相似度计算如下:如等式(2)所示,两个单词 - 所涉及的概念集的交集越大,查询的相似性越大。下是构建二分图算法的伪代码:系统模块设计系统的目标是设计并实现一个允许用户使用搜索引擎的平台,提供用户搜索界面并抓住用户。键字被提交给搜索引擎,搜索引擎搜索的结果将返回给用户。自整个交互过程的数据,例如查询关键字,搜索结果,宁波seo用户点击的链接等,由中间件收集和存储,用于下一个用户建模和查询聚类[4]。系统由四个主要模块组成:数据采集模块,数据库和管理模块,用户兴趣模块和查询聚类模块。

宁波seo:基于概念聚类的Web数据挖掘搜索引擎的构思与实现_no.171

  统流程分为五个步骤:数据收集,概念提取,用户建模,查询概念聚类和查询优化。统的每个模块的划分和模块之间的数据传输方向如图3所示。论(结论)根据表1模拟五个用户和查询的关键字之间。入的关键字由前两个用户是相同的,但第一个兴趣点是Apple数码产品,第二个兴趣点是苹果。验分类的结果在表2中给出。

宁波seo:基于概念聚类的Web数据挖掘搜索引擎的构思与实现_no.121

  果表明,尽管前两个用户具有相同的查询关键字,但由于不同的兴趣点,它们被分类为不同的类型。型0的查询结果与数字产品相关,而类型1中的结果与水果相关,表明分组结果使得更容易按概念区分关键字。验表明,当分类参数为0时,在二分概念分类图中,弱相关的关键词被分组为一类,导致准直率准确度低于链接组。;在很长一段时间内,概念聚类的准确性远远大于链路聚类的准确性,并且规模保持在更高的范围内。
  本文转载自
  宁波seowww.leseo.net
  补充词条:宁波seo推广公司  宁波网络seo  宁波seo哪家好  宁波网络seo公司  宁波谷歌优化