宁波seo优化专栏

基于协同过滤引荐的SNS网站老友体系优化办法

发布时间:2018-12-19 19:37:56
  [摘要]现有SNS网站老友体系一般选用的战略是用Hash散列算法将用户随机分配到多台服务器上。本文提出一种依据协同过滤引荐的分配战略,该办法是依据依据项目类别类似性的协同过滤算法,引荐给用户最合适的网络社团,并将相同网络社团内用户分配到同台服务器上。该技术成果使用于国家863科技项目(依据高可信网络的视频共享)。
  [关键词]协同过滤网络社团SNS网站
  导言
  在网络信息蓬勃开展的同时,社交网络服务(SNS)跟着web2.0的开展成为当时热点。SNS不光为广大互联网用户提供深层次资讯服务,同时还将这些资讯作为媒介,让更多人们联系在一起,使社会网络在虚拟国际中不断浸透,真实体现了人们在对信息需求的同时愈加渴望人与人之间多层次、多维度的沟通。
  SNS网站是一个以六度切割为深度,以150法则为宽度的网络。六度切割理论是由美同闻名社会心理学家米尔格伦(stanleyMilgram)于20世纪60年代最早提出:“你和任何人之间所距离的人不会超越六个,也就是最多经过六个人你就能认识任何人。”150法则是“把人群控制在150人以内是办理人群的一个最佳和最有用方式”,南罗宾·邓巴(RobinDunbar)依据欧洲发源的“赫特兄弟会”(一个自给自足农人自发安排)的一个不成文严格规则“集合人数超越150人时就把它变成两个,再各自开展。”提出的。
  SNS网站开展速度非常惊人,经过网友之间互相约请,在很短时间内就获得巨大用户群。SNS网站最典型使用就是信息传达,跟着用户数量的增加,用户老友数量也爆破式增加,这给SNS网站在老友之间信息传达的服务器功能提出了应战。
  目前,绝大多数SNS网站选用Hash散列算法将用户随机分配到多台服务器,当用户到达一定数量时,多台服务器的用户趋于均匀,就是一个用户的一切老友均匀涣散在多台服务器。此刻,如果该用户发音讯给一切老友,这条音讯能广播到一切服务器。以我国网络电视台用户互动平台为例,平台具有200万左右激活用户和100台服务器,按每个用户具有150个老友、均匀每秒有1000个用户将信息发送给他的一切老友核算,均匀每台服务器每秒处理7500个音讯,服务器处理音讯压力很大。因而,本文提出依据依据项目类别类似性的协同过滤算法,来优化SNS网站老友体系,降低服务器处理老友音讯的压力。
  关键问题
  1依据项目类别类似性的协同过滤引荐算法
  依据项目类别类似性协同过滤引荐算法基本思路是:首先别离核算方针项目与项目空间中其他项的评分类似性和类别类似性;然后将两者进行加权组合,得到项目归纳类似性,然后挑选项目归纳类似性最大的前N项作为方针项目最近邻居项目调集,对方针用户未评分项进行评分猜测,在此基础上实现针对方针用户的TopN引荐。
  2网络社团发现
  社团发现时将网络整体结构分解为若干个社团,社团内部节点之间连接相对紧密。而不同社团之间的连接相对稀疏。虽然网络社团很难区分,但一般情况下,社团都会有自己核心成员来代表整个社团处理与该社团有关事物。该代表由于遭到其他成员大力支持能够将社团成员联合在他周围,然后维系整个社团存在。因而咱们找到社团的代表,就能了解整个社联合构概貌。相应的,每个社团也可由社团代表所标识。如果咱们找到了正确的社团代表,不光能够进行社团区分,还能得到社团内部结构。依据协同过滤引荐的老友体系
  1依据代表能量的网络社团发现算法
  1)获取相关的网络邻接数据,核算D和A矩阵。
  2)使用D-1A矩阵核算其非平凡特征值NE与对应特征向量NEV。
  3)设定两个节点亲疏关系为R
  R(i,j)=-llxi-xjll,
  这里的xi表示矩阵NEV中第i行的值。
  4)代表功能量竞争进程如下
  Diternum(i,k)=dampCo*Dhernum-1(i,k)+(1-dampCo)*(R(i,k)-MAX{C(k,i)+RG,k)1)
  D(i,k1表示节点i依据k及其它节点与自己的亲疏关系,向节点k颁发代表功能量。其间,D(k,k)表示第k个节点自身所具有的代表潜质功能量,dampCo是衰减系数。
  5)社团个数确定
  当检测出的社团数目不再跟着新的特征向量增加而增加时,社团个数即为该网络最佳社团区分数目。
  6)社团代表检测
  核算代表调集RNS={kIC(k,k)+D(k,k)>0},这些点即为社团的代表节点。
  c(k,k)+D(k,k)表示节点k从自身潜质上和其它成员对该节点k的认可度上代表该社团的程度。
  7)社团成员检测
  关于序号为i的社团,寻觅MSi={KIC(RNS(i),k)+D((k,RNS(i))>0),该调集中的成员为第i个社团的成员。
  2依据项目类别类似性的协同过滤引荐算法
  (1)核算项目类别类似性
  在实践的SNS站点中,一切网络社团项被区分到若干不同网络社团类别中,每个大类中又有若干小类,然后构成一棵倒竖的树,如图1所示。
  直观上看,处于同一类其他项目明显比位于不同类其他项目在语义上具有更高类似性,由于两者在项目内容上更有共同之处。在不考虑用户评分的情况下,图1中社团a、b之间相关于a、c之间的类似性明显更高,即sim(a,b)>sim(a,c),由于a、b同归于类别A,而a、c分归于2个类别A、B。因而有必要将项目在类别上的不同类似性考虑进项目之间的类似性衡量。下面给出核算项目类别类似性的办法。
  界说1:将项目空间中一切社团项按所属类别描述成一棵倒竖的树,称为项目类别树。
  界说2:项目类别树的总层数称为项目类别树高度,记为Ht。
  界说3:项目i、j共同所属的项目类别称为i、j的公共类。项目i、j之间可能有多个公共类,且至少有一个公共类即项目类别树的根节点。
  界说4:项目i、j的公共类调集中距离项目类别树根节点层数最多的公共类称为i、j的最近公共类。项目i、j的最近公共类有且仅有一个。
  界说5:项目i、j的最近公共类在项目类别树上所位于的层数称为该最近公共类的高度,记为HNC(i,j)。当HNC(i,j):1时,项目i、j的最近公共类即为项目类别树的根结点。
  例如在图1中,项目类别树高度Ht=4,关于社团c与社团g而言,最近公共类是类别B,相应的HNC(c,g)=2,由此社团c、g之间的类别类似性simc(c,g)=0.5。
  在实践的SNS网站中,有些社团项可能归于多个类别,关于这类项目,需求别离核算出当该项目处于不同类别时与相比较项目的类别类似性,然后取其间的最大值作为两者的类别类似性。在图1中,社团h既归于类别c又归于类别D,关于社团c与社团h的类别类似性衡量,需求核算出社团h
  归于类别c时simc(c,h)=0,归于类别D时simc(c,h)=0.5,然后simc(c,h)=max(0,05)=0.5。
  经过上述办法,能够得到方针项目i与n维项目空间中其他项之间的类别类似陡,并用一个n阶对称矩阵RCS表示出来。RCS中元素值为相应2个社团项的类别类似性。关于图1中的项目类别树,能够得到如下的项目RCS表。
  (2)核算项目评分类似性
  关于n维项目空间I=(j1,j2,…,jn),选用衡量办法核算方针项目i与I中项目之间的评分类似性sitaR(i,jg),其间,jg∈I且i≠ig:g=1,2,…,n。
  (3)核算项目归纳类似性
  界说6项目归纳类似性sims(i,j)为项目评分类似性simR(i,j)与项目类别类似性simC(i,j)的加权组合值,即
  simS(i,k)=(1-α)sireR(j,k)+αsimC(i,k)
  其间,α为权重系数,且满足α∈[0,1]。
  在得到方针项目与项目空间中其他项的评分类似性和类别类似性后,即可核算得到方针项目与其他项的归纳类似性。
  (4)生成引荐成果
  挑选归纳类似性最大的前K个项目作为方针项目i的最近邻居项目调集Inei=(j1,j2,…JK),i不归于Inei且i与Inei中项目jk之间的归纳类似性sims(i,jk)(1≤k≤k)由大到小排列,则方针用户u对项目i的评分Pu,i能够依据u对Inei中各项的评分数据进行加权均匀迫临得到。经过上述办法猜测得到用户u对其一切未评分项的评分,按Pu,j值从太到小取前N个项目组成引荐集Irec=(i1,i2,…,N)
  引荐给方针用户u,即TopN引荐,完成整个引荐进程。
  试验成果及剖析
  试验将本文办法,依据协同过滤引荐的SNS网站老友体系与常规的选用Hash散列的SNS网站老友体系进行比较和剖析。试验成果如图2所示。
  由图2可知,依据协同过滤引荐的SNS网站老友体系在音讯传达时,音讯需求发送服务器更少,在相同环境下,服务器接收到音讯更少,宁波seo优化音讯处理压力越小。服务器的功能损耗越小,SNS网站老友体系更安稳。
  结束语
  跟着SNS网站数量不断增加,服务器功能问题成为网站规划扩展的瓶颈之一。选用Hash散列战略分配用户SNS网站老友体系疏忽了SNS最重要的特征,将具有相关兴趣的人集合在一起。本文提出了依据协同过滤引荐的分配战略,选用代表能量的网络社团发现算法发现网络社团,并在此基础上引荐最合适的网络社团给用户,然后将用户分配到该社团所在服务器上来缓解音讯传达时服务器功能问题。试验成果表明,该办法能有用进步服务器功能。因而也使用到了国家863科技项目:新一代高可信网络——依据高可信网络的视频共享示范使用。
  本文转载自
  宁波seo优化www.leseo.net
  补充词条:宁波谷歌优化  宁波网站seo优化  宁波seo排名  宁波网站排名优化  宁波seo外包