宁波seo优化专栏

宁波seo优化:使用服务器日志搜索引擎优化搜索

发布时间:2018-12-31 22:26:58
  创建网站后,有必要考虑如何让您的网站让更多人了解如何吸引更多人访问,以赢得更多潜在客户。很多方法可以促进,例如,你可以在路灯箱,电视频道和纸上做广告,但这种促销的价格有点贵或者你你可以添加到BBS等热门网站吗?链接,或只是发送电子邮件来宣传自己,但情况不是很有效。点点“小游戏”的感觉可能更适合推广这些个人主页。一方面,搜索引擎注册方法具有积极作用,其影响相对较宽,其有效持续时间长。文主要介绍了SVM分类的原理,解释了如何使用增强的SVM算法从用户行为日志中学习更新提取功能来回答根据不同用户组的需求,然后使用Nutch创建一个搜索引擎来检查我们的方法。键词:支持向量机,行为日志,恢复函数; Nutch,搜索引擎中图分类号:TP393文献标识码:A文章编号:1009-3044(2008)21-30420-02关于使用服务器日志搜索引擎的研究摘要:该网站已到位在未来,我们需要考虑创建自己的网站,让更多的人知道如何吸引更多的人。问它可以增加客户数量。很多方法可以宣传,例如,为电视和平面广告做广告或宣传Lightbox,但这种昂贵宣传的代价是昂贵的,或者你可以,一些人气网,BBS,或者在其他网站上面添加自己的链接,或者只是在电子邮件上列出的人推广自己的网站,但这种情况不是很有效。且“减少消费”的感觉可能更合适。些人在家做广告。比之下,已保存该文档介绍了支持向量机(SVM)类别的理论,并解释了如何从用户更新的日志恢复研究中改进SVM算法的使用。能满足不同用户群的需求,最终使用Nutch构建搜索引擎来验证我们的方法关键词:支持向量机;用户行为日志;恢复功能; Nutch的;搜索引擎在线用户在功能,宁波seo优化智能和搜索引擎恢复方面有越来越多的需求,应该提供更准确,可靠和量身定制的搜索结果。取功能的执行对于提取系统的成功是必不可少的。业人士认为,当前搜索引擎的搜索功能仍然存在两个主要缺点:首先,没有真正的解决方案。关性是指搜索词与页面之间的关系程度。过链接,字体和位置等表面特征,无法真正判断搜索术语和文章的相关性。二,简化研究成果。搜索引擎上,搜索相同单词的结果是相同的。显然不满足访客。搜索引擎技术的改进和优化直接反映在搜索结果的排名中。复功能的任务是测量存储在数据库中的数据对象与用户请求之间的相关性。复系统根据相关程度对数据库中的对象进行排序,并将它们返回给用户。关程度取决于用户的判断并且是主观概念即使同一用户在不同时间和环境的那些不相同,也难以保证不同用户的判断的一致性。统的文档检索系统通常基于矢量空间模型或语言模型,搜索函数直接由启发式方法而不是学习方法定义[1]。统根据用户的行为日志导出用户偏好,然后使用自动学习方法的SVM算法定期学习更新恢复功能。志分析当用户按搜索引擎搜索时,他们通常会返回大量结果。他们查看搜索结果时,如果他们需要所需的信息,他们会点击链接,仔细阅读,有时下载。页将立即关闭,即可以通过点击与否以及访问时间来确定用户的信息需求。Web日志记录用户的访问时间和用户访问的URL。过净化数据,识别用户并识别会话,用户可以理解用户的外部声音。户并获得他的偏好。统日志记录有关网站访问者的时间和频率的信息。志分析应仅对此信息执行统计分析,以搜索经常访问的耗时的网页。户认可的感兴趣的网页,然后搜索引擎通过一些算法增加这些网页的权重,使得它们在搜索结果中排名更高。们认为,对于每个搜索到的单词,用户感兴趣的网页的相关性大于放在前面并且没有单击的页面[2]。系统记录的测井信息如图1所示:SVM算法原理Svm是在现代统计理论基础上发展起来的一种新的学习方法。Svm分析线性情况并找到最佳分割超平面以分离不同类别的样本。于非线性情况,使用映射函数将小尺寸的线性不可分离样本转换为大特征空间,以使它们线性可分离。大间隔超平面说,不仅两种类型可以正确分离,而且分类平面是样本中最大的平面。分类超平面的方程x•w + b = 0.我们将线性分为一组学习样本(xi,yi),i = 1,2,...,nx∈RN ,y∈{-1,+ 1},满足条件:yi(w•xi + b)-1≥0,i = i = 1,2,...,n,得到分类超平面d最大区间,我们要解决以下优化问题:这个双拉格朗日形式的优化问题如下:为了解决优化问题,我们得到了线性最大区间分类函数。定x的未知样本,仅计算分类函数的符号,并且可以评估x所属的类别。一个线性不可分割的情况下,一个术语的松弛I≥0可以被添加到的条件,应力松弛到义(ⅹⅰ•W + B)≥1-ξ,ξ≥0,I = 1, ......此时此刻。函数变为,其中C是可调参数,表示对错误的惩罚程度。

宁波seo优化:使用服务器日志搜索引擎优化搜索_no.81

  C越大,罚分越大。应的双重问题是:对于非线性问题,引入了核函数技术。
  重问题仅涉及学习样本之间的内部产品的操作,该操作可以由位于原始空间中的功能实现。据相关的功能理论,只要核函数K(xi•xj)满足Mercer的标准。件,它对应于转换空间中的内积。果正确选择核函数,输入空间中的线性不可分问题可以转化为函数空间中的线性可分问题。

宁波seo优化:使用服务器日志搜索引擎优化搜索_no.141

  
  习恢复功能本文档使用基于机器学习(排名SVM)的文档检索方法来学习每个查询术语的检索功能。
  该方法中,文档被表示为测量其与查询项之间的相关程度的特征向量,然后在这些特征向量之上定义的检索函数(排序函数)是从学习数据中学习。们选择线性恢复函数为rel(di,q)= w•Φ(di,q),Φ(di,q)是文档的特征向量,w是特征向量权重,因此学习恢复功能实际上是学习和优化w。档的特征在学习分类函数(提取函数)的问题中,文档根据询问词表示为特征向量,目标是从数据中学习学习,可以根据文档和请求的相关性对文档进行分类。

宁波seo优化:使用服务器日志搜索引擎优化搜索_no.86

  能。

宁波seo优化:使用服务器日志搜索引擎优化搜索_no.34

  
  被称为请求的特征向量的原因取决于描述文档和请求之间的相关性的特征向量,而不是文档本身的属性。此,每个请求所依赖的特征向量是“请求对象”数据对。了特征向量之外,训练数据还包括关于“请求 - 文档”数据对的相关性确定信息。关性判断是指文档与请求之间的相关程度的声明。关性判断可以是绝对的(例如,对象A是链接的,对象B没有链接而对象C是居中的)或相对的(例如,对象A比对象B)。

宁波seo优化:使用服务器日志搜索引擎优化搜索_no.17

  对相关判断也称为偏好判断。于每个查询词,我们认为感兴趣的网页与用户的相关性大于先前排名的网页的相关性,而不是在返回的搜索结果列表中点击。果查询词q在检索的文档集中,则文档di的相关性大于dj:di> q dj,对应于w•(di,q)> w·Φ(dj,q)。Φ(di,q)是反映查询词和文档的相关性的特征向量。档向量化首先选择和分配实体。过分析,我们的文档元素向量由一类实体和查询词/文档特征组成。sort函数是从现有的搜索函数中获得的。于查询的每个单词,我们只考虑结果的前100条记录,并定义28个排名函数(rank1,2 ...,10, 15,...,100)。设置排序功能之前,为功能分配值1或0。如,如果排名第三的查询字的文档的排序特征向量是(0,0,1,...,1),如果文档没有出现在前100个记录中,则向量特征等于零。们可以根据排序函数对原始搜索结果进行排序,并执行混合排序的不同搜索功能。询/文档字功能指示查询词与文档之间的关系,由查询词的出现次数(TITLE,H1,H2,...)表示。SVM原理的分类近年来,SVM算法已经被广泛用于解决功能学习问题并且已经表现出优越的性能。研究被1976年开始的Robertson和Jones视为排名问题。们提出了一种独立的二元搜索模型来估计相关的可能性。Joachims根据最大区间原则处理学习排名函数的问题,并提出排名SVM(排名SVM)算法,其目的不是学习相关性的概念,而是学会直接优先考虑事项。些算法使用的训练数据是相对相关判断信息,即按相关性排序的有序样本对[4]。系统必须参考该方法学习排名功能。di> q dj时,w•Φ(di,q)> w•Φ(dj,q)将查询文档对转换为特征向量作为SVM的输入,并获得w的值学习。档的特征向量对应于空间的点,并且可以通过投影超平面的每个点来对文档进行排序。造最优超平面的方法类似于SVM分类:对于线性不可分割的情况,引入游戏变量以增加间隔距离并且应力变为w·Φ(di,q)≥w•( dj,q)+ 1-ξij,优化问题变为:其中C是分类间隔和学习误差之间的折衷控制参数,其中c等于0.1。验结果我们使用Nutch构建了自己的搜索引擎,并在中文[5]中添加了分词模块。实验中,该引擎的搜索引擎是校园网(www.sut.edu.cn)。旦用户输入了查询词库,它就会显示出来,如图2所示。旦通过排名SVM算法学习了训练,就可以获得新的排名函数。创建用户行为分析之后,用户再次进入学生。究结果如图3所示。训练过程中,我们使用线性核函数SVM取c = 0.1,最小权重Wmin = 0.02。验结果表明,该算法能够准确分析站点用户的常见行为点,并自动学习更新原始恢复功能,将频繁访问的页面置于前台,允许用户导航以满足网站用户的需求。而,系统仍然存在一些缺点,需要进一步研究合并相似查询词和分组用户兴趣的问题[6]。
  本文转载自
  宁波seo优化www.leseo.net
  补充词条:宁波seo网站优化  宁波seo排名  宁波seo哪家好  宁波网站seo  宁波谷歌优化