摘要:介绍欺骗网页的常用方法。文档分析了如何识别垃圾邮件页面,包括基于Web内容的垃圾邮件页面识别技术,基于链接结构识别垃圾邮件页面的TrustRank算法以及目前用于虚假页面识别的机器学习的分类法。用TrustRank算法和机器学习分类法来识别垃圾邮件页面提供了一些与作弊无关的多功能性和功能。后,提出了一些基于用户行为识别垃圾邮件页面的新想法。键词:搜索引擎;垃圾邮件页面欺骗网页的方法;识别垃圾邮件页分类号:TP393文献代码:A文章编号:1009-3044(2015)上26-0020-03Recherche搜索引擎技术使用LI LinAbstract:介绍了当前作弊模式Web垃圾邮件并详细分析了识别Web垃圾邮件的方法,包括基于Web内容的垃圾邮件检测方法,基于Identify Web垃圾邮件的TrustRank算法以及大多数分类方法。于识别网络垃圾邮件的TrustRank算法和学习机分类方法具有一些共同特征,并且具有与网络垃圾邮件无关的特征。弊模式。据用户的行为模式上传新想法,以识别网络垃圾邮件。键词:搜索引擎,网络垃圾邮件,网页作弊,网络垃圾邮件识别我们如何找到网站,除少数知名网站外,您可以直接将URL直接写入浏览器的地址栏。中一些可通过导航URL或收藏夹访问。余大多数网站实际上都在传输搜索引擎。现。外,根据2006年发布的“搜索引擎用户行为报告”[1],大约88%的搜索引擎用户只浏览搜索引擎结果页面的前三页( SERP)。此,对于网站的所有者,如何确保其搜索引擎在搜索引擎中执行搜索并且第一页被分类,从而带来许多需要相当大努力的商业机会。始网页的内容质量越好,越流行的网页应该排在搜索引擎结果页面的前面,但是一些网站使用不同的方法手动或自动创建网页。德。些网页不会提供给用户。何有效信息仅由搜索引擎欺骗,并且其在搜索结果中的排名更高。种类型的网页称为垃圾网页[2]。圾邮件页面的存在可能会损害用户,合法网站和搜索引擎。户需要找到他们想要的有用资源,但垃圾邮件页面提供了混乱的内容,导致严重的干扰和非常糟糕的用户体验。于合法网站,垃圾邮件页面的质量比他们差,搜索排名在他们面前,这是非常不公平的。于搜索引擎,垃圾邮件页面产生的糟糕用户体验将导致一些用户流失,而垃圾邮件页面将浪费搜索引擎公司的资源,因为Web爬行存储,评估,过滤和处理。圾邮件页面消耗大量的CPU,带宽,内存和磁盘资源[3]。此,搜索垃圾邮件页面一直是搜索引擎的关键问题。了欺骗垃圾邮件页面,决定搜索引擎中搜索排名的两个主要因素是网页查询关键字的相关性以及网页本身的重要性。一个是由网页的内容决定的,最后一个是由网页的链接结构决定的。此,我们可以根据链接提示,根据内容提示和垃圾邮件页面将垃圾邮件页面划分为垃圾邮件页面。圾邮件页面查询关键字和基于内容作弊的网页的相关性主要与查询单词的数量的倒数和与查询的单词相对应的文档的数量成比例。此,骗子经常开始为这两个因素创建垃圾邮件页面。们倾向于选择流行词来吸引用户的注意力,而对应于这些词的资源对于传统网站来说往往是稀缺的,因此减少了与搜索到的词相对应的文档数量,例如“下载”免费WIN10“,”自由速度“。Passion 7可以自由观看等,并且这些单词定期堆叠在页面的主体,标题和HTML标题中,以便经常使用查询的单词。

种类型的作弊称为关键字填充,但传统的搜索引擎现在几乎都能以这种方式识别垃圾邮件页面。有垃圾邮件的创建者使用自动化工具从搜索引擎的搜索结果中捕获摘要信息,以形成垃圾邮件页面的内容,从而使其与垃圾邮件具有高度相关性。容的关键字,以作为欺骗。是,由于大多数搜索引擎都会关闭分析,因此这类作弊很少见。一种作弊方式是,垃圾邮件的创建者会查找内容正常的页面,并且作弊的关键字会混合使用并混合使用,这使得关键字堆栈相对简单,更加混乱,如果互联网用户如果没有仔细阅读或搜索引擎没有语义识别,很难识别。述提示对于欺骗广告点击和访问流量很有用,但对于某些内容欺诈的垃圾邮件页面,他们无法完全实现目标,因为用户将关闭或离开网站。欺骗后不久的网页。后出现了一种称为不需要的伪装网页的技术。意味着垃圾邮件页面的制造商为搜索引擎和用户通过技术手段访问的浏览器准备两个版本的网页。期用户包括使用CSS来减少堆栈中关键字的大小,字体颜色是透明的或与背景颜色一致。今,它主要通过内容替换,跳转重定向,JavaScript脚本和其他技术来隐藏。于搜索结果中的链接提示的垃圾邮件页面的排名取决于链接结构和内容。接结构有一个非常重要的PageRank排名算法:它表明如果网页的网页质量越高,链接数越高,网页的质量就越高。圾邮件页面的制造商希望高质量网站的垃圾页面很难创建,但许多知名的博客,论坛和具有交互式WEB2.0功能的评论允许用户添加自己的内容。己的信息。果没有严格过滤此类网站,则可以使用该网站到达垃圾邮件页面的链接地址,以便为其他人创建婚礼礼服。圾邮件发送者使用其可控网站提供高质量,正常的网页,吸引用户的注意力,然后允许他们可以控制的许多普通网站指向垃圾邮件页面,从而提高链接质量垃圾邮件。罐技术。有一种叫做Link Farm的作弊技术。指的是网页制作者创建的大量垃圾邮件页面相互链接以提高垃圾邮件页面的PageRank值,从而提高排名。个不受欢迎的网页充满了链接,没有具体的实质内容。何基于特定Web内容识别方法识别垃圾邮件页面由于基于Web内容存在许多类型的作弊,因此很难找到常用的识别方法。此,一些特定的识别方法通常被设计用于某种作弊。于搜索结果的关键字堆叠和摘要抄袭垃圾邮件页面,某些内容功能可能被视为与普通网页不同,例如内容视图报告和压缩率最明显的内容。常,垃圾邮件页面的内容和内容压缩内容远远高于普通网页。外,超链接的比例,标点符号的比例,辅助词中的词的频率等等。可用于识别垃圾邮件页面。
于关键字mix type的垃圾邮件页面,请考虑使用语言模板。设字符串S = {w1,w2,w3,...,wn}是网页的内容。简化的二进制语言模型中,S字符串在页面上出现的概率是:设置一个低于该值的域值,这意味着字符串出现在普通网页上的可能性非常小,可以被视为垃圾邮件页面。以使用多个页面分析来隐藏垃圾邮件页面。献[4]表明,对于每个网页,搜索引擎和浏览器分别捕获两个副本,并比较两者之间是否存在显着差异以识别此类垃圾邮件页面。献[5]引入了一种朴素的贝叶斯分类算法来识别伪装垃圾邮件页面,并给出了很好的结果。于网页链接的一般识别方法上一节中介绍的垃圾网页识别技术并不普遍,而且非常被动:它仍在等待欺诈方法采取纠正措施相应的,甚至更晚的。面介绍的基于链接的结构和后面介绍的机器学习分类法与作弊方法无关,并且具有很大的通用性。TrustRank算法是一种基于链接结构识别垃圾邮件页面的标准算法[6]。算法的假设是页面A指的是页面B意味着页面A推荐页面B的内容,因此页面A的TrustRank值可以将部分属性传输到页面B.这意味着高质量的网页通常只标有高质量的网页链接。此,您可以首先创建一些具有权威内容或更多链接的知名网页,然后根据出站链接的数量将其TrustRank值分配给二级页面。照相同的方法使用TrustRank。递的值分配给第三层和第四层等。此,TrustRank值越小,顶级主页越远,它就越有可能成为垃圾邮件页面。后,可以定义阈值,当它低于该值时,它被认为是不需要的页面。于机器学习的通用识别方法近年来,随着机器学习算法的兴起,许多文献提出使用相关算法识别存储页面并取得了良好的效果。于存储器页面的识别本质上是二元分类问题,因此在机器学习中可以使用许多相应的算法。些算法的共同点是,首先将Web数据集分为学习集和测试集,然后对网页上的数据进行预处理,并删除数据中包含的不必要信息。括HTML标签,JavaScript脚本代码,大量现有图像等。下来,网页的内容特征(页面中的单词数,标题数,流行度关键字,页面压缩率等)和链接结构的特征(链接数,链接数,链接比例,PageRank值等)被提取为训练集。入导出输入和输出之间的映射,最后使用测试集检查映射。如,文献[7]使用支持向量机来对垃圾邮件页面和普通网页进行分类。持向量机是用于小样本的二进制分类的非常合适的算法,其最大化两个类之间的距离。[8]中,结合朴素贝叶斯方法和决策树方法的算法用于对垃圾邮件页面进行分类。献[9]受生物学启发,利用人工免疫系统的自学习和适应能力,提供基于免疫克隆选择算法的垃圾网页,以检测新的作弊技术。献[10]将网页的链接特征和内容特征引入到多层感知神经网络中,并利用其灵活的结构和非线性变换来有效地检测垃圾页面。圾网页识别技术的评估需要良好的评估指标,用于垃圾网页识别的技术实现。
同评估指标一般有三种类型的精确度,召回率和F1度量。确率定义为垃圾邮件页面的实际数量与垃圾邮件页面总数的比率,这反映了误报的比例。回率定义为判断为真实的垃圾邮件页面的实际数量与存在的垃圾邮件页面总数之间的比率,以及它是否反映了搜索的范围。F1测量是精确率和召回率的加权调和平均值的完整指标[11]。公式为:F1 = 2 *准确率*召回率/(准确率+召回率)。要和观点在过滤垃圾网页时,您必须将其与非常相似的搜索引擎优化(SEO)优化区分开来。
者之间的相似性旨在提高网站的排名,不同之处在于SEO在技术上仅限于高质量页面,
宁波seo优化由于搜索引擎技术的局限性,这些页面有望成为最重要的页面。误得到纠正和重新分类,而垃圾邮件页面则从搜索引擎中窃取,这些搜索引擎排列了应该在后台的低质量页面。确区分两者后,在过滤内存页面时,这不会对正常的SEO技术造成任何意外损坏。面提到的主要垃圾邮件识别技术实际上忽略了互联网用户的力量。实上,互联网用户的数量非常重要,如果他们能够充分发挥其力量,通常可以使用他们行为的分析和记录。年来,一些文献研究试图使用用户行为来识别垃圾邮件页面,但大多数都专注于被动行为。动行为主要基于用户在访问普通网页和垃圾邮件网页时不知不觉地显示的访问行为的差异,例如页面上剩余的时间,单击网页上的链接数以及与网页的交互次数。献[12]通过分析网络日志来识别垃圾邮件页面。文基于拦截手机骚扰手机:目前,360手机卫士,手机状态和搜狗数字通行证等许多应用提供提醒和骚扰用户报告的拦截呼叫,并提出基于用户的活动行为识别废物页面的想法。索引擎可以接受来自大量互联网用户的报告。大多数用户淹没同一网页并满足某些条件时,会对其进行标记或过滤。然,这只是一个想法。体实现必须考虑到很多关于算法的详细信息(例如,阈值数量超过大多数用户),为了防止恶意标签,要考虑独立的IP地址,程度标记信誉,垃圾邮件和相应的网站。仅警告信号被直接阻挡时,关系等需要进一步细化。
本文转载自
宁波seo优化www.leseo.net
补充词条:
宁波谷歌seo
宁波网站seo优化
宁波网站优化推广
宁波网络seo公司
宁波seo外包