宁波seo优化专栏

基于搜索引擎的校园网站信息监控体系的规划与

发布时间:2018-12-08 22:11:28
  摘要:互联网的开展为常识与信息的传达提供了前所未有的便当,但一起也为不良信息的传达提供了条件。高校作为互联网运用与研讨的前沿阵地,信息安全尤为重要。为了避免校园网上不合法信息的传达,完结对网上信息内容的自动监管,保护网络信息的安全,本文规划并完结了根据查找引擎的网站内容监控体系,它自动地扫描校园网网站,获取网站内容信息,运用关键词匹配技能及时发现包含灵敏词的网站,并将成果及时提供给网络办理员。经过运用本体系有效地避免了不合法信息在校园网中的传达,完结了对校园网站的自动监控与办理。
  关键词:信息安全;内容监控;校园网络;分词处理;查找引擎
  中图分类号:TP393.18文献标识码:B文章编号:1673-8454(2011)15-0034-03
  一、高校信息安全的现状
  跟着高校信息化建设的快速开展,校园网络已遍及校园的各个部分,一方面校园网站的数量迅速增长,精品课程等网站越来越多,网络已成为师生作业、学习、日子不行缺少的一部分;另一方面校园经过校园网站发布教学安排、学生办理、科研动态诸多方面的信息,校园的各项作业都与其形成亲近的关系。然而网站信息安全办理却不容乐观,信息安全形势日趋严峻,宁波网站优化由于网站大多是涣散式的办理,网站办理人员安全防范认识不强,给计算机病毒和网络黑客以待机而动,有的部分主页屡次遭到黑客的攻击,网页上的数据被更改,打乱了校园正常的作业次序。校园的电子留言板、布告板便利了师生沟通,但一起也为不合法言辞等信息提供了沟通的场所,一些不法分子运用网络传达小道消息,向高校散布有害信息,打乱校园次序。有的学生因在平时的学习、日子中遭到一些委屈,就随意在网站中宣布一些十分过火的言辞,或对校园教师进行人身攻击,损坏了校园形象,因此网站信息安全监控成为亟待解决的问题。
  现在由于缺乏成熟的、针对特定网络运用下的信息内容监控体系,对网站内容的检查都是经过人工来完结的。可是这种办法不能做到实时地监控,而且功率低下,无法适应网络开展的需要。人们迫切需要计算机辅佐来进行网络内容的自动监控。
  二、校园网络信息内容监控的现状与剖析
  现在对网络信息内容的监控首要是运用网络安全审计体系,通常布置在校园网络出口,经过对网络出口链路数据的镜像或许分光后从旁路接入审计体系,实时捕获网络数据包,还原并剖析数据包的内容,能够完结对灵敏关键字、不合法URL的监控与过滤。这一类型的监控体系能够及时发现包含有不合法词汇的网站,及时屏蔽包含该词汇的网页,运用户免受不合法词汇的影响。但这种监控的缺点是它是一种被迫的监控形式,只有经过出口拜访的内容中包含灵敏词汇才干被监控到,而且无法得到不合法内容的来源,不能对整体的网络和特定网站中的网页信息进行监控。
  根据这种现状,笔者规划完结了一个根据查找引擎的网站内容监控体系。它自动扫描整个网站,取得网站的网页内容,并对内容进行预处理剖析,运用关键词匹配技能对成果进行匹配,及时发现网站中包含的不合法词汇,并将成果提供给办理员,便利办理员对网络内容进行监控,还能够与报警体系相关联完结邮件或许短信息报警,使网络办理员在第一时刻采纳相应的处理措施,及时阻止这些内容的传达。然后完结对网站信息自动、实时的监控。
  三、本体系的规划与完结
  网站内容监控的过程其实就是对校园网站内容进行查找、剖析、比较的过程。首先要获取被监控网站的网页作为数据源,然后对网页数据内容进行剖析预处理,为搜集到的网页树立索引数据库和分词库信息。经过与用户设定的灵敏关键字或URL链接信息进行比照匹配,从分词库中查找到包含灵敏关键词的网页URL,再经过网页索引在网页信息数据库中查找并回来整个网页的全部内容。经过以上剖析与研讨,网站信息监控体系首要由以下五个功用模块组成:网站内容收集模块、网页剖析预处理模块、自动分词模块、查询匹配模块、成果反应模块。为了进步查找运行的功率本体系运用C++多线程规划完结。处理流程如图1所示。
  1.网站内容收集模块
  收集模块首要完结获取网页内容、剖析链接、存储网页信息的功用。收集模块的核心是网页抓取程序,网页抓取的过程是从URL库(初始为用户指定的URL调集)取得输入,解析URL中标明的Web服务器地址、与服务器树立衔接、结构请求消息体并发送给服务器、获取服务器回来的网页信息,最终将取得的网页数据存储在网页信息数据库。咱们运用网页抓取程序自动对指定IP范围内的网站进行遍历,自动发现网站信息。网页抓取程序将沿着网页上的链接依照深度优先算法进行网页搜集,然后从本网页中解分出所包含的的URL链接信息,看是否已经被拜访过,将未拜访的URL加入到URL列表中供网页抓取程序继续查找,并从URL列表中移除已拜访过的URL,最终将URL、IP地址、收集时刻、数据长度信息保存到数据库树立网页信息数据库,收集模块结构如图2所示。
  2.网页剖析预处理模块
  网页剖析预处理模块首要是为收集模块发生的网页信息数据库树立索引信息,并生成索引网页库。经过运用索引网页库咱们就能够在网页信息数据库中快速定位到给定URL所指向的记载。假如不对网页信息数据库树立索引信息,也能够经过顺序查找的办法完结URL到指定记载的过程,可是会耗费大量的I/O,数据量增大的时候不能够满足快速呼应的要求,因此网页预处理的第一步就是为原始网页树立索引,完结图1中的索引网页库,然后就能随机存取其所指向的网页,完结快速查询与匹配。咱们对URL选用MD5算法生成URL摘要,发生16个字节的仅有标识,然后对URL仅有标识信息进行排序,生成一个有序的URL索引数据库。在查询匹配模块中能够运用二分查找算法在网页索引库中快速查找到相应的网页文档编号,然后再经过文档编号在网页信息数据库中查找到对应的网页。
  3.自动分词模块
  假如直接在网页数据库中查找与咱们所设置的关键字或许文本信息相匹配的网站,查询功率将无法满足咱们快速查找的需要。为了进步关键字与网页数据库中的内容匹配速度,咱们需要把整个网页的文本内容字串分隔成词串,将整句切割成小的词汇单元,即分词处理。然后再为分词库树立索引,来进步查询的功率。所以分词是对中文文本进行快速查询匹配的条件。
  在本体系中咱们选用根据字符串匹配的分词办法,这种办法又称为机械分词办法,运用一部根本的分词词典(常用词词典)进行串匹配分词,它依照一定的战略将待剖析的字符串与已设定好的词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。在运用逐词匹配算法的一起,咱们还运用计算的办法来识别一些新的词,一起将这些新词添加到分词词典中。咱们把串匹配和串频计算结合起来,既发挥匹配分词切分速度快、功率高的特色,又运用了计算分词结合上下文识别生词、自动消除歧义的优点。详细的流程为先取网页信息数据库中的HTML源代码,对源代码进行过滤,提取文本内容,然后调用分词程序,对文本内容进行分词处理。将得到的每个词串连同它地点的URL、文件名、浏览量作为一条记载,保存到分词库里,供查询匹配模块运用。
  4.查询与匹配模块
  该模块首要完结了依照用户设置的关键字在网页信息数据库中查询包含灵敏词记载的功用。首先将用户设置的关键词提交给查询署理,查询署理检索分词模块生成的分词索引表和索引网页数据库,并经过多表衔接在网页信息数据库中查询回来详细的网页源代码信息,将回来信息提供给成果反应模块。
  5.成果反应模块
  此模块首要担任把前四个阶段树立好的索引网页库、分词库、网页信息数据库进行处理后将成果出现给用户,完结根据Web的成果显示功用,包含响运用户的查询检索和记载用户的行为。咱们运用ASP.NET2.0进行网络程序规划,用户能够经过网页形式查看监控的成果,回来的成果包含网站的URL、IP地址、灵敏关键字的方位等信息。也能够经过装备电子邮件网关将监控成果以电子邮件形式自动发送给办理员,而且能够依照IP地址、关键字等进行成果的查询和计算,一起将用户查询的内容和查询时刻等信息记载到日志文件中。成果反应模块还能够与专用SMS短信息收发渠道互联完结短信息报警功用,使网络办理员在第一时刻发现灵敏信息并及时做出相应的处理。
  四、结束语
  本体系结合查找引擎技能,对网站内容的获取、存储、剖析、匹配问题都提出了较好的解决方案,经过对指定IP地址范围内或特定的网站内容进行自动扫描、分词、预处理后与事先设定的关键字进行匹配,及时发现违规信息,对网页篡改、不良信息的传达等能够及时报警,完结了网站内容的自动监控与办理。
  此体系模块化规划,灵活可扩展,很简单扩展成一个集文字、图像监控于一身的综合监控体系,而自身体系结构无需大的变动。此体系除了在校园网中运用外也很简单推广到其他行业运用,如网络提供商、各企业事业单位以及需要对网络内容进行监控的单位或部分。此外对体系进行晋级还能够完结自动查找网站,及时发现未备案的网站和私自架设的网站信息等功用。
  参考文献:
  [1]PiotrKArakis.Anearlywarningandattackidentificationsystem[C].Dudapest,Hungary:Proceedingof16thAnnualFirstConference,2004:35-41.
  [2]陈红松,胡长军.网络内容监控与预警体系的规划与完结[J].计算机工程与规划,2009,30(1).
  [3]林海霞,原福永,陈金森等.一种改善的主题网络蜘蛛查找算法[J].计算机工程与运用,2007,43(10):174-176.
  [4]梅龙宝.赵毅校园安全办理信息体系规划与完结[J].中国教育信息化,2007(4).
  [5]熊馨,康国磊,胡光武等.根据WebService的分布式网站内容监控体系规划[J].电脑常识与技能,2009(18).
  [6]孙红杰,方滨兴,张宏莉.一种新的大规模网络自动预警办法[J].电信科学,2007(1):74-78.
  [7]晋耀红.根据语义的文本过滤体系的规划与完结[J].计算机工程与运用,2003,39(17):22-25.
  [8]易青松.根据NDIS的网络监控体系的规划与完结[J].计算机工程与规划,2006,27(15):91-98.(修改:金冉)
  本文转载自
  宁波网站优化www.leseo.net
  补充词条:宁波seo网站优化  宁波谷歌seo  宁波谷歌优化  宁波网络seo  宁波网站排名优化