行业新闻

[宁波网站建设]网站内容检索系统的设计

发布时间:2019-07-30 06:26:40

  结合网络蜘蛛,模糊匹配和Hilltop Enhanced算法,本文档构建了一个网站内容检索系统,该系统执行网站页面浏览,搜索命令处理和网页内容匹配等功能。确定研究结果的相关性和资源管理。可以有效地帮助监管机构加强对信息的监控和管理。站内容搜索;网络蜘蛛;模糊匹配; Hilltop算法中图分类号:TP393文献标识码:A文章编号:1009-3044(2009)05-1098-02网络蒋明亮1内容恢复系统设计,李志清2(1。算机科学系仲恺农业工程大学工程学院,宁波网站建设广东广州510225; 2.广州市党校研究所,广州510070)摘要:结合网络蜘蛛技术,模糊匹配并从山顶改进了算法,该文档设计了一个Web内容检索系统,可以捕获网站页面,处理提取命令,匹配Web内容,计算相对度和管理系统资源等,有助于监督服务有效地监控和管理基于Web的内容。键词:Web内容检索;网络蜘蛛;模糊对应;山顶算法前言目前,计算机网络信息技术发展迅速,对人类的发展起着积极的作用,但也有负面影响。响,如网络色情信息,虚假信息,政治和经济谣言等,将对社会造成一定的伤害,也会影响政治,宁波网站建设经济和稳定,甚至会危害国家安全。文件中开发的网站内容检索系统可以满足各监管机构的迫切需求,加强对信息的监控和管理,帮助他们发现有害,虚假和反动的信息。网络上按时发布,并快速有效地完成工作。统整体结构的内容恢复系统包括三个部分:网页获取,模糊搜索和用户查询,如图1所示。页的获取部分主要包括IP数据库,网站内容收集器和Web资源库。IP数据库记录系统的IP地址以浏览网站,以便网站内容收集者可以使用它。站内容收集器用于基于来自IP数据库的信息从适当的网站获得相应的网页。Web资源库用于注册Web Content Collector以探索各种Web资源。糊恢复部分主要包括密钥字典库,中央资源管理器,模糊搜索器,命令处理接口,页面级确定器和搜索结果库。键字库维护用户输入的关键字和使用的关键字的记录。央资源管理器主要用于管理各种系统资源,包括IP信息,关键字信息等。

网站内容检索系统的设计_no.314

  令处理接口用于接收客户端提交的拉取请求命令,并将命令发送给模糊检索器执行。糊组件是系统的重要组成部分,负责基于各种资源和恢复命令的匹配操作,或者它可以根据早期恢复结果执行二次恢复,以实现更正确,更合理的程度和更多相应的。果更好。
  索结果库用于存储各种搜索结果。面级别决定因素可以确定搜索结果的匹配程度,并基于相关程度生成搜索结果网页。户的请求部分主要包括本地IP数据库,本地键盘库,本地资源管理器,提取控制发送器和本地提取结果,命令发送器提取负责根据用户输入信息和系统资源生成拉取请求命令,并在服务器系统上提交Run。统如何工作网站内容收集器根据IP或IP数据库URL信息访问相应的网站,从网站检索网页,并将其存储在页面资源数据库中。页。由客户端系统的用户生成的恢复请求由恢复命令发送器预处理并解释到服务器的命令处理接口,然后转换为可由客户端执行的命令。糊提取器。后,模糊搜索器根据订单信息从网页资源库中提取相应的Web页面(如果Web页面资源库没有Web站点的Web页面,则Web页面内容收集器是调用以获取网页)并执行关键字匹配提取操作以搜索相应的网页。名结果由页面级别确定器根据排序算法排序,结果记录在搜索结果数据库中或直接返回给客户。户还可以基于初始搜索的结果执行第二搜索,以进一步提高匹配程度和搜索结果的准确性。户端系统和服务器系统可以在资源管理器的控制下交换各种资源信息。要模块说明本系统采用C / S模式,分为业务终端系统和客户终端系统。

网站内容检索系统的设计_no.165

  务终端系统主要提供诸如网页浏览,恢复订单处理,网页内容一致性,二次检索,相关性确定和资产管理之类的功能。源。能。统模块的划分如图2所示。

网站内容检索系统的设计_no.367

  
  站内容收集器网站内容收集器由Web蜘蛛和URL提取器组成。Web Spider [1]技术是许多网络搜索引擎用于在互联网上获取网页的一种特殊技术,通过该技术进行优化并能够动态调整网页分析的深度。

网站内容检索系统的设计_no.63

  
  过组合URL提取程序提供的信息。索的页数。URL检索程序可以检索由Web蜘蛛程序检索的Web页面的URL,并使用特定的解析算法来过滤掉无效且明显不相关的URL信息以提高效率。

网站内容检索系统的设计_no.260

  及网页分析的质量。令处理接口负责将客户端系统提交的提取请求命令解释或转换为可由模糊检索器识别的命令。键组件是命令解释器,负责确定提取命令的语法结构和参数。复合法命令并将其转换为模糊检索器可理解的可执行命令。令处理接口可以集成到模​​糊检索器中,并作为单独的组件实现。糊检索器模糊检索器是系统的重要组成部分。基于各种恢复资源和命令执行映射操作,并将合格的Web页面保存在恢复结果数据库中。
  由网页获取模块,模糊对应模块,二次检索模块和相应的规则模块组成。页获取模块,用于从网页资源库中获取对应的网页作为恢复对象;模糊匹配模块负责根据匹配规则对检索到的对象进行匹配操作,搜索相应的网页并将其保存在搜索结果数据库中;恢复模块基于第一个恢复结果,并根据新的恢复命令和一致性规则进行检索;一致性规则模块负责制定各种规则和一致性参数。面级别确定器使用各种排序算法确定网页与搜索关键字的匹配程度,并按降序生成搜索结果页面以供执行搜索的客户端系统使用。索操作请求。序算法是页面级别确定器的核心,主要使用Google搜索引擎使用的简化版“PageRank与Hilltop算法结合”[2-3]。算法使得精确区分页面的对应程度成为可能。索命令提取命令发送器由参数获取模块,命令生成模块,指令提交模块和用于接收命令的模块组成。果。数获取模块用于接收用户输入的各种操作请求和相应参数。令生成模块使用根据用户的恢复请求获得的控制参数生成恢复请求命令。单提交模块负责将拉取请求命令发送到服务器系统。果接收模块被配置为接收服务器系统的用户恢复请求的执行结果,呈现给用户或保存在本地恢复结果中。束语本文结合网络蜘蛛,模糊匹配和Hilltop增强算法,采用C / S模式设计网站内容检索系统,结构,工作原理及主要功能模块。统主要提供抓取网站网页,匹配网页内容,确定敏感信息和资源管理等功能,有效提供监督服务支持,加强有效监督公共信息。
  本文转载自
  宁波网站建设 https://www.leseo.net
  补充词条:宁波网站seo  宁波谷歌seo  宁波网络seo公司  宁波网站seo优化  宁波谷歌优化