摘要: 对比介绍了XML言语与HTML言语以及查找引擎的作业原理和相关的几项技能,规划了依据XML的查找引擎的模型,介绍了模型的规划思维及大体结构。模型包含机器人模块、转化模块、解析模块、索引模块和查询模块这几部分。
要害词:XML;HTML;查找
1 引言
HTML-Hypertext Markup Language,即超文本符号言语。以其简略精炼的语法、极易把握的通用性与易学性,使互联网也才得以遍及发展以至今日的辉煌。然而,跟着网络应用的发展,呈现了Web文件的杂乱化、多样化、智能化,别的相同的数据能否依据不同用户的需求以不同的作用、方式、表达再现出来也是人们关注的问题。可扩展符号言语就是在这样的背景下应运而生,以XML为根底的新一代WWW环境是直接面临Web数据的,不仅可以很好的兼容原有的Web应用,并且可以更好的完结Web中的信息共享与交流,跟着XML的广泛应用,依据XML文档的查找引擎模型就成为人心所向。
2 查找引擎的作业原理
一般说来,查找引擎由查找器、索引器、检索器和用户接口四个部分组成。
2.1 查找器一抓取网页
查找器依据必定的网页收集策略和规划,调度运行网页主动查找软件如Crawl、Spider等,对互联网上的网页进行快速有效的收集,并将它们存入查找引擎的网页数据库中。
2.2 索引器一处理网页
索引器的功用是了解查找器所查找的信息,从中抽取出索引项用于表示文档以及生成文档库的索引表。此外还包含去除重复网页、分析超链接、核算网页的重要度功用等。
2.3 检索器一供给检索服务
检索器的功用是依据用户的查询在索引库中快速检出文档,进行文档与查询的相关度点评,对即将输出的成果进行排序,并完结用户相关性反应。
2.4 用户接口一界面
用户接口的作用是便于输入用户查询、显现查询成果、供给用户相关性反应,分为简略接口和杂乱接口两种类型。简略接口只供给用户输入查询串的文本框,杂乱接口可以让用户对查询进行限制。
3 依据XML的查找引擎全体规划
依据XML的查找引擎的总体结构和一般的依据HTML的查找引擎相同仍然包含网页收集、索引以及用户查询这几大模块,但是,因为HTML言语与XML言语并存,必需有把HTML格式的文档转化为XML格式的转化模块。别的针对XML文档的特色,树立索引之前需要提取XML文档的文本信息和结构信息,这个作业由一个XML解析器来完结,所以在索引模块中应参加一个XML文档解析器,文中把参加解析器后的索引模块称为解析索引模块。
所以依据XML的查找引擎应由网页收集模块、HTML到XML转化模块、网页解析和索引模块、用户查询模块这四部分组成。如图1所示。
4 模块规划
4.1网页收集器模块
依据XML的查找引擎的网页收集器模块和依据HTML的一般查找引擎的网页收集器功用相同,
宁波网站优化它们都是一个Robot程序经过在Internet上一刻不停的漫游,抓取网页资源,一起定时浏览己存储在自己数据库中的网页,以避免网页过期导致的无效链接。机器人和web站点的web服务器经过HTTP ( Hypertext Transfer Protocol)协议进行交互,从Web站点下载XML文档和HTML文档。
4.2转化模块
机器人模块下载的文档包含HTML文档和XML文档,而索引器要为XML文档树立索引,有必要把HTML文档转化为XML文档,这就需要有个转化器。
转化办法首要有:HTML文档直接向XML的转化;使用XHTML进行转化;使用智能代理进行转化。文章使用了网上的转化东西(http: //www.html2XML.com/Html2XMLIntro. asp)这个转化东西,可以对网络HTML格式资源的URL或上载一个HTML文档进行转化为XML,输出XML文档格式,经过IE5.0内嵌的样式表进行显现,还可以下载XML2html.xsl东西把XML文档转化回HTML文档。
4.3解析索引模块
依据XML查找引擎的解析与索引模块是整个查找引擎最要害的部分。XML文档是一种半结构化的数据,它的数据包含结构和内容两部分,在对它树立索引前首要有必要对它进行解析,将结构信息和内容信息别离提取出来为它们树立索引。在对曾经的HTML文档数据树立索引时,需要保存的信息首要是文档中的词项信息,就是某一个词项在那篇文档中呈现,呈现了几回以及呈现的位置,所谓的词项便是在检索的时候用户可能输入的要害词。对XML文档数据树立索引时,要保存更多的信息。首要当然是标签间的数据信息,别的还有标签信息和文档中标签的嵌套层次信息。衡量索引的好坏是看它自身占有多少额外的磁盘空间和查询时的检索速度。
解析与索引模块要完结的功用包含两部分:对XML文档的解析和对解析后提取的内容信息和结构信息树立索引。
4.3.1解析
XML文档的解析是经过一个解析器来完结的,解析器的首要任务是提取XML文档的内容信息和结构信息,它担任对输入的XML文档进行解析,生成DOM树,DOM树生成后,对树的每个节点做个符号,这个符号在它所处的文档中是唯一的,即一个符号唯一标识一个节点,这可以便利津立素引。咱们采用了Apache Software Foundation供给的DOM软件包xercesl.3.1 XML解析器来完结文档的解析。
4.3.2索引
索引的组织方式对于查找引擎的检索效率起着要害作用,依据XML的查找引擎也不例外,索引器就是用来为文档树立索引的。因为对XML文档的索引既要对标签标示的内容树立索引,又要对标签自身树立索引,所以XML文档的索引文件比HTML文档的索引文件要大。
采用传统倒排文件索引表,索引表有几种类型。有文档结构表、文档信息表、要害词索引表。文档结构表首要记载文档的标签信息;文档信息表记载文档元信息;要害词索引表记载文档内容信息。
4.4查询模块
与依据HTML文档的查找引擎相同,依据XML文档的查找引擎也要有其用户检索机制,即本系统中的查询模块,根本进程都是用户输入要害词,查找引擎返回与要害词相关的网页网址及该网页的简略描述。
5 结束语
跟着XML的不断完善,该技能必将发展成为将来IT业的主流,而依据XML文档检索的查找引擎也将是未来Internet信息技能热点。它的前景将是十分宽广。
参考文献
[1] 王海波,姜吉发.XML查找引擎研究[J]核算机应用研究,200118(4)
[2]史艳,李伟生.依据XML的查找引擎技能的研究与规划[J]核算机工程与规划,1999 (9)
[3] 胡师彦.XML原理与应用[[J].哈尔滨商业大学学报,2001,17(4): 55-58
作者简介:吴启明(1973- ), 男, 湖南浏阳, 武汉大学硕士, 讲师, 研究方向为数据发掘,XML数据处理,个性化查找。
本文转载自
宁波网站优化www.leseo.net
补充词条:
宁波谷歌优化
宁波网络seo公司
宁波seo推广公司
宁波seo优化公司
宁波网站seo优化