摘要:随着信息技能的飞速开展和互联网的广泛普及,信息检索技能越来越遭到重视。阐述了查找引擎的产生与开展,并对查找引擎的核心技能、点评目标和作业原理进行了深入研究。介绍了一些闻名的查找引擎。在此基础上,对查找引擎的开展方向进行了预测。
要害词:信息技能;信息检索;查找引擎
中图分类号:TP311.52文献标识码:A文章编号:1007—9599(2012)14—0000—03
一、导言
信息技能现在迅速开展,Internet也得到了广泛的普及,网络上的信息量正在以指数趋势上升。其信息来历分布广泛,品种繁多。假如不能对信息进行有序化办理,用户将很难从如此海量的信息中提取出他们需要的信息。现在,查找引擎已经成为人们获取信息的首要手段之一。查找引擎就是在繁琐杂乱的互联网信息中经过特定的检索策略,对信息进行查找与分类,经过剖析用户提交的恳求,依照用户的要求和习惯进行组织,从而到达用户快速检索特定信息的目的。现在查找引擎供给的查找方法首要有整句、主题词、自由词等等,用以适应不同用户的需求。
二、查找引擎的产生与开展
蒙特利尔大学的AlanEmtage完成了开始的查找引擎,称为Archie引擎,Archie引擎能够在特定的网络中进行相关的信息检索。因为其作业原理与现代查找引擎十分挨近,咱们一般认为他创始了现代查找引擎范畴。查找引擎的开展大致经历过了三代:
(1)第一代查找引擎是1994年MichaelMauldin将JohnLeavitt的“网络爬虫”程序接入到其索引程序中的Lycos。因为结构和技能相对不成熟,它的查找速度比较慢,更新速度也不能满意用户的检索要求。
(2)美国斯坦福大学的DavidFilo和美籍华人杨致远合作开发成功了第二代查找引擎,它创立了一些用户关怀的目录,用户能够经过目录进行检索。
(3)Google的正式推出标志着第三代查找引擎的诞生。其集成了查找、分类、多语言支持等功能,同时供给了摘要、排序、快照等功能,另外与强大的硬件体系配合,大大改变了互联网用户检索网络信息的方法。第三代查找引擎首要结构如图—1所示。
查询接口的作用是用户进行交互,即提取用户的输入,并将检索成果回来。
检索器依据用户的需求,能够便利地索引库中查找相应的文档,依照相关度规矩进行重排后回来。
索引器负责对文档树立索引,使文档以便于检索的方法重新组织。
剖析器负责对搜集器搜集的信息进行剖析和整理。
信息搜集器的首要任务是对互联网上的各种信息进行搜集,同时记载信息URL地址(网络爬虫完成这项作业)。
图1查找引擎结构图
三、查找引擎的作业原理
查找引擎不是查找互联网,它查找的是预先整理好的索引数据库;相同,查找引擎也不能了解网页上的内容,它只能匹配网页上的文字。查找引擎的作业流程如图—2所示。
图2查找引擎的作业流程
查找引擎的作业流程可首要分为四个进程:经过网络爬虫(Spider)从互联网上依据相关算法(深度优先、广度优先)抓取网页,抓取网页后对网页中的信息进行加工,加工后将处理后的信息保存到索引数据库中。当用户在索引数据库中查找查询相关的信息资源时,查找成果经过查找引擎的处理后,对回来成果进行排序,展现给用户。即:
(1)使用网络爬虫从互联网上抓取网页:利网络爬虫,依照某种查找策略,沿着URL链接爬到其他网页,重复这些进程,并把一切爬过的网页抓取回来。
(2)树立索引数据库:对爬取到的网页进行剖析,提取相关要害信息,得到每一个网页针对页面中文字及链接中每一个要害词的重要性,屏蔽掉不重要的词语后,用信息树立网页索引数据库。
(3)处理用户的查询恳求:体系接收到用户要查询的要害字后,调用检索器进行查找,并将回来的成果进行相关度排序,最终依照优先度降序的方法存储在回来成果调集中。
(4)将查询成果回来给用户:查找成果以网页的形式将成果会集的回来给用户。便使用户检查。
依照上面的进程就能够简单的架构一个查找引擎体系供用户运用。现在有很多开源的查找引擎产品已经完成了上述相关内容,运用者只需要进行相应的装备就能够运用,大大的简化了查找引擎的开发。现在,比较流行的开源查找引擎有Nutch、Solr等等。
四、查找引擎的核心技能
查找引擎的核心技能包括索引技能和检索技能。
(一)索引技能
顺序查找,即经过线性匹配文本进行查找是一种不运用索引进行检索的例子。它无需对文档中的信息进行预处理。这种检索方法在文本较大时检索速度会变得十分慢,一般状况下不运用这种检索方法。
一种处理方法是对文档进行预处理,在文档间树立一种便于检索的数据结构,把这种数据结构称为索引。常用的索引方法首要有三种:倒排索引、后缀数组索引和签名文件索引。倒排索引的运用最为广泛。
倒排文件的索引机制是一种面向单词的机制,它能够极大地进步检索速度。倒排文件数据结构由词汇和呈现状况组成。关于文档中的每个单词,都有一个列表来记载单词在一切文本中呈现的方位(方位能够是单词的方位,也能够是字符的方位)。倒排索引技能对要害字的检索十分有用。倒排索引将文本当作单词的序列,所以当运用倒排索引处理如短语查询的杂乱查询时,需要花费较高的价值。运用后缀数组结构能够有用地处理这些杂乱查询,但它的生成进程比较杂乱,所以运用状况不如倒排文件运用的广泛。签名文档的方法现在已经不被运用,故不做相关的介绍。
(二)检索技能
常见的信息检索模型依据查找信息的完成方法不同分为:布尔模型、向量空间模型、概率论模型和神经网络模型等等。其间布尔模型比较广泛,在试验环境中向量空间模型最为流行,下文将首要对布尔模型和向量空间模型进行介绍。
1.布尔模型
在布尔模型中,文档经过来自一个词典的一个要害词条的调集来表明。经过看文档中的词条是否满意查询的条件来进行查询与文档的匹配进程。查询由一些逻辑操作符号(如AND、OR和NOT)连接起来的要害词组成的。布尔模型现在被广泛的运用在商用信息获取体系中。它有很多长处,如完成简单、计算价值相对较少、查询语言简单表达等等,可是,它存在三个方面的缺陷:
(1)布尔模型操作符的运用方法较难掌握,因而关于查找引擎的初学者来说很难将一个查询公式化;
(2)查询串中不能说明要害词的相对重要性;
(3)很难将文档进行相关性来排序。
2.向量空间模型
在向量空间模型用向量表明信息库中的文本以及用户的查询。文档向量是一个n元组,其间的每个坐标都经过对应要害词的权重表明。权重越大,则相应要害词关于该文档来说越重要。查询向量与文档向量相似,查询向量中的权重表明对应要害词关于用户来说的重要程度。
向量模型的长处如下:
(1)向量模型能够对查询向量中要害词权重的赋值;
(2)向量模型能够对文档进行相关度排序;
(3)向量模型比布尔模型的准确度高。
然而,向量模型也有一些缺陷:
(1)向量模型中,要害词是被假设为相互独立的,
宁波seo而实践上一个文档中的要害词或许存在一定的联系;
(2)查询中,不能像布尔模型相同运用要害词之间的逻辑关系。
五、查找引擎的点评目标
现在,互联网上存在很多查找引擎。所以,若对一个查找引擎的好坏进行点评十分具有含义。兰卡斯特和费恩于1973年提出了5项点评目标来衡量信息检索体系的性能,它们分别是:查准率、掩盖规模、查全率、用户担负、呼应时刻和检索成果输出格局。这些点评目标关于衡量一个查找引擎的性能具有很大的指导作用。此外还能够从下述几方面进行点评:死链比率、索引数据库更新频率、数据库的规模和内容、用户界面等等。现在,查准率、查全率、死链比率、呼应时刻、索引库更新频率是点评一个查找引擎好坏的最通用的5个性能目标是。
(1)查准率:查准率是查找成果中与要害字有关的信息量与检索成果的全部信息量的比值。实践运用中,查准率不太简单断定。原因是或许用户为了查找某一特定信息或相似信息而输入一个要害词,所以一般状况下只要检索到的要害词的含义与用户输入相近,就认为查准率满意精度要求。
(2)查全率:查全率的定义是查找引擎查询到的成果中的有关信息数量和查找引擎数据库中有关信息数量的比值。假如一个查找引擎的查全率很低,因为用户经过这种查找引擎查询到的信息量太少,导致其没有太大的运用价值,即用户很难得到真正有用的信息。
(3)死链比率:运用查找引擎查找时,永远无法获取的成果咱们称之为死链接,查找引擎没有及时更新索引数据库是造成死链接的首要原因。
(4)呼应时刻:呼应时刻指用户输入检索恳求到查找引擎回来检索成果的时刻间隔。在用户挑选查找引擎时,首先考虑的是查找引擎自身的呼应速度,如:一个查全率和查准率都很高的查找引擎,假如其呼应速度十分慢,则用户明显不会挑选。呼应时刻在很大程度上也遭到外界因素的影响,如网络状况等。因而,在对比不同查找引擎的呼应时刻时,必须在相同的时刻,相同的软硬件条件及相同的检索恳求下进行。
(5)索引库更新频率:索引库更新频率指的是查找引擎索引数据库更新周期的长短。用户能否及时取得较新的信息直接遭到查找引擎索引数据库更新频率的影响,所以这项目标尤为重要。
六、闻名的查找引擎介绍
查找引擎自1994年呈现开展至今,已取得了长足的进步,信息检索东西、查找引擎也是层出不穷,下面将扼要介绍一些闻名的查找引擎。
(1)Google:Google是全球最大的机器查找引擎,Google每天供给2亿次查询效劳,占全球查找引擎查询商场份额的29.2%,无可争议的世界第一;Google经过对80多亿网页进行整理,为世界各地的用户供给适需的查找成果,而且查找时刻一般不到半秒。
(2)Lycos:Lycos作为全世界最早的查找引擎之一。每月以3700万次的独立拜访排名第5大用户最常拜访的网站。调查得知,Lycos首要查找成果来自于Alltheweb。
(3)AltaVista:AltaVista是全世界功能最完善,查找精度较高的全文查找引擎之一。现在,AltaVista数据库已存有超越12亿个Web文件,而且经过晋级,其查找精度已达业界领先水平。不过该查找引擎已于2003年被Yahoo收购。
(4)百度:百度一直是全球最大的中文查找引擎,一直占有着查找引擎商场的半壁江山。随着Google在中国商场的持续挺进和战略调整,以及其他查找引擎(如yahoo中国、网易有道、新浪爱问、腾讯搜搜、中搜等)的异军突起,百度维持现在的优势压力越来越大。
七、结束语
查找引擎已经成为一个新的研究范畴。它触及了信息检索、分布式处理、数据发掘、自然语言处理等多范畴的理论和技能,是一门综合性极强的技能。随着互联网上数据量的不断扩大,人们对查找引擎的要求也越来越高,这将促成查找引擎的持续快速开展。尽管查找引擎已经有了二十余年的历史,可是其仍有很多问题还需咱们去处理与研究。
本文介绍了查找引擎的开展历史,研究讨论了查找引擎的作业原理,并对查找引擎的核心技能和点评目标做了相关研讨。经过调研,对几个闻名的查找引擎进行了介绍。
参考文献:
[1]马修军.多媒体数据库与内容检索[M].北京:北京大学出版社,2007
[2]焦丽.网络查找引擎研究概述[J].农业图书情报学刊,2008,(3)
[3]朱江岭.网络信息资源检索与使用[M].北京:海洋出版社,2007
[4]雷鸣,王建勇,赵江华等.第三代查找引擎与天网二期[J].北京大学学报(自然科学版),2001,37(9):735—740
[5]胡冉.关于查找引擎的几个理论问题的总述[J].晋图学刊,2003,74(2):74—77
[6]沈贺丹,潘亚楠,邵良杉.关于查找引擎的研究总述[J].计算机技能与开展,2006,16(4):148—152
[7]曾宜礼.查找引擎技能总述[J].科学情报开发与经济,2007,16(7):198—199
[8]李悦.查找引擎技能的产生与开展[J].福建电脑,2010,5:34—36
[9]姚树宇,赵少东一种运用分布式技能的查找引擎[J].计算机运用与软件,2005(10)
[10]李小明,闰宏飞,王继明查找引擎原理、技能与体系[J].计算机工程,2005,31(14)
[11]徐宝文,张卫丰.查找引擎与信息获取技能[M].清华大学出版社,2003
[12]王小森,基于Solr的查找引擎的规划与完成[D].北京邮电大学硕士学位论文
[13]张卫峰,徐宝文,周晓宇,许蕾,李东.Web查找引擎总述[J].计算机科学,2001,28(9):24—28
[14]都云程,卢献华.中文查找引擎现状与展望[J].中文信息学报,1999,13(3):61—64
[15]李蕾.中文查找引擎检索初探[J].计算机工程与运用,2000,36(6)
[16]刘建生,周志辉.个性化查找引擎总述[J].计算机与数字工程,2010,38(10):80—81
[17]欧阳柳波,李学勇,李国徽,王鑫.专业查找引擎查找策略总述[J].计算机工程,2004,30(13):32—33
本文转载自
宁波seowww.leseo.net
补充词条:
宁波谷歌优化
宁波seo网站优化
宁波网站seo优化
宁波网站优化推广
宁波网络seo公司