随着互联网的飞速发展,人们越来越依靠网络来査找他们所需要的信息。但是,由于网上的信息源数不胜数,所以如何有效地去发现我们所需要的信息,就成为一个很关键的问题。为了解决这个问题,搜索引擎就随之诞生。搜索引擎自从出现就创造了一个个发展奇迹。捜索引擎虽然只有10多年的历史,但是在Web上已经有了不可或缺的地位。在近些年来搜索引擎发展尤为迅猛,百度2005年在纳斯达克成功上市,Google在全球市场突飞猛进。捜索引擎的开发爱好者也形成了浩大的队伍,仅在开源社区SourceForge上,搜索引擎的项目就有将近10000项。搜索引擎得到了前所未有的关注。

搜索引擎并不是一个完全创新的系统,而是借鉴了以往全文检索系统和网络软件系统开发而成的。搜索引擎采用了以往产品的很多技术和思路,尤其是继承了很多信息检索系统的技术和方法。互联网搜索引擎在继承历史技术的同时,针对互联网信息处理的特点,开发出了互联网信息査找工具。
本章主要介绍搜索引擎的概念、搜索引擎的发展史、搜索引擎的分类以及一些著名的搜索引擎搜索引擎是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,并将处理后的信息显示给用户的为用户提供检索服务的系统。
搜索引擎的概念
从使用者的角度看,搜索引擎提供一个包含捜索框的页面,在搜索框输人词语,通过浏览器提交给捜索引擎后,搜索引擎就会返回和用户输入的内容相关的信息列表。
互联网发展早期,以雅虎为代表的网站分类目录査询非常流行。网站分类目录由人工整理维护,精选互联网上的优秀网站,并简要描述,分类放置到不同目录下。用户査询时,通过一层层的点击来査找自己想找的网站。也有人把这种基于目录的检索服务网站称为捜索引擎,但从严格意义上讲,它并不是搜索引擎。
搜索引擎并不真正捜索互联网,它搜索的实际上是预先整理好的网页索引数据库。真正意义上的搜索引擎,通常指的是收集了互联网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度髙低,依次排列。
现在的搜索引擎已普遍使用超链分析技术,除了分析索引网页本身的内容,还分析索引所有指向该网页的链接的URL、锚文本,甚至链接周围的文字。所以,有时候,即使某个网页A中并没有某个词,比如“信息检索”,但如果有网页S用链接“信息检索”指向这个网页A,那么用户搜索“信息检索”时也能找到网页A。而且,
宁波seo优化如果有越多网页的“信息检索”链接指向网页A,那么网页A在用户捜索“信息检索”时也会被认为更相关,排序也会越靠前。
搜索引擎的原理搜索引擎的原理,可以分为4步,从互联网上抓取网页、建立索引数据库、在索引数据库中捜索排序、对搜索结果进行处理和排序。
从互联两上抓取两页
利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其他网页,重复这过程,并把爬过的所有网页收集回来。
建立索利数楊库

由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其他网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。
在索利败椐库中楦索样序
当用户输人关键词捜索后,由捜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已计算好,所以只需按照现成的相关度数值排序,相关度越髙,排名越靠前。最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。
对楦衆结累进行处理和棑序
所有相关网页针对该关键词的相关信息在索引库中都有记录,只需综合相关信息和网页级别形成相关度数值,然后进行排序,相关度越髙,排名越靠前。最后由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。
忽酒謖訓擊翩厨缝每爲扁鐘驟
搜索引擎至今已经经历了三代发展阶段:
第一代搜索引擎出现于1994年,主要特征为集中式检索。这类搜索引擎一般都索引少于1百万个网页,极少重新搜集网页并去刷新索引,而且其检索速度非常慢,一般都要等待数10秒甚至更长的时间。在实现技术上也基本沿用较为成熟的信息检索、网络、数据库等技术,相当于利用一些已有技术实现的一个WWW上的应用。
第二代捜索引擎系统大约出现在1996年,大多采用分布式检索方案,即多个微型计算机协同工作来提髙数据规模、响应速度和用户数量。它们一般都保持一个大约5千万网页的索引数据库,每天能够响应1千万次用户检索请求。

第三代搜索引擎系统出现在1998年到2000年间,这一时期是搜索引擎空前繁荣的时期。第三代搜索引擎的发展有以下几个特点:
索引数据库的规模继续增大,一般的商业搜索引擎都保持在几千万甚至上亿个网页。
除了一般意义上的搜索以外,开始出现主题搜索和地域搜索,很多小型的垂直门户站点开始使用该技术。
由于搜索返回数据量过大,检索结果相关度评价成为研究的焦点。
搜索引擎的发展史
在互联网发展初期,网站相对较少,信息査找比较容易。然而伴随互联网爆炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针,这时为满足大众信息检索需求的专业搜索网站便应运而生了。
现代意义上的捜索引擎的祖先,是1990年由蒙特利尔大学学生AlanEmtage发明的Archieo虽然当时WorldWideWeb还未出现,但是网络中文件的传输还是相当频繁的,由于大量的文件散布在各个分散的FTP主机中,查询起来非常不便,因此AlanEmtage想到了开发一个可以文件名查找文件的系统,于是便有了Archie.Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名捜索,然后Archie会吿诉用户哪一个FTP地址可以下载该文件。
由于Archie深受欢迎,受其启发,NevadaSystemComputingServices大学于1993年开发了一个Gopher搜索工具Veronica。Jughead是后来另一个Gopher搜索工具。
Robot(机器人)一词对编程者有特殊的意义。ComputerRobot是指某个能以人类无法达到的速度不断重复执行某项任务的自动程序。由于专门用于检索信息的Robot程序像蜘蛛—样在网络间爬来爬去,因此,捜索引擎的Robot程序被称为Spider程序。世界上第一个Spider程序,是MITMatthewGray的WorldWideWebWanderer,它用于追踪互联网发展规模。刚开始它只用来统计互联网上的服务器数量,后来则发展为也能够捕获网址。

与Wanderer相对应,1993年10月MartijnKoster创建了ALIWEB,它相当于Archie的HTTP版本。ALIWEB不使用网络捜寻Robot,如果网站主管们希望自己的网页被ALIWEB收录,需要自己提交每一个网页的简介索引信息,类似于后来大家熟知的雅虎。
随着互联网的迅速发展,使得检索所有新出现的网页变得越来越困难,因此,在Wanderer基础上,一些编程者将传统的Spider程序工作原理做了些改进。其设想是,既然所有网页都可能有连向其他网站的链接,那么从一个网站开始,跟踪所有网页上的所有链接,就有可能检索整个互联网。到1993年底,一些基于此原理的捜索引擎开始纷纷涌现,其中最负盛名的3个是:Scotland的JumpStation、Colorado大学OliverMcBryan的WWWWorm(FirstMentionofMcBryansWorldWideWebWorm)、NASA的Repository-BasedSoftwareEngineeringSpider。JumpStation和WWWWorm只是以搜索工具在数据库中找到匹配信息的先后次序排列捜索结果,因此毫无信息关联度可言。而RBSE是第一个索引HTML文件正文的搜索引擎,也是第一个在搜索结果排列中引人关键字串匹配程度概念的引擎。
Excite的历史可以上溯到1993年2月,6个Stanford大学的学生的想法是分析字词关系,以对互联网上的大量信息进行更有效的检索。到1993年中,这已是一个完全投资项目Architext,他们还发布了一个供网站管理员在自己网站上使用的捜索软件版本,后来被叫做ExciteforWebServers。Excite后来曾以概念搜索闻名,2002年5月,被InfoSpace收购的Excite停止自己的搜索引擎,改用元捜索引擎Dogpile。
年初,Washington大学的学生BrianPinkerton开始了他的小项目WebCrawler。1994年4月20日,WebCrawler正式亮相时仅包含来自6000个服务器的内容。WebCrawler是互联网上第一个支持搜索文件全部文字的全文搜索引擎,在它之前,用户只能通过URL和摘要搜索,摘要一般来自人工评论或程序自动取正文的前100个字。后来WebCrawler陆续被AOL和Excite收购,现在和excite一样改用元搜索引擎Dogpile。
年1月,第一个既可搜索又可浏览的分类目录EINetGalaxy上线。除了网站捜索,它还支持Gopher和Telnet捜索。
年4月,StanfordUniversity的两名博士生,美籍华人JerryYang(杨致远)和DavidFilo共同创办了雅虎(Yahoo!)。随着访问量和收录链接数的增长,雅虎目录开始支持简单的数据库捜索。因为雅虎的数据是手工输入的,所以不能真正被归为捜索引擎,事实上只是一个可捜索的目录。Wanderer只抓取URL,但URL信息含量太小,很多信息难以单靠URL说清楚,搜索效率很低。雅虎中收录的网站,因为都附有简介信息,所以捜索效率明显提高。雅虎以后陆续使用Altavista.InktomhGoogle提供搜索引擎服务;2002年10月9日,雅虎放弃自己的网站目录默认捜索,改为默认谷歌的捜索结果,成为一个真正的搜索引擎。1999年9月,雅虎中国网站(www.yahoo,com.cn)正式开通,继承了雅虎全球的分类目录搜索的基因,为中国互联网用户提供了强大的捜索功能。
Lycos是搜索引擎史上又一个重要的进步。CarnegieMellonUniversity的MichaelMauldin将JohnLeavitt的Spider程序接人到其索引程序中,创建了Lycos?1994年7月20日,数据量为54000的Lycos正式发布。除了相关性排序外,Lycos还提供了前缀匹配和字符相近限制,Lycos第一个在捜索结果中使用了网页自动摘要,而最大的优势还是它远胜过其他搜索引擎的数据量,1994年8月已搜集了394000个文档;1995年1月捜集了150万个文档;1996年11月已超过6000万个文档。1999年4月,Lycos停止自己的Spider,改由Fast提供捜索引擎服务。
InfoseekCSteveKirschAnnouncesFreeDemosOftheInfoseekSearchEngine)是另一个重要的捜索引擎。Infoseek沿袭Yahoo!和Lycos的概念,它具有友善的用户界面和大量的附加服务,而使它成为一个强势捜索引擎。当用户单击Netscape浏览器上的搜索按钮时,弹出Infoseek的捜索服务,而此前由Yahoo!提供该服务。Infoseek后来曾以相关性闻名,2001年2月。Infoseek停止了自己的捜索引擎,开始改用Overture的捜索结果。
年,一种新的捜索引擎形式元捜索引擎(AMetaSearchEngineRound叩)出现了。用户只需提交一次搜索请求,由元捜索引擎负责转换处理后提交给多个预先选定的独立捜索引擎,并将从各独立捜索引擎返回的所有査询结果,集中起来处理后再返回给用户。第一个元搜索引擎是Washington大学硕士生EricSelberg和OrenEtzioni的Metacrawler。元搜索引擎概念上好听,但搜索效果始终不理想,所以没有哪个元捜索引擎有过强势地位。
年12月DEC的AltaVista登场亮相,大量的创新功能使它迅速到达当时捜索引擎的顶峰。AltaVista是第一个支持自然语言捜索的搜索引擎,AltaVista是第一个实现髙级搜索语法的捜索引擎,如AND、OR、NOT等。用户可以用AltaVista捜索新闻组的内容并从互联网上获得文章。,还可以捜索图片名称中的文字、搜索Titles、搜索Javaapplets、搜索ActiveXobjects。AltaVista是第一个支持用户自己向网页索引库提交或删除URL的搜索引擎,并能在24小时内上线。在面向用户的界面上,AltaVista也做了大量革新。在搜索框下放了tips以帮助用户更好地表达捜索式,这些小tip经常更新,这样,在捜索过几次以后,用户会看到很多他们可能从来不知道的有趣功能。这系列功能,逐渐被其他搜索引擎广泛采用。1997年,AltaVista发布了一个图形演示系统LiveTopics,帮助用户从成千上万的搜索结果中找到想要的。2003年2月18日,AltaVista被Overture收购。
年9月26日,加州伯克利分校CS助教EricBrewer、博士生PaulGauthier创立了Inktomi,1996年5月20日,Inktomi公司成立,强大的HotBot出现在世人面前。声称每天能抓取索引1000万个网页,所以有远超过其他捜索引擎的新内容。Inktomi于2002年12月23日被Yahoo!收购。

年10月之前,Google只是Stanford大学的一个小项目BackRub。1995年博士生LarryPage开始学习捜索引擎设计,于1997年9月15日注册了google,com的域名,1997年底,在SergeyBrin%ScottHassan和AlanSteremberg的共同参与下,BachRub开始提供Demo。1999年2月,Google完成了从Alpha版到Beta版的蜕变。Google公司则把1998年9月27日认作自己的生日。Google在Pagerank、动态摘要、网页快照、DailyRefresh、多文档格式支持、地图股票词典寻人等集成搜索、多语言支持、用户界面等功能上的革新,像AltaVista—样,再一次永远改变了捜索引擎的定义。在2000年以前,Google虽然以捜索准确性备受赞誉,但因为数据库不如其他捜索引擎大,缺乏髙级搜索语法,所以推广并不快。直到2000年数据库升级后,又借着被Yahoo!选作捜索引擎的东风,才名声大振。Google自2000年开始提供中文捜索服务,2006年4月,Google宣布其中文名称“谷歌”,这是Google第一个在非英语国家起的名字。
年5月,挪威科技大学的Fast公司发布了自己的搜索引擎AlITheWeb。Fast创立的目标是做世界上最大和最快的搜索引擎,Fast的网页搜索可利用ODP自!动分类,支持Flash和pdf搜索,支持多语言捜索,还提供新闻搜索、图像搜索、视频、MP3和?FTP搜索,拥有极其强大的髙级搜索功能。2003年2月25日,Fast的互联网搜索部门被Overture收购。
i1996年8月,sohu公司成立,制作中文网站分类目录,曾有“出门找地图,上网找搜狐”
I的美誉。随着互联网网站的急剧增加,这种人工编辑的分类目录已经不适应。sohu于2004g年8月组建独立域名的搜索网站“捜狗”,自称“第三代捜索引擎”。
Teoma起源于1998年Rutgers大学的一个项目。ApostolosGerasoulis教授带领华裔TaoYang教授等人创立Teoma于新泽西Piscataway,2001年春初次登场,2001年9月被提问式捜索引擎AskJeeves收购,2002年4月再次发布。Teoma的数据库目前仍偏小,但有两个出色的功能:支持类似自动分类的Refine,同时提供专业链接目录的ResourcesoWisenut由韩裔YeogirlYun创立。2001年春季发布Beta版,2001年9月5日发布正式版,2002年4月被分类目录提供商looksmart收购。Wisenut也有两个出色的功能:包含类似自动分类和相关检索词的WiseGuide、预览捜索结果的Sneak-a-Peek。
Openfind创立于1998年1月,其技术源自台湾中正大学吴升教授所领导的GAIS实验室。Openfind起先只做中文捜索引擎,鼎盛时期同时为三大著名门户(新浪、奇摩、雅虎)提供中文捜索引擎,但2000年后市场逐渐被Baidu和Google瓜分。2002年6月,Openfind重新发布基于GAIS30Project的Openfind搜索引擎Beta版,推出多元排序,宣布累计抓取网页35亿,开始进人英文捜索领域,此后技术升级明显加快。

北大天网是国家“九五”重点科技攻关项目“中文编码和分布式中英文信息发现”的研究成果,由北大计算机系网络与分布式系统研究室开发,于1997年10月29日正式在CERnet上提供服务。2000年初成立天网捜索引擎新课题组,由国家973重点基础研究发展规划项目基金资助开发,收录网页约6000万,利用教育网的优势,有强大的FTP搜索@能。
年1月,两位北大校友,超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇(加州伯克利分校博士后)在北京中关村创立了百度公。司。2001年8月发布Baidu,com捜索引擎Beta版(此前Baidu只为其他门户网站如搜狐、新浪Tom等提供捜索引擎),2001年10月22日正式发布Baidu捜索引擎,专注于中文捜索。Baidu捜索引擎的其他特色包括百度快照、网页预览、预览全部网页、相关捜索词、错别字纠正提示、MP3搜索、Flash搜索。2002年3月闪电计划开始后,技术升级明显加快。
年12月23日,原慧聪捜索正式独立运作,成立了中国搜索。2004年2月,中国搜索发布桌面搜索引擎网络猪1.0,2006年3月中搜将网络猪更名为IGCInternetGateway)?

年6月,新浪正式推出自主研发的搜索引擎“爱问”。2007年起,新浪爱问使用Google搜索引擎。
年7月1日,网易全面采用自主研发的有道捜索技术,并且合并了原来的综合捜索和网页捜索。有道网页搜索、图片捜索和博客捜索为网易搜索提供服务。其中网页搜索便用了其自主研发的自然语言处理、分布式存储及计算技术;图片捜索首创根据拍摄像机品牌、型号,甚至季节等髙级搜索功能;博客搜索相比同类产品具有抓取全面、更新及时的优势,提供“文章预览”、“博客档案”等创新功能。
搜索引擎的发展趋势
搜索引擎经过十几年的发展和摸索,越来越贴近人们的需求,搜索引擎的技术也得到了很大的发展。搜索引擎的发展趋势主要包含以下几方面的技术。
自然懵窗検衆扶术
以自然语言理解技术为基础的新一代搜索引擎,即智能捜索引擎。由于它将信息检索从目前基于关键词层面提髙到基于知识(或概念)层面,对知识有一定的理解与处理能力,能够提供分词技术、同义词技术、概念捜索、短语识别以及机器翻译技术等服务。因而这种捜索引擎具有信息服务的智能化、人性化特征,允许检索人员采用自然语言进行信息的检索,为他们提供更方便、更确切的搜索服务。
智能检索利用分词词典、同义词典、同音词典改善检索效果,进一步还可在知识层面或者说概念层面上辅助査询,通过主题词典、上下位词典、相关同级词典检索处理形成一个知识体系或概念网络,给予用户智能知识提示,最终帮助用户获得最佳的检索效果。
例如,査询“计算机”,与“电脑”相关的信息也能检索出来。智能检索可以进一步缩小査询范围至“微机”、“服务器”或扩大査询至“信息技术”或査询相关的“电子技术”、“软件”、“计算机应用”等范畴。智能检索还包括歧义信息和检索处理,如“苹果”,究竟是指水果还是电脑品牌,“华人”与“中华人民共和国”的区分,将通过歧义知识描述库、全文索引、用户检索上下文分析以及用户相关性反馈等技术结合处理,髙效、准确地反馈给用户最需要的信息。
目录与关鐽谓栓來相鎔合
由于目录和基于机器人的搜索引擎有各自的特点,目前它们谁也无法完全取代谁,于是很多搜索站点都同时提供这两种类型的服务。国内著名的中文网站引擎捜狐和新浪都是这种模式。Google则主要是一个基于机器人的捜索引擎,但它同时也建立了一个由人工编辑的小型目录。
曾能化与个性化検窜扶术
传统的捜索引擎使用方法是被动捜索,未来的捜索引擎可利用智能代理技术进行主动信息检索。能够通过对用户的査询计划、意图、兴趣方向进行推理、预测并为用户提供有效的检索结果是这种系统的支柱技术。它使用自动获得的知识进行信息捜集过滤,并自动地将用户感兴趣的信息通过电子邮件或其他方式,提交给用户。智能代理具有不断学习、适应信息和用户兴趣动态变化的能力,从而提供更方便、更确切、更快捷的个性化捜索服务。研究智能检索系统已是形势所迫并成为众所关注的焦点。
个性化趋势是捜索引擎的一个未来发展的重要特征和必然趋势之一。一种方式通过搜索引擎的社区化产品(即对注册用户提供服务)的方式来组织个人信息,然后在搜索引擎基础信息库的检索中引人个人因素进行分析,获得针对个人不同的捜索结果。自20(X年10月Yahoo!推出myweb测试版,11月推出个性化功能,到2005年Googlesearchhistory基本上都沿着一条路子走,分析特定用户的捜索需求限定的范围,然后按照用户需求范围扩展到互联网上其他的同类网站给出最相关的结果。
多蠓体検?検木
随着互联网宽带技术的发展,未来的互联网是多媒体数据的时代。开发出可査寻图像、声音、图片和电影的搜索引擎是一个新的方向。它包括基于描述的多媒体检索和基于内容的多媒体检索。基于描述的多媒体检索就是用一个关键词来描述所要査找的图片或是音乐。基于内容的多媒体检索是直接对媒体的内容特征和上下文语义环境进行检索。一般而言,可用于网络检索的多媒体信息的内容特征大致包括图像的颜色、纹理、形状等,声音的音频、响度、频度和音色等,影像的视频特征、运动特征等。目前这种类型的搜索引擎还不多见,覆盖面小,检索功能不够完善,效果也不太理想,因此,多媒体捜索技术尤其是音频、视频数据的检索仍是搜索引擎的一个研究重点。
本蟪化検素枝术
本地化是一个比较明显的发展趋势。世界上许多著名的搜索引擎都在美国,大多以英语为基础,完全按特有的思维方式和观点捜集和检索资料,这对于全球不同国家的用户来说显然是不适合的。各国的文化传统、思维方式和生活习惯不同,在对网站内容的捜索要求上也就存在差异。随着互联网在全球的迅速普及,综合性的捜索引擎已经不能满足很多非美国网民的信息需求。搜索结果要符合当地用户的要求,捜索引擎就必须本地化。近来,Yahoo!.Google等公司不断推出各国、各地区的本地搜索网站,捜索的本地化已经是势不可挡。
交又保官検素検术
交叉语言信息检索是指用户用母语提交査询,捜索引擎在多种语言的数据库中进行交叉语言信息检索,返回能够回答用户问题的所有语言的文档。该技术目前还处于初步研究阶段,主要的困难在于语言之间在表达方式和语义对应上的不确定性。但对于经济全球化、互联网跨越国界的今天,交叉语言信息检索的研究和开发,无疑具有很重要的意义,是搜索引擎的发展方向之一。
分布式体系鎗构
捜索引擎的实现可以采用集中式体系结构和分布式体系结构,两种方法各有千秋。但当系统规模达到一定程度时,必然要采用分布式体系结构,以提髙系统规模和性能。搜索引擎的各个组成部分,除了用户接口之外,都可以采用分布式体系结构:搜索器可以在多台机器上相互合作、相互分工进行信息发现,以提髙信息发现和更新速度;索引器可以将索引分布在不同的机器上,以减小索引对机器的要求;检索器可以在不同的机器上进行文档的并行检索,以提髙检索的速度和性能。

栓隶格果处a扶术
将搜索引擎的技术开发重点放在对检索结果的处理上,提供更优化的检索结果。针对这样的技术,主要有以下几种搜索引擎。
纯净搜索引擎
这类搜索引擎没有自己的信息采集系统,利用别人现有的索引数据库,主要关注检索的理念、技术和机制等。
元搜索引擎
现在出现了许多的捜索引擎,其收集信息的范围、捜索机制、算法等都不同,用户不得不去学习多个搜索引擎的用法。每个搜索引擎平均只能涉及整个WWW资源的30%——50%,这样导致同一个搜索请求在不同搜索引擎中获得的査询结果的重复宰不足34%,而每一个捜索引擎的査准率不到45%。

元搜索引擎是将用户提交的检索请求到多个独立的捜索引擎上去搜索,并将检索结果集中统一处理,以统一的格式提供给用户,因此有搜索引擎之上的搜索引擎之称。它的主要精力放在提髙搜索速度、智能化处理搜索结果、个性搜索功能的设置和用户检索界面的友好性上,査全率和查准率都比较髙。目前比较成功的元搜索引擎有metacrawler、dopile、ixquick、捜客等。
集成搜索引擎
集成捜索引擎,亦称为“多引擎同步检索系统”,是在一个WWW页面上链接若干种独立的捜索引擎,检索时需点选或指定捜索引擎,一次检索输人,多引擎同时搜索,用起来相当方便。
集成捜索引擎无自建数据库,无须研发支持技术,当然也不能控制和优化检索结果。但集成搜索引擎制作与维护技术简单,可随时对所链接的捜索引擎进行增删调整和及时更新,尤其大规模专业(如FLASH,MP3等)搜索引擎集成链接,深受特定用户群欢迎。
垂直捜索引擎
垂直搜索引擎是相对通用搜索引擎的信息量大、査询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务,其特点就是“专、精、深”,且具有行业色彩,相比较通用捜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深人。
什,到饑篛訓藝铟翁S
捜索引擎的技术基础是全文检索技术,从20世纪60年代,国外对全文检索技术就开始有研究。全文检索通常指文本全文检索,包括信息的存储、组织、表现、査询、存取等各个方面,其核心为文本信息的索引和检索,一般用于企事业单位。随着互联网信息的发展,捜索引擎在全文检索技术上逐渐发展起来,并得到广泛的应用,但捜索引擎还是不同于全文检索。搜索引擎和常规意义上的全文检索主要区别有以下几点。
败据量
传统全文检索系统面向的是企业本身的数据或者和企业相关的数据,一般索引数据库的规模多在GB级,数据量大的也只有几百万条;但互联网网页搜索需要处理几十亿的网页,搜索引擎的策略都是采用服务器群集和分布式计算技术。
内窖相关性
信息太多,査准和排序就特别重要,Google等捜索引擎采用网页链接分析技术,根据互联网上网页被链接次数作为重要性评判的依据;但全文检索的数据源中相互链接的程度并不高,不能作为判别重要性的依据,只能基于内容的相关性排序。
安全性
互联网搜索引擎的数据来源都是互联网上公开的信息,而且除了文本正文以外,其他信息都不太重要;但企业全文检索的数据源都是企业内部的信息,有等级、权限等限制,对查询方式也有更严格的要求,因此其数据一般会安全和集中地存放在数据仓库中以保证数据安全和管理的要求。
个性化和曾能化
搜索引擎面向的是互联网的访问者,由于其数据量和客户数量的限制,自然语言处理技术、知识检索、知识挖掘等计算密集的智能计算技术很难应用,这也是目前捜索引擎技术努力的方向。而全文检索数据量小,检索需求明确,客户量少,在智能化和个性上更具有优势。
除了与全文检索系统的上述区别之外,搜索引擎按其工作方式主要可分为4种,分别是全文捜索引擎、目录索引捜索引擎、元搜索引擎和分布式捜索引擎。
全文搜索引擎
全文搜索引擎是名副其实的搜索引擎,在国外具有代表性的搜索引擎有Google,AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,国内著名的有百度、中文搜索、北大天网等。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户査询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此它们是真正的捜索引擎。从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序,俗称“蜘蛛”程序或“机器人”程序,并自建网页数据库,捜索结果直接从自身的数据库中调用,如上面提到的引擎;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。
全文搜索引擎有全文搜索、检索功能强、信息更新速度快等优点。但同时也有其不足之处,提供的信息虽然多而全,但可供选择的信息太多反而降低相应的命中率,并且提供的査询结果重复链接较多,层次结构不清晰,给人一种繁多杂乱的感觉。


目录索引搜索引擎
目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词査询,仅靠分类目录也可找到需要的信息。目录索引捜索引擎中最具代表性的莫过于大名鼎鼎的雅虎,其他还有OpenDirectoryProject、LookSmart、About等。国内的捜狐、新浪、网易捜索也都属于这一类。
目录索引与全文捜索引擎的区别在于它是由人工建立的,通过“人工方式”将站点进行了分类,不像全文捜索引擎那样,将网站上的所有文章和信息都收录进去,而是首先将该网站划分到某个分类下,再记录一些摘要信息,对该网站进行概述性的简要介绍,用户提出捜索要求时,捜索引擎只在网站的简介中搜索。它的主要优点有:层次、结构清晰,易于査找;多级类目,便于査询到具体明确的主题;在内容提要、分类目录下有简明扼要的内容,可以使用户一目了然。缺点是捜索范围较小、更新速度慢、査询交叉类目时容易遗漏。
元搜索引擎
元搜索引擎在接受用户査询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有InfOSpace、DOgPile、VivisimO等,中文元捜索引擎中具代表性的有北斗搜索。在捜索结果排列方面,有的直接按来源引擎排列捜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo。
非主琉形式
除上述3大类捜索引擎外,还有以下几种非主流形式。
集合式搜索引擎。如HotBot在2002年底推出的引擎。该搜索引擎类似于元捜索引擎,但区别在于不是同时调用多个引擎进行搜索,而是由用户从提供的4个引擎之中选择,因此叫它集合式捜索引擎更确切些。
门户搜索引擎。如AOLSearch、MSNSearch等虽然提供搜索服务,但自;^既没有分类目录也没有网页数据库,其搜索结果完全来自其他引擎。
免费链接列表(FreeForAllLinks,FFA)。这类网站一般只简单地滚动排列链接条目,少部分有简单的分类目录,不过规模比起Yahoo!等目录索引要小得多。
由于上述网站都为用户提供捜索査询服务,为方便起见,通常将其统称为捜索引擎。
功能
除了上面的分类外,搜索引擎还应具有以下的功能。
网页搜索功能

网页捜索是一种基于程序基础上的捜索技术,它和网站搜索最大的区别就是网站搜索是基于人工编辑和整理的,而网页捜索是程序按照预先设定的规则去各网站上抓取网页信息,并按照既定的程序规则建立索引,在角户输入关键词进行搜索的时候,按照关键词g配等规则,将网页按照一定的顺序排列出来的捜索方式。
网站捜索功能
当雅考创建第一代搜索引擎时,采用的就是分类目录的方式。随着技术的逐步发展,现在的用户i习惯于直接输人关键词的简单搜索方式,关键词搜索成为一种主流捜索模式。网站搜索就是以关键词搜索的方式在分类目录的数据源里进行检索。
图片搜索功能
图片捜索是为了满足广大用户的搜索需要而独立出来的一种专门搜索。图片搜索是基于对网页页面的文字分析和文件属性分析后的捜索结果,而不是想象中的对图片本身进行分析的结果。除了常规的搜索框之外,图片捜索还给用户提供了热门关键词、分类目录和热门排行榜,网易相册也在图片搜索里开辟了栏目。
新闻搜索功能
新闻搜索功能给用户提供优质、髙效的新闻服务。值得一提的是,新闻捜索提供了个性化设置功能,让用户能够以自己最喜欢的方式浏览自己最想看的新闻。
字典搜索功能
字典搜索功能提供常规的英汉、英英互译、在线朗读服务以及提供成语中译英服务。
功能捜索功能
功能搜索功能可提供天气预报、电视预报、火车车次、文档查询、航班査询、手机号码、IP地址査询、邮政编码、货币兑换以及万年历等功能。
分布式搜索引擎
分布式捜索引擎按区域、主题或其他标准创建分布式索引服务器,索引服务器之间相互可以交换中间信息,且査询可以被重新定向。如果一个检索服务器没有满足査询请求的信息,它可以将査询请求发送到具有相应信息的检索服务器。由于分布式搜索引擎将索引数据库划分到几个分布的数据库中,每个数据库变得小一些,但所有搜索引擎覆盖的范围变大,且很少有信息重复。而作为分布式系统特性之一的可扩充也是分布式捜索引擎的优点之一,然而分布式捜索引擎需要多个索引数据库协同工作,实现较困难。目前尚未有真正的、实用的分布式搜索引擎。
通常搜索引擎由几个环节构成,例如信息收集与存储、信息预处理、关键词分析与索引技术。
信息收集和存储技术
网上信息收集和存储一般分为人工和自动两种方式。
人工方式采用传统信息收集、分类、存储、组织和检索的方法。研究人员对网站进行调査、筛选、分类、存储。由专业人员手工建立关键字索引,再将索引信息存入计算机相应的数据库中。
自动方式通常是由网络机器人来完成的。“阔络机器人”是一种自动运行的软件,其功能是搜索因特网上的网站或网页。这种软件定期在因特网上漫游,通过网页间链接顺序地搜索新的地址,当遇到新的网页时,就给该页上的某些字或全部字做上索引并把它们加入到搜索引擎的数据库中,由此,捜索引擎的数据库得以定期更新。
一般来说,人工方式收集信息的准确性要远优于“网络机器人”,但其收集信息的效率及全面性低于“网络机器人”。
信息预处理技术
信息预处理要做的工作如下所述。

关蟪倒的根取
为了支持后面的査询服务,需要从网页源文件中提取出能够代表其内容的一些特征。从人们现在的认识和实践来看,所含的关键词即为这种特征最好的代表。于是,作为预处理阶段的一个基本任务,就是要提取出网页源文件的内容部分所含的关键词。
重复或转载两页的埔除
Web上的信息存在大量的重复现象,规模统计分析表明,网页的重复率平均大约为4。也就是说,当通过一个URL在网上看到一篇网页的时候,平均还有另外3个不同的URL也给出相同或者基本相似的内容。消除内容重复或主题内容重复的网页是预处理阶段的一个重要任务。
鏈接分析
大量的HTML标记既给网页的预处理造成了一些麻烦,也带来了一些新的机遇。HTML文档中所含的指向其他文档的链接信息是人们近几年来特别关注的对象,它们不仅给出了网页之间的关系,而且还对判断网页的内容有很重要的作用。
两页重要驩度的计算
顾名思义,既然是在预处理阶段形成的,就是和用户査询无关的。如何讲一篇网页比另外一篇网页重要?人们参照科技文献重要性的评估方式,核心想法就是“被引用多的就是重要的”。“引用”这个概念恰好可以通过HTML超链接在网页之间体现得非常好,作为Google创立核心技术的PageRank就是这种思路的成功体现。这包括网页的内部链接和外部链接。
信息索引技术
信息索引就是创建文档信息的特征记录,以便用户能够快速地检索到所需信息。建立索引主要涉及以下几个问题。
信息语词切分和僵谓谓法分析
语词是信息表达的最小单位,由于语词切分中存在切分歧义,切分需要利用各种上下文知识。语词词法分析是指识别出各个语词的词干,以便根据词干建立信息索引。
进行谓性标往及相关的自然保官处蠼
词性标注是指利用基于规则和统计(马尔科夫链)的科学方法对语词进行标注,基于马尔科夫链随机过程的》元语法统计分析方法在词性标注中能达到较髙的精度。可利用多种语法规则识别出重要的短语结构。自然语言处理是运用计算机对自然语言进行分析和理解,从而使计算机在某种程度上具有人的语言能力。将自然语言处理应用在信息检索中,可以提髙信息检索的精度和相关性。

邃立检索項衆91
使用倒排文件的方式建立检索项索引,一般包括“检索项”、“检索项所在文件位置信息以及”检索项权重“等内容。
桧衆格累赴躧検术
搜索引擎的检索结果通常包含大量文件,用户不可能一一浏览。搜索引擎一般应按与査询的相关程度对检索结果进行排列,最相关的文件通常排在最前面。捜索引擎确定相关性的方法有概率方法、位置方法、摘要方法、分类或聚类方法等。
概率方法根据关键词在文中出现的频率来判定文件的相关性。这种方法对关键词出现的次数进行统计,关键词出现的次数越多,该文件与査询的相关程度就越髙。
位置方法根据关键词在文中出现的位置来判定文件的相关性。关键词在文件中出现的越早,文件的相关程度就越髙。

摘要方法是指搜索引擎自动地为每个文件生成一份摘要,让用户自己判断结果的相关性,以使用户进行选择。
分类或聚类方法是指捜索引擎采用分类或聚类技术,自动把査询结果归人到不同的类别中。、H国酒?訓霸愈翻
谷歌搜索
谷歌的网址为http://www.google,com。Google是由英文单词googol变化而来。googol是美国数学家EdwardKasner的侄子MitionSirotta创造的一个词,表示1后边带有100个零的数字。Google使用这个词代表公司想征服网上无穷无尽资料的雄心。Google已经成为目前规模最大的搜索引擎,并向AOL、CompuServe、Netscape等其他门户和捜索引擎提供后台网页査询服务。目前Google每天处理的捜索请求已达2亿次,而且这一数字还在不断增长。Google数据库存有42.8亿个Web文件,属于全文搜索引擎。Google通过对30多亿网页进行整理,为世界各地用户提供适合各自需要的搜索结果,而且捜索时间通常不到半秒。现在,Google每天需要提供2亿次査询服务,几乎占了全球所有搜索量的1/3。Google是当前世界上最大、最受欢迎的搜索引擎,它提供了最便捷的网上信息査询方法。Google自2000年开始提供中文捜索服务。
Google的功鏟与特点
界面简洁
首页作为用户开始接触该搜索引擎的门户,美观、简洁是最重要的,可以使用户能直观地感觉到捜索引擎功能的存在,而且意识到其捜索功能的强大,从而有继续捜索操作的愿望。Google的主页界面相当简洁,完全突出了搜索的功能,不但给人以开门见山的感觉,而且会使人感受到其功能的强大,并引发出强烈的搜索欲望,如图1-1所示。
图1-1Google搜索主页界面
资源丰富、内容广泛

Google是全球最大的互联网文档收集者,在全球范围内已经捜集了20多亿网页资料、7亿多新闻组的帖子和3亿多图片,还有网页快照(即当搜索内容站点或网页不存在时,用户可以调用捜索引擎事先为用户存储的大量应急网页,Google将检索的网页都”照‘’了“快照”,然后放在自己的服务器上,这种处理方式不仅使下载速度极快,而且可以获得互联网上已经删除的网页)的服务,最适合使用者多的门户网站。
相关性髙
Google可以根据网页间彼此的连接关系,把一篇网页被连接数目的多寡作为其相关性的一项指标。对于用户所输人的关键字,Google最大程度地寻求语义上的匹配,例如,想査找有关某人的网页,但误输人同音却不同字的名字,Google也能帮你找到想要的信息。或者,在査询框输人作者名字,所有文章或有关的网页都会被检索到,连哪个网站有转载的结果都准确地显示出来。此外,Google还包含汉字的相关性,例如,对于中文简体网站,可找出对应的繁体网站,甚至是日文网站=髙相关性更好地提髙了Google搜索的结果的精准度,还提髙了捜索效率。
技术先进、搜索结果精确、排序公正
有别于其他捜索引擎,Google没有人能花钱买到一个更高级别的PageRank,保证了排名的客观公正。Google搜索就是以这样诚信的服务让用户非常容易地找到髙质量的网站。除了具有其他捜索引擎已有的功能外,Google还有非常多的特色功能。例如,Google的专利——网页级别技术能够提供髙命中率的捜索结果,Google的搜索结果摘录査询网页的部分具体内容,而不仅仅是网站简介,Google智能化的“手气不错”功能,提可能最符合要求的网站,Google使网络井然有序、网页级别客观公正,只提供包含所有关键字的网页,遵从关键字的相对位置,査找结果可以限定在可用的28种语言之一,可选择语言界面有72种(包括简体中文和繁体中文);语言翻译功能,能够把法语、德语、意大利语、葡菊牙语、西班牙语和英语互相翻译5具有股票报价、地图査询、新闻査询、电话号码本、字典査询、工具条等功能;可以査找PDF等12种文件类型。
快速
Google搜索速度的快捷是它的又一大特色,用户所输人的任何关键字或信息,都能得到Google快速的响应,且其超链分析的算法还会将捜索结果排列出优先次序,从而使重要的结果排列在前,节省了用户的査询时间。它在全世界拥有超过10000台Linux服务器,200多条T3级(传输速率可达44.736Mb/s)宽带,在超过20亿的网页中搜索问题并回复极为相关网页的时间不到1.5秒。目前,每天都有数千万用户登录Google,使用其网上搜索引擎,处理的网页搜索量达到了每秒2000多次,每天超过1.5亿次。这方面权威杂志IFired的评价很有代表性:“由于简单有效,Google已成为广大互联网用户的龛儿。”此外,Google数据库的更新速度快,有效链接率髙,这些都是使搜索快速的重要因素。
使用方便
对于捜索引擎来说,它的简单、易用仍是现代用户的首选,Google首页的简洁从一个侧面已反映出其在用户操作上提供的方便、易用的特色。Google对各种类型的用户所研究、设计出的捜索引擎针对性强,适应面更广。Google的关键词输人很简捷,并且提供了详尽、具体的使用说明,用语大众化,易于理解和掌握。例如,要搜索“捜索引擎AND人工智能”的内容,由于Google自带AND功能,只需先输人“搜索引擎”,空两格后,再输人“人工智能”,单击“Google搜索”按钮,瞬间就可得到结果。
功能齐全
Google除了基本的网页捜索功能以外,还具有英文在线的活词典、页面翻译、图片搜索等功能。在Google的首页中单击“图像”便可进入其图像搜索操作界面,在关键词栏内输人描述图片内容的关键词,就可以捜索到相关的图片。如输入“卫星图像”,马上就会搜到大量有关卫星图像的图片,捜索结果提供了一个很直观的缩略图以及对这个缩略图的简单描述,如图像文件的大小、名称等。
Google的格素方式
输人WWW.google,com打开Google首页,之后可根据需要进行检索,其方式有简单捜索和髙级搜索两种,1)简单捜索
Google界面中有“髙级捜索”、“语言工具”和“使用偏好”这3个链接,其中“使用偏好”可以选择目前26种不同的语言,Google具有自己独特的语法结构,它不支持AND、OR和*等符号的使用,它自动带有AND的功能,当需要使用类似功能时,只需在两个关键词之间加空格即可,如“计算机信息检索‘由于不支持OR査找,用户如需获取两种不同的信息,则需分开检索。Google不支持”词干法“和”通配符“等,要求所输人的关键词完整、准确、一字不差,才能得到最准确的资料。要获得最实用的资料,并逐步缩小检索范围,则需要增加关键词的数量,2)髙级捜索
对于某些专用语的査询,可以单击”髙级捜索“进入髙级检索界面。例如,要査找名言警句等专有名词时,要在输人的专有名词上加上双引号。此外,Google支持”一、、+、=、,/“等标点符号作为短畜连接符,并将之作为专用语的捜索处理。Google忽略http和com等字符以及数字和单字,因为这类字词过于频繁出现于大部分网页,既无助于査询,还大大降低了捜索速度。因此,需用+将这些字词强加于搜索项(+前必须留一个空格)。如査EpisodeI或OS/2,须输人Episode+I及OS/+2。Google支持如冒号等的某些特殊操作符,并具有相应的特殊功能,例如査询”link:<网址〉“,就可得到所有连接到该网址的网页。
査询结果
用户提交査询后,系统根据用户的检索词和查询选项返回査询结果。Google可以自定义每页显示的结果数量,选择10、30或100,Google默认值为10。每一项基本上显示出标题、网页/站简介、URL、长度、附带的全新功能等相关信息。此外,还会根据具体情况显示最新更新日期、类别等信息。Google会根据其网页级别,对结果网页排列出优先次序。如果在输人关键词后选择”手气不错“,Google将带你到它所推荐的网页,无须察看其他结果,省时方便。如果单击”网页快照“链接,所出的捜索项均用不同颜色标明,另外还有标题信息说明其存档时间日期,并提醒用户这只是存档资料。如果单击”类似网页“链接,Google会找寻与这一网页性质相类似的网页(同一级别的网页)。而若搜索结果是Google所推荐的网站时,在捜索结果末尾会有RN标志。
Google的不足
到目前为止,在满足用户的搜索需求上,Google依然存在一些令人遗憾的地方。
其数据的更新速度无法进一步提高
由于数据量的庞大,使Google捜索引擎的数据更新无法早于30天,在一定程度上影响了用户对信息的时效需求,Google目前还无法突破这一瓶颈。
无法搜索动态生成的网页
因为大多数负责搜索网页的Spider软件都不敢去査找动态网页,怕被变化无穷的动态系统”黑洞“吸进去出不来。Google虽然在这方面的研究取得一些突破,但离真正的实用还有一段路要走。
中文状态下的Google没有成人内容过滤功能这项功能主要是防止掉人一些具有欺骗或其他不良企图的陷阱中,因为在网上这种站点很多。
目前对中国的用户还不支持OR和*等符号的使用当需要检索两种不同的信息时,则必须分开检索。
雅虎搜索
雅虎(Yahoo!)是个比较著名的网站,拥有海量般的免费信息,访问量达到1亿人次以上。
I醮廉镝介
雅虎在全球共有24个网站,12种语言版本,其中中文雅虎网站(cn.yahoo,com)于1999年9月正式开通,它是雅虎在全球的第20个网站。中文雅虎在许多人的心目中是搜索引擎的同义词,雅虎也确有其过人之处,其分类目录査询就做得相当出色,无论网站的数量还是分类的合理性方面都可圈可点。站点目录分为14个大类,每一个大类下面又分若干子类,搜索十分方便。该站点连接速度快,包含范围广,数据容量大,简便易用,是査询各种信息的好去处,如图1-2所示。
图1-2中文雅虎搜索主页
中文雅虎为用户提供了强大的捜索功能,通过其14类简单易用、手工分类的简体中文网站目录及强大的搜索引擎,用户可以轻松地捜索到政治、经济、文化、科技、房地产、教育、艺术、娱乐、体育等各方面的信息。
贛虏的功能与特点
雅虎是一个以分类目录、网站检索为主,附带网页全文检索的捜索引擎。雅虎有中文、英文,以及法、德、意、西班牙、丹麦、日、韩等10余种语言版本,各版本的内容互不相同,如英文版主要收录英文网站,日文版主要收录日文网站。可以说,每一个不同的版本都是一个不同的、相对独立的搜索引擎。
雅虎英文版除主站外,又有多个地区分站,如亚洲站Yahoo!Asia、加拿大站Yahoo!Canada等,这些网站分别以收录这一地区的英文网站为主,也可视为独立的捜索引擎。
中文雅虎主要收录全球各地的中文网站,包括简体、繁体和图形中文网站。在同类搜索引擎中,它收录的网站属于比较丰富的了。
本文转载自
宁波seo优化www.leseo.net
补充词条:
宁波网络seo公司
宁波seo外包
宁波seo哪家好
宁波seo排名
宁波网站优化推广