[摘要]本文论说了查找引擎的概念、基本原理、首要功用及效果,并针对国内比较闻名的查找引擎站点进行了详尽的剖析,在此基础上,对中文网络查找引擎开展的现状进行了剖析,在看到中文查找引擎开展的一起,也要看到中文查找引擎在开展中存在的问题。
[关键词]查找引擎;比照研讨;百度;有道
[中图分类号]G252.7[文献标识码]A[文章编号]1008-0821(2010)04-0062-04
ChineseNetworkSearchEngineComparisonResearchChenHui
(InstituteofScientificandTechnicalInformationofJilin,Changchun130021,China)
[Abstract]Thisarticleelaboratedthesearchengineconcept,thebasicprinciple,themainprincipleandthefunction,andaimedatthedomesticquitefamoussearchenginestandtocarryontheexhaustiveanalysis,hascarriedontheanalysistochinesenetworksearchenginepresentsituation,sawchinesesearchenginedevelopsatthesametime,alsohadtopayattentiontochinesesearchengineindevelopmentdeficiency,thisarticleemphaticallyelaboratedthesearchenginenewtechnologywhichproposedinviewofchinesesearchenginedeficiency.
[Keywords]searchengine;comparativeanalysis;baidu;youdao
因特网是现在世界上最大的信息资源网,网上资源反常丰厚。由于因特网上的信息是无序的,信息量越大,越难被利用。在这种条件下,仅靠传统的检索技能是不行的。现在处理获取和利用因特网上信息的问题的最佳途径就是利用查找引擎。因特网上的信息呈几何级数增加,快速有用地查询信息是一项艰巨的任务,这个需求直接导致了广域网信息检索技能的快速开展,各类查找引擎层出不穷。可是好像因特网上的信息相同,查找引擎的开展本身也是无序的,如何挑选最契合需求的查找引擎,经过其在因特网上找到咱们所需求的信息,也是一个需求研讨和处理的课题。依据这个意图,笔者对国内现有的首要中文网络查找引擎进行了比较剖析,进而发现中文查找引擎普遍存在的问题,并针对这些问题浅显地提出了新方法的网络查找引擎应当具备的先进技能。
1首要中文查找引擎比照
1.1首要中文查找引擎概述
1.1.1Google中文查找引擎Google查找(http:∥www.google.com)是很受欢迎的查找引擎,界面简练,以查找成果的准确性著称。两位斯坦福大学的博士生LarryPage和SergeyBrin在1998年创立了Google,几年间迅速开展成为现在规划最大的查找引擎。其数据库内存有40多亿个Web文件,归于全文查找引擎。它的检索特征在于选用了网络结构挖掘技能,对万维网的连接结构进行剖析和大规划的数据挖掘,然后供给页面等级的信息,帮助用户找到相关主题的威望网站,而且能够指向很多威望站点的相关主题的站点。
1.1.2百度查找引擎百度公司于1999年末成立于美国硅谷。百度(http:∥www.baidu.com)是国内专一商业化的全文查找引擎,其功用完备,查找精度高,除数据库的规划及部分特殊查找功用外,其他方面可与当前的查找引擎业界领军人物Google相媲美,是国内技能水平最高的查找引擎。百度具有自己共同的技能——超链剖析技能,超链剖析是经过剖析链接网站的多少来评价被链接网站的质量,这确保了用户在百度查找时,越受用户欢迎的内容排名越靠前。超链剖析技能是百度的核心技能,它处理了依据网页质量的排序与依据相关性排序相结合的难题。
1.1.3yahoo中文查找引擎yahoo中文查找(http:∥www.yahoo.com.cn)是国外大型查找引擎登陆我国的榜首个中文查找引擎,一起也是最出色的目录型查找引擎的代表。yahoo并不是单纯地供给一切网站网页的全文检索效劳,而是将其收集到的网站及网页由人工分门别类加以索引和文摘,以一个分层的线性目录来为用户供给按图索骥式的效劳。yahoo比较适合于一般的查询。yahoo不仅能在一切的分类类目中进行查询,也能依据需求在一个类目中进行查询,这样就确保了较高的查准率。yahoo由人工索引的分类数据库,确保了库内数据质量较高,冗余信息较少的长处。关于一个初涉因特网的用户来讲,yahoo精美的分类目录也起到了极好的浏览导游效果[4]。
1.1.4新浪查找引擎新浪查找(http:∥www.sina.com.cn)是现在互联网上规划最大的中文查找引擎之一,网站录入资源丰厚,以中文网站GB码为主。分类目录标准细致,层次合理,遵从我国用户习气。新浪自建独立的目录索引,共设15大类目录,1万多个子目录,录入网站达20余万,选用百度查找引擎技能,支撑中文域名。2000年11月新浪查找推出了新一代归纳查找引擎,成为我国榜首家可多个数据库查询的归纳查找引擎。在关键词的查询反响成果中,在同一页面上包含目录、网站、新闻标题、新闻全文、频道内容、网页、商品信息、消费场所、中文网址、沪深行情、软件、游戏等各类信息的归纳查找成果,最大程度地满意用户的检索需求,运用户得到最全面的信息,这项效劳在国内尚属专一[4]。
1.1.5有道查找引擎网易有道查找(http:∥www.youdao.com)最大的特征之一是选用“开放式目录”办理方法,在功用齐全的分布式修改和办理体系的支撑下,现有5000多位各界专业人士参加可浏览分类目录的修改工作,极大地适应了互联网信息爆破式增加的趋势。新版查找引擎在此基础上,更增加了全新查找技能及广告查找效劳,这一举措将可运用户检索高达16亿条的信息和及时的新闻内容,一起为广告客户供给更有用的广告方法。
期中文查找引擎的比照研讨Apr.,2010Vol.30No.41.2首要中文查找引擎的不同之处
1.2.1逻辑匹配办法Google支撑关键词查找,以关键词查找时,返回成果中包含全部及部分关键词;短语查找时默许以准确匹配方法进行;不支撑单词多形状和断词查询。表明逻辑或的OR逻辑符检索输入时,必须以大写方法输入,才干检索出相应的成果。Google现在运用“词干法”,也就是说,在合适的状况下,Google会一起查找关键词和与关键词相近的字词。词干法对英文查找尤其有用。Google对通配符支撑有限。它现在只能够用“*”来代替单个字符,而且包含“*”必须用“”引起来。它不支撑含糊匹配,即它只查找与输入关键词完全一致的字词。百度支撑加权检索功用,一起支撑“-”号、“.”号、“|”号、“link:”、书名号“《》”等特殊检索指令,并支撑多种字段检索。不支撑“词干法”和“通配符”检索,中英文均没有停用词。百度默许的是关键词准确查找,输入多个词语查找,能够取得更准确的查找成果。yahoo只能进行关键词检索,而且供给的关键词查找功用有限,不支撑逻辑非功用,只能用AND、OR操控关键词的联系,进行含糊串检索和准确匹配检索,不能进行更全面、更高档的检索。新浪查找引擎支撑多个关键词的查询,并在关键词查询中支撑逻辑操作符的运用。关键词查询只支撑逻辑与、逻辑或等联系,不支撑逻辑非联系。一起还能够界说其他的查找条件。关键词查询的成果依据与查询要求相匹配的程度摆放,质量越高,摆放方位越靠前。有道查找引擎供给中文、英文、日文、俄文等几十种言语关键词检索,选用含糊查找方法,对用户输入的关键词,先作言语剖析,分解成多个词或词组,再去数据中心匹配成果,因而答使用户输入整句。一起现在也运用“词干法”。
1.2.2资源规模这5种查找引擎所录入的资源规模均包含一切学科内容,百度和网易所录入的资源类型为网页和新闻组;百度所录入的言语规模是GB、Big5和部分英文;网易录入的言语规模包含GB和部分英文,Google所录入的资源类型包含网页、新闻组、新闻和图像;录入的言语规模是多种言语。yahoo中文查找所录入的资源类型与Google一致。
1.2.3信息数据录入量Google检索网页数量达2400余万,查找引擎中排名榜首;Google数据库存有42.8亿个Web文件。百度支撑查找1.3亿中文网页,是世界上最大的中文查找引擎。而且百度每天都在增加几十万新网页,对重要中文网页实现每天更新,用户经过百度查找引擎能够搜到世界上最新最全的中文信息。新浪查找共设15大类目录,10000多个子目,录入网站达20余万,是规划最大的中文查找引擎。有道查找的数据库类型是非全文数据库,由于它选用的是Google技能的数据库,所以它的数据库也同Google相同包含2400余万网页。yahoo我国录入了全球资讯网上数以万计的中文网站,包含2400余万网页。不论你要找的网站是用国标码简体字、大五码繁体字仍是图形中文,都能够在这里找到。yahoo、Google、百度关于网页的抓取数量较多,这3个查找引擎索引的互联网网页数多。可是关于时效性强的关键词,Google反响最快,抓取的页面数量也是最多的。
1.2.4界面风格这五种首要的中文查找引擎中,Google的查找界面堪称经典。Google的主页很清爽,logo下面,摆放了四大功用模块:网站、图像、新闻组和目录效劳。默许是网站查找。可是,Google是经过用户拜访链接来存储页面设定的,所以假如体系禁用用户拜访链接,就无法对Google界面进行个人设定了。百度的查找页面最为简练,拜访速度也是最快的。yahoo在登陆页下方还出现了图文广告,数据量比较大。
1.2.5辅佐手段Google具有Flash文件、网页快照、货币转换、计算器、相关查找、相似网页、按链接查找、指定网域、手气不错、错别字改正、中英文字典、气候查询、相关查找、股票查询、邮编区号、手机号码、界说等辅佐功用。百度除了已经具备的百度快照、相关查找、拼音提示、错别字提示、股票、列车时刻表和飞机航班查询、专业文档查找、气候查询、计算器和度量衡转换、高档查找、区域查找和特性设置、英汉互译词典、高档查找语法等辅佐功用,又增加了专业的MP3查找、Flash查找、新闻查找、信息快递查找,并正在快速开展其它用户喜爱的查找功用。yahoo中文查找引擎在主题查询方法中,将信息分红12大类:艺术、商业和经济、计算机和因特网、教育、文娱、政府、健康、新闻、休闲和运动、参考消息、区域、科学和社会科学。新浪查找引擎供给视频查找、MP3查找、图片查找、知识人、本地查找、共享材料、开放词典、大百科、英汉词典、专业查找、手机查找等辅佐功用。有道查找包含相关查找、按链接查找、指定网域、错别字改正、专业文档查找、新闻查找、网页快照、英汉互译词典等辅佐功用,
宁波seo虽然辅佐功用也很完备,但与Google无法比较。Google和百度查找引擎的辅佐功用适当全面,而且在不断地开发新的功用,在这个方面,是其他中文查找引擎无法比拟的。
1.2.6友好便当程度Google智能化的“手气不错”功用,供给或许最契合要求的网站;Google的“网页快照”功用,能从Google效劳器里直接取出缓存的网页;Google具有独特的图片查找功用;Google具有强壮的新闻组查找功用;Google具有二进制文件查找功用等特殊的功用,这些功用都在很大程度上便当了用户的检索。百度深刻理解中文用户查找习气,为中文用户度身定做,开发出关键词主动提示;用户输入拼音,就能取得中文关键词正确提示;百度还开发出中文查找主动纠错;假如用户误输入错别字,能够主动给出正确关键词提示;百度快照是另一个广受用户欢迎的特征功用,处理了用户上网拜访常常遇到死链接的问题[5]。yahoo中文查找不仅为用户供给了强壮的查找功用,经过其14类简单易用、手艺分类的简体中文网站目录及强壮的查找引擎,用户能够轻松查找到各方面的信息,还能够主动依据用户查找信息的不同,在成果页面的右边给出相关查找信息,为获取最新的信息供给了便当。新浪查找引擎对网页检索的成果进行了技能上的处理,新浪查找一起选用了站点类聚和内容类聚两种类聚技能方案,这样处理得到的检索成果更便当用户挑选自己所需求的信息。有道查找引擎最大的特征之一是选用“开放式目录”办理方法,供给网站检索、网页检索、职业网站检索及图片检索等查询项目,在此基础上更增加了全新查找技能及广告查找效劳,这一举措将可运用户检索高达16亿条的信息和及时的新闻内容,一起为广告客户供给更有用的广告方法。现在新的查找技能已被使用到相关产品,包含目录和网站检索,新闻和频道检索,同学录以及商城,为用户发明了非常便当的检索条件。
1.2.7数据更新程度Google中文查找引擎一般半月至1月更新1次,而且仅查找到三级链接,三级以下便不在查找,Google是选用不同效劳器逐渐更新的。Google一般每隔28天派出“蜘蛛”程序检索一定IP地址规模内的新网站,而对现有网站的更新则依据该网站的等级不同有快慢之分。一般来说,网站网页等级越高,更新的频率就越快。百度的更新较快,半月1次,最快1周。百度每天响应来自138个国家超越数亿次的查找恳求。用户能够经过百度主页,在瞬间找到相关的查找成果,这些成果来自于百度超越10亿的中文网页数据库,而且,这些网页的数量每天正以千万级的速度在增加。yahoo的数据更新速度较慢,由于它的数据库分类和索引都是由人工完结的,所以采集信息的速度远远比不上网络资源的增加速度。新浪查找引擎与Google查找引擎协作,凭借Google查找引擎的技能确保了它的数据快速更新。有道页面日均拜访量接近3000万次,查询速度快,链接成功率高。
2中文查找引擎的不足之处
2.1库容量作为查找引擎,必须要有适当多的库容量才具有一定的代表性和实用性。能够说查找引擎可查找的库容量大小是查找引擎的质量标志的榜首要素。从咱们考察的中文查找引擎来看,库容量在50万条记录以上即可在本表上列为“很多”级[8]。但假如将之与AltaVista的巨大库容量比较,则差之甚远。所以说即使是现在较成功的中文查找引擎,在这一点上或许还远未称得上成功。当然或许是由于网上中文信息还不多,因而中文查找引擎的库容量还不或许很大,可是从两岸三地因特网的开展状况来看,不上百万网页数据库容量的中文查找引擎很难说具有一定的代表性。
2.2响应速率从查找引擎的实用性来看,必须确保对用户检索表达式一定的响应速度,在这个基础上才谈得上库容量、运用的便当性等其他因素的影响[6]。现在中文查找引擎的库容量都不是很大,本身对机器硬件的要求还不是适当高,产生响应时延的一个很重要的因素是咱们的信息基础设施建造做的还很不行。就国外而言,举例说AltaVista在如此大的库容量状况下,仍能保持这么快的响应速率,令人赞赏。一起这也说明国内中文查找引擎在硬件及技能方面的路还很长很长。
2.3核心技能查找引擎是一个技能含量很高的电脑网络使用体系。它包含网络技能、数据库技能、检索技能、智能技能等等[6]。在这一方面,由于国外的很多先进技能是建立在西文内核的基础上,所以咱们还不能单纯引进照搬照抄。作为中文查找引擎来讲,如何来发挥咱们在中文处理上的长处,开展出有咱们自己版权的核心技能,使咱们在中文查找引擎的竞赛中占有有利位置。
2.4多样化效劳靠供给多样化效劳来吸引更多的用户,以此来获取更多的广告收益,这是国外闻名查找引擎的生存之道。而在这一方面,中文查找引擎也做得远远不行,别的一方面,有些查找引擎本身库容量及效劳不怎么样,主页上的广告却是一大堆,长此以往,也是不利于本身生存和开展的。
3结论本文对查找引擎的比较研讨,只供给了各个查找引擎的概貌。跟着互联网上内容的爆破式增加和内容方法把戏的不断翻新,查找引擎面临挑剔的网民的各种查找需求,有时会显得无法。可是仍要看到查找引擎开展的大好前景,中文网络查找引擎正在以迅猛的速度开展着,咱们有理由相信:网络查找引擎的明天会更夸姣!
参考文献
[1]冯进.浅谈网络查找引擎[J].现代情报,2002,(11):65-68.
[2]郭万召.网络查找引擎的剖析与比较研讨[J].情报科学,2000,(1):80-84.
[3]徐亚先.查找引擎功用概述[J].情报科学,2001,(3):46-47.
[4]施建明.网络查找引擎的比较与剖析[J].福建图书馆理论与实践,2003,(2):11-13.
[5]黄文忠.网络查找引擎百度分析[J].现代情报,2005,25(5):135-136.
[6]上海图书馆《中文查找引擎的现状与使用》课题组.中文查找引擎比较研讨[EB].http:∥www.nmzol.com/wlxy/win/200501/36752.html,2010-01-02.
本文转载自
宁波seowww.leseo.net
补充词条:
宁波seo优化公司
宁波seo哪家好
宁波seo外包
宁波网站排名优化
宁波seo排名