宁波seo优化专栏

宁波seo优化:Lycos还提供前缀匹配和字符相近限制

发布时间:2018-09-22 18:43:43

  使用校园网特色词进行査询,结果如图9-29和图9-30所示。使用布尔査询,当输人“林业大学”时的界面如图9-31所示。
  两页快照
  对于非HTML文件的快照如图9-32所示,对于HTML网页的快照如图9-33所示。
  g梭?獯黃
  解肋筚5车页
  _____________——lIfi睡

Lycos还提供前缀匹配和字符相近限制的图片41

  第1-10项(共有93项査询结果)
  苁迎采到北京林业大半入文社会科学字院迎來到北京林:it大半人文社计算中。6……北林http6rsnwfcrxbjPi.erhi.crJ(网页快照)(芽分洋解)北京林业大半水土保持华院
  Copyright?Jarring2005北京林业大学水土保。夸{育部国塞14:
  http://shfcyb!&.c  的国家和原林化部的重点攻及金国髙等V
  /;Ehbybjfu“sduc.n/czcw/144-iVlitw(网页快照)(评分洋解)(MoreFromshbvbifii.edu.cn)2009届毕业生入(A预征工作买施方窠阅谀?次北京林业大半2009年应附件一)北京林http-V{7^ybjfueducij/zsjy/jyxz/jCzS1htra涧页快照)(评阳北京思德培训半校

Lycos还提供前缀匹配和字符相近限制的图片33

  历06-就业服务与就业迸大中专毕业生就
  httj>//sdpxbjfuedu.cn/(网页快照)(评分痒解)北京林业大学继共敦育半院到须知北京林业大半成人教色血伊]-北littp7A>jCitj.VjSieducii/y4jy/”:(!-11Shl,ft(网寅侠照)(评分伴解)欢迎来到北京林业大半人文社会科半学院迎来到北京林业大半人文社计蓴中心……北钵-http7/renweabjfixe-du.crL,<(网寅快照)解尔万余人,北京蚪让大学成人教设园林
  bttp7/(1ps.bjbJ.e.41.cnldlil/846‘)hui.個页快照)(评分详解)1[j]I?]4][51[61[7]f81f91fl01T——H图9-29校园词汇査询界面1
  水保:趣麵
  第1-105S(共有23项杏询结果)
  欢迎来到北京林业大半人文社会科华竿院半院……工学。。院……木保半院……成教学hHi.7/i<-,nw?ibjfiie  hltp/teufcjfh<;du個贝’快照)(评分详解)北京林业大学绿色新闻网
  包括支持坏保事业在内的活标准?如何》证生活标准httpZ/new.hjtucdu?vbwlV17857.ntni涧页快照)径解)蜘re.fi;,吨臟?穗―咖挪我院志愿者暮前动员工作会议晒利召开
  愿者的激励保障工作1.鼓。任何包具和、。可带相机。梅fc!q>.//gzybjfiieducii/ssydt/SS?:hmi(网页(评分详解)级水保A港北京林业j学:-
  httpV/.iwc.bjfuvau.crJjpkxMrris/sVkx-OIUo洞贝快照)(评分详解)(MoreFromlwc.bifosducn)新建网页0握土壤侵性。水土流失,水土W持等的基本体系。以达到http/Zjwcbjfueducn/,pkch.nrqs/d2iaZdzja2hun(网页快嫂J(评分详解)物,?嘿一她‘pj;迎)生中的安全保卫工作的桥整干部时。斤保证治
  !啤乳wc.b.曲上血?:n/aqpss/fifgWW:!!iim洞贝快照)(评分详解)http//lx?,bifUedu-C[uixshd/22278.toi
  习心得以及兔杂经验。同学了对森培森浞学科相关情hBp/ft^.bjtuedu.cc/xdi  图9-30校园词汇査询界面2
  梭庙狻意
  林业大学
  第1-10项(共有39项査询结果)
  欢迎来到北京林业大学人文社会科学学院迎来到北京林业大学人文社会科系链接】---傕息华院------资环bttp//renwen.bjfueducti;炳页快照)(评分伴解)sohu访谈t北京林此大学,林字全国排名笫一北京林业大牢,林伞全国徘名第绍一下北京林化http“zsbbjfii.edurii/?loi-2SS6lhtrn(网页快照)(评分详解)(Moi?From?b.b.ift>fduen)北京林此大半职工独生子女医药番管理办祛-计生办+北京林业大华人口与计?ICopyright?2008北京钵业大…bttp//jsbbjbj?.-4ucn/gJgd/^V^-hiib涧宽侠戚)(评分详解)(anchor^)2009届毕业生入伍预征工作实施万累
  ―阆谀,次北京林业大学2009年运号芋附件一>。北京林业bifue  国和平统一大业,十一。始终不会主义的强、
  bttf-”Erthqbjfiic4u.ttVd.igE/15“itm(网贝快照)(评分详解)?助校围主页
  北京林业大学水保学院
  _北京林亚亡学水保蟬院Y院筒介f院领导机构
  ]即j/shb?b(fij.ejw/il>:htaj(网页快:照)(评分详解)sohu访谈。北京林大招办主任谈此高招—个著名的华府-北京抹:u我给家jS到的是http.i)X!-bbifiiedu.crwltsi/5615hkn(网页後,租)(评分详解)(anch  学校滿介
  生力鼉。北京林弋华为教育部直,万余人。
  htrp-Vsdpxbjfurdu咖彻职的tto@宽1决照)(评分详解)1[21f31⑷下?一页
  北京林止
  图9-31布尔捜索结果界面

Lycos还提供前缀匹配和字符相近限制的图片37

  网页快照
  page:http://article.bjfu.edu.cn/document/20071210144238031747-docThecachedcontenthasmimetype”appHcation/msword“,clickthislinktodownloaditdirectly.图9-32非HTML文件网页快照网决照
  page:http:〃cert.b.ift?.c  年招騁公吿
  最新新闻
  卡巴斯基6.0辩助文档
  北京林业大学押格知识普及系列活动之二
  日期:(2007-10-2612:34:00)作者:BJFTJ_noc点击:23北京林业大学网络知识昔及系列活动之二北京林业大学网络安
  全紧角。响应小组200S
  为了更好的昔及网络相关方面的知识,估&中心面向大家推出网络知识昔及系列活动。请大家关往本活动的典体通知。
  第二讲,《下一代互联网技术,web20技术漫谈》
  图9-33HTML文件网页快照
  两页评分
  当查询到某一个网页时,对应的网页评分如图9-34所示。

Lycos还提供前缀匹配和字符相近限制的图片40

  经繼*棚校國
  page
  segment=20090606142916
  digest=b9342ae4fe5c8a6d8ac5aadec4fba6ac?url=httpy/cert.bjfuedu.cn/wlpx/13163htmtitle=北承林业大学网络安全紧急响应组?tstamp=20090606065712953
  boost=34910528E-4
  scoreforquery:北京林业大学

Lycos还提供前缀匹配和字符相近限制的图片32

  E-5=sumof:
  E-6=sumof
  E-6=weight(content北in3826),productof”0.019956846=queryWeight(content.41)。productof69332647=idf(docFreq=38)
  =queryNorm
  E-5=ficldWei^it(content:4tin3826),productof10=t£(termFrec}(content:北)=1)?69332647=idf(docFrcq=38)
  E-6=fieldNorm(field=content,doc=3826)图9-34评分详解页面
  结果讨论
  通过对Nutch搜索引擎框架简单的学习和实战,本章构建了一个简单的校园网搜索引擎平台。此校园网搜索引擎系统基本上实现了搜索引擎的功能,解决了用户基本需求。但是根据系统测试和査询结果看,此平台还存在一些不足。
  锇索結果有限
  通过多次测试结果来看,Nutch抓取的网页还不能达到要求,校园网全部抓取完成之后的本地存储文件不到300MB,这显然比实际的网页数量少很多,带来的结果就是提供给用户的搜索结果很有限。
  检隶連度幔
  检索速度对于搜索引擎的用户体验是很关键的指标。对于这个搜索引擎系统来说,检索速度基本满足了用户需求,但是还有待改进。
  检衆准碥性
  搜索引擎就是为了让用户检索到自己想要的信息,因此检索的准确性至关重要。对于本搜索引擎来说,对于不同的输入,检索准确度不一样,检索的准确性也有待提髙。例如,捜索“林业”的返回结果准确率为100%,而搜索“生物”的返回结果准确率不到75%,仍存留有大量“生”、“物”的搜索结果不能有效地排除。。
  搜索引擎概述
  在浩瀚的网络资源中,搜索引擎是一种网上信息检索工具,它能帮助用户迅速而全面地找到所需要的信息。我们可以这样对搜索引擎进行定义:搜索引擎是一种能够通过因特网接受用户的查询指令,并向用户提供符合其查询要求的信息资源网址的系统。多数网上用户使用搜索引擎来获得所需信息,据CNNIC的统计,用搜索引擎搜索仅次于电子邮件的应用。目前网上比较有影响的中文搜索工具有:Google、百度、北大天网、爱问、雅虎(¥吐00!)、搜狗(3吨011)等搜索引擎。英文的有:Yahoo!、AltaVista、Excite、Infoseek、Lycos、Aol等。另外述有专用搜索引擎,例如,专门搜索歌曲和音乐的;专门搜索电子邮件地址、电话与地址及公众信息的;专门搜索各种文件的FTP搜索引擎等。
  本章主要介绍搜索引擎的概念、搜索引擎的发展史、搜索引擎的分类以及一些著名的搜索引擎。
  锼索利擎的概念
  搜索引擎是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统。
  搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。真正意义上的搜索引擎,通常指的是收集了互联网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内窖中包含了该关键词的网页都将作为搜索结果被搜出来。。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度髙低,依次排列。
  现在的搜索引擎已普遍使用超链分析技术,除了分析索引网页本身的内容,还分析索引所有指向该网页的链接的URL.AnchorText,甚至链接周围的文字。所以,有时候,即使某个网页A中并没有某个词,比如“信息检索”,但如果有网页B用链接“信息检索”指向这个网页A,那么用户搜索“信息检索”时也能找到网页A。而且,如果有越多网页的“信息检索”链接指向网页A,那么网页A在用户搜索“信息检索”时也会被认为更相关,排序也会越罪刖。
  搜索引擎的原理,可以分为4步:从互联网上抓取网页、建立索引数据库、在索引数据库中搜索排序、对搜索结果进行处理和排序。
  从互联网上抓取网页
  利用能够从互联网上自动收集网页的蜘蛛系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其他网页,重复这过程,并把爬过的所有网页收集回来。
  建立索引数据库
  由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其他网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网、页针对页面内窖中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。
  在索引数据库中搜索排序
  当用户输人关键词搜索后,由搜索系统程序从网页索引数据库中找到符合诙关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已计算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。

Lycos还提供前缀匹配和字符相近限制的图片36

  对搜索结果进行处理排序
  所有相关网页针对该关键词的相关信息在索引库中都有记录,只需综合相关信息和网页级别形成相关度数值,然后进行排序,相关度越高,排名越靠前。最后由页面生成系统将搜索结果的链接地址和页面内窖摘要等内容组织起来返回给用户。
  锼索利繁的房史
  在互联网发展初期,网站相对较少,信息査找比较容易。然而伴随互联网爆炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针,这时为满足大众信息检索需求的专业搜索网站便应运而生了。
  现代意义上的搜索引擎的祖先是1990年由蒙特利尔大学学生AlanEmtage发明的Archie.虽然当时万维网还未出现,但是网络中文件的传输还是相当频繁的,由于大量的文件散布在各个分散的FTP主机中,查询起来非常不便,因此AlanEmtage想到了开发一个可以以文件名查找文件的系统,于是便有了Archie。Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。
  由于Archie渾受欢迎,受其启发;,NevadaSystemComputingServices大学于1993年开发了一个Gopher搜索工具―一——VeronicaoJughead是后来另一个Gopher搜索工具。
  Robot(机器人)一词对编程者有特殊的意义。ComputerRobot是指某个能以人类无法达到的速度不断重复执行某项任务的自动程序。由于专门用于检索信息的Robot程序像蜘蛛—样在网络间爬来爬去,因此,搜索引擎的Robot程序被称为Spider程序。世界上第一个Spider程序,是MITMatthewGray的WorldWideWebWan-derer,它用于追踪互联网发展规模。刚开始它只用来统计互联网上的服务器数量,后来则发展为也能够捕获网址。
  与Wanderer相对应,1993年10月MartijnKoster创建了ALIWEBCMartijnKosterAnnouncestheAvailabilityofAliweb),它相当于Archie的HTTP版本。ALIWEB不使用网络搜寻Robot,如果网站主管们希望自己的网页被ALIWEB收录,需要自己提交每一个网页的简介索引信息,类似于后来大家熟知的Yahoo!。
  随着互联网的迅速发展,检索所有新出现的网页变得越来越困难,因此,在Wanderer基础上,一些编程者将传统的Spider程序工作原理作了些改进。其设想是:既然所有网页都可能有连向其他网站的链接,宁波seo优化那么从一个网站开始,跟踪所有网页上的所有链接,就有可能检索整个互联网。到1993年底,一些基于此原理的搜索引擎开始纷纷涌现,其中最负盛名的3个是:Scotland的JumpStation、Colorado大学OliverMcBryan的WWWWorm(FirstMentionofMcBryansWorldWideWebWorm)NASA的Repository-BasedSoftwareEngineeringSpideroJumpStation和WWWWorm只是以搜索工具在数据库中找到匹配信息的先后次序排列搜索结果,因此毫无信息关联度可言。而RBSE是第一个索引HTML文件正文的搜索引擎,也是第一个在搜索结果排列中引人关键字串匹配程度概念的引擎。
  Excite的历史可以上溯到1993年2月,6个Stanford大学的学生的想法是分析字词关系,以对互联网上的大量信息作更有效的检索。到1993年年中,这已是一个完全投资项目Architext,他们还发布了一个供网站管理员在自己网站上使用的搜索软件版本,后来被叫做ExciteforWebServers。Excite后来曾以概念搜索闻名,2002年5月,被InfoSpace收购的Excite停止自己的搜索引擎,改用元搜索引擎Dogpile。
  年年初,华盛顿大学的学生BrianPinkerton开始了他的小项目WebCrawler(Bri-anPinkertonAnnouncestheAvailabilityofWebCrawler)。1994年4月20日?WebCrawl-er正式亮相时仅包含来自6000个服务器的内容。WebCrawler是互联网上第一个支持搜索文件全部文字的全文搜索引擎,在它之前,用户只能通过URL和摘要搜索,摘要一般来自人工评论或程序自动取正文的前100个字。后来WebCrawler陆续被AOL和Excite收购,现在和Excite一样改用元搜索引擎Dogpile。
  年1月,第一个既可搜索又可浏跑的分类目录EINetGalaxy上线。除了网站搜索,它还支持Gopher和Telnet搜索。
  年4月,斯坦福大学的两名博士生,美籍华人JerryYang(杨致远)和DavidFilo共同创办了Yahoo!。随着访问量和收录链接数的增长,Yahoo!目录开始支持简单的数据库搜索。因为Yahoo!的数据是手工输人的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。Wanderer只抓取URL,但URL信息含量太小,很多信息难以单靠URL解释清楚,搜索效率很低。Yahoo!中收录的网站,因为都附有简介信息,所以搜索效率明显提高。Yahoo!以后陆綾使用Altavista、Inktomi、Google提供搜索引擎服务;2002年10月9日,Yahoo!放弃自己的网站目录默认搜索,改为默认Google的搜索结果,成为一个真正的搜索引擎。
  Lycos是搜索引擎史上又一个重要的进步。卡耐基?梅隆大学的MichaelMauldin将JohnLeavitt的蜘蛛程序接人到其索引程序中,创建了Lycos。1卯4年7月20日,数据量为54000的Lycos正式发布。除了相关性排序外,Lycos还提供前缀匹配和字符相近限制,Lycos第一个在搜索结果中使用了网页自动摘要,而最大的优势还是它远胜过其他搜索引擎的数据量,1994年8月它已搜集了394000个文档;1995年1月搜集了150万个文档;1996年U月已超过6000万个文档。1999年4月,LyC0S停止自己的蜘蛛程序,改由Fast提供搜索引擎服务。
  Infoseek是另一个重要的搜索引擎。Infoseek沿袭Yahoo!和Lycos的概念,其有友善的用户界面和大量的附加服务,使它成为一个强势搜索引擎。当用户点击Netscape浏览器上的搜索按钮时,弹出Infoseek的搜索服务,而此前由Yahoo!提供该服务。Infoseek后来曾以相关性闻名,2001年2月,Infoseek停止了自己的搜索引擎,开始改用Overture的搜索结果。
  年,一种新的搜索引擎形式出现了——元搜索引擎o用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。第一个元搜索引擎,是华盛顿大学硕士生EricSelberg和OrenEtzioni设计的Metacrawler。元搜索引擎概念上好听,但搜索效果始终不理想,所以没有哪个元搜索引擎有过强势地位。
  年12月,DEC的AltaVista登场亮相,大量的创新功能使它迅速到达当时搜索引擎的顶峰。AltaVista是第一个支持自然语言搜索的搜索引擎,AltaVista是第一个实现高级搜索语法的搜索引擎,如AND、OR、NOT等。用户可以用AltaVista搜索新闻组(News-81:0叩8)的内容并从互联网上获得文章,还可以搜索图片名称中的文字、搜索Titles、搜索。Javaapplets、搜索ActiveXobjects。AltaVista是第一个支持用户自己向网页索引库提受或删除URL的搜索引擎,并能在24小时内上线。在面向用户的界面上,AltaVista也作了大量革新。在搜索框下放了“tips”以帮助用户更好地表达搜索式,这些小提示经常更新,这样,在搜索过几次以后,用户会看到很多他们可能从来不知道的有趣功能。这系列功能,逐渐被其他搜索引擎广泛采用。1997年,AltaVista发布了一个图形演示系统LiveTopics,帮助用户从成千上万的搜索结果中我到想要的结果。2003年2月18日。,Altavista被Overture收购。
  年9月26日,加州伯克利好校CS助教EricBrewer、博士生PaulGauthier创立了Inktomi,1996年5月20日,Inktomi公司成立,强大的HotBot出现在世人面前。它声称每天能抓取索引1000万个网页,所以有远超过其他搜索引擎的新内容。Inktomi于2002年12月23日被Yahoo!收购。
  年10月之前,Google只是斯坦福大学的一个小项目^一^ackRub。1995年博士生LarryPage开始学习搜索引擎设计,于1997年9月15日注册了google,com的域名,1997年底,在SergeyBrin、ScottHassan、AlanSteremberg的共同参与下,BachRub开始提供Demo。1999年2月,Google完成了从Alpha版到Beta版的蜕变。Google公司则把1998年9月27日认作自己的生日。Google在Pagerank、动态摘要、网页快照、实时更新、多文档格式支持、地图/股票/词典/寻人等集成搜索、多语言支持、用户界面等功能上的革新,像AltaVista—样,再一次永远改变了搜索引擎的定义。在2000年以前,Google虽然以搜索准确性备受赞誉,但因为数据库不如其他搜索引擎大,缺乏高级搜索语法,所以推广并不快。直到20⑻年年中数据库升级后,又借着被Yahoo!选作搜索引擎的东风,才名声大震。Google自2000年开始提供中文搜索服务。
  年5月,挪威科技大学的Fast公司发布了自己的搜索引擎AUTheWeb。Fast创立的目标是做世界上最大和最快的搜索引擎,FaSt的网页搜索可利用ODP自动分类,支持Flash和pdf搜索,支持多语言搜索,还提供新闻搜索、图像搜索、视频、MP3和FTP搜索,拥有极其强大的髙级搜索功能。2003年2月25日,Fast的互联网搜索部门被Overture收购。

Lycos还提供前缀匹配和字符相近限制的图片31

  Teoma起源于1998年Rutgers大学的一个项目。ApostolosGerasoulis教授带领华裔TaoYang教授等人于新泽西Piscataway创立了Teoma,2001年春初次登场,2001年9月被提问式搜索引擎AskJeeves收购,2002年4月再次发布。Teoma的数据库目前仍偏小,但有两个出色的功能:支持樊似自动分类的Refine;同时提供专业链接目录的Resources。
  Wisenut由韩裔YeogirlYun创立。2001年春季发布Beta版,2001年9月5日发布正式版,2⑻2年4月被分类目录提供商Looksmart收购。Wisenut也有两个出色的功能:包含类似自动分类和相关检索词的WiseGuide;预览搜索结果的Sneak-a-Peek0Openfind创立于1998年1月,其技术源自中国台湾中正大学吴升教授所领导的GAIS实验室。Openfind起先只做中文搜索引擎,鼎盛时期同时为三大著名门户:新浪、奇摩、雅虎提供中文搜索引擎,但2000年后市场逐渐被Baidu和Google瓜分。2002年6月,Open-find重新发布基于GAIS30Project的Openfind搜索引擎Beta版,推出多元排序(PolyR-ankTM),宣布累计抓取网页35亿个,开始进人英文搜索领域,此后技木升级明显加快。
  北大天网是国家“九五”重点科技攻关项目“中文编码和分布式中英文信息发现”的研究成果,由北大计算机系网络与分布式系统研究室开发,于1997年10月29日正式在CERnet上提供服务。2000年年初成立天网搜索引擎新课题组,由国家973重点基础研究发展规划项目基金资助开发,收录网页约6000万个,利用教育网的优势,有强大的FTP搜索功能。
  年1月,两位北大校友,超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇(加州伯克利分校博士后)在北京中关村创立了百度公司。2001年8月发布Baidu,com搜索引擎Beta版(此前Baidu只为其他门户网站,如搜狐、新浪、Tom等提供搜索引擎)。2001年10月22日正式发布Baidu搜索引擎,专注于中文搜索。Baidu搜索引擎的其他特色包括:百度快照、网页预览、预览全部网页、相关搜索词、错别字纠正提示、MP3搜索、Flash搜索。2002年3月闪电计划开始后,技术升级明显加快。
  锼索利繫的今真

Lycos还提供前缀匹配和字符相近限制的图片38

  搜索引擎的技术基础是全文检索技术,国外从20世纪60年代就开始对全文检索技术进行研究。全文检索通常指文本全文检索,包括信息的存储、组织、表现、查询、存取等各个方面,其核心为文本信息的索引和检索,一般用于企事业单位。随着互联网信息的发展,搜索引擎在全文检索技木上逐渐发展起来,并得到广泛的应用,但搜索引擎还是不同于全文检索。搜索引擎和常规意义上的全文检索主要区别有以下几点。
  数据量
  传统全文检索系统面向的是企业本身的数据或者和企业相关的数据,一般索引数据库的规模多在GB级,数据量大的也只有几百万条;但互联网网页搜索需要处理几十亿的网页,搜索引擎的策略都是采用服务器群集和分布式计算技木。
  内容相关性
  信息太多,査准和排序就特别重要,Google等搜索引擎采用网页链接分析技术,根据互联网上网页被链接次数作为重要性评判的依据;但全文检索的数据源中相互链接的程度并不高,不能作为判别重要性的依据,只能基于内容的相关性排序。
  安全性
  互联网搜索引擎的数据来源都是互联网上公开的信息,而且除了文本正文以外,其他信息都不太重要;但企业全文检索的数据源都是企业内部的信息,有等级、权限等限制,对查询方式也有更严格的要求,因此其数据一般会安全和集中地存放在数据仓库中以保证数据安全和管理的要求。
  个性化和智能化
  搜索引擎面向的是互联网的访问者,由于其数据量和客户数量的限制,自然语言处理技术、知识检索、知识挖掘等计算密集的智能计算技术很难应用,这也是目前搜索引擎技术努力的方向。而全文检索数据量小,检索需求明确,客户量少,在智能化和个性上更具有优势。
  除了与全文检索系统有上述区别之外,搜索引擎按其工作方式主要可分为3种,分别是全文搜索引擎、目录索引类(SearchIndex/Pirectory)搜索引擎和元搜索引擎。
  全文搜索引擎
  全文搜索引擎是名副其实的搜索引擎,在国外具有代表性的搜索引擎有Google,AllTheWeb、AltaVista、Inktomi、TeOma、WiseNUt等,国内著名的有百度、中文搜索、北大天网等。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此它们是真正的搜索引擎。从搜索结果来源的角度,全文搜索引擎又可细分为两种:一种是拥有自己的检索程序,俗称蜘蛛程序或机器人程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如上面提到的引擎;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。
  全文搜索引擎有全文搜索、检索功能强、信息更新速度快等优点。但同时也有其不足之处,提供的信息虽然多而全,但可供选择的信息太多反而降低相应的命中率,并且提供的查询结果重复链接较多,层次结构不清晰,给人一种繁多杂乱的感觉。
  目录索引类搜索引擎
  目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词查询,仅靠分类目录也可找到需要的信息。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo!,其他的还有OpenDirectoryProject、LookSmart、About等。国内的搜狐、新浪、网易搜索也都属于这一类。
  目录索引与全文搜索引擎的区别在于它是由人工建立的,通过“人工方式”将站点进行了分类,不像全文搜索引擎那样,将网站上的所有文章和信息都收录进去,而是首先将该网站划分到某个分类下,再记录一些摘要信息,对该网站进行概述性的简要介绍,用户提出搜索要求时,搜索引擎只在网站的简介中搜索。它的主要优点有:层次、结构清晰,易于査找;多级类目,便于査询到具体明确的主题;在内容提要、分类目录下有简明扼要的内容,可以使用户一目了然。其缺点是搜索范围较小、更新速度慢、査询交叉类目时容悬遗漏。
  元搜索引擎
  元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有InfOSpace、DOgpile、ViviSimo等,中文元搜索引擎中具代表性的有北斗搜索。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo。
  除上述3大类搜索引擎外,还有以下几种非主流形式。
  ①集合式搜索引擎。如HotBot在2002年底推出的引擎。该搜索引擎类似于元搜索引擎,但区别在于不是同时调用多个引擎进行搜索,而是由用户从提供的4个引擎之中选择,因此叫它集合式搜索引擎更确切些。
  ②门户搜索引擎。如AOLSearch.MSNSearch等虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他引擎。
  ③免费链接列表(FreeForAllLinks,FFA)。这类网站一般只简单地滚动排列链接条目,少部分有简单的分类目录,不过规模比起Yahoo!等目录索引要小得多。<由于上述网站都为用户提供搜索査询服务,为方便起见,通常将其统称为搜索引擎。
  除了上面的分类外,搜索引擎还应具有以下的功能。

Lycos还提供前缀匹配和字符相近限制的图片35

  网页搜索功能
  网页搜索是一种基于程序基础上的搜索技术,它和网站搜索最大的区别就是网站搜索是基于人工编辑和整理的,而网页搜索是程序按照预先设定的规则去各网站上抓取网页信息,并按照既定的程序规则建立索引,在用户输人关键词进行搜索的时候,按照关键词匹配等规则,将网页按照一定的顺序排列出来的搜索方式。
  网站搜索功能
  当雅虎创建第一代搜索引擎时,采用的就是分类目录的方式。随着技术的逐歩发展,现在的用户更习惯于直接输人关键词的简单搜索方式,关键词搜索成为一种主流搜索模式。网站搜索就是以关键词搜索的方式在分类目录的数据源里进行检索。
  图片搜索功能
  图片搜索是为了满足广大用户的搜索需要而独立出来的一种专门搜索。图片搜索是基于对网页页面的文字分析和文件属性分析后的搜索结果,而不是想象中的对图片本身进行分析的结果。除了常规的搜索框之外,图片搜索还给用户提供了热门关键词、分类目录和热门排行榜,网易相册也在图片搜索里开辟了栏目。
  新闻搜索功能
  新闻搜索功能给用户提供优质、高效的新闻服务。值得一提的是,新闻搜索提供了个性化设置功能,让用户能够以自己最喜欢的方式浏览自己最想看的新闻。
  字典搜索功能
  字典搜索功能提供常规的英汉、英英互译,在线朗读服务以及提供成语中译英服务。
  功能搜索功能

Lycos还提供前缀匹配和字符相近限制的图片42

  功能搜索功能可提供:天气预报、电视预报、火车车次査询、文档查询、航班查询、手机号码查询、IP地址査询、邮政编码查询、货币兑换以及万年历等功能。
  锼索利繁的奚破技术
  信息收集和存储技术
  网上信息收集和存储一般分为人工和自动两种方式。
  人工方式采用传统信息收集、分类、存储、组织和检索的方法。研究人员对网站进行调查、筛选、分类、存储。由专业人员手工建立关键字索引,再将索引信息存人计算机相应的数据库中。
  自动方式通常是由网络机器人来完成的。“网络机器人”是一种自动运行的软件,其功能是搜索因特网上的网站或网页。这种软件定期在因特网上漫游,通过网页间链接顺序地搜索新的地址,当遇到新的网页时,就给该页上的某些字或全部字做上索引并把它们加入到搜索引擎的数据库中,由此,搜索引擎的数据库得以定期更新。
  一般来说,人工方式收集信息的准确性要远优于“网络机器人”,但其收集信息的效率及全面性低于“网络机器人”。
  信息预处理技术
  信息预处理包括信息格式支持与转换以及信息过滤。目前,因特网上的信息发布格式多种多样,这就要求搜索引擎支持多种文件格式。从实际情况看,所有的搜索引擎都支持HTML格式,而对于其他文件格式的支持则不同的搜索引擎有不同的规定,最多的能支持200多种文件格式。一般地说,一个企业级的公用Web站点起码应该支持60种文件格式。同时搜索引擎还应具备信息格式转换功能,以保证不同格式的数据均能在网络流通。信息过滤也是搜索引擎的一项重要技术。在因特网中,存在大量的无用信息,一个好的搜索引擎应当尽量减少垃圾站点的数量,这是信息过滤要着重解决的问题。
  信息索引技术
  信息索引就是创建文档信息的特征记录,以使用户能够快速地检索到所需信息。建立索引主要涉及以下几个问题。
  信息语词切分和语词词法分析
  语词是信息表达的最小单位,由于语词切分中存在切分歧义,切分需要利用各种上下文知识。语词词法分析是指识别出各个语词的词干,以便根据词干建立信息索引。
  进行词性标注及相关的自然语言处理
  词性标注是指利用基于规则和统计(马尔科夫链)的科学方法对语词进行标注,基于马尔科夫链随机过程的n元语法统计分析方法在词性标注中能达到较高的精度。可利用多种语法规则识别出重要的短语结构。自然语言处理是运用计算机对自然语言进行分析和理解,从而使计算机在某种程度上具有人的语言能力。将自然语言处理应用在信息检索中,可以提高信息检索的精度和相关性。
  建立检索项索引
  使用倒排文件的方式建立检索项索引,一般包括“检索项”、“检索项所在文件位置信息”以及“检索项权重”。
  检索结果处理技术
  搜索引擎的检索结果通常包含大量文件,用户不可能一一浏览。搜索引擎一般应按与查询的相关程度对检索结果进行排列,最相关的文件通常排在最前面。搜索引擎确定相关性的方法有概率方法、位置方法、摘要方法、分类或聚类方法等。
  ①概率方法根据关键词在文中出现的频率来判定文件的相关性。这种方法对关键词出现的次数进行统计,关键词出现的次数越多,该文件与查询的相关程度就越高。
  ②位置方法根据关键词在文中出现的位置来判定文件的相关性。关键词在文件中出现得越早,文件的相关程度就越高。
  ③摘要方法是指搜索引擎自动地为每个文件生成一份摘要,让用户自己判断结果的相关性,以使用户进行选择。
  ④分类或聚类方法是指搜索引擎采用分类或聚类技术,自动把査询结果归入到不同的类别中。

Lycos还提供前缀匹配和字符相近限制的图片39

  省代i妻梭索利繫介殆
  谷歌搜索
  谷歌搜索的网址为:http://www.google,com。Google是由英文单词googol变化而来。googol是美国数学家EdwardKasner的侄子MitionSirotta创造的一个词,表示1后边带有100个零的数字。Google使用这个词代表公司想征服网上无劳无尽资料的雄心。Google已经成为目前规模最大的搜索引擎,并向AOL、C0mpuServe、NetScape等其他门户和搜索引擎提供后台网页査询服务。目前Google每天处理的搜索请求已达2亿次,而且这一数字还在不断增长。Google数据库存有42.8亿个Web文件。属于全文搜索引擎。Google通过对30多亿网页进行整理,为世界各地用户提供适合各自需要的搜索结果,而且搜索时间通常不到半秒。现在,Google每天需要提供2亿次查询服务,几乎占了全球所有搜索量的1/3。Google是当前世界上最大、最受欢迎的捜索引擎,它提供了最便捷的网上信息査询方法。Google自2000年开始提供中文搜索服务。
  Google的功能与特点
  界面简洁
  首页作为用户开始接触该搜索引擎的门户,美观、简洁是一大根本,可以使用户能直观地感觉到搜索引擎功能的存在,而且意识到其搜索功能的强大,从而有继续搜索操作的愿望。Google的主页界面相当简洁,完全突出了搜索的功能,不但给人以开门见山的感觉,而且会使人感受到其功能的强大,并引发出强烈的搜索欲望,如图1-1所示。
  Google-licrosoftInternetExplorer
  □回?
  图1-1Google搜索主页界面
  资源丰富、内容广泛
  Google是全球最大的互联网文档收集者,在全球范围内已经搜集了20多亿网页资料,7亿多新闻组的帖子和3亿多图片,还有网页快照(即当搜索内容站点或网页不存在时,用户可以调用搜索引擎事先为用户存储的大量应急网页,Google将检索的网页都做了一番“快照?”然后放在自己的服务器上,这种处理方式不仅使下载速度极快,而且可以获得互联网上已经删除的网页)的服务,最适合使用者多的门户网站。
  相关性髙
  Google可以根据网页间彼此的连接关系,把一篇网页被连接数目的多寡作为其相关性的一项指标。对于用户所输人的关键字,Google最大程度地寻求语义上的匹配,例如,想查找有关某人的网页,但误输人同音却不同字的名字,Google也能帮你找到想要的信息。或者,在查询框输人作者名字,所有文章或有关的网页都会被检索到,连哪个网站有转载都准确地显示出来。此外,Google还包含汉字的相关性,例如,对于中文简体网站,可找出对应的繁体网站,甚至是日文网站。高相关性更好地提髙了Google搜索的结果的精准度,还提高了搜索效率。
  技术先进、搜索结果精确、排序公正

Lycos还提供前缀匹配和字符相近限制的图片34

  有别于其他搜索引擎,没有人能花钱买到Google的一个更髙级别的PageRank,保证了排名的客观公正。Google搜索就是以这样诚信的服务让用户非常容易地找到髙质量的网站。除了具有其他搜索引擎已有的功能外,Google还有非常多的特色功能。例如,Google的专利——网页级别技术能够提供髙命中率的搜索结果,Google的搜索结果摘录查询网页的部分具体内容,而不仅仅是网站简介,Google智能化的“手气不错”功能,提供可能最符合要求的网站,Google使网络井然有序、网页级别客观公正,只提供包含所有关键字的网页,遵从关键字的相对位置,査找结果可以限定在可用的28种语言之一,可选择语言界面有72种(包括简体中文和繁体中文);语言翻译功能(目前正在试用),能够把法语、德语、意大利语、葡萄牙语、西班牙语和英语互相翻译;具有股票报价、地图査询、新闻查询、电话号码本、字典查询、工具条等功能;可以査找PDF等12种文件类型。
  搜索快速
  Google搜索速度的快捷是它的又一大特色,用户所输人的任何关键字或信息,都能得到Google快速的响应,且其超链分析的算法还会将搜索结果排列出优先次序,从而使重要的结果排列在前,节省了用户的查询时间。它在全世界拥有超过10000台Linux服务器,200多条T3级(传输速率可达44.736Mbit/s)宽带,在超过20亿的网页中搜索问题并回复极为相关网页的时间不到1.5s。目前,每天都有数千万用户登彔Google,使用其网上搜索引擎,处理的网页搜索量达到了每秒2000多次,每天超过1.5亿次。这方面权威杂志IF-ired的评价很有代表性:“由于简单有效,Google已成为广大互联网用户的宠儿”。此外,Google数据库的更新速度快,有效链接率髙,这些都是使搜索快速的重要因素。

Lycos还提供前缀匹配和字符相近限制的图片30

  使用方便
  对于搜索引擎来说,它的简单、易用仍是现代用户的首选,Google首页的简洁从一个侧面已反映出其在用户操作上提供的方便、易用的特色。Google对各种类型的用户所研究、设计出的搜索引擎针对性强,适应面更广。Google的关键词输人很简捷,并且提供了详尽、具体的使用说明,用语大众化,易于理解和掌握。例如,要搜索“搜索引擎AND人工智能”的内容,由于Google自带“AND”功能,只需先输人“搜索引擎”,空格后,再输人“人工智能”,单击“Google搜’索”按钮,瞬间就可得到结果。
  功能齐全
  本文转载自
  宁波seo优化www.leseo.net
  补充词条:宁波网站seo  宁波网络seo公司  宁波谷歌seo  宁波seo网站优化  宁波谷歌优化