宁波seo优化专栏

个性化搜索引擎关键技术及应用

发布时间:2018-12-07 16:44:30
  摘要:网络中的资源非常丰富,可是怎么有效的查找信息却是一件困难的工作。树立查找引擎就是解决这个问题的最好办法。本文首先介绍了根据英特网的查找引擎的体系结构,然后从网络机器人、索引引擎、Web效劳器3个方面进行阐明,并从特性化查找引擎的“特性化”进行讨论。
  关键词:查找引擎;查找器;索引器;特性化信息过滤
  中图分类号:TP393.09文献标识码:A文章编号:1672-7800(2011)08-0120-02
  
  作者简介:廖绍雯(1977-),女,四川成都人,硕士,河西学院信息技能与传媒学院讲师,研讨方向为图形图像处理,核算机网络;陈勇(1980-),男,河北宣化人,硕士,河北宣化炮兵指挥学院基础部讲师,研讨方向为侦办与情报。0导言
  查找引擎(searchengine)是指根据必定的战略、运用特定的核算机程序从互联网上收集信息,在对信息进行安排和处理后,为用户供给检索效劳,将用户检索相关的信息展现给用户的体系。随着WWW信息爆破式成长和人们对查找引擎重视点的转变(从怎么找到更多的信息转移到怎么找到准确、有用的信息),现有查找引擎越来越不能满意人们的查询要求,查找引擎技能面临着史无前例的应战。这就需求人们不断研讨新的快速、高效的查找引擎。
  查找引擎一般由信息收集体系、索引数据库、检索器和用户接口4个部分组成:①信息收集体系:信息收集体系又称为查找器,即各种查找引擎的蜘蛛、爬虫,其功用是在互联网中漫游,发现和收集信息;②索引数据库有时称索引器,其功用是了解查找器所查找到的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表;③检索器:其功用是根据用户的查询在索引库中快速检索文档,进行相关度点评,对即将输出的成果排序,并能按用户的查询需求合理反响信息;④用户接口:用户接口即传统的查找框,其作用是接收用户查询、显示查询成果、供给特性化查询项。
  1查找引擎的构成
  1.1网络机器人
  网络机器人也称为“网络蜘蛛”(Spider),是一个功用很强的Web扫描程序。它可以在扫描Web页面的一起检索其内的超链接并参加扫描队列等候以后扫描。蜘蛛的工作职责是发现新的网页并收集这些网页的快照,然后剖析该网页。蜘蛛以抓取页面为主,比如扫描网页,一切的查找引擎都可以完成深层检索和快速检索。在深层检索中,蜘蛛可以查找和扫描网页内的一切内容;在快速检索中,蜘蛛不遵循深层检索的规则,只查找重要的关键词部分,而不查看和扫描网页里的一切内容。我们都知道网站最重要的是快照时刻,也就是说蜘蛛匍匐和录入的网页速度越快,就阐明这个网站在查找引擎心中越重要,比如新华网和人民网,蜘蛛每小时爬4次以上,有的网站一个月也不见得能被蜘蛛爬一次。快照的抓取程度取决于网站内容的流行度、更新速度与网站域名的新旧。在蜘蛛的匍匐规则中,假如有许多外部链接指向这个网站,那就阐明这个网站比较重要,所以抓取这个网站的频率很高。当然,查找引擎这样做也是为了省钱,假如都以同样的频率匍匐一切网站,这样需求更多的时刻和本钱,才干得到更全面的查找成果。
  1.2索引与查找
  网络机器人将遍历得到的页面寄存在临时数据库中,假如经过SQL直接查询信息速度将会难以忍受。为了提高检索效率,需求树立索引,依照倒排文件的格局寄存,并且索引需求及时的更新。用户输入查找条件后查找程序将经过索引数据库进行检索然后把符合查询要求的数据库依照必定的战略进行分级摆放并且回来给用户。
  1.3Web效劳器
  客户一般经过阅读器进行查询,这就需求体系供给Web效劳器并且与索引数据库进行连接。客户在阅读器中输入查询条件,Web效劳器接收到客户的查询条件后在索引数据库中进行查询、摆放然后回来给客户端。
  2查找引擎的分类
  查找引擎按其工作方式首要可分为3种,分别是全文查找引擎(FullTextSearchEngine)、目录索引类查找引擎(SearchIndex/Directory)和元查找引擎(MetaSearchEngine)。
  2.1全文查找引擎
  全文索引引擎是当之无愧的查找引擎,国外代表有Google,国内知名的百度查找。它们从互联网提取各个网站的信息(以网页文字为主),树立起数据库,并能检索与用户查询条件相匹配的记载,按必定的摆放次序回来成果。
  根据查找成果来源的不同,全文查找引擎可分为两类:一类具有自己的网页抓取、索引、检索体系(Indexer),有独立的“蜘蛛”(Spider)程序、或爬虫(Crawler)、或“机器人”(Robot)程序(这三种称法含义相同),能自建网页数据库,查找成果直接从本身的数据库中调用,上面提到的Google和百度就归于此类;另一类则是租借其他查找引擎的数据库,并按自定的格局摆放查找成果,如Lycos查找引擎。
  2.2目录查找引擎
  实际上它们算不上是查找引擎,仅仅是按目录分类的网站链接列表罢了。用户彻底可以不必进行关键词(Keywords)查询,仅靠分类目录也可找到需求的信息。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo。其他闻名的还有OpenDirectory(DMOZ)、LookSmart、About等。国内的搜狐、新浪、网易查找也都归于这一类。
  2.3元查找引擎
  元查找引擎在承受用户查询请求时,一起在其他多个引擎上进行查找,并将成果回来给用户。
  3查找引擎技能的现状
  目前的查找引擎依然存在不少的局限性。概括起来首要有信息丢掉、检索成果中存在着很多废物信息、对自然语言发问没有了解能力、对多媒体内容的检索尚不成熟等等。本文以为未来的查找引擎应考虑这样几个方向:智能化查找、特性化查找、结构化查找、专业化查找和本土化查找等。
  4特性化查找引擎的关键技能
  4.1特性化信息效劳
  特性化信息效劳首要包含两个方面的含义:第一、特性化信息是反映人类个别特性的一切信息,这些信息包含了这个个别所具有的各种属性的描绘;第二、特性化信息是由人类个别特性所决议的其对信息的需求的一种信息组合,也就是由人类特性对信息需求的决议联系而产生的一系列对个别有用的信息。
  4.2Agent技能
  Agent的概念由Minsky在其1986年出书的《思想的社会》一书中提出。Minsky以为社会中的某些个别经过洽谈之后可求得问题的解,宁波seo这些个别就是Agent。他还以为Agent应具有社会交互性和智能性。从此,Agent的概念便被引进人工智能和核算机范畴,并迅速成为研讨热门。在散布核算范畴,人们一般把在散布式体系中持续自主发挥作用的、具有以下特征的活着的核算实体称为Agent。一般以为Agent具有如下特征:自主性、交互性、反响性、主动性。
  5结束语
  目前,国人已经越来越重视中文特性化查找引擎的开发,尽管现在已经有了必定的基础,但它间隔成为一个成熟的产品,道路还很漫长。查找引擎的特性化效劳使查找引擎可以剖析检索者的阅读行为来学习检索者的需求,利用查找引擎的现有效劳,有选择地为用户供给特性化效劳,到达向用户推送他们真正感兴趣的信息。而现在,飞速发展的智能署理技能以一种彻底不同的方式供给智能化的信息获取和处理手段,可以满意用户的特性化需求。因此,查找引擎的发展应是在完成特性化的一起,向智能化效劳的方向发展。
  参考文献:
  [1]陈根栓,寇敏,宋文中.Web查找引擎技能及使用[J].山西电子技能,2000(6).
  [2]庄毅,黎浩宏.查找引擎发展现状及意向[J].核算机年代,2002(8).
  [3]张晓刚,李明树.智能查找引擎技能的研讨与发展[J].核算机工程与使用,2001(24).
  [4]杨桂芝.特性化查找引擎关键技能初探[J].科技情报开发与经济,2007(3).
  [5]陈建秋,邓飞其.智能化查找引擎剖析与讨论[J].广州大学学报(自然科学版),2002(3).
  (责任编辑:王钊)
  本文转载自
  宁波seowww.leseo.net
  补充词条:宁波网站排名优化  宁波seo外包  宁波谷歌seo  宁波网站优化推广  宁波seo排名