宁波seo优化专栏

浅谈搜索引擎的分类及特点

发布时间:2018-12-04 21:53:51
  宁波网站优化[摘要]随着信息技能的开展,网络的迅速遍及,查找引擎在网络用户的日子中扮演着越来越重要的地位,本文就爬虫式的查找引擎、目录查找引擎和元查找引擎做了翔实的剖析比较,并对现在的查找引擎的特色进行了描绘。
  [关键词]查找引擎 分类 爬虫 元查找引擎
  现在Internet上的查找引擎按其工作方式首要可分为三种,分别是爬虫式的查找引擎(Spider Based Search Engine),目录查找引擎(Search Directory)和元查找引擎(Meta Search Engine)。
  一、爬虫式的查找引擎
  根据爬虫(也叫Spider)的查找引擎运用一个称为Spider的程序自动拜访Web站点,提取站点上的网页,并依据网页中的链接进一步提取其它网页或转移到其它站点上。Robot收集的网页被加入到查找引擎的数据库中供用户查询运用。根据Spider的查找引擎山三个首要部分构成Spider, Index和查找软件。爬虫从一个事前制定好的URLs列表出发,这个列表中的URLs一般是从以往拜访记录中提取出来的,特别是一些抢手站点和“Whats New”网页,从Usenet等地方检索得到的URLs也常被用作开始URLs,许多查找引擎还承受用户提交的URLs,这些URLs也会被安排在列表中供爬虫问列表中,如此递归地拜访Web。
  爬虫作为一个程序,能够用C, Perl, Java等语言来编写,能够运行在Unix, Solaris, Windows, NT, OS2和MAC等平台上。爬虫规划是否合理将直接影响它拜访Web的效率,影响查找数据库的质量,另外在规划爬虫时还必须考虑它对网络和被拜访站点的影响,因为爬虫一般都运行在速度快,带宽高的主机上,如果它快速拜访一个速度比较慢的目标站点,就有可能会导致该站点呈现堵塞甚至当机。Robot还应遵守一些协议,以便被拜访站点的管理员能够断定哪些内容能被拜访,哪些不能。Index是一个巨大的数据库,爬虫提取的网页将被放入到Index中以便树立索引,不同的查找引擎会采纳不同方式来树立索引,有的对整个HTML文件的一切单词都树立索引,有的只剖析HTML文件的标题或前几段内容,还有的能处理HTML文件中的META标记或其它小可见的特别标记。当用户查询一个关键词时,查找软件将查找Index,找出一切与关键词相符合的网页,有时候这些网页可能有不计其数,等级值的用处就是作为一种排序的依据,查找软件将按照等级值从高到低的顺序把查找成果送回到用户的浏览器中。
  这类查找引擎因为依托程序收集数据,所以其数据库适当巨大,查找的成果查全率较高,但查准率较低。例如闻名的查找引擎Google, Baidu,A1taVista, InfoSeek等。
  二、目录查找引擎
  目录查找引擎的数据库是依托专职编辑或志愿人员树立起来的,这些编辑人员在拜访了某个Web站点后撰写一段对该站点的描绘,并依据站点的内容和性质将其归为一个预先分好的类别,把站点的URL和描绘放在这个类别中,当用户查询某个关键词时,查找软件只在这些描绘中进行查找。许多目录也承受用户提交的网站和描绘,当目录的编辑人员认可该网站及描绘后,就会将之添加到合适的类别中。目录的结构为树形结构,首页供给了最基本的几个大类的入口,用户能够一级一级地向下拜访,直至找到自己感兴趣的类别,另外,用户也能够运用目录供给的查找功用直接查找一个关键词。不过,由于目录式查找引擎只在保存了对站点的描绘中进行查找,因而站点自身的动态变化不会反映到查找成果中来,这也是目录式查找引擎与根据Robot的查找引擎之间的一大差异。
  三、元查找引擎
  元查找引擎也叫做Multiple Search Engine,元查找引擎在承受用户查询请求时,一起在其他多个引擎上进行查找,将成果进行相关处理,以整体统一的格式反馈给用户。它的特色是自身并没有寄存网页信息的数据库。严厉意义上来讲,元查找引擎只能算是一种用户署理,而不是真正的查找引擎。多数元查找引擎在处理其它的查找引擎回来成果时,只提取出每个查找引擎的成果中考前的条目,然后将这些条目兼并在一起回来给用户,因而最终成果的数量可能会远少于直接在一个查找引擎上进行查找所得到的数量。
  元查找引擎实现起比较简单,可是它也有必定的局限性,例如多数元查找引擎都只能拜访少数几个查找引擎,而且一般不支撑这些查找引擎的高档查找功用,在处理逻辑查询时也常常会呈现错误。闻名的元查找引擎有InfoSpace,Dogpile,Vivisimo等(元查找引擎列表)。在查找成果摆放方面,有的直接按来源引擎摆放查找成果,如Dogpile,有的则按自定的规则将成果重新摆放组合,如Vivisimo。
  在这几中检索东西中,目录式查找引擎虽有成本高,信息t少的缺点,但它的信息准确这一优点是另二者所无法比拟的,故在必定的领域,必定的时刻,它仍会被运用:机器人查找引擎是当前各种查找引擎的主流;但随着网络信息量的不断增加,单一的查找引擎现已难已满意其要求,结合目录式查找引擎,机器人查找引擎的优势,以元查找引擎核心的多层署理查找引擎是查找引擎的开展方向。
  查找引擎技能从呈现至今已获得了飞速的开展,现在的查找引擎功用越来越强壮,供给的效劳也越来越全面,它们的目标不仅仅是供给单纯的查询功用,而是把自己开展成为用户首选的Internet入口站点。现在的查找引擎首要有以下几个首要特色:
  1.多样化和个性化的效劳。现在绝大多数查找引擎都供给多样化的效劳,以吸引更多的用户,商业查找引擎特别重视这一点。以Yahoo为例,用户能够从它的首页中查看新闻,金融证券,天气预报等信息,还能够进行网上购物,拍卖或许运用Email等效劳。能够说多样化和个性化的效劳既满意了用户更多的需求,也为查找引擎网站带来了更多的利润。
  2.强壮的查询功用。与最早的查找引擎相比,现在的查找引擎在查询功用方面已有了很大的改善。除了简单的AND,OR和NOT逻辑外,不少查找引擎还支撑类似查询,例如AltaVista,Lycos等支撑短语查询,AltaVista的高档查找功用支撑NEAR逻辑等。
  3.目录和根据Robot的查找引擎相互结合。目录和根据Robot的查找引擎都具有自己的特色,在当前的技能条件下,最好的挑选是将两种技能进行结合,一起为用户供给这两种类型的效劳。以Yahoo为例,用户既能够进行分类网站查询也能够进行全部网页查询,这两种不同的查询方式很好的满意了不同用户的需求。尽管查找引擎现已为用户供给了快捷和便当的效劳,可是也存在着许多问题和缺乏。特别是在系统的稳定性,速度,易用性和回来的信息量及相关度方面还与人们的要求存在着必定的距离,查找引擎技能的开展任重而道远。
  参考文献:
  [1]刘建国.查找引擎概述.北京大学计算机与科学技能,1999,(10):200.
  [2]李晓明,刘建国.查找引擎技能及趋势.大学图书馆学报.2000,(16).
  本文转载自
  宁波网站优化www.leseo.net
  补充词条:宁波网络seo  宁波网站seo优化  宁波网络seo公司  宁波网站优化推广  宁波seo推广公司