宁波seo优化专栏

宁波seo优化:也有可能用户关心的是间接的信息

发布时间:2018-09-22 18:48:11

  每次搜集替换上一次的内容,我们称之为“批量搜集”。由于每次都是重新来一次,对于大规模搜索引擎来说,每次搜集的时间通常会花费几周的时间。这样做的开销比较大,通常两次搜集的间隔时间也很任(如早期天网的版本大约每3个月搜索一次,Google在一段时间曾是每隔28天搜索一次)。这种方法的好处是系统实现比较简单,缺点是时实性不髙,还有重复搜集所带来的额外带宽的消耗。
  增量搜集法
  最初时搜集好一批数据,以后只是搜集新出现的网页和改变的网页并删除不再存在的网页。除了新闻网站外,许多网页的内容并不是经常变化的,这样一来每次搜集的网页量不会很大,于是可以经常进行搜集。30.万个网页,一台PC机,在一般的网络舞件下,半天也就搜集完了。这样的系统表现出来的信息时实性就会比较高,主要缺点是系统实现比较复杂。
  在具体搜集过程中,如何抓取一篇篇的网页,可以有不同的考虑。最常见的一种是所谓“爬取”,具体过程是,将Web上的网页集合看成是一个有向图,搜集过程从给定起始URL的集合S(或者说“种子”)开始,沿着网页中的链接,按照先深、先宽或者某种别的策略遍历,不停的从S中移除URL,下载相应的网页,解析出网页中的超链接URL,看是否已经被访问过,将未访问过的那些URL加入集合S。整个过程可以形象地想象为一个蜘蛛在蜘蛛网上爬行。一个真正的系统其实是多个“蜘蛛”同时在爬。
  这种方法实现起来不算困难,但需要注意的是在实现过程中通过一定的策略,使搜集到的某些网页相对比较“重要”。我们知道任何搜索引擎是不可能将Web上的网页搜集完全的,通常都是在某些条件的限制下来结束搜集的过程(如磁盘满,或者搜集时间已经太长了)。因此就有了一个尽量使搜到的网页比较重要的问题,这对于那些并不追求很大的数量覆盖率的搜索引擎特别重要。一般情况下按照先宽搜索方式得到的同页集合要比先深搜索得到的集合重要。
  另外一种可能的方式是在第一次全面网页搜集后,系统维护相应的URL集合S,往后的搜集直接基于这个集合。每搜到一个网页,如果它发生变化并含有新的URL,则将它们对应的网页也抓回来,并将这些新URL也放到集合S中;如果S中某个URL对应的网页不存在了,则将它从S中删除。这种方式也可以看成是一种极端的先宽搜索,即第一层是一个很大的集合,往下最多只延伸一层。
  还有一种方法是让网站拥有者主动向搜索引擎提交它们的网址,系统在一定时间内向那些网站派出“蜘蛛”程序,扫描该网站的所有网页并将有关信息存人数据库中。大型商业搜索引擎一般都提供这种功能。

也有可能用户关心的是间接的信息的图片96

  网页处理
  互联网上大部分信息都是以HTML格式存在,对于索引来说,只处理文本信息。因此需要把网页中文本内容提取出来,过滤掉一些脚本标示符和一些无用的广告信息,同时记录文本的版面格式信息。网页处理主要包括4个方面:关键词的提取、重复或转载网页的消除、链接分析和网页重要程度的计算。
  关键词的提取
  由于HTML文档产生来源的多样性,许多网页在内容上比较随意,不仅文字不讲究规范、完整,而且还可能包含许多和主要内容无关的信息(如广告,导航条,版权说明等)。为了支持査询服务,需要从网页源文件中提取出能够代表它的内容的一些特征——关键词。
  网页处理阶段的一个基本任务,就是要提取出网页源文件的内容部分所包含的关键词。对于中文来说,就是要根据一个词典S,用一个“切词软件”,从网页文字中切出2所含的词语来。这样一篇网页就可以由一组词来近似代表了,…,hK—般来讲,可能得到很多词,同一个词可能在一篇网页中多次出现。从效果和效率考虑,不应该让所有的词都出现在网页的表示中,要去掉诸如“的”、“在”等没有内容指示意义的词,称为“停用词”。这样,对一篇网页来说,有效的词语数量大约为200。
  重复或转载网页的消除

也有可能用户关心的是间接的信息的图片89

  我们知道Web上的信息存在大量的重复现象。统计分析表明,网页的重复率平均大约为4。也就是说,当通过一个URL在网上看到一篇网页的时候,平均还有另外3个不同的URL也给出相同或者基本相似的内容。这种现象对于搜索引擎来说,它在搜集网页时要消耗机器时间和网络带宽资源,而且如果在査询结果中出现,将消耗查询者计算机的资源,也会引来用户的抱怨。因此,消除内容重复或主题重复的网页是网页处理阶段的一个重要任务。
  链接分析
  从信息检索的角度讲,如果系统面对的仅仅是内窖的文字,我们能依据关键词和关键词在文档集合中出现的频率来统计该词的相对重要性以及和某些内容的相关性。有了HTML标记后,情况还可能进一步改善,例如,在同一篇文档中,<H1〉和</H1〉之间的信息很可能就比在<^<4〉和</44>之间的信息更重要。尤其HTML文档中所含的指向其他文档的链接信息是人们特别关注的对象,认为它们不仅给出了网页之间的关系,而且还对判断网页的内容有很重要的作用。
  网页重要程度的计算
  搜索引擎返回给用户的,是一个和用户査询相关的结果列表。列表中条目的顺序是很重要的一个问题。不同的顺序达到的结果是不一样的,因此搜索引擎实际上追求的是一种统计意义上的满意。例如,人们认为用Google查询比较好,是因为在多数情况下Google返回的内容要更符合用户的需要。
  如何对查询结果进行排序有很多因素需要考虑,如何理解一篇网页比另外一篇网页重要?人们参照科技文档重要性的评估方式,核心想法就是“被引用多的就是重要的”。“引用”这个概念恰好可以通过在网页之间的超链进行体现,作为Google创立核心技术的Pag-eRank就是这种思路的成功体现。除此以外,人们还注意到网页和文档的不同特点,即一些网页主要是大量对外的链接,其本身基本没有一个明确的主题内容,而另外有些网页则被大量的其他网页链接。‘从某种意义上讲,这形成了一种对偶的关系,这种关系使得人们可以在网页上建立另外一种重要性指标。这些指标有的可以在网页处理阶段计算,有的则要在查询阶段计算,但都是作为在查询服务阶段最终形成结果排序的部分参数。
  查询服务
  为了完成查询服务,需要有相应的元素来进行表达,这些元素主要有:原始网页文档、URL和标题、编号、所含的重要关键词的集合以及它们在文档中出现的位置信息、其他一些指标,如重要程度、分类代码等。
  用户通过搜索引擎看到的不是一个“集合”,而是一个“列表”。如何从集合生成一个列表,是服务子系统的主要工作。服务子系统是在服务进行的过程中涉及的相关软件程序,而网页处理子系统事先为这些软件程序准备了相应的数据。服务子系统的工作原理,主要有4个方面。
  查询方式和匹配
  査询方式指的是系统允许用户提交查询的形式。对于普通用户来说,最自然的方式就是“需要查询什么就输人什么例如,用户输人”搜索引擎“,可能是他想了解有关搜索引擎的定义、概念和相应的知识;也可能是他想了解目前有哪些搜索引擎,如何进行搜索等内容;也有可能用户关心的是间接的信息。目前用一个词或者短语来进行查询,依然是主流的査询模式,这种模式比较简单且容易实现。
  词的识别是搜索引擎中非常关键的一部分,通过字典文件对网页内的词进行识别。对于西文信息来说,需要识别词的不同形式,例如:单复数、过去式、组合词、词根等,对于一些亚洲语言(中文、日文、韩文等)需要进行分词处理。识别出网页中的每个词,并分配唯一的wordID号,用于为数据索引中的索引模块服务。
  例如,当用户输人”搜索引擎教程“进行搜索时,系统首先将这个短句进行分词处理,将其分为”搜索引擎教程“,然后删除那些没有查询意义或者在每篇文档中都会出现的词,最后形成一个用于参加匹配的查询词表,该词表的数据结构是一个用对应的分词作为索引的一个倒排文件,它的每一个元素都对应倒排文件中的一个倒排表。这样系统就完成了查询和文档的匹配。

也有可能用户关心的是间接的信息的图片92

  索引库的建立
  索引库的建立是数据索引中结构最复杂的一部分。一般需要建立两种索引:文档索引和关键词索引。文档索引分配每个网页一个唯一的docID号,根据docID索引出在这个网页中出现过多少个wordID,每个wordID出现的次数、位置、大小写格式等,形成docID对应wordID的数据列表;关键词索引其实是对文档索引的逆索引,根据wordlD索引出这个词出现在哪些网页(用wordID表示),出现在每个网页的次数、位置、大小写格式等,形成wordID对应docID的列表。
  结果排序
  结果就是将查询结果的集合在屏幕上以列表的方式显示出来。所谓列表,就是按照某种评价方式,确定出查询结果集合中元素的顺序,让这些元素以某种顺序呈现出来,这就是相关性。相关性是形成这种查询顺序的基本因素,有效地定义相关性本身是很困难的,从原理上讲它不仅和查询词有关,而且还和用户的背景,以及用户的査询历史有关。不同需求的用户可能输人同一个查询,同一个用户在不同的时间输人的相同的査询可能是针对于不同的需求的。
  一般来讲,结果排序的方法是基于词汇出现的频率,也就是说在一篇文档中包含的查询词越多,则该文档就越应该排在前面。这样一种思路有一定的道理,而且在倒排文件数据结构上很容易实现。当我们通过关键词的提取过程,形成一篇文档的关键词的集合后,很容易同时得到每一个词在该文档中出现的次数,即词频,而倒排文件中每个倒排表的长度则对应着一个词所涉及的文档的篇数,即文档频率。然而,由于网页编写的自发性、随意性较强,仅仅针对词的出现来决定文档的顺序,在Web上做信息捡索表现出明显的缺点,需要有其他技术的补充。这方面最重要的成果就是PageRank。通过在网页处理阶段为每篇网页形成一个独立于查询词(也就和网页内容无关)的重要性指标,将它和査询过程中形成的相关性指标结合形成一个最终的排序,是目前搜索引擎给出查询结果排序的主要方法。
  搜索的处理过程是对用户的搜索请求进行满足的过程,通过用户输人搜索关键字,搜索服务器对应关键词字典,把搜索关键词转化为wordID,然后在索引库中得到docID列表,对docID列表进行扫描和wordID的匹配,提取满足条件的网页,然后计算网页和关键词的相关度,根据相关度的数值返回给用户。
  文档摘要
  搜索引擎给出的结果是一个有序的条目列表,每一个条目有3个基本的元素:标题、网址和摘要。其中的摘要需要从网页正文中生成。

也有可能用户关心的是间接的信息的图片94

  一般来讲,搜索引擎在生成摘要时可以归纳为两种方式:一种是”静态“方式,即独立于査询,按照某种规则,事先在预处理阶段从网页内容提取出一些文字,如截取网页正文的开头512个字节(对应256个汉字),或者将每一个段落的第一个句子拼起来,等等。这样形成的摘要存放在査询子系统中,一旦相关文档被选中与査询项匹配,就读出返回给用户。这种方式的优点是实现起来比较容易,缺点是摘要可能和査询的内容无关;另一种是”动态摘要“方式,即在响应查询的时候,根据查询词在文档中的位置,提取出周围的文字来,在显示时将查询词标亮。这是目前大多数搜索引擎采用的方式。为了保证査询的效率,需要在预处理阶段分词的时候记住每个关键词在文档中出现的位置。
  兔锼索利繋
  所谓元搜索引擎,就是指在统一的用户查询界面与信息反馈的形式下,共享多个独立搜索引擎的资源库为用户提供信息服务的系统。这些被共享的独立搜索引擎,我们称之为源搜索引擎。元搜索引擎与搜索引擎的最大不同之处就在于它可以没有自己的资源库和机器人,它充当的是一个中间代理角色,接受用户的查询请求,将请求翻译成相应搜索引擎的査询语法。在向各个独立搜索引擎发送査询请求并获得反馈之后,首先进行综合相关度排序,然后将整理抽取之后的查询结果提供给用户。这样由于信息源范围的扩大,不仅提髙了检索效率,也大大增加了找到所需信息的可能性。
  元搜索引擎没有自己的数据,而是将用户的査询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果的信息量更大、更全,缺点是不能够充分使用所使用搜索引擎的功能,用户需要做更多的筛选。
  元搜索引擎的基本构成

也有可能用户关心的是间接的信息的图片87

  独立搜索引擎根据用户的查询请求,按照一定的算法从索引数据库中查找对应的信息返回给用户。为了保证用户査找信息的精度和新鲜度,搜索引擎需要建立并维护一个庞大的索引数据库。在独立搜索引擎中,索引数据库中的信息是通过网络爬虫从互联网采集而得的网页。所以一般独立搜索引擎主要由网络爬虫、、索引与搜索引擎软件等部分组成。
  元搜索引擎把用户的査询串分配给几个指定的独立搜索引擎,再将各独立搜索引擎所得结果分级排序,删去重复内容,然后给出査询结果。也就是说元搜索引擎是建立于独立搜索引擎之上的搜索引擎。
  与独立搜索引擎相比,元搜索引擎不需要维护庞大的索引数据库,也不需要网络爬虫去采集网页。具体说来,元搜索引擎主要由3部分组成(如图2-2所示):请求提交代理、检索接口代理、结果显示代理。
  图2-2元搜索引擎原理图
  请求提交代理
  请求提交代理负责实现用户个性化的检索设置要求,包括调用哪些搜索引擎、检索时间限制、结果数量限制等,并负责将用户的请求分发给独立搜索引擎。一般的元搜索引擎设定了它所调用的独立搜索引擎。有些元搜索引擎让用户自己选择所用的搜索引擎。还有一种通过分析用户的兴趣和网络的实际情况来选择搜索引擎,这有利于提高用户查询的准确度和对用户的响应速度。

也有可能用户关心的是间接的信息的图片93

  检索接口代理
  捡索接口代理负责将用户的检索请求”翻译“成满足不同搜索引擎”本地化“要求的格式。由于不同的搜索引擎所支持的查询方式不同,比如有些搜索引擎支持stemming(词干法)方式。即便是同一种方式,也有不同的表达方法,所以必须将元搜索引擎中的査询请求映射到对应的搜索引擎中,而且不能丢失语义信息。
  结果显示代理
  结果显示代理负责所有源搜索引擎检索结果的去重、合并、输出处理等。元搜索引擎的结果一般由网页标题、内容摘要、所指网页的URL、相关度、信息返回时间、所采用的引擎标志等组成。这些搜索结果是多个独立搜索引擎的并集。元搜索引擎的结果应该具有多种排序方式以满足不同用户的需要。元搜索引擎常用的排序方式有相关度排序、时间排序、域名分类排序、搜索引擎排序等。
  元搜索引擎的工作工程如下:用户通过WWW服务访问元搜索引擎,并向Web服务器提出检索式,当Web服务器收到査询任务时,首先访问结果数据库,看在近期是否有相同的捡索,如果有则直接返回保存的结果,完成査询;如果没有,那么就将检索式进行处理,分析并转化成与所要査找的搜索引擎相应的检索式格式,然后送至Web处理接口部分。Web处理接口通过并行的方式同时查询多个搜索引擎,集中所有的査询结果。根据各引擎的重要性,以及所得结果的相关度,通过算法对结果进行抽取和排序,并生成最终结果网页返回给用户。与此同时,将此次结果保存在結果数据库中,以备下次査询参考。这就是整个元搜索引擎的服务过程。
  其中对于结果数据库中记录的处理,要指定一个生存期,也就是超过一定时间的检索结果要予以剔除,以保证检索的时效性。需要指出的是,首先由于大部分搜索引擎互不兼容,相互操作性差,而且用户接口不一致,使得检索式处理非常复杂。这不仅要求精确掌握各个搜索引擎在査询时调用CGI的格式,还要做到将当前检索式转化成相应格式。其次,由于不同搜索引擎反馈的结果页面格式相差很大,对于这些页面的处理难度也相当大,一方面要解析页面我到的查询结果,另一方面还要能够把这些结果的内窖抽取出来,目前采用最多的是固定查找和智能判断相结合的策略。
  作为一个元搜索引擎,如何能够将获取的信息按照相关度进行排序也是非常复杂的问题,因为不同搜索引擎在本身查询結果排序过程中采用的算法相差很大,甚至有些未知的算法,而元搜索引擎必须结合这些使用不同排序算法产生的结果,并以统一的结果形式返回给用户。这些都是在研究元搜索引擎中遇到的难点,也是能否成功实现一个元搜索引擎的关键。
  元搜索引擎的分类
  元搜索引擎有多种分类方式,在数据处理方面,元搜索引擎分为并行处理式和串行处理式两大类。并行处理式元搜索引擎将用户的查询请求同时转送给它调用链接的多个独立型搜索引擎进行查询处理,串行处理式元搜索引擎将用户的查询请求依次转送给它调用链接的每一个独立型搜索引擎进行查询处理。按功能划分,元搜索引擎包括多线索式搜索引擎和All-in-One式搜索引擎。按运行方式的差异可分为在线搜索引擎和桌面搜索引擎。
  一款理想的元搜索引擎应该具备以下特点和功能:第一,涵盖较多的搜索资源,可随意选择和调用源搜索引擎;第二,具备尽可能多的可选择功能,如资源类型(网站、网页、新闻、软件、FTP、MP3、图像等)选择、返回结果数量控制、结果时段选择、过滤功能选择等;第三,强大的检索请求处理功能(如支持逻辑匹配检索、短语检索、自然语言检索等)和不同搜索引擎间检索语法规则、字符的转换功能(如对不支持”NEAR“算符的搜索引擎,可自动实现由”NEAR“向”AND“算符的转换等);第四,详尽全面的检索结果信息描述(如网页名称、URL、文摘、源搜索引擎、结果与用户检索需求的相关度等)?,第五,支持多种语言检索。
  可以将元搜索引擎分为简单元搜索引擎和复杂元搜索引擎。根据请求提交代理、检索接口代理和结果显示代理所在位置的不同,又可将复杂元搜索引擎分为桌面型元搜索引擎和基于Web的元搜索引擎。
  简单元搜索引擎
  简单元搜索引擎原则上并不能称为搜索引擎。它只是给用户提供一个搜索引擎列表,用于用户选择所用的搜索引擎。用户输人査询请求,然后直接以CGI方式调用对应的搜索引擎。由于具体搜索引擎是由用户选择的,而且査询请求只能发送给一个搜索引擎,所以请求提交代理和检索接口代理的设计就非常简单,可以直接设计在静态网页中。简单元搜索引擎不进行搜索结果的处理,这就省却了图2-2中的结果集成代理。

也有可能用户关心的是间接的信息的图片88

  桌面型元搜索引擎
  桌面型元搜索引擎以程序的方式提供给用户。它运行在用户的机器上,用户的査询请求直接由用户端分发给它所调用的搜索引擎,然后对返回的搜索结果进行集成后以一定的方式显示。对桌面型元搜索引擎来说,图2-2中的请求提交代理、检索接口代理和结果显示代理都在用户端。
  基于Web的元搜索引擎
  基于Web的元搜索引擎以Web方式为用户提供元搜索服务。请求提交代理、检索接口代理和结果显示代理都存放在元搜索引擎所在的服务器端。在这种方式中,用户的元查询请求经过服务器端的请求提交代理和检索接口代理,将查询请求分发给它所调用的独立搜索引擎,这些独立搜索引擎返回的搜索结果由服务器端的结果显示代理处理后再返回给用户。由于Web易用性的特点,基于Web的元搜索引擎使用得更为广泛。
  常用元搜索引擎介绍
  目前运营的元搜索引擎各具特色,功能各有侧重,完全”理想“的尚不多见。一些元搜索引擎在某些方面较为优秀,而其他功能则欠缺或需改进:如大多元搜索引擎不支持多语种,尤其是汉语检索;一些元搜索引擎实现检索语法转换的能力有限,不支持指定字段检索,不能充分发挥各个独立搜索引擎的高级检索功能;部分元搜索引擎无源搜索引擎列表,用户不能自主选择和调用源搜索引擎;大部分元搜索引擎仅支持调用AltaVista,Excite,GoTo.com、Yahoo!、Infoseek、Lycos等常用的搜索引擎,一些大型搜索引擎如NorthernLight、HotBot等被排除在外,人为地限制了搜索资源的利用。在检索结果上,元搜索引擎只能返回十几、数十条”相关度“较髙的结果,大量可能有价值的源搜索引擎的检索结果被忽视,影响检索结果的全面性。
  元搜索引擎的功能受着源搜索引擎和元搜索技术的双重制约:一方面,源搜索引擎的各具特色的强大功能在元搜索引擎中受到限制而不能充分体现;而另一方面,任何一种元搜索技术都不能发掘和利用源搜索引擎的全部功能。
  下面列举一些常用的元搜索引擎。
  中文元搜索引擎
  万纬搜索(http://www.widewaysearch.com)中文元搜索引擎,可以调用Google.YahooLHotBot等英文搜索引擎,以及天网、中文雅虎、新浪、中文Google、搜狐、百度等中文搜索引擎,搜索结果可按相关度、时间、域名和引擎分类。
  比比猫搜索(http://www.bbmao.com)比比猫元搜索可以调用Google、百度、雅虎等主要搜索引擎,并把最好的结果获取下来,可自动分类。比比猫搜索的去重功能采用了独有的FeatureMatch技术,能够大大减少搜索结果中的重复信息,聚类功能可以将检索到的信息分门别类。
  北斗搜索(http://www.bydou.com)
  北斗元搜索引擎创立于2006年4月。北斗搜索将百度、Yahoo!和Google共有的结果排名靠前;当用户输人关键词的时候,搜索框会自动列举出相关的关键词列表。

也有可能用户关心的是间接的信息的图片91

  Xooda元搜索引擎(http://www,xooda.com)Xooda元搜索引擎支持16个国家和地区的搜索,对于中文搜索来说,它可以支持中文Google、百度、中文雅虎、爱问、搜狗、中搜等10多个搜索引擎。
  英文元搜索引擎
  MetaCrawler(http://www.metacrawler,com)MetaCrawler于1995年由华盛顿大学推出,1997年被InfoSpace购买。支持调用12个独立搜索引擎,提供涵盖近20个主题的目录检索服务,可使用*通配符和+、——操作,支持词组査询方式。其检索特性非常丰富,包括常规检索、高级检索、定制检索、国家或地区的资源检索等检索服务模式。其中,高级检索模式可实现:搜索引擎的选择调用,基于域名、地区或国家的检索结果过滤,最长检索时间设置,每页可显示的和允许每个搜索引擎返回的检索结果数量的设定,设定检索结果排序依据(包括相关度、域名、源搜索引擎)等。以上内容均可作为定制检索的个性化选项并予以保存。另外,检索结果中包括一个以1000为最大值的相关度指标。
  Mamma(http://www.mamma,com)
  Mamma于1996年面世,自称为”搜索引擎之母“的并行元搜索引擎,可同时调用AltaVista,Excite、Infoseek,Lycos,WebCrawler.Yahoo!等常用的独立搜索引擎,并且可査询网上商店、新闻、股票指数、图像和声音文件等资源。其特点是检索界面友好,检索选项丰富,主要包括:可控制调用的独立搜索引擎、选择使用短语检索功能、设定检索时间、设定每页可显示记录数等。另外,Mamma支持常用检索语法在不同搜索引擎中的转换,还提供了专门检索页面文件标题的特殊检索服务,以及通过E-mail传输检索结果的特色功能。检索结果以相关性排序,内容包括网页名称、URL、文摘、源搜索引擎。
  Askjeeves(http://www.askjeeves.com)Askjeeves提供同时搜索AltaVista、Excite、Yahoo!、Infoseek、Lycos和WebCrawler的功能,此外还能同时搜索自己独立的数据库。支持语词搜索与高级搜索,但不支持目录搜索。
  ProFusion(http://www.profusion,com)ProFusion是1995年在堪萨斯大学创制的并行式元搜索引擎,拥有智能化的搜索技木,可同时调用AltaVista、Excite、HotBot、InfoSeek、Lycos、Magellan、OpenText、Web-Crawler和Yahoo!等9个独立搜索引擎,提供诸如搜索引擎选择、检索类型、结果显示、摘要选项、链接检查等较多的检索选项,支持个性化设置,可以选择3个最好的搜索引擎(Infoseek、AltaVista、Excite),或3个最快的搜索引擎(Infoseek、Yahoo!、Magellan),或全部搜索引擎,或手工选择任意几个搜索引擎来进行搜索。自动实现符合特殊检索语法要求的转换,如在调用Excite,InfoSeek,WebCrawler时将”NEAR“转换成”AND“,在调用GoTo.Yahoo!时将”NOT“删除等。原为堪萨斯州大学所有,2000年4月被Intelliseek搜索公司购买。
  DogpileChttp://www.dogpile.com)
  Dogpile是一个比较著名的元搜索引擎,曾经在2004年获得年度最佳创新奖。Dogpile可以同时调用25个万维网搜索引擎、新闻论坛搜索引擎和FTP搜索引擎等。它采用独特的并行和串行相结合的查询方式:首先并行地调用3个搜索引擎,如果没有得到10个以上的结果,则并行地调用另外3个搜索引擎,如此重复直到获得至少10条结果为止。可使用布尔算符和模糊査询,即使是高级运算符和连接符,它也能将其转化为符合每个搜索引擎的语法,可以使用*作为通配符,支持+、一词操作,美中不足是不能够指定选择使用独立搜索引擎。
  ByteSearchChttp://www.bytesearch.com)ByteSearch搜索速度快,可检索资源丰富,搜索范围包括Web、城市信息、公司名录、域名、FTP网站、多媒体、新闻组、包裹跟踪等,并提供新闻浏览、URL提交、最g的20个检索浏览、联机商店等内容方面的服务。支持完全匹配、部分匹配(An;O、短语检索等特性检索功能,没有搜索引擎列表,不能控制源搜索引擎的逸择。
  SavvySearch(http://savvy,cs.colostate.edu:2000)SavvySearch可调用200多个搜索引擎或指南,内容涵盖新闻、共享软件、Usenet等27个主题范畴,一次可并行调用5个搜索引擎,也可以作为一个专用搜索引擎的导航工具使用。简单的搜索界面允许用户选择搜索类目,支持And和短语检索类型。最具特色的是其个性化检索设置服务,用户有机会从100多个搜索工具中选择调用,并指定重要性系数(First、Middle、Last)建立自己的搜索模型。用户可选择显示搜索引擎的所有搜索结果,默认值是每个搜索引擎返回20个命中记录,并以相关度排列输出。SavvySearch同时提供23种语言版本,但其髙级功能只适用于英文版。
  Cyber411(http://www.cyber411.com)并行式元搜索引擎,可以同时调用AltaVista、Excite、Infoseek、Lycos、WebCrawler和Yahoo!等15个独立搜索引擎,它可以选择源搜索引擎,对查出结果进行组织并指出信息源,但其高级查询功能尚不完善。
  DigiSearch(http://www.digiway.com/digisearch)并行式元搜索引擎,它可以同时调用AltaVista、Excite、Infoseek、Lycos、WebCrawler、Yahoo!、OpenText和Magellen等18个独立万维网搜索引擎、DejaNews等3个新闻论i云搜索引擎和Fourll等3个个人信息和商界信息搜索引擎。允许使用*作为通配符,支持+、一词操作,可以设置最大搜索时间(分钟),放弃超过该时间后返回的信息,用户可自行选择调用哪些搜索引擎,査询结果按来源引擎依次排出。但从每个独立引擎返回的结果都被不加处理地列出,甚至包括每个独立引擎的部分界面,利用起来稍显不便。
  (10〉Highway61(http://www.highway61.com)并行式元搜索引擎,可以同时调用AltaVista、Excite、Infoseek、Lycos、WebCrawler、Yahoo!等6个独立引擎,提供AND和OR两种逻辑组合选择搜索,每次査询的参数保存在”Cookie“中,下次查询时会自动设置好,对查出结果进行组织,按页面评分排序,并在査询结果中指出信息源。
  元搜索引擎的特点
  从图2-2中元搜索引擎的结构可以知道,元搜索引擎的技术重心在于查询前的处理(请求提交代理和检索接口代理)和结果的集成。元搜索引擎可以灵活地选择所要采用的独立搜索引擎。它一般都是选择那些比较典型的、性能优异的独立搜索引擎。这种强强联合的结果保证了搜索结果的权威性和可靠性。它还可以充分发挥各个独立搜索引擎在某个搜索领域的功能,弥补独立搜索引擎信息覆盖面的局限性。总的来说,元搜索引擎与独立搜索引擎相比,具有如下优点。
  信息的覆盖面广
  元搜索引擎一般都要默认调用它自己认为比较好的若干个普通搜索引擎,而且大多数元搜索引擎都提供给用户在一定范围内选择搜索引擎的功能。有些元搜索引擎还以频道的方式为用户提供专业搜索引擎的分类。这样,用户可以根据自己的喜好和要查询的内容选择相应的搜索引擎。
  搜索结果的权威性和可靠性
  在独立搜索引擎中,索引数据库的更新需要一定的周期,而且搜集的信息也各有一定的侧重,元搜索引擎调用多个独立搜索引擎获取搜索结果,这种方式首先保证了信息的互补性,其次与独立搜索引擎相比,提高了信息的新鲜度。如果同样的搜索结果在多个独立搜索引擎中同时出现,那么说明这个搜索结果比絞重要。这样就避免了一些独立搜索引擎人工干预搜索排名的缺点,使得搜索結果的排序更加公正。有些元搜索引擎还检査搜索结果链接的存在性,这样可以保证用户得到搜索结果的可靠性。
  易维护性
  所谓易维护性是针对元搜索引擎的管理者而言的。元搜索引擎省却了独立搜索引擎中收集和存储网页、建立和存储索引的工作。它将自己所调用的搜索引擎看成一个可以独立完成一定功能的实体,不需要去维护它们,只需知道它们的调用接口即可。元搜索引擎的查询精度在很大程度上依赖于它所调用的搜索引擎的査询精度,所以在设计元搜索引擎时可以把主要精力放在搜索引擎的选择、查询请求的优化和搜索结果的优化等方面。一般的元搜索引擎都提供了对应的优化机制。
  如果要尽快查询到一个独特的木语或某个课题的概述,那么可以使用元搜索引擎;当用其他独立搜索引擎查询得不到所需文件时,也可以改用元搜索引擎;即元搜索引擎主要用于提髙搜索的广度。如果对其他搜索引擎不很熟悉,也可以使用元搜索引擎作为通向其他搜索引擎的门户。
  主要技术指标
  作为一种搜索引擎,元搜索引擎也有普通搜索引擎的一些基本指标,如响应速度、准确率等。但是元搜索引擎个体差异很大,很难进行精确的比较。下面给出元搜索引擎的几个主要指标,并对其中的一些指标进行比较。
  选择独立搜索引擎的策略
  有些元搜索引擎固定地调用几个独立搜索引擎,用户不能修改。有些元搜索引擎的高级特性中会提供选项让用户选择调用哪些搜索引擎。这种方式对于那些对独立搜索引擎比较了解的用户来说,是可取的;而对于不了解的用户来说,则可能无法选择适合自己查询的搜索引擎。独立搜索引擎的各种技术飞速发展,性能也随之不断地提高。元搜索引擎只能选择几个(一般不超过16个)搜索引擎同时进行检索,因为选择的搜索引擎越多,固然得到的搜索结果更全面,但是结果的集成将花费大量的时间。元搜索引擎如果一直固定地调用几个搜索引擎,将可能跟不上搜索引擎的发展潮流。
  覆盖网络资源的程度
  元搜索引擎由于不需要建立自己的索引,避免了对大量信息的存储和处理。一般的元搜索引擎尽量覆盖多种网络资源。有些元搜索引擎还支持更加专业的搜索,比如MP3音乐的查找、各种专业论文的査找、健康医药的查找等。
  提供丰富的检索选项
  这里包括是否提供高级检索服务,是否可以限定最长检索时间,是否可以设置每个搜索引擎返回的结果数量,是否可以设置每页显示的结果数目,是否可以设置标题长度(搜索引擎可以从title标记中显示的最大字符数)和摘要长度(搜索引擎所显示的结果中摘要的最大字符数),是否提供显示选项(用户可以通过它来设置結果的其他显示方式,如只显示标题、按照时间排序等)等。检索选项越多,用户使用的时候就越灵活。但是由于元搜索引擎的检索特性向它所调用的独立搜索引擎检索特性转换所具有的复杂性,许多元搜索引擎不提供复杂的检索特性。大多数元搜索引擎提供通用的布尔检索。而对于如高级布尔检索、短语检索、自然语言检索等高级特性则只有少数几个元搜索引擎能够提供。
  搜索结果的处理能力
  对独立搜索引擎返回的搜索结果的处理是元搜索引擎的又一重要技术。它包括结果的处理和结果的显示。有些元搜索引擎提供多种显示结果的方式,比如有些元搜索引擎提供让用户按照时间、按照搜索引擎、按照相关度等排序的选项,如国内第一个元搜索引擎——万维搜索。有的元搜索引擎提供了让用户定制搜索结果的聚类方式,如按照域名聚类、按照主题聚类等。
  相关度指标
  每个搜索引擎开发商为了将最满意的结果放得更靠前,不遗余力地创建出各种相关度指标体系,从检索词的位置/频率到链接和流行度等。虽然没有一种方法是完美的,但都有创新和独到之处。面对众多的相关度评价指标,按照怎样的方式对从独立搜索返回的结果进行一致性的排序是元搜索引擎结果处理部分面临的主要问题。元搜索引擎的結果排序有多种方法。有根据搜索结果在元搜索引擎中的位置进行排序的方法,有根据搜索结果的摘要信息进行排序的方法,还有的干脆获取这些网页,然后按照位置/频率法对搜索结果进行一致性排序。Ixquick在肯定各个独立搜索引擎所用的相关度指标的基础上,统计搜索结果记录这点被多少个独立搜索引擎所青睐,并以此作为元搜索结果相关度评价指标,简称”星星体系“。所谓”星星体系“就是一个记录结果在一个搜索引擎的前几条记录中出现,就得一个星。得到的星越多,则该记录越重要。
  元搜索引擎的出现基本上解决了信息检索中的查全率问题,但它也存在着不足。
  众多搜索引擎同时集中在一个界面下,不同搜索引擎具有不同的搜索方式和检索策略,要系统同时适应这些检索策略,必然会牺牲某些搜索引擎的特殊性能,因而从整体上降低了检索性能,而非1+1=2。实际上元搜索引擎的统一是以牺牲单个搜索引擎的个性而取得的。
  每一个元搜索引擎使用的当前的搜索引擎的数量是有限的,一般为5个,这就存在着搜索引擎的选择问题,选择哪些搜索引擎能够满足查全的要求,以及对这些搜索引擎的性能进行评价就成了至关重要的问题。同时,这些搜索引擎收录范围会有交叉,增加了系统去重及判断时间,从某种程度上增加了系统的开销。
  检索结果返回给用户是以统一的用户界面形式来完成的,系统要进行不同格式的转换,因此检索速度可能会受到影响,同时,对不同格式的结果进行处理也存在着一定技术困难。
  *错
  本章主要介绍了搜索引擎的基本结构、工作原理以及工作的过程。具体内容如下。
  搜索引擎的体系结构
  搜索引擎主要由搜索器、索引器、检索器和用户接口组成。

也有可能用户关心的是间接的信息的图片86

  搜索引擎系统结构的搜索器俗称网络蜘蛛或网络爬虫,是一个自动收集网页的系统程序,其功能是日夜不停地在互联网中漫游,搜集信息;索引器是理解搜索器所捜索的信息,由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息,根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容及超链接中每一个关键词的相关度,然后用这些相关信息建立网页索引数据库;检索器是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制;用户接口的作用是输入用户査询,显示查询结果,提供用户相关性反馈机制。
  搜索引擎的工作原理
  可分为3步:从互联网上抓取网页、建立索引数据库、在索引数据库中搜索排序。

也有可能用户关心的是间接的信息的图片90

  从互联网上抓取网页,称为网页搜集,就是利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其他网页,重复这过程,并把爬过的所有网页收集回来。
  建立索引数据库,称为网页处理。就是由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息,根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链接中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。
  在索引数据库中搜索排序,就是当用户输人关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越髙,网站排名越靠前。
  为了完成査询服务,需要有相应的元素来进行表达,这些元素主要有:原始网页文档、URL和标题、编号、所含的重要关键词的集合以及它们在文档中出现的位置信息,以及其他一些指标,如重要程度、分类代码等。
  最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。
  元搜索引擎
  元搜索引擎,就是指在统一的用户査询界面与信息反馈的形式下,共享多个搜索引擎的资源库为用户提供信息服务的系统。
  元搜索引擎与独立搜索引擎的最大不同之处就在于它可以没有自己的资源库和机器人,它充当的是一个中间代理角色,接受用户的查询请求,将请求翻译成相应搜索引擎的査询语法。在向各个搜索引擎发送查询请求并获得反馈之后,首先进行综合相关度排序,然后将整理抽取之后的查询结果提供给用户。这样由于信息源范围的扩大,不仅提高了检索效率,也大大增加了找到所需信息的可能性。
  元搜索引擎主要由3部分组成:请求提交代理、检索接口代理、结果显示代理。
  元搜索引擎的主要技术指标有:选择独立搜索引擎的策略、覆盖网络资源的广度、是否提供足够的检索选项、对搜索结果的处理能力以及相关度指标。
  思考徵
  网络搜索引擎是怎样工作的?
  搜索引擎由哪些部分组成?
  网页的搜集需要做哪些工作?
  如何对网页的内容进行提取?
  査询服务子系统是如何工作的?
  简述上网查询搜索引擎的评价指标和一些参数。
  简述元搜索引擎的基本构成及工作原理。
  比较元搜索引擎与独立搜索引擎的优缺点。
  使用万纬搜索(http://www.widewaysearch.com)和搜狗(http://www.sogou.com)同时搜索词组”搜索引擎“,比较搜索结果。
  信息处理技术
  信息具有共享性,信息资源共享是当今社会的一个热点问题。为了分享人类共同的知识财富,人们必须通过一种科学的方法从取之不尽的信息源中去识别和获取所需要的那部分信息,这个过程就是检索。人们通过工具(数据库)检索获得信息,经过处理筛选出需要的部分,在利用信息的过程中又创出新的信息,这些信息经过核准后又被标引,组织进检索工具(数据库),再提供人们使用。本章主要介绍信息检索的模型、文本处理技术、文本压缩技术和Web信息处理技术。
  俭索镁嘍
  在传统的信息检索系统中,通常是采用索引词来编制索引和检索文档。索引词就是关键词,基于索引词的检索虽然简单,但可能出现检索结果的不正确。信息检索的核心是哪些文档相关,哪些文档不相关。这取决于检索系统所用的排序算法,排序算法是信息检索系统的核心。排序算法是根据文档相关的概念来实现的,不同的一组假设形成不同的信肩z檢索模型,而所采用的信息检索模型又决定了哪些文档是相关的,哪些是不相关的。

也有可能用户关心的是间接的信息的图片97

  经典模型
  经典的信息检索模型有3个:布尔模型、向量模型和概率模型。这些模型认为,每篇文档可以用一组有代表性的关键词即索引词集合来描述。索引词是文档中的词,其语义可以帮助理解文档的主题;因此,索引词常用于编制索引和概括文档的内容。索引词通常由名词构成,因为名词本身具有语义,人们能够比较容易地理解它的意思。形容词、副词、连词很少作为索引词,因为它们主要起补充作用,不能单独表示语义。
  对于文档中的索引词集来说,在描述文档内容时它们的作用是不同的。因此,决定一个索引词对文档内審的描述是一个十分重要的问题。例如,对于一个具有W万篇文档的集合,如果一个词在每篇文档中都出现,那么,用它作为索引词就没有意义了,因为它不能区分每篇文档的差别,也就不能告诉用户哪篇文档是用户感兴趣的。如果一个词仅出现在5篇文档中,那么用它作为索引词就非常合适,因为它极大地缩小了所描述的文档集合,能确切地告诉用户哪篇文档是他所关心的。
  因此,应当明确用来描述文档内窖的索引词应该是与文档内容密切相关的词语,可以为文档中的索引词定义一个权值来描述这种相关程度。
  索引词的权值通常是彼此独立的,但文档中出现的索引词并不是不相关的。例如:词”计算机“和”网络“是涉及计算机网络领域的文档所给定的索引词,在这篇文档中,这两个单词中的一个出现通常会引起另一个单词的出现,因此,这两个索引词是相关联的,它们的权值应该反映出这种关联。但是利用索引词之间的相关性来改进最终文档的排序结果是一件比较复杂的事情,因此,除非明确说明,否则,都认为索引词权值是彼此独立的。索引词权值的彼此独立,可加快计算机的排序计算。
  布尔模型
  布尔模型是最简单的信息检索模型,是基于集合理论和布尔代数的一种简单的检索模型。用户利用布尔逻辑关系构造査询式并提交,搜索引擎根据事先建立的倒排列文件确定查询结果。标准布尔逻辑模型为二元逻辑,并可用逻辑符”AND“、”OR“、”NOT“来组织关键词表达式。布尔型信息检索模型的查全率高,査准率低,为目前大多数搜索引擎所使用。
  布尔模型假定索引词在文档中只有两种情况:出现和不出现。因此,索引词的权值变量都是由二值(0,1)数据组成,查询是由连接词NOT、AND、OR连接起来的多个索引词所组成,所以査询的实质是一个常规的布尔表达式。
  布尔模型的主要优点在于形式简洁、结构简单。其主要不足之处在于准确的匹配可能导致检出的文档过多或过少。因为布尔模型只是判断文档要么相关、要么不相关,它的检索策略基于二值判定标准,无法描述与査询条件部分匹配的情况。因此,布尔模型实际上是一个数值检索模型而不是信息检索模型。其次,尽管布尔表达式有确切的语义,但通常很难将用户的信息需求转换成布尔表达式。如今,人们普遍认为,给索引词加权能极大地改善检索效果。从对索引词加权的方法中引出了向量模型。
  向量模型
  向量模型用检索项的向量空间来表示用户的查询要求和数据库文档信息。查询结果是根据向量空间的相似性而排列的。向量空间模型可方便地产生有效的查询结果,能提供相关文档的文摘,并对查询结果进行分类,为用户提供准确的信息。
  向量模型通过对检出文档按相似度降序排列的方式来实现文档与查询的部分匹配。这样做的结果比布尔模型得到的结果要合理得多,或者说,能更好地匹配用户对信息的需求。
  向量空间模型的基本思想是以向量来表示文本,灰2,W3,…,W,,),其中为第7个特征请的权重,那么选取什么作为特征项呢?一般可以选择字、词或词组。目前普遍认为选取词作为特征项要优于字和词组,因此,要将文本表示为向量空间中的一个向量,就首先要将文本分词,由这些词作为向量的维数来表示文本,最初的向量表示完全是0、1形式,即,如果文本中出现了该词,那么文本向量的该维为1,否则为0。这种方法无法体现这个词在文本中的作用程度,所以0、1逐渐被更精确的词频代替,宁波seo优化词频分为绝对词频和相对词频,绝对词频,即使用词在文本中出现的频率表示文本,相对词频为归一化的词频,其计算方法主要运用TF-IDF公式,目前存在多种TF-IDF公式,下面是一种比较普遍的TF-IDF公式:
  W(t,d)=
  tf(Z,c/)Xlog2(N/nf+0.01)
  /S[tK”c£)Xlog2CN/nz+0.Ol)32
  v/et/
  其中,WG,d)为词r在文本d中的权重,而tf(z,£D为词z在文本d中的词频,N为训练文本的总数,&为训练文本集中出现£的文本数,分母为归一化因子。
  另外还存在其他的TF-IDF公式,例如:

也有可能用户关心的是间接的信息的图片85

  w(-t=[1+log2tf(z,cO]Xlog^JV/np
  [d+log2tf(i,rf))Xlog2(N/z2,)J2
  该公式中参数的含义与上式相同。
  文本经过分词程序分词后,首先去除停用词、合并数字和人名等词汇,然后统计词频,最终表示为上面描述的向量。
  向量模型不判断文档与查询是否相关,而是根据文档与査询的相似度对文档进行排序。当文档中的内容与査询词仅部分匹配时,也有可能将该文档检出。我们可以设定一个阈值,当相似度大于该阈值时文档被检出。
  但是,阈值的确定是十分困难的,理论上,没有很好的解决方法,一般采用预定初始值,然后给出测试文本,使用分类器进行分类,再根据分类的准确程度调整初始值,这样的方法有两个缺点:首先,初始值的确定不窖易,完全是根据经验或简单的测试而定,其次,调整的幅度无法确定,当初始值过高或过低,需要增减时,增减的幅度无法很好的确定,只能反复测试,反复调整,这样就大大地增加了工作量。而且,一个分类系统的阈值由于测试文本的不同也无法完全应用于另一个分类系统中。
  要计算排序首先需要明确如何给索引词加权。索引词的权值可以通过多种不同的方法来计算。目前最有效的词语加权技术来自于聚类算法。
  聚类是将一个对象的集合分割成几个类,每个类内的对象之间是相似的,但与其他类的对象是不相似的。聚类算法通常基于“数据矩阵”和“Dissimilarity矩阵”。聚类分析就是将数据分成若干簇,簇内最大程度相似,簇间最大程度相异。一个好的聚类方法要能产生髙质量的聚类结果——簇,这些簇要具备两个特点:高的簇内相似性和低的簇间相似性。聚类结果的好坏取决于该聚类方法采用的相似性评估方法以及该方法的具体实现;聚类方法的好坏还取决于该方法是否能发现某些隐含的结果。文本聚类的常见算法有①K-平均算法(K-meansAlgorithm);

也有可能用户关心的是间接的信息的图片95

  ②简单向量距离分类法;
  ③贝叶斯算法;
  ④K-重心点算法;
  ⑤K-NN(K最近邻居)算法(K-NearestNeighborAlgorithm)o对于查询词语的权值,可以采用如下的方法,即词伊的妨侑0.5X索引词在文档中出现的频率^的城^0.5+文档中所有词语出现的频率向量模型的主要优点在于:
  KZJ_文档总数
  包含索引词文档的数目
  CD索引词加权改进了检索效果;
  其部分匹配策略允许检出与査询条件相接近的文档;根据文档与査询之间的相似度对文档进行排序。
  概率模型
  概率模型是用概率论的概念解决信息检索问题。其基本思想是:给定一个用户的査询串,相对于该串存在一个包含所有相关文档的集合。我们把这样的集合看作是一个理想的结果文档集,在给出理想结果集后,我们能很容易得到结果文档。这样我们可以把査询处理看作是对理想结果文档集属性的处理。问题是我们并不能确切地知道这些属性,我们所知道的是存在索引术语来表示这些属性。由于在査询期间这些属性都是不可见的,这就需要在初始阶段来估计这些属性。这种初始阶段的估计允许我们对首次检索的文档集合返回理想的结果集,并产生一个初步的概率描述。为了提髙理想结果集的描述概率,系统需要与用户进行交互式操作。具体处理过程如下:用户大致浏览一下结果文档,决定哪些是相关的,哪些是不相关的;然后系统利用该信息重新定义理想结果集的概率描述;重复以上操作,就会越来越接近真正的结果文档集。
  概率模型是基于以下理论,给定一个用户的查询串和集合中的文档概率模型来估计用户査询串与文档相关的概率。概率模型假设这种概率只决定于査询串和文档。更进一步说,该模型假定存在一个所有文档的集合,即相对于査询串的结果文档子集,这种理想的集合用K表示,集合中的文档是被预料与査询串相关的。这种假设存在着缺点,因为它没有明确定义计算相关度的概率,下面将给出这种概率的定义。
  在概率模型中索引词的权重都是二元的,即w^e  本文转载自
  宁波seo优化www.leseo.net
  补充词条:宁波seo推广公司  宁波网站优化推广  宁波网络seo公司  宁波网站seo优化  宁波seo排名