宁波seo优化专栏

元搜索引擎及其发展

发布时间:2018-12-09 13:29:43
  (广东商学院信息学院,广东广州510320)
  [摘要]本文简略介绍了元查找引擎及其构成和作业原理,剖析了元查找引擎所具有的长处和普遍存在的缺乏,提出了进步元查找引擎全体功用的主张,展望了元查找引擎的开展趋势。
  [关键词]查找引擎;元查找引擎;信息检索
  元查找引擎(MetaSearchEn—gine)是一种将多个独立的查找引擎调集在一起构成的检索东西,元查找引擎中各独立查找引擎被称为“目标查找引擎”或“成员查找引擎”,它们各自坚持其原来的部分数据形式和自己的检索指令。元查找引擎给出一个大局外部形式,用以承受用户检索输入和成果输出。它是在一致的用户查询界面与信息反应的形式下,同享多个查找引擎的资源库为用户供给信息效劳的系统,又称作查找引擎之上的查找引擎。
  元查找引擎又可分为查找引擎目录和多元查找引擎两种类型。查找引擎目录是检索东西的检索东西,它将首要的查找引擎会集起来,按分类编列组织成目录,帮忙、引导用户根据检索需求选用查找引擎。多元查找引擎是将多个单一查找引擎集成在一起,供给一致的检索界面,将用户的检索提问一起提交给多个独立的查找引擎,完成多个数据库一起检索,并根据多个独立查找引擎的检索成果进行二次加工,如对检索成果去重、排序等,标明检索成果的来历后,输出给用户。
  1构成与作业原理
  元查找引擎就像是一个具有双层客户机/效劳器组织的系统,一般由检索恳求提交、检索接口署理、检索成果显现3部分组成。
  (1)恳求提交。担任完成用户的检索设置要求,包含调用哪些独立查找引擎、是否有最长检索时刻设置、是否供给高档检索效劳、设置每个查找引擎回来的检索成果数量、在线帮忙是否有效等。若用户挑选个性化检索,则推理机制将根据用户基本信息与动态常识库进行剖析推理用户的当时意向,进行查询求精处理,并根据用户对回来成果的行为运用反应机制动态更新常识库。
  (2)检索接口署理。担任将用户的检索恳求“翻译”成可以满意不同查找引擎“本地化”要求的格局,包含是否支撑布尔检索、短语检索、自然言语检索等高档检索特性,是否可以完成检索恳求的“本地化”转化。它是元查找引擎的一个重要指标。
  (3)成果显现。担任一切来历查找引擎检索成果的去重、兼并、输出处理等。元查找引擎如何将独立查找引擎的检索成果以一致的格局显现给用户,是评测其检索功用的重要手段。
  元查找引擎的作业过程分为6步:承受用户的原始查询;把原始查询别离转化为各个成员查找引擎可以承受的形式:向成员查找引擎发送查询;搜集各个查找引擎的原始查询成果;对原始查询成果进行组成,构成终究成果;把终究查询成果递交给用户。
  也就是说,当用户查询一个关键词时,MetaSearchEngine就将用户的查询恳求依照常识库中的信息转化为多个查找引擎所能识别的格局,然后别离发送给各查找引擎,由这些查找引擎完成实践的信息检索,终究再搜集各查找引擎的回来成果,进行比较、剖析、兼并、去除重复,再以必定的格局回来给用户。
  2长处与缺乏
  经过剖析研讨,笔者以为,元查找引擎具有以下几方面的长处:
  (1)检索功率高。元查找引擎集成多个单个成员查找引擎,可以一次在多个独立的查找引擎中并发查询,增加了检索的范围,扩大了查询的区域,信息覆盖率显著增加,因而可以取得较高的查全率。一起,元查找引擎运用各种智能软件,根据用户要求对各查找引擎回来的信息进行过滤,经过运用过滤器或改进算法对成员查找引擎的查询成果进行处理,删除不适宜或重复的网页并对成果按关联度凹凸进行排序等,查准率得到较大进步。
  (2)检索东西扩展功用强。元查找引擎集成多个独立查找引擎,突破单个独立查找引擎的组织边界,用户可以依照自己的习惯和需求定制具有个人风格的查询东西。另外,元查找引擎既能直接查找动态网页,如在一个元查找引擎中集成一般通用的查找引擎的功用,又能集成根据OPAC的图书目录检索功用。
  (3)效劳多样化。元查找引擎供给内部“黑箱操作”和外部“人性化”效劳形式,根据用户个性化需求进行灵敏的成果输出。成员引擎各自坚持其原来的部分数据形式和检索指令,有利于“各尽其能”;元查找引擎的集成界面可完成用户挑选和运用适宜的若干成员引擎进行信息检索。
  (4)不需考虑网页索引数据库的建立和维护。元查找引擎可以有也可以没有自身的数据库,能会集精力与财力用于查询恳求的分发与查询成果的处理。用户只需提交一次查找恳求,由元查找引擎担任转化处理,然后提交给多个独立查找引擎进行不同的处理再作为自己的成果回来给用户,终究为用户供给一个一致界面的查找成果陈述,这补偿了独立查找引擎查找不全的缺点,进步了查全率。
  尽管元查找引擎具有根据Robot查找引擎和目录查找引擎无可比拟的优越功用,给人们在互联网上检索信息带来了极大便利,可是,现有的元查找引擎普遍存在以下缺乏:
  (1)检索时刻有时过长。尽管元查找引擎选用了一系列的优化运行机制,可以在尽可能短的时刻内供给相对全面、精确的信息,可是因为一次调用多个独立查找引擎,并将用户的检索恳求转化处理后进行查找,然后将一切查询成果会集起来以一致的格局呈现在用户面前,而从各独立查找引擎回来的成果中常有很多重复成果,数量庞大,因而,在去重、排序、聚类等处理时,系统将面临巨大负载,增加了检索时刻。
  (2)检索成果全面性和可靠性较差。元查找引擎检索时刻的约束、检索成果数量的约束等,限制了从每个成员引擎回来的检索成果的数量。此外,因各成员引擎彼此相对独立,终究回来给用户的检索成果往往不完整、常常有重复,不能完全满意用户需求,用户需求做更多的挑选,从而影响了检索成果的全面性和可靠性。
  (3)不能灵敏操控成果的输出。因为元查找引擎是经过一个一致用户界面帮忙用户运用若干独立查找引擎来完成检索操作,因而,在查询输入处理及输出显现时可能呈现问题。
  (4)检索成果排序不够抱负。因为不同查找引擎在本身查询成果排序过程中选用的算法相差很大,元查找引擎有必要整合这些运用不同排序算法产生的成果,以一致的成果形式回来给用户。假如仅按各查找引擎自己的成果序列顺序显现输出,成果很可能有重复。
  (5)信息查找覆盖面受到约束,影响了检索作用和质量。因为元查找引擎完成检索语法转化的才能依然有限,不支撑指定字段检索等特别检索特性的高档检索功
  能,不同的查找引擎在解析查询表达式的办法、处理大小写字母的办法、是否答应自然言语查询、是否可以选用邻接操作符等方面都可能有差异。此外,元查找引擎不能正确处理一些词组和布尔检索算符,发挥不了各个独立查找引擎的高档检索特征。为了尽可能多地挂接查找引擎,元查找引擎一般只运用简略、直接的查找战略,一般仅支撑not、and、or等简略的布尔逻辑语法操作,因而,许多大型查找引擎被扫除在外,影响了信息检索覆盖面。
  (6)检索式处理较杂乱。因为大部分查找引擎互不兼容,互操作性差,用户接口不一致,一些包含多个词或杂乱逻辑的查询恳求,其查询式常被一些成员引擎误解。
  3进步全体功用的主张
  (1)扩大回来成果的数量。尽管元查找引擎可以将各个独立查找引擎的检索成果清晰地反映给检索者,相关于独立查找引擎来说,元查找引擎的检索成果是十分少的。关于那些检索类型不知道选用哪个查找引擎更有针对性的检索者,应供给经过剖析元查找引擎反映出的各个独立查找引擎检索此类信息的才能来判断究竟选用哪个独立引擎,以扩大检索成果的数量。
  (2)增强对检索成果的后处理以及个性化效劳。因为元查找引擎的精力首要放在了对检索成果的后处理上,所以可以先将各个独立查找引擎回来的成果依照它们在各个独立查找引擎呈现的次数、方位以及检索到此成果的独立查找引擎的重要性等综合要素相对合理地排序。然后,检测死链接、重复网页、不相关网页,并将这些冗余网页除掉,给用户供给更高质量的检索成果。再将一切检索成果主动聚类,方便用户阅览。应交融关键词检索型和目录阅览型查找引擎的优势。个性化效劳也是元查找引擎生存、开展的一个重要方面,用户运用查找引擎,并不必定在乎它是怎样的查找引擎,而是想得到自己希望得到的精确信息,而且享受个性化的效劳。
  (3)积极向不同范畴多元化开展。元查找引擎要从头给自己定位,向信息咨询台的方向开展,为用户供给各式各样的信息查找效劳。元查找引擎要从技能到经营办法上逐渐脱节独立查找引擎的约束,确立归于自己的客户群,避免与独立查找引擎抵触,这将更有利于元查找引擎的开展。
  (4)加强完成检索语法转化的才能。要重视交叉言语检索的研讨和开发,使元查找引擎尽可能多地支撑指定字段检索等高档检索功用,尽量发挥各个独立查找引擎的高档检索特征,补偿现有元查找引擎普遍存在的检索语法转化才能的缺乏。
  (5)加强检索式处理技能,改进检索成果的排序,缩短检索时刻。改进检索式处理技能,使大多数查找引擎都能支撑更杂乱的逻辑。减少检索成果的重复,改进和进步挑选技能,尽量缩短检索时刻,在确保检索功率的一起尽可能运用全部可用信息进步成果排序的质量。现在的检索处理办法首要是“将呼应最快的查找引擎的查找成果先回来”、“星星系统”、“方位排序法”、“摘要排序法”、“方位/摘要排序法”,这些办法都各有利弊。为满意用户需求,要深化开展检索成果处理办法研讨。
  4开展趋势
  (1)根据智能署理的信息过滤和个性化效劳的元查找引擎研讨
  因为智能署理具有不断学习、习惯信息和用户兴趣动态改变的才能,将智能署理技能使用于元查找引擎的结构中,构建智能元查找引擎,可使元查找引擎可以不断学习用户的信息需求,检索时主动查找相关信息源,根据检索模型智能地供给“射中”成果,从而供给个性化的效劳;可以依照用户要求定时反应,完成定时和定题检索;能根据用户的信息反应,主动对常识库里的常识进行纠错、增加等维护和更新;可以剖析收拾成员查找引擎的作业记载数据,建立调用战略模型,施行检索时动态地决议调用战略,将查找恳求递交给最适合的查找引擎处理,并主动将用户感兴趣的、对用户有用的信息提交给用户。
  元查找引擎智能署理的核心是查找引擎常识库的预处理和查找引擎调用战略的确定。其具体表现在查询定制、主动处理、成果过滤与排序上。即答使用户灵敏地设置查询条件和查找选项,如挑选适宜的源站点、查找范围及限制言语、地域或类型等,识别与了解用户需求并主动生成调用战略激活成员查找引擎,整组成员查找引擎的回来信息并按时刻或关联度对成果排序。因而,研讨和构建智能元查找引擎是元查找引擎的一个重要开展方向。
  (2)根据分布式系统结构PtoP和网格核算技能的元查找引擎研讨
  首先,作为现在流行的一种新兴网络模型——核算机对等联网(Peer—To—Peer,PtoP)是真正的分布式核算技能,PtoP引导网络核算形式从会集式向分布式搬运,使网络使用的核心从中央效劳器向网络边缘的终端设备分散。PtoP技能的优势是开宣布强大的查找东西,运用户可以深度查找文档。这种查找无需经过Web效劳器,不受信息文档格局和宿主设备的约束,到达传统目录式查找引擎(查全率在20%~30%之间)无可比拟的深度(包含网上一切敞开的资源)。PtoP对等查找技能使用于元查找引擎,将为Internet的信息查找供给全新的处理之道,是元查找引擎开展的趋势之一。
  其次,源于美国联邦政府曩昔10年来资助的高功用核算项目——网格核算技能,试图完成互联网上一切资源的全面连通,包含核算资源、存储资源、通讯资源、软件资源、信息资源、常识资源等。网格是把信息技能具体化、核算资源虚拟化,并把一切经过联网的核算资源都按同享原则参加进来,到达核算资源的全面同享,以满意不断改变的核算需求。所以,开发根据网格的查找引擎不仅可以大大进步资源检索的功率,完成即查即得,还可以完成对异构资源的检索,并取得很高的查全率和查准率。构建根据网格的查找引擎是现在研讨的另一个热门。
  (3)具有交叉言语检索功用的元查找引擎研讨
  交叉言语信息检索是指用户用母语提交查询,查找引擎在多种言语的数据库中进行信息检索,回来可以回答用户问题的一切言语的文档。假如再加上机器翻译,回来成果可以用用户熟悉的言语显现。资源标示、编目和描绘是信息查找的基础,结构化的资源(XML)和资源的描绘结构(RDF)互相配合,将大大进步信息查找功率。XML可简化元数据的提取作业,从而帮忙人们寻找信息,并有助于信息生产者和信息消费者的相互发现。假如说在网络的支撑下,HTML言语处理了在异构渠道间传送数据和文档,那么根据XML的VRML和SMIL处理了在异构渠道间传送感受的可能性问题。研讨和构建具有交叉言语检索功用的元查找引擎,将完全打破元查找引擎的言语障碍和国别约束,扩大元查找引擎的使用范围,是元查找引擎的一个重要开展方向。
  (4)交融常识发现技能的元查找引擎研讨
  汉语的主动分词(包含对网络信息标引和对用户检索输入的切分)、名称的主动识别不仅是现有Web查找引擎的瓶颈,而且也是元查找引擎有必要处理的关键技能。常识发现技能与人的思想行为形式相吻合,元查找引擎的信息查找以常识为单元,可以使检索成果深化到常识单元,进步信息检索的针对性和元查找引擎的个性化效劳功用,这又是一个值得研讨的热门方向。
  5结语
  元查找引擎是为补偿传统查找引擎的缺乏而呈现的一种辅助检索东西,有着传统查找引擎所不具备的许多优势。可是,元查找引擎依赖于数据库挑选技能、文本挑选技能、查询分派技能和成果综合技能等。用户界面的改进、调用战略的完善、回来信息的整合以及终究检索成果的排序,依然是未来元查找引擎研讨的重点。因而,为切实全面进步元查找引擎的全体功用,有必要处理下列问题:(1)检索技能综合运用渠道,支撑匹配、逻辑与方位限制等检索;(2)检索言语主动转化,包含自然言语了解和与成员查找引擎相匹配的格局转化;(3)一致集成界面,多样化的检索选项和功用设置;(4)智能调用战略,宁波seo优化挑选并激活适宜的成员查找引擎;(5)高检索功率,除掉死链接,过滤虚伪与垃圾信息,而不遗失实在信息;(6)互动机制,信息推荐、信息反应与信息盯梢效劳。
  注:本文中所涉及到的图表、注解、公式等内容请以PDF格局阅览原文。
  本文转载自
  宁波seo优化www.leseo.net
  补充词条:宁波seo外包  宁波谷歌优化  宁波网站seo优化  宁波网站优化推广  宁波网络seo