搜索引擎元信息提取体系的设计与实现

发布时间：2018-12-05 21:07:16

摘要：近些年来，Internet敏捷鼓起，人们更倾向于从互联网上查找信息。但是没有任何一个的独立查找引擎能包括大于45%的网络资源。元查找引擎是经过集成多个独立查找引擎的方法来扩大检索覆盖面。本文运用了HttpClient模仿客户端，完结向主流查找引擎的信息主动发送和接纳，完结了一个元查找引擎的元信息提取体系。
关键词：元查找引擎；HttpClient技能
中图分类号：TP391.3文献标识码：A文章编号：1007-9599(2011)04-0000-02
SearchEngineMetaInformationExtractionSystemDesignandImplementation
XuGang
(SoftwareCollege,HuazhongUniversityofScienceandTechnology,Wuhan430074,China)
Abstract:Inrecentyears,theInternetgrowsrapidlyandpeoplewouldliketosearchinformationfromInternet.Butthereisstillnotasinglesearchenginecancovermorethan45%oftheinformation.Butinmetasearchengine,theusercanonlysubmitonce,andtheresultcanbegetfromserevalsinglesearchengine.Inthepaper,weusethehttpClienttosetupameta-informationextractionsystemofmetasearchengine.
Keywords:Metasearchengine,HttpClienttechnique
一、引言
20世纪90年代以来，Internet网敏捷鼓起而且得到广泛遍及，人们更倾向于从互联网上查找信息。但是网上信息资源具有数据量大，更新速度快，无序性等特点。怎么快速，精确地找到用户所需求的信息成为一个新的问题。查找引擎也因而诞生并得到敏捷开展。开展到现在，查找引擎己成为上网用户最经常运用的网络服务之一。
但是没有任何一个的独立查找引擎能包括大于45%的网络资源。用户要想获得一个比较全面、精确的成果，就必须反复调用多个查找引擎。元查找引擎是经过集成多个独立查找引擎的方法来扩大检索覆盖面，避免重复查询的查找引擎。用户只需提交一次查找恳求，由元查找引擎担任转化处理后提交给多个预先选定的独立查找引擎，并将从各独立查找引擎回来的一切查询成果，集中起来处理后再回来给用户。
二、元查找引擎简介
元查找引擎又称多查找引擎，它可以同时查找多个单查找引擎的www站点.按其查找机制可分为并列式和串行式.并行式元查找引擎指将查询要求同时发向各个独立的查找引擎，然后将成果按特定的顺序提供给用户。串行式元查找引擎是将查询要求先发给某个独立的查找引擎，待其回来成果再将恳求发给另一个查找引擎，并行式元查找引擎运行模式好，查找时间短。
元查找引擎首要由以下三部分组成：恳求提交署理，担任完结用户的“个性化”的设置要求，如调用哪些查找引擎，成果数量的限制等；检索接口署理，担任将用户的恳求“翻译”成满意不同查找引擎的“本地化”要求的格式；成果显示署理，担任一切的元查找引擎检索成果的去重、兼并、输出处理等。
元查找引擎的长处：
（一）查找功率提高，元查找引擎包括较多的查找资源，能在较短的时间内查找更大规模的网络空间，运用方便和发现所需网页概率高。
（二）查找功用简略。与一般查找引擎无异，只需输入关键字即可。
（三）回来成果的信息量更大、更全。承受来自多个查找引擎的查找成果。
元查找引擎的缺点：
1.调用查找引擎的局限性：一般的元查找引擎只是调用几个首要的查找引擎。
2.元查找引擎查询恳求的局限性：为了借用尽可能多的查找引擎，元查找引擎一般只运用简略、直接的查找策略，这样就很难乃至不能运用每个查找引擎的特征功用。
3.查询回来成果的局限性：大多数元查找引擎只取回来的前几个查找成果，查询成果的排序也有一定的局限性，用户需求做更多的挑选。
三、查找引擎元信息提取体系环境及代码说明
体系在WindowsXPSP2体系下，运用java语言+jsp技能，在Eclipse3.2+lomboz3.1.2插件+Tomcat5.5环境下编译经过。
体系运用HttpClient向Baidu，Google，Yahoo查找引擎发送关键字，承受回来的信息，并把信息传给运用Lucene编写的函数进行处理。体系首要是向Google，Yahoo，Baidu这三个查找引擎发送关键字，并承受回来的信息，首要代码如下：
首先承受用户输入的关键字，体系运用了doPost方法来进行信息传递，接纳用户输入的关键字核对关键字进行从头编码，并设置回来页面类型和字符集：
表1：接纳关键字和编码
其次树立一个HttpClient用以向查找引擎发送关键字，并接纳查找成果：
表2：树立一个HttpClient
装备HttpClient的host，端口，协议（Http），关键字，以分别向Google，Yahoo，Baidu的查找引擎发送关键字，当然这儿指申请了一个httpClient，所以每次设置了host，端口，协议（Http），关键字之后，立刻向对应查找引擎发送关键字，并把回来成果保存，再装备httpClient以向下一个查找引擎发送恳求：
表3：设置HttpClient的host，宁波seo端口，协议（Http），关键字
存储回来成果部分，界说了一个数组，从Baidu回来的信息界说在htmlGoogle[i]中，Yahoo，Baidu以此类推：
表5：接纳从Google回来的信息，承受从Yahoo和baidu回来信息的代码与此相似。
最终将处理后的成果用JSP技能显示成静态页面回来给用户。
表6：将处理后的结构传递到result.jsp页面以显示
四、总结
本文先介绍了查找引擎的诞生和开展，以及元查找引擎的诞生，引出本论文的首要内容——查找引擎元信息抓取体系的规划与完结。接着介绍了完结这个工程所需求的首要常识和技能，为进一步深入规划和完结体系提供了支撑。在有了前面的常识和技能铺垫的基础上，介绍了怎么用HttpClient来完结向查找引擎发送关键字，并接纳回来信息的代码。最终，运用JSP技能将成果显示出来。
参考文献：
[1]孙更新,周峰.J2EE开发员成长之路[M].北京:电子工业出版社
[2]MasteringXHTML中文版
[3]BruceEckel.ThinkinginJAVA中文版[M].北京:机械工业出版社
[4]httpclient官方主页[EB/OL].
http://jakarta.apache.org/commons/httpclient/
[5]JSP教程、实例与技巧[EB/OL].http://www.maeee.cn/article/it/JSP/
[6]李晓明,闫宏飞,王继民.查找引擎——原理、技能与体系[M].北京:科学出版社
[7]HTTP协议[EB/OL].
http://www.chinaitpower.com/Net/xieyi/HTTP/index.html
[作者简介]徐刚（1985-），男，华中科技大学软件学院09级硕士研讨生，研讨方向：软件工程；本科毕业于华南理工大学，研讨方向：网络工程。
本文转载自
宁波seowww.leseo.net
　　补充词条：宁波谷歌优化宁波网站排名优化宁波网络seo 宁波谷歌seo 宁波网站优化推广

乐华观点

上一篇：教育图像资源搜索引擎智能机器人设计与实现

下一篇：媒体交融凭添信息处理复杂性新一代网络搜索引