摘要:近些年来,Internet敏捷鼓起,人们更倾向于从互联网上查找信息。但是没有任何一个的独立查找引擎能包括大于45%的网络资源。元查找引擎是经过集成多个独立查找引擎的方法来扩大检索覆盖面。本文运用了HttpClient模仿客户端,完结向主流查找引擎的信息主动发送和接纳,完结了一个元查找引擎的元信息提取体系。
关键词:元查找引擎;HttpClient技能
中图分类号:TP391.3文献标识码:A文章编号:1007-9599(2011)04-0000-02
SearchEngineMetaInformationExtractionSystemDesignandImplementation
XuGang
(SoftwareCollege,HuazhongUniversityofScienceandTechnology,Wuhan430074,China)
Abstract:Inrecentyears,theInternetgrowsrapidlyandpeoplewouldliketosearchinformationfromInternet.Butthereisstillnotasinglesearchenginecancovermorethan45%oftheinformation.Butinmetasearchengine,theusercanonlysubmitonce,andtheresultcanbegetfromserevalsinglesearchengine.Inthepaper,weusethehttpClienttosetupameta-informationextractionsystemofmetasearchengine.
Keywords:Metasearchengine,HttpClienttechnique
一、引言
20世纪90年代以来,Internet网敏捷鼓起而且得到广泛遍及,人们更倾向于从互联网上查找信息。但是网上信息资源具有数据量大,更新速度快,无序性等特点。怎么快速,精确地找到用户所需求的信息成为一个新的问题。查找引擎也因而诞生并得到敏捷开展。开展到现在,查找引擎己成为上网用户最经常运用的网络服务之一。
但是没有任何一个的独立查找引擎能包括大于45%的网络资源。用户要想获得一个比较全面、精确的成果,就必须反复调用多个查找引擎。元查找引擎是经过集成多个独立查找引擎的方法来扩大检索覆盖面,避免重复查询的查找引擎。用户只需提交一次查找恳求,由元查找引擎担任转化处理后提交给多个预先选定的独立查找引擎,并将从各独立查找引擎回来的一切查询成果,集中起来处理后再回来给用户。
二、元查找引擎简介
元查找引擎又称多查找引擎,它可以同时查找多个单查找引擎的www站点.按其查找机制可分为并列式和串行式.并行式元查找引擎指将查询要求同时发向各个独立的查找引擎,然后将成果按特定的顺序提供给用户。串行式元查找引擎是将查询要求先发给某个独立的查找引擎,待其回来成果再将恳求发给另一个查找引擎,并行式元查找引擎运行模式好,查找时间短。
元查找引擎首要由以下三部分组成:恳求提交署理,担任完结用户的“个性化”的设置要求,如调用哪些查找引擎,成果数量的限制等;检索接口署理,担任将用户的恳求“翻译”成满意不同查找引擎的“本地化”要求的格式;成果显示署理,担任一切的元查找引擎检索成果的去重、兼并、输出处理等。
元查找引擎的长处:
(一)查找功率提高,元查找引擎包括较多的查找资源,能在较短的时间内查找更大规模的网络空间,运用方便和发现所需网页概率高。
(二)查找功用简略。与一般查找引擎无异,只需输入关键字即可。
(三)回来成果的信息量更大、更全。承受来自多个查找引擎的查找成果。
元查找引擎的缺点:
1.调用查找引擎的局限性:一般的元查找引擎只是调用几个首要的查找引擎。
2.元查找引擎查询恳求的局限性:为了借用尽可能多的查找引擎,元查找引擎一般只运用简略、直接的查找策略,这样就很难乃至不能运用每个查找引擎的特征功用。
3.查询回来成果的局限性:大多数元查找引擎只取回来的前几个查找成果,查询成果的排序也有一定的局限性,用户需求做更多的挑选。
三、查找引擎元信息提取体系环境及代码说明
体系在WindowsXPSP2体系下,运用java语言+jsp技能,在Eclipse3.2+lomboz3.1.2插件+Tomcat5.5环境下编译经过。
体系运用HttpClient向Baidu,Google,Yahoo查找引擎发送关键字,承受回来的信息,并把信息传给运用Lucene编写的函数进行处理。体系首要是向Google,Yahoo,Baidu这三个查找引擎发送关键字,并承受回来的信息,首要代码如下:
首先承受用户输入的关键字,体系运用了doPost方法来进行信息传递,接纳用户输入的关键字核对关键字进行从头编码,并设置回来页面类型和字符集:
表1:接纳关键字和编码
其次树立一个HttpClient用以向查找引擎发送关键字,并接纳查找成果:
表2:树立一个HttpClient
装备HttpClient的host,端口,协议(Http),关键字,以分别向Google,Yahoo,Baidu的查找引擎发送关键字,当然这儿指申请了一个httpClient,所以每次设置了host,端口,协议(Http),关键字之后,立刻向对应查找引擎发送关键字,并把回来成果保存,再装备httpClient以向下一个查找引擎发送恳求:
表3:设置HttpClient的host,
宁波seo端口,协议(Http),关键字
存储回来成果部分,界说了一个数组,从Baidu回来的信息界说在htmlGoogle[i]中,Yahoo,Baidu以此类推:
表5:接纳从Google回来的信息,承受从Yahoo和baidu回来信息的代码与此相似。
最终将处理后的成果用JSP技能显示成静态页面回来给用户。
表6:将处理后的结构传递到result.jsp页面以显示
四、总结
本文先介绍了查找引擎的诞生和开展,以及元查找引擎的诞生,引出本论文的首要内容——查找引擎元信息抓取体系的规划与完结。接着介绍了完结这个工程所需求的首要常识和技能,为进一步深入规划和完结体系提供了支撑。在有了前面的常识和技能铺垫的基础上,介绍了怎么用HttpClient来完结向查找引擎发送关键字,并接纳回来信息的代码。最终,运用JSP技能将成果显示出来。
参考文献:
[1]孙更新,周峰.J2EE开发员成长之路[M].北京:电子工业出版社
[2]MasteringXHTML中文版
[3]BruceEckel.ThinkinginJAVA中文版[M].北京:机械工业出版社
[4]httpclient官方主页[EB/OL].
http://jakarta.apache.org/commons/httpclient/
[5]JSP教程、实例与技巧[EB/OL].http://www.maeee.cn/article/it/JSP/
[6]李晓明,闫宏飞,王继民.查找引擎——原理、技能与体系[M].北京:科学出版社
[7]HTTP协议[EB/OL].
http://www.chinaitpower.com/Net/xieyi/HTTP/index.html
[作者简介]徐刚(1985-),男,华中科技大学软件学院09级硕士研讨生,研讨方向:软件工程;本科毕业于华南理工大学,研讨方向:网络工程。
本文转载自
宁波seowww.leseo.net
补充词条:
宁波谷歌优化
宁波网站排名优化
宁波网络seo
宁波谷歌seo
宁波网站优化推广