基于Nutch的搜索引擎与HBase的结合在大数据时代的

发布时间：2018-12-04 22:39:59

　　摘要：Nutch作为一个在2002年兴起于Apache开源项目的开源查找引擎，经过十多年的发展，不管在抓取速度、抓取效率还是布置方便性上，都更加老练，被越来越多的人认可。HBase作为Apache开源项目下的闻名分布式的、面向列的开源数据库，有着强大的可扩展性和极高的按行健查找效率。二者与大数据这一概念相伴而生，二者的结合也必将在大数据年代有所作为。
　　关键词：Nutch；HBase；大数据
　　中图分类号：TP393.09；TP333
　　查找引擎能依据必定的算法或许规则，运用计算机程序从互联网上抓取信息，并在组织、处理和索引信息之后，为用户供给检索类效劳。Nutch2.x版别经过运用Apache Gora处理对象的耐久映射，使得存储从特定的底层数据存储分离出来。这意味着我们可以完成Nutch与很多NoSQL存储处理方案相集成。HBase，一种面向列的分布式存储体系，宁波seo优化具有高可靠性、高性能、可伸缩的长处，使用HBase可在廉价PC上搭建起大规模集群。在致力于起源于开源项目Nutch的大数据处理方面，二者结合所带来的优势显而易见。
　　1 需求剖析
　　跟着多元化新式媒体形状不断出现，互联网上的数据每年将增加50%，而且现在世界上90%以上的数据是最近几年才发生的。查找引擎作为衔接受众和互联网海量信息的窗口，发挥着重要作用。而传统通用查找引擎难以满足企业或许个人的定制化需要，难以精确判别用户感兴趣的信息并供给相应的查找效劳，为处理这些问题，Nutch应运而生。
　　反观储存层面，今世典型的关系型数据库在大数据的使用中越来越乏力，例如为巨量文档树立索引、高流量网站的网页效劳，以及发送流式媒体等方面。而以HBase为代表的NoSQL能完成数据高并发读写，海量数据存储和拜访，高扩展性，这些长处使得它在处理Nutch抓取到的海量数据时游刃有余。
　　2 体系体系结构规划
　　2.1 体系框架
　　图1 体系框架结构图
　　如图1所示，Nutch网络爬虫不断查找Internet来搜寻新网页，或许更新过的网页，网页独立的存储在HBase中，等候索引。经过MapReduce对抓取到的网页进行索引，以提高用户查找的方便性和精确性。最终用户经过查找程序进口提交方针关键词，经过索引在HBase中找到相关记载，并返回给用户。
　　2.2 Nutch作业进程
　　图2 Nutch作业进程
　　（1）Injector注入方针URL列表。从用户指定的urlDir目录下，获取URL列表内容，并进行格式化、过滤，消除其间的不合法地址，设定抓取状态（fetched和unfetched）和初始分值；将URL及其状态、分值存人CrawlDB数据库，或更新已有内容成最新的；（2）Generator发生成抓取列表。从CrawlDB数据库中将地址取出，按必定规则进行过滤和排序；最终将生成的列表写入segments中；（3）Fetcher抓取网页。对segments下的抓取列表次序抓取。在抓取进程中，页面的地址可能会发生跳转，需要重定向。该进程采用多线程方法，获得页面源文件后同时进行下一步操作，即解析内容；（4）解析网页内容。解析segments目录中由Fetcher抓取到的页面，将页面分化到parse_date和parse_text目录下。其间，parse_date中保存页面的标题、输入输出链接等内容；parse_text中保存页面的文本内容；（5）更新CrawlDB及回转链接。依据segments目录下的crawl_fetch和crawl_parse来更新CrawlDB，增添新的待抓取URL地址。Invert Links统计外部页面对本页面链接，并更新LinkDB，为树立索引的作业供给预备；（6）Indexer树立索引及索引去重。该进程生成Lucene索引，将本地数据转换成文本，并进行剖析，并将已剖析的文本保存到数据库中。
　　3 体系布置及完成
　　3.1 Nutch及HBase装置布置
　　（1）Nutch 在Eclipse下的装备进程。运用svn从nutch官方网站直接检出项目到本地后，装备项目路径，删去项目文件夹下src文件夹，随后增加部分的java和test文件夹。因为Nutch在版别1.2之后，运用ivy来进行依靠管理。因而要增加IvyDE依靠库，运用ivy下ivy.xml作为依靠库，最终进行ant；（2）Ubuntu终端下直接装备HBase。在终端下，运用wget东西下载zookeeper，并修正zoo.cfg文件。为避免在负载压力过大，linux默认文件句柄数过低会造成反常，还需要修正nproc值。最终修正hbase-env.sh、hbase-site.xml、regionservers，增加或修正相关特点值；（3）Nutch文件主动储存到HBase。因为Nutch2.x自身在规划进程中，已经使用Gora将底层数据存储抽象出来，因而只需要在gora.properties中增加了gora.datastore.default特点，并对nutch-site.xml、ivy.xml进行简单修正即可。
　　3.2 Nutch与HBase结合在大数据方面的潜在价值
　　毫无疑问，大数据是一座金矿。Nutch查找引擎结合HBase，可以充当在这座金矿中，进行数据发掘以获取有价值信息的淘金东西。下面举几个比如进行具体说明。
　　政府部门大都具有海量数据，如交通管理部门有路段监控、车站监控等数据，卫生等有关部门具有流感数据等数据，公安部门有很多的身份信息数据等数据。假如这些数据与Nutch的查找日志记载以及存储在HBase中的全网数据结合，则可以轻松科学地完成路线智能规划提示、流感疾病预测、嫌疑人信息确定等等功用。
　　大型企业如金融、通讯等行业也具有海量数据。但同样没有大数据处理能力，面对海量数据也不能为企业创造更大价值。假如可以使用HBase，则可以对海量数据进行低成本且的存储，再结合Nutch进行由浅入深的信息发掘。
　　4 结束语
　　跟着大数据越来越深刻的体现在互联网的方方面面，查找引擎需要处理的问题，也变成找到最佳成果而不是很多成果，个性化需求凸显。数据库更加着重大规模的数据存储能力以及高并发拜访。信任供给高质量的查找成果等强大功用的Nutch，结合具有着极好的且廉价的可扩展性，优秀海量数据存储能力的HBase，会被越来越多的企业和个人认可。
　　参考文献：
　　[1]王学松.Lucene+Nutch查找引擎开发[M].北京：人民邮电出版社，2008.
　　[2]郭匡宇.基于MongoDB的传感器数据分布式存储的研讨与使用[D].硕士学位论文，2013：10-24.
　　[3]维克托·迈尔-舍尔维恩，肯尼斯·库克耶.大数据年代[M].杭州：浙江人民出版社，2013.
　　[4]严春来.基于Nutch的个性化查找引擎的研讨与讨论[J].软件开发与规划，2014（04）：4-5.
　　[5]詹恒飞，杨岳湘，方宏.Nutch分布式网络爬虫研讨与优化[J].计算机科学与探究，2011（01）：70-71.
　　[6]Lars George.2012.HBase：The Definitive Guide（影印版）第1版[M]，南京：东南大学出版社，315-384.
　　作者单位：聊城大学计算机学院，山东聊城 252000
　　本文转载自
　　宁波seo优化www.leseo.net
　　补充词条：宁波seo推广公司宁波网络seo 宁波seo网站优化宁波网站seo 宁波seo哪家好

乐华观点

上一篇：网络新媒体营销中的搜索引擎关键词广告

下一篇：有道搜索：搜索引擎的新生力量