宁波seo优化专栏

宁波网站优化:在基于Redis的分布式搜索引擎上搜

发布时间:2019-01-20 00:18:32

  针对Internet上信息搜索效率低的问题,设计了基于Redis和Mapreduce数据库的分布式搜索引擎框架。了处理Internet信息的新闻特征,快速更新和难以恢复,设计了分布式爬虫,分布式索引建立和分布式链接分析算法。架的基础。框架极大地提高了信息处理的效率,为分布式搜索引擎的构建提供了有效的模型。
  的测试中,基于Redis的分布式搜索引擎改进的分析性能,索引生成,并根据分布式搜索其它常规框架相对于创造的发动机的链接分析。键词:分布式搜索引擎; Redis数据库; MapReduce的想法DOIDOI:10.11907 / rjdk.172561中图分类号:TP393文献标识码:A文章编号文章编号:16727800(2018)003 020 104法国摘要摘要:打击低效互联网搜索,引擎研究分布式基于Redis的数据库和MapReduce的模型已被设计为更好地适应互联网的现状,特点是快速更新和时间功能,支持搜索功能挖掘算法,分布式索引和分布式链接分析的建设在我们的搜索引擎的分布,这提高了显著信息处理的效率,并且是发动机的构造一个有效的模型被应用分布式研究。过测试,相比于搜索引擎等现有框架,三个方面的性能分析的基础上,生成索引和链接分析搜索引擎分布式基于Redis的数据库已经一切都很明显。键词:分布式搜索引擎,Redis的数据库的MapReduce模式根据2014年12月对中国互联网发展统计报告显示,中国网站总数为335万,同比增长每年4.6%,域名总数已达到2060万与11.7%的年均增长速度和网页的数量是1899年十亿,每年的长度是26.6%[1],网页的长度(总字节数)达到8.468PB。样的大型互联网数据增强了Web浏览器的性能和网页的集合,这是效率要求为什么收集处理的网页和链接的关系应该同时由几个进行机器。前,国内外各大互联网企业和相关科研院所(如谷歌,百度)已经证明了这个问题的解决方案,但由于因素,如商业秘密,这些解决方案通常提供用户是一种个性化的非公共研究服务。文通过研究搜索引擎的基本架构和分布式思想和技术,介绍了基于Redis的分布式搜索引擎框架。要贡献如下:基于Mapreduce原理的分布式搜索引擎的工作原理总结;基于Redis的高效设计分布式搜索引擎结构:分布式探索算法的设计,索引算法和基于结构的排序算法;经验证明了该结构的可行性。关技术的搜索引擎相关搜索的MapReduce MapReduce的概念(映射/协议)是到计算分为两个过程:映射和减少和解释经由键值[2]对所述数据信息。Mapreduce是一种用于计算大规模并行数据集的编程模型,以及分布式计算模型,其主要功能是映射函数和约简函数[3]。射过程首先将客户端信息划分为类型数据块,并调用Mapping函数将初始数据转换为新的中间数据。约程序调用缩减函数,根据规范对中间数据进行积分,得到返回值。布式Web机器人的全局设计分布式Web机器人专注于机器人的通信方式。前,不同的通信方法,分布式僵尸网络可分为三种类型:主从模式,自主模式和混合模式[45],其中,所述主从模式是搜索引擎的常见模式。从模式是指主机被用作控制节点管理运行爬虫Web.Lexplorateur应该只从控制节点接收的任务的所有主机,并提交新生成的任务控制节点。整个过程中没有必要与其他爬虫进行通信。过程易于实施和管理。制节点必须与所有机器人通信,并使用地址列表存储有关机器人的所有信息。系统中的机器人数量发生变化时,协调员必须更新地址列表中的数据,这对系统的机器人是透明的。排索引倒排索引,通常被称为反向索引,置入文件或倒置文件索引是用一个字存储在一个文件或文件组中的全文搜索的方法。射存储位置[6]。是文档检索系统中最常用的数据结构,它允许您根据关键字快速获取包含该单词的文档列表。排索引主要由两部分组成:“单词字典”和“倒置文件”。主要思想是,获得一个网页后,处理器分析网页,分析位于Web页空字后的每一个字,存储出现的次数和网页的网址数据库,然后从数据库中检索它。键字键。
  出现在Web页面的URL和值值数据库文件中,从而在Web页面上实现捕获的关键字的反向索引构造。计框架搜索引擎分布式此搜索引擎主要是基于Redis的,Python编写的分布式主从搜索引擎,使用的高速Redis的存储器中的特性来读取信息[78],通过Redis的用于在各种主机进程之间传递信息。以控制对奴隶的控制传递。搜索引擎采用主从模式的分布式结构。master命令主要作为数据包存储在Redis数据库中,slave通过读取和分析数据包执行大量数据操作,减少了机器的工作量,然后将操作结果发送给主站。

宁波网站优化:在基于Redis的分布式搜索引擎上搜索_no.36

  师应只能过滤和总结由奴隶所提供的信息,重新分配任务,充分利用每一台机器的性能,实现分布式计算机分析的目的,避免了资源的浪费,并构成一组分布式精确和高效的[ 5]。
  据被存储为Redis的服务器上的队列,主将数据添加到所述队列的末端和从从队列的头部读出的数据。了这样的形式,首先,它可以避免阻断因资源竞争,并确保该方案的可行性,分布式系统,而另一方面,它确保资源能够被读取在有限的时间内,避免浪费资源。redis数据库中通常有三个队列:nrq = RedisQueue(); srq = RedisQueue(); trq = RedisQueue();其中nrq是要处理的数据队列,sqr是已处理的数据队列。Trq是共享标记队列的存储。站通过读取trq队列获得当前唯一的任务号。送队列nrq中的数据并获取齐射。工作流程避免了资源的抢占冲突,然后从属操作的结果存储在srq中并存储在srq中。出主服务器,让它汇总数据,并完成分布式系统作业。于上述系统,Mapreduce的实现也是可能的。设备对数据执行映射操作,将类型数据块存储在队列nrq中并由从设备读取;一旦从机完成操作,结果将存储在srq队列中并由主机获取。布式搜索引擎和实施分布式爬虫在这项研究的设计的设计,分布式爬虫使用materslave方式来传输信息,并通过母校分配资源的奴隶。先,Slave必须解析网页的源代码并提取要解析的URL到扫描队列中。次,对经过分析的URL进行重复数据删除以避免重复分析。于主人和奴隶的分裂,这种先发制人资源的矛盾可以得到很好的解决。布式履带的工作流在图1中开始通过定义开始页的URL预先加以探讨呈现,然后写入起始URL在队列中等待srq,以便从站可以读取和分析它。属工作流程如下:将srq队列浏览到URL。问URL,如果URL服务器可以访问它,请从网页下载文本并将其存储在数据库中。析网页的文本内容,得到正确格式的URL,并按照预定义的分析要求,然后将它们写入到NRQ队列。要工作流程步骤包括:从队列nrq中提取URL;重复数据删除URL(使用Bloom过滤器);评估URL的格式;如果两者的判断都通过,则URL将写入srq队列。引生成分布式本研究建立分布式方式索引,想法是使用Redis的队列对数据执行并行操作,但它是从机械手控制存储不同。
  于数据库先前已经从网页中存储的信息,机器人必须在队列中直接读取数据库中的数据,主并不需要控制队列。从属设备中,从属设备使用分词模块来分析网页和网页中出现该单词的页面的URL号。页中单词出现的频率以预定的数据格式调节,然后存储在分析结果的队列中。主人阅读。

宁波网站优化:在基于Redis的分布式搜索引擎上搜索_no.73

  后,主设备对数据执行统一存储操作,以避免由数据库上的多主机操作引起的数据冲突。机的基本结构示于图2。这些中,齐射首先获取文本经由SRQ队列被分割,然后通过TRQ队列为s的单个标签确保没有其他从站处于冲突,并使用词分割模块用于分割文本解霸和分割统计信息存储在所述数据块中。且数据块被添加到由主机获得的队列nrq中。图3中这些的主基底结构中所示,主直接获得从队列NRQ由从操作获得的数据块,并总结它在数据库中。本文的研究中,将Mapreduce的思想应用于排序索引,实现了分布式构建索引。序算法的分布式操作设计的链路分析算法需要大量的内存和时间,从而加快了计算和提高计算机分析的有效性。文研究了基于Redis的Mapreduce思想和基于排队数据传输的分布式排序算法。序算法使用Pagerank,它通过计算网站之间的相关性进行排序。站外部链接越多,就越重要。Pagerank算法必须首先生成传出网站URL的矩阵,然后为每个URL生成初始排名,最后进行迭代操作以获得最终排名[9]。Mapreduce中使用Pagerank算法也可以提高计算机分析的效率。分为两个步骤:映射:每次在约定格式的数据中计算的数据压缩。打包的数据是:对应于PAGERANK的每个站点的操作结果,相应站点的URL号和相应站点的页码。后将这些数据包发送到从属操作。少:从站分析接收到的数据分组时,返回PageRank和它的对应的URL数的值,和教师总结了操作的结果来完成操作的PageRank。能验证搜索引擎的分布式性能验证爬行动物分布为了测试分布式爬虫的性能,在这项研究中,惯性性能的提高对不同的号码奴隶的幅度根据分析的起始页和分析的深度进行测试。从机的开口的情况下,从URL出发是http://zsb.jlu.edu.cn/list/45.html,和数据被存储在MySQL数据库。
  页的ID是INT,占用4个字节,网页的URL为VARCHAR,网页的内容是LONGTEXT样。于2个分析参数的深度,探索代表25,600 KB的708个网页,平均速度为5.385 / s;在打开2个从站的情况下,速度达到10.992 / s;开3从在速度的情况下,速度达到14.118 / s和在从站4的情况下,速度达到17.079 /秒。们可以看到,网页的扫描速度成正比,奴隶的数量,但作为奴隶的数量增加,扫描速度增加的速率下降。奴隶数量增加到一定规模时,继续增加奴隶数量将不会加快探索速度。于该研究使用了两台主机,扫描速度相对较慢,在实际应用中,奴隶分布在几台主机上,这比实验更快。站的上限由主站的性能决定:主站的性能越高,从站的上限越高。布式索引生成性能验证通过观察固定数量的网页文本,不同的从属数量具有不同的速度来检查索引生成。4.2中所述,数据量为25,600 KB,针对不同数量的从属分析文本速率计算。奴隶的情况下,速度是4,262 / s;在2个从站的情况下,速度为6.661 / s;在3个从站的情况下,速度为7.775 / s;在4个从站的情况下,速度为8.514 / s。以看出,索引生成的速度卡的平均斜率低于爬虫的平均斜率。本原则是该算法在主设备上施加相对大的计算负荷,并且提供更高性能的主机可以改善该问题。法的性能测试分布式PAGERANK本研究分析使用域jlu.edu作为分析的来源下,网站的PageRank算法的性能。有35,602个站点使用相同数量的从站来分析其分布式排序性能。算使用963.955用于1个从站,宁波网站优化754.473用于2个从站,648.617用于3个从站和584.876用于4个从站。们可以看到,在奴隶的数量的增加,PageRank的计算速度明显提高时,网页总数为真,说明这项研究的分布式系统实际上可能加快速度处理排序算法。较引擎的两个效果Apache Nutch是一个基于Hadoop的分布式系统,它代表了基于Hadoop的分布式搜索引擎[11]。此,通过与基于Apache Nutch的分布式搜索引擎进行比较,我们分析了本研究框架的优势。此实验期间,对网络爬虫分析的密集I / O操作和Pagerank计算的计算密集型操作进行了实验,数量为三个。们可以观察到两者的速度相似,这证明基于关于机器人Redis的分布式系统的速度可与基于Hadoop的机器人上的分布式系统的速度。带的速度在图4中示出。Pageranke算法的计算中,操作的结果在图4中示出。5.可以看出,Redis的的分布在PageRank算法的计算比一个分布式Hadoop集群,它提供了比Hadoop集群更多的利益,以创建分布式搜索引擎上更好。论本文的研究主要集中搜索引擎基于Redis的,并讨论了真正的互联网环境中的实际效果和可行性,包括分布式搜索引擎基础架构的Redis数据库的设计以主从模式分布的机器人设计框架。布式发电排序的指标,如实现了基于MapReduce的的想法分布式计算的PageRank和经验的证明,使用搜索引擎分布式之后,分析网页并建立索引部分搜索引擎。统性能的提高证明了系统在分布式搜索引擎系统上的应用优于Hadoop集群系统。未来,基于这个框架,它应该能够开发更全面的分布式搜索引擎。
  本文转载自
  宁波网站优化www.leseo.net
  补充词条:宁波谷歌优化  宁波网站优化推广  宁波seo外包  宁波seo哪家好  宁波谷歌seo