宁波seo优化专栏

宁波seo:在基于Hadoop的分布式搜索引擎上搜索

发布时间:2019-02-13 00:18:59

  分布式搜索引擎是一种新的信息检索系统,它将分布式计算技术与全文搜索技术相结合。改变了人们访问信息的方式,使他们能够更快,更有效地访问信息。在,他已经渗透到网络生活的各个方面,被称为“互联网上的第一站”。

宁波seo:在基于Hadoop的分布式搜索引擎上搜索_no.127

  文在分析几种分布式搜索引擎系统的基础上,总结了当前系统的优缺点,提出了一种适用于Hadoop的分布式搜索引擎。键词:Hadoop;分布式搜索引擎; HDFS文件系统中图分类号:TP391.3文件识别代码:A I.引言近年来,人们的生活方式发生了很大变化。大的数据计算机化世界正在逐步包含所有生活在现在的人。人们的日常和职业生活中,信息的获取逐渐被网络所取代,并且用户希望快速找到应用某种支持所需的大量信息,即搜索引擎。传统的集成搜索相比,分布式搜索引擎具有更大的优势。这种情况下,重要的是积极加强基于Hadoop的分布式搜索引擎的搜索。次,基于Hadoop分布式搜索技术,Hadoop是由Apache Foundation开发的基于Doug Cutting和Yahoo的研究的分布式系统基础架构。Hadoop对用户要求不高:只要有程序开发的基础,用户就可以在不知道分发的基本细节的情况下开发分布式程序。Hadoop实现了一个名为HDFS的分布式文件系统(Hadoop)。HDFS具有高度容错能力,旨在部署在低成本硬件上。提供了访问应用程序数据的高吞吐量,适用于具有非常大的数据集的应用程序。HDFS可以软化POSIX要求,并可以作为流访问文件系统数据。Hadoop框架的基本设计是HDFS和MapReduce。HDFS为大量数据提供存储,而MapReduce则提供大量数据的计算。HDFS文件系统的开源版本反映在Google GFS中。于HDFS系统,硬件故障很常见。HDFS系统由数百个(如果不是数千个)存储数据片段的服务器组成,因此可以想象这样的大型组件发生故障并且后果是失败。此,故障检测和自动快速恢复是HDFS的基本设计目标。HDFS上运行的程序有其特定要求,即文件必须可以作为流访问。HDFS无法与用户交互,批处理是批处理。的特征反映在数据速率上,但是没有非常请求访问数据的响应时间。HDFS文件系统还有一个值得注意的功能,即大数据集。HDFS上运行的应用程序包含大量数据。HDFS文件的大小通常为千兆字节到太字节。HDFS提供了相当大的空间,不仅能够支持数百个节点,还能够支持群集中的数千万个文件。MapReduce MapReduce模型是Google Allo Labs在2004年提出的一种编程模型。的功能是作用于集群并并行处理大量数据。MapReduce在Google中广泛使用,包括分布式grep,宁波seo分布式Web访问日志分析,反向索引构建,文档池,机器学习和基于统计的机器翻译。使在实施MapReduce之后,它也被用于重新生成Google的完整索引。此,MapReduce具有非常高的性能。

宁波seo:在基于Hadoop的分布式搜索引擎上搜索_no.152

  简单的MapReduce应用程序必须至少包含三个部分:Map函数,Minimize函数和main函数。中,主要功能是结合作业控制和输入/输出。Hadoop提供了许多接口,允许Hadoop应用程序程序员拥有许多工具,使操作更容易。外两个功能是该模型的主要操作。Map和Reduce函数处理许多这样的简单数据类型。模型中,首先划分输入数据,将划分的数据分配给映射函数,然后映射将分配的数据映射到另一种类型的中间数据,并且其映射规则由函数指定。Reduce是减少卡生成的中间数据并显示结果。原规则也由另一个函数指定。序员可以指定这两个操作规则,正是由于这个原因,MapReduce模型提供了很大的灵活性。行图如下。三,分布式引擎分布式搜索的设计和实现有三个子系统,分析子系统,索引子系统和查询子系统。统利用MapReduce模型并在分布式系统中设计上述三个子系统。面分析这三个子系统。布式分析子系统。

宁波seo:在基于Hadoop的分布式搜索引擎上搜索_no.92

  主要功能是分析网页数据,分析和提取链接,并生成链接列表,以准备下一次分析。务规划是分析子系统设计的核心。有机器人都由JobTracker统一规划。布式索引子系统他的主要职责是计算网页的PageRank值,倒排文档的构造和索引文件的分布式存储。
  系统是整个搜索引擎的核心。布式查询子系统。要职责是响应用户查询并将结果返回给用户。
  询子系统还使用MapReduce模板设计,该模板设计使用Tomcat作为Web服务器,并使用Jsp / Servlet技术与用户进行交互。结论在这个数字计算机化时代,社会运作过程中会产生大量数据。何处理和管理这些庞大的数据,并满足用户的要求,我们必须不断探索和继续研究。
  次,在基于Hadoop的分布式搜索引擎上进行搜索非常重要。
  本文转载自
  宁波seowww.leseo.net
  补充词条:宁波网站seo优化  宁波谷歌优化  宁波网站排名优化  宁波网站优化推广  宁波谷歌seo