目前,企业搜索引擎严重依赖于全文搜索技术:扩展索引并增加同时客户端请求的数量,有限的物理存储,处理器周期,内存容量和网络带宽创造了一个重要的瓶颈。着云计算概念的引入和发展,它为企业搜索引擎提供了更优化的解决方案。文简要介绍了现阶段基于分布式存储和分布式计算的云计算研究成果,以及它在企业搜索引擎中的应用。键词:云计算;分布式存储;分布式文件系统;分布式计算;企业搜索引擎;全文检索中图分类号:TP311文献标识码:AA文章编号:1009-3044(2009)33-9429-02基于云计算搜索引擎搜索林,福州350013)摘要:目前,大多数企业搜索引擎都是基于信息检索技术。着客户端请求的同时扩展,有限的物理存储,处理器周期,内存容量和网络带宽已成为巨大的瓶颈。

着云计算和开发概念的提出,针对企业搜索引擎优化的解决方案:它将展示基于分布式存储和计算的云计算研究成果,以及适用于本文的企业搜索引擎。布式计算;分布式文件系统;分布式计算;企业搜索引擎;信息搜索;云计算概述云计算概述云计算是一种动态且易于扩展的环境,通常提供用于计算Internet上虚拟化资源的方法,用户无需了解这些方法。中的详细信息不需要具备云中的专业知识,也不需要直接控制基础架构。计算包括架构即服务(IaaS),平台即服务(PaaS)和软件即服务(SaaS),以及依赖互联网响应的其他技术趋势客户的IT需求。计算服务通常提供可通过浏览器访问的通用在线业务应用程序,其中软件和数据存储在服务器上。有云计算服务现有的云计算服务可分为两类:虚拟化技术。过虚拟化硬件,优化CPU和内存资源利用率,并通过销售虚拟机和计算能力获得业务收益。如,Amazon EC2提供的弹性云服务和Amazon S3提供的存储服务。包的IT解决方案。过提供分布式存储和分布式计算服务来提供分布式并行计算功能,从而最大限度地利用群集中的计算节点。如,Google App Engine。计算的现有分类将云计算分类为工业类型有三种主要类型:SaaS:软件作为软件服务作为服务,通过互联网提供软件,用户租用基于软件的软件在网上向供应商管理他们的业务运营。需维护软件的活动,服务提供商拥有管理和维护软件所需的所有权力。如,Google Docs,Salesforce.com。PaaS:平台作为平台服务即服务,为系统管理员和开发人员提供分布式存储和分布式计算平台,用于创建,测试和部署自定义应用程序。如,Google App Engine,AWS S3(亚马逊网络服务简单存储服务),亚马逊存储服务,Microsoft Azure。IaaS:基础架构架构即服务即服务,提供关键计算资源和网络架构等基础架构服务。如,Amazon Elastic Compute Cloud AWS EC2。

Google的分布式基础架构了解分布式基础架构基于Google的分布式基础架构理论,云计算可以理解为提供分布式文件系统和计算环境。布式,用户可以编程。分布式并行计算而设计的程序,其计算机数据源和结果存储在分布式文件系统中。布式文件系统分布式文件系统(DFS)采用主从架构,由单个目录节点NameNode(主节点)和多个数据节点DataNode(子节点)组成。布式文件系统在外部显示为普通文件系统:用户可以使用文件名来访问该文件。际上,文件被分成不同的数据块,这些数据块存储在数据节点上。型的分布式文件系统群集部署是在更高性能的计算机上运行目录节点,而群集中的其他计算机在每个计算机上运行数据节点。一目录节点设计极大地简化了整个系统结果:目录节点负责在分布式文件系统中仲裁和存储所有元数据,因为数据不受目录节点控制。布式计算MapReduce源自函数式编程模型的两个主要操作:Map和Reduce。Map是数据集与另一个数据集的一对一映射。射规则由Map函数指定。Reduce是数据集的减少,减少的规则由Reduce函数指定。图是数据分离过程,
宁波网站优化减少是合并单独数据的过程。对复杂的计算,Divide / Conquer用于划分复杂的计算,以便后映射的地图高度平行,并根据密钥减少地图结果。得到最终结果。布式企业搜索引擎企业搜索引擎企业搜索引擎简介企业搜索引擎是一种基于全文搜索技术设计的软件系统。文搜索是指基于用户词典分析和文本数据流的基于计算机的索引程序,索引每个分段句子,指示文本中单词的数量和位置。用户查询时,提取程序基于先前定义的索引执行查询。询的结果按相关性排序,然后返回到用户的提取技术。业搜索引擎由两个主要模块组成,索引引擎和搜索引擎。
引引擎负责生成索引文件。开始作业之前,必须将结构化或非结构化输入数据的文本提取转换为文本数据馈送。文本数据流被发送到索引引擎时,它由文本分析工具实现。分句子并生成索引文件。
索引擎是一个搜索界面作为客户端。客户端提交查询关键字时,它调用文本分析工具来实现查询关键字的分段句子并生成多个通过访问索引文件的关系查询请求。询返回按相关性排序的一组命中结果,以满足查询条件。业搜索引擎的当前状态目前,组织使用的全文搜索引擎基本上采用B / S架构,通常部署在Web应用程序服务器上,并对桌面文档编制索引。
pdf文档,Domino数据库和结构化Intranet数据库。至使用网页来收集外部网页以进行索引。着索引数据的增长,存储单个服务器不再足以满足存储需求。

时,随着客户数量的增加,每个时间单元的并发用户数量增加,这将给服务器带来很大压力,并显着增加响应客户端所需的时间。然通过添加硬盘可以扩展上述瓶颈,即使使用磁盘阵列存储和负载平衡,仍然存在读/写瓶颈。件设备过于集中,硬件成本过高,网络带宽消耗过多。计具有分布式基础结构的企业搜索引擎的问题分布式企业搜索引擎在群集环境中运行,该环境包括主节点和多个Slaver子节点。为控制节点,主节点负责维护DFS分布式文件系统目录结构和MapReduce分布式计算分布。于主节点的重要性,可以使用更高效的机架服务器,并且为了避免故障,可以使用另一个辅助主计算机作为备份。为分布式文件系统的存储节点和分布式计算的子节点,子节点不需要任何性能:任何可以运行的计算机都可以用作从属,从而确保子节点可以无限扩展,即分布式文件系统。储的可扩展性和分布式计算的并行性。用分布式基础架构设计的企业搜索引擎通过在DFS中存储原始数据和索引数据,有效地减少了I / O瓶颈和网络带宽;将索引和搜索生成服务转移到数据节点有效地减少了网络带宽瓶颈,提高了同步性能。引文件的分布式存储根据分布式文件系统和分布式计算的思想,索引文件的生成和存储可以用这样的设计思想来实现。服务器充当集群的主节点,并包含负责任务分配的JobTracker和NameNode目录节点。为集群的子节点,Slave包含TaskTracker和作业执行的DataNode数据节点。索引的文本数据首先存储在DFS分布式文件系统中,并设计用于生成索引的索引映射函数。节点的JobTracker负责将IndexMap功能分发给每个子节点。个TaskTracker从站负责执行IndexMap功能,生成自己管理的文本数据的索引文件,并将其存储在DFS分布式文件系统中。索的分布式计算基于索引文件的分布式存储,合理的映射/折叠功能可以执行有效的并行搜索。计SearchMap函数以搜索所有从属服务器上所有其他服务器管理的索引文件,设计SearchReduce函数,并对所有SearchMap函数的结果进行排序以获得最终结果。客户运行的搜索请求时,JobTracker的主节点在所有esclaves.Le的TaskTracker每个从执行SearchMap基于由自身管理的索引数据分配SearchMap功能,而不是发送该搜索结果分拣到负责Reduce的奴隶。SearchReduce函数并行排序未排序的搜索结果,然后从从属运行SearchReduce合并搜索结果以生成最终搜索的结果。束语分布式文件系统和基于云的分布式计算解决了扩展全文搜索系统索引文件,网络和网络带宽瓶颈的问题磁盘S硬件投资低。

提供高效的数据存储和并行计算服务。
本文转载自
宁波网站优化www.leseo.net
补充词条:
宁波网站seo优化
宁波seo优化公司
宁波网站优化推广
宁波seo排名
宁波网站seo