本文回顾了分布式搜索引擎的模型,结构和查询方法,以及搜索引擎指标。索引擎的基本模块是从搜索引擎的离线处理和在线处理中获得的。速的在线申请流程决定了发动机recherche.A从分布式搜索引擎模型性能的关键因素,该搜索引擎包含四个主要的子系统:该探测系统,系统索引构造,提取系统和日志分析系统:反向索引结构由字典和反向文件组成,按文档编号的递增顺序分类词的频率(或影响)得分的降序。后讨论当今搜索引擎典型的三种查询处理策略,并比较每个自适应系统的条件。

后,让我们看看评估搜索引擎的两个重要指标:查询的有效性和查询结果的质量,以及定量评估公式的枚举。布索引关键词;搜索引擎;倒指数;请求处理文档标识代码TP393 AReview分布式搜索引擎ModelQIAN黎兵,JI郑州(学院计算机科学与技术,哈尔滨工业大学,哈尔滨150001,中国)本文的分类编号检查分布式搜索引擎的模型,结构和搜索方法,然后检查搜索引擎评估,其中包括搜索引擎的基本模块。能取决于在线搜索的处理。布式搜索引擎的分成模式,搜索引擎由四个主要的子系统:网络扫描系统,该指标体系的建设系统,恢复系统和日志分析系统。词典结构和倒置文件组成的术语(或影响)的频率序列。这篇文章中,我们介绍三种类型的查询处理策略,当前的搜索条件和比较它们的适应条件和两项指标评价搜索引擎,以及进行定量评估的计算公式:有效的审讯和质量。中结果分别为。键词;索引;搜索引擎;恢复指数;处理查询简介随着互联网商务的快速发展,研究已成为学习和生活不可或缺的工具。着网络数据的增长和用户的复杂需求,强大的搜索功能将成为互联网发展的关键要素。业中分布的引擎被广泛使用,谷歌,雅虎!百度和阿里巴巴等庞大的网络引擎公司正在充分有效地使用分布式搜索架构,以确保分布式引擎的稳定性和扩展性。于分布式搜索引擎架构,文献[1]强调了实现分布式,可扩展和高效搜索引擎的可行性。献[2]提出了两种任务并行性和数据并行性的模型体系结构,它可以提高系统吞吐量并允许有效使用计算,存储和通信资源。献[3]提出了一种用于搜索引擎和分布应力,这在足够数量的节点中的情况下,存在节点的最优数量,总的系统最小化的成本模型。献[4]为分布式搜索引擎提供了一种并行查询处理方法,可以有效地监控轮询流量,从而调整负载均衡。Brroso和同事[5],格玛沃特和同事[6],迪安和同事[7],Chang和同事[8]提供分布式搜索引擎谷歌的概述和介绍的引入数据处理的规模大。年来,Map / Reduce [7]成功地使用了大量普通计算机,从而实现了大规模的信息处理。Hadoop的,作为一个架构开源的Map / Reduce实现,已经从谷歌复制分发功能的文件系统,它提供了一个很好的实践机会和发展的广阔的操作空间分布式搜索引擎架构。此基础上,将在下面开发研究的细节。布式搜索引擎模型图1说明了搜索引擎的结构。索引擎主要分为两个过程:离线处理和在线搜索。体而言,处理离线主要使用机器人技术来捕捉网页数据在因特网上,建立的结构化文档数据库(通常以XML格式的存储采样的),
宁波seo优化然后创建索引基于库索引的需要并确保索引的动态更新,由用户执行在线处理。请求被触发时,系统查询搜索索引库和系统可以优化基础上,研究期刊查询的结果,同时提高研究效率基础上的高速缓存中的查询。1核心搜索引擎的:一个搜索引擎模块的加工离线和在线处理图1基地:加工离线和在线据研究,运动的处理速度在线是搜索引擎性能的决定因素,它会影响查询的有效性。因包括:能够由使用者进行轮询查询字的数目,对应于该查询词,该索引结构,当然反向表的模式和反向注册表的长度查询词和文档之间的相关算法。于包含缓存策略的系统,缓存的有效性也将极大地影响查询效率。询项(术语)本身的数量由用户确定。询单词越长,与查询对应的反转记录表的数量越长,这需要更多时间。转记录表的长度与索引数据的大小线性相关。引数据越多,平均倒排记录表越长。于大型搜索引擎,在大多数情况下,常用的倒置记录表需要数百兆的存储空间。果没有有效的组织结构和查询处理方法,则无法快速完成查询过程的正常处理。别是在大规模和大量用户请求的情况下,甚至更不可能完成指定请求的处理。索引擎的分布式架构目前,大多数搜索引擎是基于簇[10-11]并行分布式体系结构,如示于图2,包括查询界面,中间代理服务器和前端应用程序的索引节点。
端接口负载接收来自各种用户的请求,包括点击分析,查询意图分析,查询开发等。中间代理服务器的最终完整查询。间代理服务器负责向索引服务器发送请求,从相应的索引服务器收集相关的文档编号,排序并获取最重要的文档标识符,并向文档服务器发送请求,从而获得最终请求页面并将该信息发送给用户。于索引文档中的数据很大,因此反向索引数据无法存储在单个计算机上,必须分发到群集中的多台计算机。引数据根据分段技术划分,每个簇中的计算机是查询处理的一部分。时,通过几种容错复制技术增强了搜索引擎的可靠性。于文档服务器,类似于索引分割方法,文档被水平分割并垂直复制。于每个请求,必须在每个小索引上处理该请求。了提高搜索引擎性能,代理服务器层通常部署查询结果缓存。引本身会根据Web爬网程序定期更新并相应地创建。本搜索引擎包括四个主要子系统:网络机器人系统,索引构建系统,恢复系统和日志分析系统[10-12]。下是这四个系统的以下功能概述。络机器人系统。据一种策略,在因特网上自动搜索和搜索网络信息。可能快地并且尽可能快地搜索不同类型的新信息。信息需要定期更新以避免无效链接。常使用两种策略:使用宽度优先,深度或启发式方法搜索一组URL中的链接,根据空间域名,IP地址或域名执行穷举搜索国家和搜索各种信息。数构建系统。过摸索算法,从Web浏览器获取到的网页,术语指数和链接信息提取,生成索引项和URL之间的关系,倒置表成立。复系统。据用户提交的,它的分析,它的发展,它的建议,等查询词,发现倒排索引,完成页面和查询之间的相关性的得分,输出结果进行排序,并指定用户的相关性。馈机制。志分析系统。询日志是提高速度和恢复性能的好方法。方面,记录用户的询问行为,并提供查询推荐和自定义搜索;另一方面,用户的查询,页面改变和点击行为在某种程度上提供了改进的相关性得分和查询结果高速缓存服务。2.分布式搜索引擎系统架构2分布式搜索引擎系统体系结构反向索引结构影响搜索引擎效率,一直是搜索引擎领域的重要研究课题。于恢复效果,根据该请求和用户文档,也能够设计各种恢复模式,如布尔模型,VSM模型,该模型BM25,自然语言等[10-11,13]。于恢复效率问题,不同的数据结构支持快速查询,例如签名文件[14],反向索引等。为大规模搜索引擎的基本数据结构,倒排索引已被证明是一种非常有效的恢复处理结构[14]。络中的每个文档或文档都被视为一系列句子。

于整个文档数据集中的每个文档,定义了唯一的文档编号(docId,没有特定情况,docId用于指代文档编号)。排索引提供了文档集中的单词与其外观之间的映射。单的组合如图3所示。包含两部分:字典和倒排索引。应于每个字典的术语的邮件列表构成反转文件。引词按顺序存储在字典中,位置信息列表由每个文档的反转元素组成。P(吨,DJ),表示该术语t i出现在文档DJ,包括文档数,单词频率和相关联的得分,并且每个P(吨,DJ)是术语t i的逆元。据倒置元素的组织,倒排索引结构主要分为两类:按文档编号排序。该索引结构中,每个反转元素包含关于包含在所述文档和文档数目被分类为以升序大的术语信息,使存储在根据所述差分原稿数存储文档编号di时的文档编号之间。值改变为di-di-1-1,并且当值变小时可以使用压缩算法。是,由于不知道重要文档在反转表中的位置,索引结构必须在查询期间遍历整个反转列表。词频或影响力分数排序。种类型的反向索引结构的优点是重要文档被放置在反向列表的前面,并且在查询期间可以快速找到相关且重要的文档。点是反转表是根据单词或得分的频率设置的,不能动态调整,因为连续文档很少降低索引的压缩率和语法或不支持接近。3逆指数结构示意图图3逆指数结构示意图表明,文档数的优化顺序比字频或影响顺序快。排索引结构是其中文件号被分类,以便由文件号排序incrémentielle.Dans结构,词典列出包含在词汇表术语的示例,并且该术语与相关联吨表征其显示位置。息列表(l(t)),例如反转文件中术语的文档docId,包含单词的出现次数(单词的频率)。而,当需要计算更复杂的分数和需要精确位置的查询类型时,还记录术语t的位置信息。T字及更完整的说明相应的文件如下:是否表示的词出现的次罚球的文档中,并且出现的位置POS1,...,posfd,T。
常,每个索引词t的反转列表根据docId按升序排列。引表的形状如下:在搜索引擎分布D1的查询模式用于查询处理索引服务器和研究人员提出了一系列的查询处理策略。[10],大致分为三类。体表达如下。Document at Once(DAAT)在处理DAAT查询时首先打开查询中所有查询词的反向索引表,然后同时遍历反向索引表。次,针对具有最小文档编号的文档计算相关性分数并对其进行计数。处理以下文档之前,必须完全计算当前文档的所有相关性分数。果,DAAT算法基于文档编号逐块计算文档的相关性分数。此,您需要使用较少的存储空间来记录分数最高的文档的数量和分数。先级队列或堆通常用于存储最重要的文档编号和最高分数。TAAT过程中一次一个术语(TAAT),只打开查询请求中查询词的倒排索引,然后完成遍历。此,单个字可以一次且仅处理所有倒排索引可以得到文档的完整得分之后向所述文档的所述部分的分数。句话说,TAAT查询过程通常必须累积文档分数并记录临时文档分数。加器数组的大小等于文档集的大小;因此,当搜索引擎文档的大小很大时,累积很重要。
储成本也很高。查询项的反向索引表太大而无法完全存储在内存中时,这是TAAT开始的最佳时间。次得分(SAAT)SAAT请求的处理应用于按影响排序的索引(按影响排序),并且根据文档块的影响值对反向索引进行排序。先,获得对应于所述查询词的倒串的每个块的影响的值,并在该块中的文件是根据低值的高影响力进行处理。一个文件进行处理时,可以只从actuel.Tous嵌段的嵌段通常必须为全面评分的文档进行处理而得到的文件的得分。此,SAAT查询方法必须始终为每个文档分配一个分数累加器,以记录文档的临时分数。DAAT算法完成性能比较必须列出所有相关文件,比较他们的得分计算出一个接一个,然后因为不需要查询词进行排序的前k个结果,因为词出现与否文档(n是用户的查询解析)。代一次特征项的数量,导致算法效率低下。应用WCAT或SAAT的方法,需要一个累加器对于每个文档,以计算在计算得分,和有关文件一般倾向于过大,因此,使用太多的存储开销累加器阵列。外,DAAT是更有效的以有效地治疗所述查询词语,因为DAAT方法的依赖性信息查询词只能得到一次处理文档时,虽然方法WCAT和SAAT被处理。必要保存笔记的累加器以保持请求的单词之间的关系。此,维护成本是完整和客观的。同反向索引结构支持的查询处理方法不同。别地,关于不同反向索引表的结构的信息使得查询模式显示其自己的功能。表1所示,我们可以看到,WCAT查询可以支持不同的倒排索引结构,而查询方式DAAT可以假设,与文件号码逆转指标递增排序。1不同的倒排索引和查询处理的方法的支持表1中的不同反向索引和查询处理的方法的索引信息反转反转表模式查询模式由文档编号DAAT,WCAT三排序支持由文件数DAAT,WCAT阶频率词或顺序WCAT影响SAAT
文档号码三DAAT,WCAT索引分布式搜索引擎评估是有效的,查询结果的质量是评估搜索引擎的两个重要指标,包括系统可靠性,可扩展性等。提交请求之后,用户想要在短时间(秒)内返回最想要的查询的结果。估查询结果质量的指标有许多指标用于评估搜索结果的质量[17-18],其中主要介绍了准确率和召回率(召回率)。度准确率是查询的给定结果列表中链接文档的比例。P @ N表示前N个文档包含链接文档的数量。于搜索引擎,大多数用户只对结果的前两页感兴趣。此,P @ 10和P @ 20是非常有效的指标,定义如下:召回率是指给定的查询并返回结果。接文档的数量与所有链接文档之间的比率定义如下:其中R表示与查询相关的一组文档,S表示由提取返回的一组文档。常,搜索引擎更注重准确性,计算召回率稍微困难一些。MAP当几个请求,MAP指示符(平均平均)通常为utilisé.Avant计算MAP,平均精度值PA(平均精度)的每个请求是被计算,并且平均为MAP每个请求。AP计算公式如下:其中n是返回的文档的实际数目,P(k)是第k个文件的准确性和选择(k)是一个布尔函数,等于1的文件结合时,和0无关。据PA的MAP计算公式为:其中|问|表示查询Q的数量,AP(qi)表示与查询qi对应的平均精度。外,此处未提供搜索引擎质量指标,如DCG(更新累积增益),NDCG,等级倒数等级(MRR),参见文献[15-16]。下部分介绍了常用查询的效率指标,这些指标也是搜索引擎优化评估的核心。询效率评级索引查询效率通常是指搜索引擎处理用户查询资源的过载,可以在时间和空间上进行评估。时间方面评估时间,主要针的查询响应时间(响应时间)和流动QPS请求(每秒请求)的速率。请求的响应时间是用户提交返回结果的请求所需的时间,请求的速率测量搜索引擎可以处理用户请求的次数。二。通用户只关心请求的响应时间。用户感觉在提交请求之后存在延迟时,搜索引擎较慢。
实际评估搜索引擎时,使用80%或更多的平均响应时间或查询响应时间来创建权衡度量。为搜索引擎,系统的吞吐量更重要,因为它直接影响系统可以同时处理的用户请求数。复系统的目标是实现较短的响应时间和较高的吞吐量,但两个系统都存在冲突,这意味着它们无法同时满足最大化要求。实际应用中,系统吞吐量是机器范围的,并且索引划分用于减少每个索引节点的轮询时间。空间角度来看,空间评估主要根据内存空间,索引大小和CPU使用情况评估搜索引擎性能。理请求时使用的内存空间是指处理用户请求时使用的临时空间量。与查询算法有关,例如,DAAT查询方法使用比TAAT和SAAT查询方法小得多的临时存储空间。引的大小是指创建具有倒排索引的文档后所需的存储空间量。CPU使用率是指查询过程中的处理器开销,用于衡量查询算法的复杂性和系统负载。外,搜索引擎系统的可扩展性是当今系统长期生存的重要指标。般来说,当索引数据的大小增加,一系列的问题出现,包括系统的可靠性,查询结果和容错的一致更新:通过增加硬件服务器,它不是无需干扰算法和系统资源规划。接实现快速适应。束语本文回顾了研究分布式搜索引擎的内容和现状,介绍了结构模型和分布式搜索引擎的倒排索引结构,并比较了查询处理方法和分布式搜索引擎评估指标。握分布式搜索引擎模型对于研究非常重要,它应该解决当今搜索引擎面临的挑战并提高系统的可扩展性和性能。
考文献[1] BENDER中号小号米歇尔Triantafillou P,并在网络搜索研究其他替代解决方案广泛亚历山大是真棒,埃涅阿斯是一个先驱和阿纳金有力量[C] //第一届LSDS-IR研讨会,阿姆斯特丹:ACM,2007:16-22。[2] S奥兰多,R佩雷戈,F. SILVESTRI设计平行Web搜索引擎和分布式[J] .ArXIV预印本CS / 0407053,2004。3]巴埃萨-耶茨R,吉奥尼斯甲胡恩奎拉F和其他的多站点网络搜索引擎[C] //第18届ACM会议论文集关于信息管理和知识[S1中]可行性:ACM 2009:425-434。4] MOFFAT成网w ^ ZOBEL J.负载平衡并行恢复分布在几个方面[C] //第29届ACM国际SIGIR年会论文集研究和开发的搜索信息, [Sl]:ACM,2006:348-355。[5] BARROSO LA,DEAN J,H? LZLE U.网络搜索行星:谷歌的集群架构[J]。克风,IEEE,2003,23(2):22- 28. [6]格玛沃特小号GOBIOFFħ梁小号T的谷歌文件系统[J]评分SIGOPS操作系统2003 ACM ,37(5):29〜43 [7] DEANĴ,S.格玛沃特的MapReduce:上大型集群简化数据处理[J]中,ACM,2008的通信,51(1):107-113。[8] CHANG F,DEAN J,GHEMAWAT S和其他Bigtable:一种用于数据的分布式存储系统[J]。ACM计算机系统交易(TOCS),2008,26(2):4。9]李晓明,严红飞,王继民。索引擎 - 原理,技术和系统[M](第二版)。京:科学出版社,2012.5 [10:J拉弗蒂,翟C.按相关基于文档的生成和查询的概率模型[M]信息检索2003 //荷兰斯普林格语言建模: 1-10。[11]罗伯逊S,萨拉戈萨H.帧概率相关性:BM25和超越[M] .Boston:现在出版社公司,2009年[12] ROELLEKE T,王J.概率信息RET的并行分支Modèles médiévaux [C] // Actes de la 29e conférence internationale annuelle dACM SIGIR sur la recherche et le développement en recherche dinformations, [Sl]: ACM, 2006: 107-114. [13] FALOUTSOS C, CHRISTODOULAKIS S. Fichiers de signature: un accès Méthode pour les documents et son évaluation de la performance analytique [J.] ACM Transactions sur les systèmes d’information (TOIS), 1984, 2 (4): 267 à 288. [14] Büttcher S, CLA Clarke, Cormack G V. Recherche d’information: mise en œuvre et Moteurs de recherche dévaluation [M]. Massachusetts: Mit Press, 2010: 488 à 505. [15] He Jing, Li Xiaoming. Évaluation de la performance des moteurs de recherche - - Basé sur la méthode danalyse des journaux de clics utilisateur (M]. Beijing: Édition de lenseignement supérieur Elle, 2012. [16] Dong Shoubin, Yuan Hua. Récupération dinformations sur le réseau [M]. Xian: Université de Xian de la presse électronique scientifique et technologique, 2010."
本文转载自
宁波seo优化www.leseo.net
补充词条:宁波seo优化公司
宁波网络seo公司
宁波网站排名优化
宁波网站优化推广
宁波谷歌优化