宁波seo优化专栏

宁波seo优化:桌面搜索引擎中的反向索引压缩应用

发布时间:2019-03-23 00:20:20

  今天,随着数据存储的快速增长,桌面搜索工具的优势在于任何人都可以在很短的时间内找到他们所需的大量数据。面搜索引擎通过全文索引技术实现。于全文搜索系统通常处理大量数据,因此处理生成的索引数据也非常大,允许给定的压缩策略节省空间。外,为了使全文索引更有效,反向索引压缩有助于提高查询吞吐量。键词:桌面搜索;全文索引;倒指数;索引压缩中图分类号:TP391.3文献标识码:A文章编号:1007-9599(2011)10-0000-02站点搜索引擎中的反向索引压缩应用程序摘要:前面的桌面搜索应用程序使电子数据量快速增长,使我们能够高效,快速地在PC上搜索文件和数据。本索引是桌面搜索的主要技术,因为基于索引文件的数据量很大,我们必须压缩大文件以节省计算机上的空间。
  向文件压缩会导致请求率增加。键词:桌面搜索;全文索引倒指数;全文搜索的索引压缩摘要尽管各种系统目前都具有文件搜索功能,但它们通常被称为信息检索方法,它们的局限性非常明显。以通过文件名搜索文件,最大文件大小,创建/修改时间以及限制搜索范围的其他条件,系统通过逐个扫描完成搜索,这大大加快了搜索速度。面搜索提高了用户组织和查找存储在PC上的大量数据的能力。
  为主要信息载体之一,非结构化数据等文本的快速有效管理和检索已成为一项紧迫的研究课题,全文检索技术应运而生。文搜索是指使用文本作为搜索对象的方法,它允许用户基于自然语言的数据内容而不仅仅是外部功能来检索信息。整,准确和快速是衡量全文搜索系统的关键指标。书目索引启发的人提出了全文索引的思想,本文研究的倒排索引是最常用的全文索引之一。引压缩的含义全文搜索技术最重要的应用是搜索引擎。管搜索引擎通常是面向Web的,但是越来越多的高级搜索产品已经开发出桌面搜索工具和本地文件。于集成了全文搜索功能,因此有必要研究索引压缩算法以提高全文索引的效率。内外压缩算法研究中国古代文学界长期以来使用李澍等缩略词为李白和杜甫。天,在各种学科或生活条件下,发布了不同的缩写,这实际上是最简单的数据压缩。语“数据压缩”是指减少表示给定量信息所需的数据量。输信息的手段,相同数量的信息可以由不同数量的数据表示。格意义上的数据压缩来自人们对概率的理解。我们对文本信息进行编码时,如果将较短的代码分配给具有较高发生概率的字母,并将较长的代码分配给具有较低概率的字母,则代码的总长度可以是缩短了很多。离计算机的出现,着名的摩尔斯电码已经成功实现了这个代码。今为止,数据压缩已在商业程序中实施,并在许多技术领域中使用。信息熵到算术编码,从犹太到Win RAR,从JPEG到MP3,数据压缩技术的历史就像一张充满“创新”和“突破”的羊皮纸。关索引技术的信息正以不受控制的方式增长,压缩技术可以节省大量磁盘空间。是,如何组织信息以便可以有效地执行查询并快速检索相关的数据段?由于简单的压缩技术无法解决这些问题,我们必须引入索引技术。文索引技术的主要文本索引方法包括倒排索引,签名文件,位图和Pat表。

宁波seo优化:桌面搜索引擎中的反向索引压缩应用程序_no.99

  们都有优点和缺点。
  排索引模型在空间,恢复和创建方面效率低。
  些表在创建过程和恢复过程中都严重依赖原始文本。外,提出了新的全文索引模型,在一定程度上解决了上述问题,但目前,倒排索引模型的整体性能更好,应用更加成熟。立的倒排索引及其倒排索引(索引倒置)来自书目索引,倒排索引由一系列对“指针”组成。
  单词实际上是索引的搜索键,包括文本集中出现的所有单词(无用单词除外)。针表示单词出现在文本集中的所有位置。此,从反向索引,可以快速确定任何单词的文本集中的哪个文档。个完整的反向文件通常由两部分组成(图1):索引头:是一维数组,其内部代码是索引,并记录每个字符的索引的起始位置在索引的正文中。引体:该图的索引体图仅用于帮助理解。引主体是由图的每条数据线的端到端连接形成的一维数据流。1中的每一行包含一个C字符({0 TI1,NI1 [Oi1a,Oi1b ...]},{TI2,NI2 [Oi2a,Oi2b ...]},...,{添稔,[Oima,Oimb ...]}其中Tij(0图1.在文件结构中压缩反向反向反向压缩反转文件,以提高请求的比特率,因为读取和压缩倒排索引的解压缩可能优于倒排索引的读取压缩倒排索引节省输入/输出时间倒排索引压缩技术介绍倒排索引包括通常是字典文件和写入文件,它记录文本集的每次出现信息,例如单词的位置和大小以及它们在记录文件中的反转列表对应于单词的反向列表可表示为:>,...,>,...,>> n表示该单词出现在n个文档中,di对于文档ID,fi是出现在文档di中的单词的频率,即单词出现在文档中的位置列表。际上,反转列表可以分为三个部分:文档ID序列(1≤i≤n)n个位置序列:字频序列。
  述第一和第二序列是增量整个序列,其允许更换二间隔+ 1二和碧+ 1-PIK和三个上部整个序列被转换如下的序列的值:一文档ID间隔序列,n个位置间隔序列,一个字频率序列,在转换为间隔后,没有信息丢失,因为初始反转列表仍然可以通过计算间隔并恢复。列的值具有两个效果:减少的样本空间和概率分布是不平衡的,表明存在基于概率分布的非常有效的压缩方法。经提出了一些模型来描述整数值的概率分布,其适合于压缩任何上述序列。些模型可以分为两类:全局模型,所有序列使用相同的压缩参数,局部模型,对于不同的序列,压缩参数不同,这个参数一般对应于单词的出现频率。型的压缩效率通常大于整体模型的压缩效率。解码速度方面也是有利的,但实现更复杂。参数模型是全局模型,其编码涉及整个序列的值的概率分布。隐式概率分布的特点是非参数模型不仅可以用于压缩静态整数序列,而且适用于整个动态序列的压缩。
  参数模型分为固定长度编码和可变长度编码,作为编码长度可变性的函数。农在理想编码长度l(x)和数值概率Pr(x)(l(x)= - logPr(x))之间的关系可用于确定任何编码方法所暗示的概率分布。定长度编码。

宁波seo优化:桌面搜索引擎中的反向索引压缩应用程序_no.155

  简单的全局模型是固定长度编码,其压缩效率有限。
  定长度编码隐式概率模型如下:Pr(x)= 1 / N(N是整数序列的最大值),即整数值均匀分布在数值空间,每个值的编码长度为l(x)= [logN]。变字节编码。变八位字节编码是可变长度编码,其是八位字节对齐编码。将整数转换为二进制后,它被分段为7位单元,每个位前面有8位,正好是一个字节。位为0,表示该段是最后一个段和1,表示后续段落。于计算机主要以字节为单位,因此基于八位字节的编码往往会利用硬件。

宁波seo优化:桌面搜索引擎中的反向索引压缩应用程序_no.69

  变字节编码压缩和解压缩得更快。元编码。元编码也属于可变长度编码,其将整数x编码为x-1 1比特,接着是0,使得3的编码等于110.因此,对于值x的整数,编码需要x。代码长度l(x)= x。元编码往往是一个小整数,但这种趋势太极端了。
  元编码易于编码和解码。
  玛编码。码γ可以表示如下:对于整数x,它在前后两部分编码,前缀部分的值是1+ [logx]并且由域的代码表示,需要1+ [logx]位;后缀部分的值是x-2 [logx]],由固定长度代码表示,需要1 + [logx]位,代码长度l(x)= 1 + 2 [logx]。Delta编码。一个发展是增量编码,宁波seo优化其中编码的前缀部分是编码伽马而不是一元编码,后缀部分保持不变。于较小的值,delta代码比gamma代码长,但随着值的增加,情况相反。Delta编码与gamma编码一样易于编码和解码。析评估对于上面列出的各种压缩编码方法,可以根据它们与动态更新,压缩率和解压缩速度的兼容性来评估它们。果压缩索引是动态更新的,则必须先将其解压缩,然后才能进行调整,然后重新压缩,然后我们认为压缩非常糟糕或者压缩不支持动态。
  持动态整数序列的非参数模型中列出的唯一编码方法是:delta编码,gamma编码,可变字节编码。变字节编码的压缩率很低,但是解压缩时间和压缩时间具有相当大的优势,因为它是字节对齐的编码,允许充分利用可变字节的速度。件。
  Gamma编码仅适用于压缩非常小的整数,但丢失大整数并不符合成本效益。delta代码表示小数值时,delta代码比gamma代码长,但对于大数字则相反。常,在解压缩速度和压缩比方面,delta编码优于伽马编码。
  本文转载自
  宁波seo优化www.leseo.net
  补充词条:宁波谷歌优化  宁波seo优化公司  宁波网站优化推广  宁波seo哪家好  宁波seo排名