摘要:在对常用紧缩技能进行介绍的基础上,结合维吾尔语代码特色来选择适宜的紧缩技能对文本进行紧缩,以完成紧缩率的进步,然后削减搜索引擎对数据空间要求。经过开始试验验证所选办法具有必定的正确性,取得了必定的作用。
要害词:数据紧缩;维吾尔语;搜索引擎
中图分类号:TP274文献标识码:A文章编号:1009-3044(2011)27-6623-02
UyghurSearchEngineCompression
XUEZhong-qi,Winira·Musajan,ZHAOLi-hong
(CollegeofInformationScienceandTechnologyofXinjiangUniversity,Urumqi830046,China)
Abstract:IntheintroductiontocommonlyusedcompressiontechnologybasedonthecombinedcharacteristicsofUyghurcodetoselecttheappropriatecompressiontechniquefortextcompressiontoachievecompressionrateshaveincreased,therebyreducingthespacerequiredfordatasearchengine.Selectedbypreliminaryexperimentalverificationmethodhassomevalidity,achievedsomeresults.
Keywords:datacompression;Uyghur;searchengine
海量网络数据的呈现,进而对数据传输时刻和数据存储技能、检索呼应时刻提出更多应战,这些问题正是影响搜索引擎的要害。迄今为止,已经有相当多的数据紧缩算法及技能办法被开发出来并广为使用[1],一起还有不少专门针对很多数据的紧缩而开发的算法和工具,
宁波seo优化如RAR、ZIP等。互联网上也有对数据紧缩进行剖析的文章,但这些研讨仅针对各自范畴紧缩对象或紧缩格式进行剖析。尽管,这些研讨所提出的办法在未考虑言语特色的情况下也能够对维吾尔文等根据阿拉伯文字的语种供给必定量的紧缩率,但其作用远远不如根据英文的紧缩操作。现在,在新疆区域供给各种网络服务的维、哈、柯文(维吾尔文为主)网站正以指数规律迅速增多,对已有维、哈、柯文搜索引擎研讨的基础上引入数据紧缩技能,并结合维吾尔文特色进行了剖析。明显,数据紧缩技能的运用能够有用减轻服务器的压力并进步搜索引擎的检索速度、削减数据存储空间。
1紧缩技能简单介绍
一般说来,数据紧缩的工作是将符号流或数据流转换成相应的代码。明显,只有输出的代码流长度小于源符号流时,所做的数据紧缩才是有用的。数据紧缩中按照紧缩是否失真将紧缩分为无损紧缩和有损紧缩。搜索引擎中文本紧缩要求无失真仅是研讨无损紧缩。无损紧缩的编码办法分为两种类型:根据计算编码和根据字典编码[2]。
1.1计算编码
运用哈夫曼编码Huffman算法紧缩文件就是对文本中的字符进行从头编码,关于运用频率越高的字符,其编码也越短。但要求编码归于前缀码,即字符A的编码的前段,不行能为字符B的编码。发生哈夫曼编码需求对原始数据扫描两遍,第一遍扫描要精确地计算出原始数据中的每个字符呈现的频率,第二遍是树立哈夫曼树并进行哈夫曼编码。编码后的文本文件,首要包括Huffman码表部分和紧缩内容部分。解紧缩时,先把Huffman码表取出来,然后对紧缩内容部分各个字符进行逐个解码,还原源文件。
1.2字典编码
字典编码办法是紧缩中常用的一种无损紧缩办法。基本原理是以较长的字符串或经常呈现的字母调配构成字典中的各个表项,然后用相对较短的数字或符号来表明。LZ77算法常称为根据滑动窗口的自适应字典紧缩办法,该算法将一个虚拟的、能够跟从紧缩进程滑动的窗口作为术语字典。待紧缩的字符串如果在该窗口中呈现,则输出其呈现位置和长度。LZ78算法不同于LZ77算法就是它抛弃了窗口的概念,选用树形结构构造字典和保存短语,然后确保文件中的内容均能反映到字典中。1984年由TAWelch对LZ78算法修改而成的一种实用的算法[3]。LZW紧缩算法的基本思想是树立一个串表,将输入字符串映射成定长的码字输出。串表具有“前缀性”:假定任何一个字符串P和某一个字符S组成一个字符串PS,若PS在串表中,则S为P的扩展,P为S的前缀。字符串表是动态生成的,编码前先将其初始化,使其包括一切的单字符串。在紧缩过程中,串表中不断发生紧缩信息的新字符串,存储新字符串时也保存新字符串PS的前缀P相对应的码字。在解紧缩过程中,解码器可根据编码字恢复出相同的字符串表,解出编码数据流。
2根据维吾尔文文字特色的文本数据紧缩
到现在为止,民文网页的总数目大约在5万个左右。尽管这些网页内容所占用的存储空间对一般服务器来说不一个很大的数字,但考虑网络的发展趋势和网页的增长数量时,该问题应予以重视。
2.1维吾尔文字符在Unicode编码表中的散布特色
维吾尔文以及首要在新疆区域所运用的哈萨克、柯尔克孜等文种是根据阿拉伯字母的。维吾尔文由32个字母组成,且这些字母还有120多个变形体。其特色如下:
第一,根据阿拉伯字母的一切文字(包括维、哈、柯文)字符集中在Unicode表中的“Arabic”和“ArabicPresentationForms”子区域,但维、哈、柯字符对应的代码是不连续散布的。一切的维吾尔文字母的代码在Unicode代码表中占有两个字节(都是06XX)。
第二,维吾尔文的字是由一个或者多个字母组成,每个字母有基本办法和四种不同的书写办法(尾部与下一个字母相连的首写办法、尾部与相邻字母衔接的中间办法、首部与上一个字母相连的尾写办法和首尾与相邻字母都不相连的独立办法)[5]。
2.2两种紧缩办法剖析
鉴于以上的特色,结合以下两种数据紧缩办法剖析:
哈夫曼编码(Huffman)处理办法。Huffman编码十分便于硬件完成,在改动任何符号二进制编码引起少数密布表现方面是最佳的。但哈夫曼树(哈夫曼表)作为编码环境有必要输入,承受端经过信道传输承受哈夫曼表,以重建哈夫曼树,供解码器运用。该算法不对重复字符或重复子串计算编码,并且符号的呈现频率不能预知,需求计算和编码两次处理,维哈柯言语文字有本身的地域特色,网页的数量较少。在实际运行时,现有的硬件条件能够满意其计算需求,构建哈夫曼树。并可将其使用到实时性较强的搜索引擎中。在解码时仍是选用已树立好的哈夫曼树,进行快速解码。
LZW编码处理办法。其紧缩的原理在于用字典中词条的编码代替被紧缩数据中的字符串。因而字典中的词条越长越多,紧缩率就越高。加大字典的容量能够进步紧缩率。但字典的容量要受到计算机内存的限制,并且其字典也会被填满。这样当字典不能再参加新词条后,过老的字典就不能确保高的紧缩率。为了解决这个问题在紧缩时有必要监视紧缩率,当紧缩率下降时,清除匹配概率较小的词条而保留匹配概率较大的词条。这就需求及时的对字典进行更新确保其紧缩率。LZW算法相对杂乱,但编码速度快通用性好,合适杂乱语种条件下的运用,更好的为维、哈、柯文与英文的混合言语文本编码做好基础。
维吾尔文以UTF-8或UTF-16代码规范存储数据时各自占用两个字节空间,能够经过字母的映射使其转化为运用单字节存储的文字。首先经过算法,将根据阿拉伯文的维吾尔文转化为根据拉丁文的维吾尔文,然后选用紧缩算法进行紧缩。试验结果如表1所示。
表1几种文本的紧缩率
注:1.紧缩率是指原始文件大小除以紧缩后文件大小,数值越大越好。2."—"指转化过程中呈现异常。
试验数据表明经过先转化后紧缩明显的进步文本紧缩效率,验证该办法的正确。但该办法在对混合语种进行试验时,呈现异常。
3结束语
现在紧缩技能已经成为国内外的研讨热点,文本紧缩技能的使用很广泛,在今后的工作中将对几种紧缩算法在搜索引擎中运用得出的详细数据进行剖析。试验中,纯文本的维吾尔文文本转化后的紧缩率比未转化的有所进步。但关于维吾尔文与英文混合文本,转化后不能将其正确解码,需求进一步的对算法进行优化,使其合适实际需求。然后选出更快速、更合适维吾尔语的紧缩办法,进一步改进紧缩质量,削减存储空间进步搜索引擎的准确率与召回率。
参考文献:
[1]卢亮,张博文.搜索引擎原理实践与使用[M].北京:电子工业出版社,2007.
[2]曾玲,饶志宏.几种数据紧缩算法的比较[J].通信技能,2002,9(129):12-15.
[3]AlbertoApostolico,FabioCunial,SequencesimilaritybygappedLZW[EB/OL].http://ieeexplore.ieee.org/search/searchresult.jsp?newsearch=true&queryText=LZW.
[4]维尼拉·木沙江,艾尔肯·伊米尔.维文Unicode在线处理技能与完成[J].新疆大学学报,2004.
[5]赵永进,郭大庆,卢有飞,李英凡.维文软件中排版要害技能的研讨与完成[J].计算机工程与使用,2007.
[6]买日旦·吾守尔,维尼拉·木沙江.电子词典软件系统中对维、哈、柯文进行自动判别技能的研讨[J].新疆大学学报,2011,2.
[7]DB/2190-2005,信息交换用维吾尔文、哈萨克文、柯尔克孜文编码字符集、基本集与扩展集[S].
本文转载自
宁波seo优化www.leseo.net
补充词条:
宁波网站优化推广
宁波seo外包
宁波seo哪家好
宁波seo推广公司
宁波网站排名优化