宁波seo优化专栏

中文搜索引擎的汉字编码及其转换

发布时间:2018-12-22 23:58:21
  〔摘要〕因为世界上不同区域运用的汉字编码技能不同,要想经过中文查找引擎来充沛挖掘和运用网上的这些中文信息资源,就需求对核算机的信息处理和汉字编码及其转化技能有所了解。本文从汉字内码转化原理、汉字内码类型、中文查找引擎的内码转化特色分析了汉字编码及其转化的处理办法。
  〔关键词〕汉字内码;内码转化;汉字编码;中文查找引擎
  〔中图分类号〕H127〔文献标识码〕B〔文章编号〕1008-0821(2009)03-0134-05
  跟着Internet在全球规模的普及和开展,网上的中文信息资源有了迅速添加,中文查找引擎的数量也呈同步增长之势。因为世界上不同区域运用的汉字编码技能不同,要想经过中文查找引擎来充沛挖掘和运用网上的这些中文信息资源,就需求对核算机的信息处理和汉字编码及其转化技能有所了解。
  1汉字内码转化原理
  汉字编码转化实际操作难度很大,首先是字母和汉字的编码不相同,英文字母基于ASCII编码,而汉字是GB码,在编译器词法分析的阶段就需求码制的转化,这其中的原理和分析是研讨编码的高层技能人员才或许完成的,其次是编译器的完成。
  字符信息在核算机里有必要以一组机器能识别的二进制编码办法存在,现在被国际上普遍承受的是美国国家信息交流标准代码(AmericanStandardCodeforInformationInterchange),即一般所说的ASCII码。1个ASCII码占有7bit(1个二进制位作为1个bit),ASCII码字符集最多能够包含数字、字母、通用符号和动作控制符在内的128种字符,1个英文字母一般用1个ASCII码来表明。
  核算机以8bit为1个字节(byte)。字节是核算机中最根本的寻址单元,1个字节存放1个ASCII码后还多1位,这个多余的最高位一般置为0。假如1个文件中各字节的最高位为0,则被称为标推ASCII码文件,即文本文件。
  跟着信息技能的开展,为了扩展核算机处理信息的规模和能力,又推出了一种扩展的8位ASCII码。它将原ASCII码的最高位由0置换为1,1个字节能够表明的字符由本来的128种扩展为256种,这种含有扩展ASCII码的文件被称为二进制文件。
  汉字作为一种字符,也是以一组彼此有别的二进制编码进入核算机的。因为汉字的数目繁复,仅用1个字节即8位二进制数已无法表明,故选用2个字节即一般所称的双字节)来表明。选用这种办法共能够表明2562=65536个汉字,但在实际处理过程中,汉字编码比西文字母要杂乱得多。为了使核算机能够承受汉字,首先要将汉字转化成核算机能够承受的编码,称之为汉字输入码,然后在核算机内部将输入码转化成汉字内码,进行信息加工处理,再将汉字内码转化成汉字字形码在屏幕上显现或打印。在不同的汉字处理体系之间交流信息,还需求汉字交流码。
  内码转化就是在不同字符集之间建立一种对应联系。以GBK2,Big5(简繁体都可)为例。如:“让”字,在GBK中编码是C8C3。假如咱们将GBK码表中的字符变成Big5码格局,则C8C3位上的应该是“让”字的Big5码字符“琵”(琵字不是GBK中的琵,而是“让”字的Big5码汉字在GBK环境中显现成果)。这样咱们读出要转化的文字,在GBK(已经转化成Big5格局)码表中找到它的位置,取出该位置上的字符,将原字符替换即可。
  2汉字内码类型
  综上所知,电脑中一切的数据都是以0和1保存的,按不同的数据操作,能够得到不同的成果。关于显现英文操作,因为英文字母品种很少,只需求8位(一字节)即可。而关于中文,常用却有6000以上,于是咱们的DOS前辈想了一个办法,就是将ASCII表的高128个很少用到的数值以2个为1组来表明汉字,即汉字的内码。而剩下的低128位则留给英文字符运用,即英文的内码。
  汉字内码是任何一个中文处理体系所必备的,同一种汉字内码能够有多种汉字输入码与之对应,而不同的中文处理体系所挑选的汉字内码一般也不同。现在较为流行的汉字内码有GB码、Big5码、CJK码和GBK码等。
  2.1GB码
  GB码是“中华人民共和国国家标准信息交流用汉字编码”的简称。
  全称是GB2312-80《信息交流用汉字编码字符集根本集》,1980年发布,是中文信息处理的国家标准,在大陆及海外运用简体中文的区域(如新加坡等)是强制运用的专一中文编码。P-Windows3.2和苹果OS就是以GB2312为根本汉字编码,Windows95/98则以GBK为根本汉字编码、但兼容支撑GB2312。GB码共收录6763个简体汉字、682个符号,其中汉字部分:一级字3755,以拼音排序,二级字3008,以偏旁排序。其他俄文字母、日文化名、拉丁字母、希腊字母、汉语拼音等图形符号682个。GB2312是一个简体汉字体系的中文内码,常简称为国标码、GB码等。该标准的拟定和应用为标准、推进中文信息化进程起了很大作用。
  1990年又拟定了繁体字的编码标准GB12345-90《信息交流用汉字编码字符集第一辅佐集》,意图在于标准有必要运用繁体字的各种场合,以及古籍整理等。该标准共收录6866个汉字(比GB2312多103个字,其它厂商的字库大多不包含这些字),纯繁体的字大概有2200余个。(2312集与12345集不是相交的。一个是简体,一个是繁体)。其他俄文字母、日文化名、拉丁字母、希腊字母、汉语拼音等图形符号717个。除了新添加的103个汉字和35个图形符号外,其他的图形符号均与GB2312—80中的图形符号相同,汉字则是GB2312—80简体汉字的繁体办法,GBl2345—90又称为GBFT(国标繁体)。
  2.2Big5码
  Big5码是流行于我国台湾和香港等地的一个繁体汉字编码方案,一般被称为大五码。它并不是—个法定的编码方案、但却被广泛应用于Internet之中,成为一种现实的行业标准。Big5码共收录各种字符13461个,包含汉字13053个,各种图形符号408个,其中常用汉字5401个,次常用汉字7552个,均按笔画/部首顺序排列。Big5(JT)是Big5繁体汉字的简体办法。
  在IE中,进入Big5码网站(如:台湾网站),假如装置有Big5字符集支撑,IE会将Big5网页转化成GBK繁体显现,没有则是乱码。IE以GBK繁体显现时,在网页中输入的汉字应当是GBK繁体,以Big5码显现时(乱码),要输入Big5码字符。
  2.3CJK码
  CJK:中日韩一致表意文字(CJKUnifiedIdeographs),意图是要把别离来自中文、日文、韩文、越文中,实质、含义相同、形状相同或稍异的表意文字(首要为汉字,但也有仿汉字如日本国字、韩国独有汉字、越南的喃字)于ISO10646及Unicode标准内赋予相同编码。
  国家标准GB13000.1(《CJK一致汉字编码字符集》)完全等同于国际标准ISOl0646.1—1993(《通用多八位编码字符集(UCS)》),ISO10646.1。《GB13000.1》中最重要的也经常被选用的是其双字节办法的根本多文种平面。在这65536个码位的空间中,简直定义了全球一切国家和区域运用的各种言语文字和符号。其中从0x4E00到0x9FA5的接连区域包含了20902个来自我国(包含台湾)、日本、韩国的汉字20902个,这些汉字被称之为CJK(ChineseJapaneseKorean)汉字。所以、这一标淮又称为CJK码。CJK是《GB2312-80》、《Big5》等字符集的超集。
  2.4CBK码
  CBK码的全称为《汉字内码标准》(ChineseInternaICodeSpecification),又常称为《汉字内码扩展标准》,由中华人民共和国全国信息技能标准化委员会于1995年12月1日制订,并将其作为技能标准的指导性文件发布和实施。
  CBK编码(俗称大字符集)等同于UCS的新的中文编码扩展国家标准。该编码标准兼容GB2312,共收录汉字21003个、符号883个,并供给1894个造字码位,简、繁体字融于一库。Windows95/98简体中文版的字库表层编码选用的就是CBK,宁波seo优化经过CBK与UCS之间一一对应的码表与底层字库联络。其第一字节的值在16进制的81~FE之间,第二字节在40~FE,除去xx7F一线。
  CBK与GB2312国家标准兼容,并支撑ISO10646.1993国际标准,共收录各种字符21886个,其中包含21003个汉字的筒、繁体和883个各种图形符号。
  2.5Unicode编码(UniversalMultipleOctetCodedCharacterSet)
  国际标准组织于1984年4月建立ISO/IECJTC1/SC2/WG2作业组,针对各国文字、符号进行一致性编码。1991年美国跨国公司建立UnicodeConsortium,并于1991年10月与WG2达成协议,选用同一编码字集。现在Unicode是选用16位编码体系,其字符集内容与ISO10646的BMP(BasicMultilingualPlane)相同。Unicode于1992年6月经过DIS(DrafInternationalStandard),现在版本V2.0于1996发布,内容包含符号6811个,汉字20902个,韩文拼音11172个,造字区6400个,保存20249个,合计65534个。
  用户要运用Internet中不同汉字内码的中文信息资源,装置一个能支撑多内码转化的中文处理体系是必不可少的。这个中文处理体系至少应能一起支撑GB码和Big5码。如再能支撑CJK码和CBK码则更为理想。
  3中文查找引擎的内码转化特色
  中文查找引擎与西文查找引擎在运用方面的差异与查找引擎本身所选用的核心技能的联系并不大,两者之间的差异更首要的是因为汉语本身的特色所导致的,以下几个方面在运用中文查找引擎时尤其要引起注意。
  3.1不同汉字内码体系形成的乱码
  用户要运用中文查找引擎检索Internet的中文信息资源.一般需求在自己的核算机体系上加装支撑多内码汉字的中文处理体系,但是费事也就因而而产生。有的中文体系只要显现功用而没有输入功用,这时假如仅仅运用以分类目录为主的中文查找引擎,尚能够敷衍,但假如要进行全文检索,即经过输入关键词进行检索,因为体系本身没有输入功用就有或许无法进行。中文体系选用的是GB码,日文体系选用的是JIS码。内码是以123456789和26个英文数字所组成。
  比如,中文体系里,内码(0000)对应汉字是(一),而在日文体系里,内码(0000)对应汉字是(十)的话,中文的汉字“一个”,在日文体系就或许变成了“十万”。GB码的汉字,在日文体系下,就变成了杂乱无章的符号和文字,而导致乱码。
  乱码构成原因一般是因为文档选用的字符集,体系不支撑形成的。繁体中文的文档显现在简体中文体系下,或许相反的情况,就会形成文档显现时乱码。只要内码转化正确,如把原本是繁体的内码,转化为简体内码(或许相反),即可消除乱码,有以下四种解决办法。
  3.1.1网页、文本和文档文件乱码的消除
  网页乱码是阅读器(如IE等)对HTML网页解释时构成的。假如在网页的代码中有形如:……的语句,阅读器在显现此页时,就会呈现乱码。因为阅读器会将此页语种辨以为“欧洲语系”。解决的办法是将语种“ISO-8859-1”改为GB2312,假如是繁体网页则改为BIG5。另一种解决办法是不修正网页代码,事先为阅读器装置多言语支撑包(例如在装置IE时要装置多言语支撑包),这样在阅读网页呈现乱码时,就能够在阅读器中挑选菜单栏下的“检查”/“编码”/“主动挑选”/简体中文(GB2312),如为繁体中文则挑选“检查”/“编码”/“主动挑选”/繁体中文(BIG5),其它言语依此类推挑选相应的语系,这样可消除网页乱码现象。
  3.1.2运用多内码显现渠道来转化内码
  常用多内码显现渠道有:“南极星”:可主动识别GB码、BIG5码,用简体或繁体显现,并能做到同屏显现GB码和BIG5码,对日文、韩文亦能正确显现。下载地址:http:∥www.njstar.com.au/njwin/。“四通利方”:支撑了包含GB、BIG5、HZ、日韩编码、UNICOD等17种汉字内码,也开端支撑预览功用,而且添加了比如“增删空格”、“刺进禁排空格”等小而有用的功用,是网友的好帮手。下载地址:http:∥www.srsnet.com。
  3.1.3运用Word2003/XP转化内码
  Word2003/XP支撑众多的言语,能够正确显现非Unicode类型的文本文件,单击“东西”菜单下的“言语”/设置言语,你能够把默许言语设置成非中文,例如日语,这样Word就能够正确显现日文了。当然你也能够用它进行简体中文与繁体中文之间的转化作业,假如文件有乱码,你转化一下即可消除。例如要把繁体中文转化为简体中文,办法是:挑选要转化内码的文件,在弹出的对话框中,挑选“其他编码”中的“繁体中文(BIG5)”一项,翻开此文件时就不会呈现乱码。
  3.1.4运用Word2003/XP无乱码保存
  在Word2003/XP中,当保存时挑选“文件”中的“另存为”,先存为“WORD”文档,存盘后翻开再存为纯文本等其他格局;或许在菜单栏中挑选“东西/言语/中文简繁转化”,内码转化今后再保存。
  3.1.5运用内码转化东西
  除此之外,运用内码转化东西也能够消除此类乱码,你只要对BIG5(繁体中文)和GB2312(国标码、简体中文)进行彼此转化即可完成。
  3.1.6运用WPS2000转化内码
  WPS2000也能转化内码,支撑GB2312、BIG5、GBK等3种首要的汉字编码,并可在输出RTF、TXT、HTM格局文件时对内码进行转化。
  3.2中文单词的分隔
  查找引擎查询的前提是将查询条件分解成若干关键词,一起一些关键词表明文档。对英文而言,一个单词就是一个词,英语单词的分隔一般能够用空格来表明,但中文就没有这么简单,有时你根本无法加空格,有时加了空格反而费事。首要问题是中文词与词之间没有界定符,需求人为切分。此外汉语中存在大量的歧义现象,对几个字分词或许有好多种成果。因而,能够根据语料库进行总结,取得每个词的呈现概率以及词与词的关联信息,再运用正向和逆向最大匹配法进行细切分,扫除歧义,进步分词的精确性。简单的分词往往会歪曲查询的真正含义。如关于“东方明珠”一词,一般的中文查找引擎都将其作为“东方”和“明珠”两个单词来检索,而关于”花木兰”,则将其拆分为“花木”和“兰”。如,查询条件为“我国人”,若不能正确地分词,按“我国”、“人”、“我国人”等3个关键词去查找,这样查找成果的质量就可想而知了。因而,能够根据语料库进行总结,取得每个词的呈现概率以及词与词的关联信息,就或许有效地扫除各种歧义,大幅度进步分词的精确性,从而精确地表述查询请求和文档信息。关于这类词汇。主张用户选用高档检索中的完全匹配办法比较好。
  3.3中文状态下的特别符号输入
  用户在运用高档检索功用进行检索时,常常需求运用—些比如“AND”,“OR”,“NOT”,“十”,“一”,“丨”之类的特别操作符号。此刻不管用户装置的是什么中文处理体系,运用的是什么中文输入办法,在输入这些特别操作符号时,请一律将体系切换至西文或在中文半角状态下进行,输入空格时亦是如此。
  3.4不同区域汉语词汇的表达和运用方面的差异
  因为前史和政治方面的原团,世界上不同区域的华人在中文词汇的表达和运用方面的差异以及在外语翻译方面的不一致,对中文查找引擎的检索成果具有直接的影响。用户对此方面应引起重视。一些介绍我国大陆与台湾区域在汉语词汇方面差异的有关材料可见《常见我国大陆与台湾区域语词对照表》。
  http:∥www.sivs.chc.edu.tw/library/870428/dl.htm
  http:∥www.cis.nctu.edu.tw/~is84007/EPsoftwares/Books/index.html
  此外,简体汉字与繁体汉字的一一对应,一多对应、多一对应等问题在运用时,尤其是在运用关键词检索时特别要注意。
  假如用户要用本人的简体中文体系拜访对方的繁体中文查找引擎、虽然用户能够经过相关软件将对方的繁体中文主动转化为简体中文显现出来,但假如用户要输入关键词进行检索,则有必要选用繁体中文输入,反之亦然。这里面的情形比较杂乱。用户只要在实践中不断探索、总结和进步。参考文献
  [1]http:∥zhidao.baidu.com/question/5940020.html[EB].
  [2]张兴华.查找引擎的机理、完成技能及开展趋势[J].现代情报,2003,23(12):66-68,70.
  [3]武助宇,刘文清.中文查找引擎开展趋势[J].高校图书馆作业,2003,23(2):11-13.
  [4]林进道,周峰,等.GB13000.1——BIG5汉字内码智能转化体系[J].我国传媒科技,2004,(11):52-54.
  [5]李培峰,朱巧明,等.多文种环境下汉字内码识别算法的研讨[J].中文信息学报,2004,18(2):73-79.
  [6]鞠冬生.VB中完成汉字内码与区位码的转化[J].电脑开发与应用,2001,14(11):30,32.
  [7]王秀珍.GBK内码转化的规划与实践[J].长春师范学院学报,2006,25(4):66-67.
  [8]张晓培,李祥.从Unicode到GBK的内码转化[J].微核算机应用,2006,27(6):757-759.
  本文转载自
  宁波seo优化www.leseo.net
  补充词条:宁波seo优化公司  宁波seo外包  宁波seo哪家好  宁波seo推广公司  宁波谷歌优化