什么是国家标准汉字编码,汉字编码标准有什么区别和联系

发布时间:2020-07-10 00:52:25

什么是国家标准汉字编码,汉字编码标准有什么区别和联系

网友回答

所谓汉字编码,就是采用一种科学可行的办法,为每个汉字编一个唯一的代码,以便计算机辨认、接收和处理。在此介绍的是《国家标准信息交换汉字编码》。这种编码经过加工整理一律以汉语拼音的字母为序,音节相同的字以使用频率为序,其查找方法与一般汉语字典的汉字拼音音节索引查找法相同。
  (1)按音序查
  常用汉字按音序几乎都可查到,例如:“白”字,首先,按其发音bai查在汉字编码表中的位置,然后在bai范围内查“白”字,找到“白”字后,其汉字右侧的数字1655就是“白”的汉字编码。
  (2)关于多音字的查找
   由于汉字编码是一种无重码的汉字编码,所以多音字只有一个编码。在查多音字时,如果用某个音查不到,可换另外的音去查。例如:重庆的“重”和重量的“重”,字同音不同,汉字“重”的编码是按Zhong音编码的。

网友回答

汉字编码
   相对西文字符集的定义,汉字编码字符集的定义有两大困难:选字难和排序难。选字难是因为汉字字量大(包括简体字、繁体字、日本汉字、韩国汉字),而字符集空间有限。排序难是因为汉字可有多种排序标准(拼音、部首、笔画等等),而具体到每一种排序标准,往往还存在不少争议,如对一些汉字还没有一致认可的笔画数。
  二、汉字编码国家标准
   1984年“全国计算机与信息处理标准化技术委员会”提出编码字符集的繁体字和简体字对应编码的原则,并做出了制定六个信息交换用汉字编码字符集的计划。这六个集分别命名为基本集、第一辅助集(辅一)、第二辅助集(辅二)、第三辅助集(辅三)、第四辅助集(辅四)、第五辅助集(辅五)。其中,基本集、辅二集、辅四集是简体字集,辅一集、辅三集、辅五集分别是基本集、辅二集、辅四集的繁体字映射集,且简/繁字在两个字符集中同码(个别简/繁关系为一对多的汉字除外)。
   国家标准GB 2312-80《信息交换用汉字编码字符集基本集》已于1980年发布使用,它奠定了我国中文信息处理技术的发展。
   这六个集均采用双七位编码方式,但为了避开ASCII表中的控制码,每个七位只选取了94个编码位置。所以每张代码表分94个区和94个位。其中前15区作为拼音文字及符号区或保留未用,16区到94区为汉字区。
  1. 基本集GB 2312-80
   收入汉字信息交换用的基本图形字符,采用一字一码的原则,具体包括:一般符号,序号,数字,拉丁字母,日文假名,希腊字母,俄文字母,汉语拼音符号,汉语注音字母及简化汉字6763个。总计7445个图形字符。
  2. 其他五个辅助汉字集
   辅二集(GB 7589-87)和辅四集(GB 7590-87)是作为基本集的补充而编制的,均收通用规范的简体汉字,分别收字7237和7039个,都以部首为序排列,部首次序按笔画数排列,同部首字按部首以外的笔画数排列,同笔画数的字以笔形顺序(横、直、撇、点、折)为序。
   这两个集都不收异体字,共约有4200多个字是经过类推简化得到的,提高了整个字符集的规范性,但降低了字符集的实用性。
   比较而言辅二集所收汉字具有较高通用性和实用性。
   辅一集(GB 12345-90)已于1990年发布,是与基本集对应的繁体字集,共收图形字符7583个,其中前15区除收集了GB 2312中前15区内收的全部字符外,又增收了35个竖排标点符号和汉语拼音符号。从16区至91区共收6866个繁体汉字。一级汉字数和二级汉字数都与GB2312相同,另有103个繁体字是属于简/繁为一对多的字。对于简/繁一对多的情况,则选一个最通用的繁体字码置于与基本集中该字相对应的码位,其余的则按拼音序编码于88和89区。
   辅三集和辅五集分别是辅二集和辅四集的一一对应的繁体字符集,比辅二集和辅四集中的字有更多的使用机会。
  三、中国台湾定义的汉字字符集
   台湾、香港等地使用的汉字是繁体字,台湾已经定义的汉字字符集只收繁体字。
   在台湾,用于中文信息交换的标准有:
   CCCII:中文资讯交换码
   CNS 11643:通用汉字标准交换码
  其中,CNS 11643实用面更广,使用者更多。
以上问题属网友观点,不代表本站立场,仅供参考!