依据四字节构造化符号体系对汉字及其属性

信息进行统一规定*

一、引

现在,JIS X0208-1978也应用于图书馆信息管理,古典、汉籍、佛典等的索引制成,逐步确立了其作为规定适度规模字集规格的地位。但是JIS X0208-1978在长期保存电子数据及使用者定义字集、重新排序等功能方面还存在问题。另外,使用者还希望含有多语言功能的字种能够随意扩充,语音、部首、笔画数等属性信息能实现标准化。本文阐述了使用构造要素及构造间的关系来规定四字节符号体系设定的功能、信息的方法,说明将汉字符号构造化可以实现下列事项:

(1)       依据符号、信息3层结构稳定运用。

(2)       通过语料库完成符号化信息的一元管理和分散运用。

(3)       大规模字集和适度规模字集,及其规范和动态对应功能的并用。

(4)       中国·日本·韩国的汉字、异体字、语言名的统一规定。

(5)       使用者规定字集和二次排序编号功能的实现。

此外,本文还说明四字节符号体系因其下位构造中包含了二字节符号体系的层次,所以具备对立关系、整体与部分、统合和分散、规范和个别等复合化功能。最后还概括阐述了为验证四字节符号体系而编制的程序。

二、四字节符号体系的基本构造及3层构造的信息规定

四字节符号体系考虑到既有的二字节符号体系的转变和并存,将各字节的7比特(2进制)转换为十六进制的217E。字集和符号确定为,G0:十六进制数2121-7E7EG1A1A1-FEFEG2A121-FE7EG321A1-7EFE,各符号的识别使用各字节的MSDMost Significant Digit)(图1)。四字节符号体系是由两个G3集合的二字节符号体系组合构成的,G0G1G2集合是在二字节符号体系领域中使用的。二字节符号体系和四字节符号体系所能规定的文字分别是26,508字和830,584字。以下是使用各构造及构造间关系所能规定的功能和信息。

 

 

G0

 

 

 

G3

 

      G2

 

 

      G1

1 二字节符号体系和四字节符号体系的符号领域

1)第一层构造

第一层规定所有信息的理论符号,它用三字节部分规定了大约83万字的字集,用一字节部分规定异体字和各国汉字。三字节部分规定的字集内容是诸桥彻次编写的《大汉和辞典》的字头。符号使用了将十进制5位检字号码变换为16进制、94进制的数值(式1)。一字节部分登录的异体字和各国汉字的位置使用了式2。表1表示的是从检字号码算出四字节符号的过程。

    1的项目名称“I1”是将检字号码变换为相对应号码的值。项目名“94进制变换”是把相对应号码用94除所得的值。项目名“16进制变换”是由94进制数转换而来的值。“加21”表示为把以0为开始号码计算的检字号码各字节调整为16进制数217E而加上了符号初期值21的所得值。

整数部=HEX(检字号码MOD94+21            (式1

小数部=HEX(小数部插入位置号码)+21         (式2

HEX:将10进制数转换为16进制数的函数。MOD:剩余函数。

          1 检字号码的16进制数、94进制数转换示例

 

检字号码

1

2

93

94

95

96

I1

0

1

92

93

94

95

94进制变换

00/00/00

00/00/01

00/00/92

00/00/93

00/01/00

00/01/01

16进制变换

00/00/00

00/00/01

00/00/5C

00/00/5D

00/01/00

00/01/01

21

21/21/21

21/21/22

21/21/7D

21/21/7E

21/22/21

21/22/22

检字号码

186

187

188

189

26832

830584

I1

185

186

187

188

26831

830583

94进制变换

00/01/91

00/01/92

00/01/93

00/02/00

03/03/41

93/93/93

16进制变换

00/01/5B

00/01/5C

00/01/5D

00/02/00

03/03/29

5D/5D/5D

21

21/22/7C

21/22/7D

21/22/7E

21/23/21

24/24/4A

7E/7E/7E

2)第二层构造

第二层构造是由二字节符号体系和一字节识别符号及枝号码构成的。第二层规定的二字节符号体系归入四字节符号体系的三字节部分,是四字节符号体系的下位构造。第二层是放置既有的二字节符号体系对应的字集或使用者选择规定的字集的框架。

3)第三层构造

第三层构造是为了将具有理论性功能的第一层和第二层映射为物理性内部符号而设定的。

4)构造要素间及构造间的关系

构造的基本功能和信息对应于四字节符号体系所设定的两个要素。其复合功能是由要素间、构造间的关系决定的。二字节符号体系与四字节符号体系间功能的继承体现在四字节符号体系中的三字节部分包含了二字节符号体系。属性信息的符号化使转置表列出的标题和数据库的两项引用信息与四字节符号体系的两要素相对应(表2)。依据数据库进行的信息统一管理以及由数据库编成方式确立理论符号的处理是通过用三层构造描述理论符号及其导出过程规定的数据库和转置表来实现的(图2)。同样,由内部符号推导出理论符号也要通过这个三层结构完成。

理论符号的基本功能:要素A指大约83万字的字集。B具有在符号间记录异体字和各国汉字的功能、从语料库引用属性信息的接续功能。D的领域包括以8,836字为单位的94种二字节符号体系对应的字集和使用者选定的字集。使用者规定的字集是指使用者从理论符号对应的字集中选出所需的文字并给予其二字节符号体系。在使用者规定的字集间交换信息时,需要以理论符号为中介进行削减符号处理式34

此外,用AB的关系规定数据的分散统括管理功能、规范功能和变化的动态对应复合功能。

另,由AD的关系规定了给大约83万字的字集及以8,836字为单位的使用者选择字集重新编号的功能。

 

 

 

 

 

 

 

 

 

 

 


第三层

 

       2 用三层构造表现的四字节符号体系

2 转置表形式表示的异体字和属性信息(见下页)

三、实验程序概述

四字节符号体系的验证程序分为服务器程序和用户程序两部分。实验使用的语言有中文(GB 2312-80CNS 11643-1,2)、日语(JIS X0208)韩语、(KS C5601)四种。

服务器程序进行的处理是用位图影像形式将语料库汉字属性信息和文字字体集的统括管理及CJK各国语言的文字字体集传送给用户。而用户程序是用于各国汉字的输入和对输入数据的编辑处理。日语的输入使用系统附带的IME,简体字的输入使用的是为实验而设计的拼音·单汉字转换程序。对于中文的繁体字和韩语可以直接输入汉字符号。用户程序处理的日语属性信息是在

 

程序启动时从服务器系统数据库中下载制成用户数据库。执行程序时输入的信息在语料库中没有时,由服务器程序的语料库来填补。用户程序所使用的汉字符号有:JIS X0208、扩充UNIX符号体系、转换JIS符号体系、四字节理论符号体系等四种。

引用的属性信息是把标题位置信息作为控制信息进行管理的。当一个属性信息存在多个属性值时,用属性值切分符号“、 ,”来确定各自的位置。属性信息的持续状态用四字节符号体系理论对应枝符号1-47来表示异体字和各国语言汉字的记录位置。另外48-94用于表示附加于二字节符号体系和附加于四字节符号体系的信息。作为枝号码所使用的1-94的数值中,各字节的MSB设置为1,用16进制的A1-FE来表示。

3   中文和日语的表示例

3表示的是把中文和日语混同显示输入的语料例。左画面表示输入的语料,右画面显示的是以左画面显示的句例语料的光标位置文字为中心的,对应KWIC形式的用例和各文字的属性信息。右画面的上部用于由常用汉字、简体字来显示语料的领域,而下部画面是用于表示与常用汉字相对的旧字体、繁体字的领域。

此外,在使用者规定的二字节符号体系相对应的字集间的信息交换中,是以理论符号作为中介符号的。进行异符号间信息交换处理时,必须要进行符号变换处理,可是,以11的方式进行的符号变换处理是由n个符号变为r个组合,而以理论符号为中介的方法是由n个不同符号到两种不同组合来规定的。由此结果来看,使用了用户选定的字集和符号的信息交换,与11变换相比,以理论符号为中继符号的方法有3种以上,变化处理减少。(式34)。另外,用于符号变换的表,在用户从理论符号中抽出字集时能自动生成。这也是一个便利之处。

11符号变换处理=2×nCr=2×(n!/r!(n-r)!)         (式3)

中间符号变换处理=2×不同汉字符号                   (式4)

四、小 结

本文阐述的四字节符号体系是指通过给作为构成要素的三字节符号体系和一字节符号体系对应大规模字集和枝号码,来实现对既有汉字符号所要求的事项的对应。另外还阐明了四字节构造化符号体系同时具有对长期语料保存和再现处理必不可缺的文字利用时实际形态变化的对应功能和规范功能。

此外,本文论述的四字节构造化符号体系的汉字符号化方法实现了东亚汉字使用国的汉字统一规定和用户规定字集赋予二次符号的功能。与以使用频度为标准记录汉字的传统方法相比较,可以说这些功能在继承各国传统文化的多样性、标准化、符号化的方法上开辟了一条道路。今后打算扩充试行程序,进行应用程序的开发和验证。

返回