数字键盘汉字输入技术

夏莹 马少平 朱小燕 姜哲

智能技术与系统国家实验室,清华大学计算机系,北京100084

E_mailxia@s1000e.cs.tsinghua.edu.cn

张金岭

葫芦岛亚奥计算机培训中心

一、引

随着信息技术的飞速发展,计算机及其相关电子信息产品在向小型化、数字化方向发展,计算、上网与通信相结合。汉字输入不再局限于台式计算机上,手机、双向寻呼机、手持计算机(H/PC)、小型信息终端和遥控等仅有10个数字键的小型设备也需要输入或处理汉字。

    尽管联机手写汉字识别、语音识别技术取得了很大的进步,但这两种输入方式总会有些人因识别率低而很难输入汉字,因此在小型化设备中用数字键盘输入是必不可少的。汉字输入一定要简单易学、实用快捷,“上手能用”。 《信息技术数字键盘汉字输入通用要求》(GB/T18031-2000)国家标准已经发布,规定了一些便于通用掌握的基本要求,使数字键盘汉字输入规范化。

对于在通讯产品中使用汉字数字码,可以分为三个层次:字输入、词输入、连续语段输入(即智能输入)。选用哪一种层次要根据小型通讯产品中CPU速度和存储量而定。

汉字智能输入应用计算机人工智能技术,使操作更加简便,几乎不需要选字,尤其对于由0-9数字组成的拼音码(音码)和笔画数字码(形码),重码率相对地来说是比较高一些,更加需要智能化,依靠汉语上下文关系计算机自动地进行同码字的选择,转换为汉字,输入者基本上不用选字。

利用全拼音数字码和全笔画数字码在10个数字键上连续输入是一项新技术,它面向最普通的用户,到不需培训,“上手能用”,并能够自动地转换数字输入码为汉字。我们的数字音码及形码智能汉字输入方法完全符合《信息技术数字键盘汉字输入通用技术要求》国家标准,且击键数最少。采用计算机人工智能技术解决重码的选字问题。音码采用现行的汉语拼音,在标有拼音字母的数字键上输入,已会拼音的用户不需要再学习就可以使用。形码采用以数字为代码的笔画数字码,该编码符合《现代汉语通用字笔顺规范》,并有容错能力。因此该形码易学易用,也不需要培训。

小型化的通讯产品对智能输入技术提出更高的要求,因小型化的产品存储空间小,要求汉语上下文关系库不能太大。因CPU速度低对智能算法提出更高要求。这方面已经达到手持通讯产品能够接受的实用水平。

二、用拼音数字码输入汉字

小型电子通讯产品一般只有10数字键,在这类键盘上使用智能全拼音输入,下面介绍在数字键上利用汉语拼音输入汉字的方法。该拼音字母排列为GB/T18031-2000国家标准,键位分布如下:

1

ABC

2

DEF

3

GHI

4

JK

5

LM

6

NP

7

OQR

8

STU

9

VWX

*

0YZ

#

使用规则:声母字母用黑体表示的,用[#]号确认,不是黑体表示的声母字母用[*]确认。这样就可以用拼音输入汉字了。

例字: LI53,按[#]键确认,MI也击53,用[*]确认。

由于该方案拼音字母是按次序排列在数字键上,使用起来非常方便,不需要任何培训就能在数字键上输入汉字。

三、用笔画数字码输入汉字

    音码有“音”的长处也有它的弱点,形码正补充了“音”的不足。我们的金笔画数字码---形码编码规则非常简单,符合国家语委颁布的《现代汉语通用字笔顺规范》,并有容错能力。

笔画数字码是以汉字的五种基本笔画为基础,利用笔画之间有无交叉的特性,将五种基本笔画扩展为10个数字而形成的数字编码法,每个汉字全笔画数字码的码长最大为5。该方案成为制定GB/T18031-2000国家标准技术参数样本方案。

(一)笔画数字码编码方法

  笔画代码规则:笔

丿

无交叉

1

2

3

4

5

有交叉

6

7

8

9

0

 

l         笔画归并:提归一,竖钩归丨,捺归丶,各种折笔均归乙

l         例字:-121  -671  -3489  -25671

l         五笔以上汉字,取前四笔和后一笔编码:–32342  -45359  -36735

l        

两字词

 
词组取码方式:                                首字前四码

三字词

 

四字词

 
次字前两码

多字词

 
其次前一码

再次前一码

第五字前一码

(二)输入实例

            

  44161 32807 684 44346

笔画数字码是按汉字的笔顺次序取码,这与汉字的书写习惯保持一致。采用容易判断的笔画有无交叉的特征,又大大地拓展了编码范围。加上计算机人工智能技术的运用,使得汉字平均笔画数虽在10画以上,每个汉字最多取五个笔画就足以高准确率地连续数入汉字了。

四、数字键盘汉字输入的人工智能处理技术

数字音码及形码智能输入系统的智能处理,主要体现在自动处理重码的问题,不是靠人工选择同码的候选字,而是用马尔柯夫模型作为输入码到汉字的转换模型。

S=<S1S2......Sn>为一句输入串,Si为一个词或者字的编码;

T=<T1T2......Tn>为一可能的汉字串,Ti为输入码Si的一个词或字(即候选词或字);

P(T|S) 表示当输入是 S 时,输出为 T 的概率。

   P(O|S)=MAX{P(T|S)}时,O 即为最佳结果。由Bayes公式得:

 P(O|S)=MAX{P(T|S)}=MAX{P(T)*P(S|T)/P(S)}            

在上式中,由于输入S 已定,故P(S)项不影响选择,可以不加考虑。当 T 在候选集之内时,P(S|T)项可以用1来代替。因此

P(O|S) =MAX{P(T)}                                (1)

把汉语语句看作是一个Markov源(即某状态的发生概率仅与其以前的状态有关),那么:

 P(T)=P(T1)P(T2|T1)...P(Tn|T1...Tn-1)                         2

如果我们认为第i个字的出现仅与前面很少的n-1个字有关,则问题就会大大简化。这样的模型叫做N元语法。如果采用二元语法模型(bi-gram),即取n=2,也就是说,在确定第i个字时只考虑前面一个字的出现情况,则可得下式:

  P(T2)=P(T1)P(T2|T1)                                                3

对于以上情况,其参数项P(T2|T1)称为二元同现概率,它们可以从对语料文本的统计计算中获得。可以用最大似然估计法(MLE)来计算上述二元同现概率,其计算公式如下:

  P(T2|T1)=N(T1T2)/N(T1)                                        4

在上式中,N(S)是字符串 S 在语料库中出现的次数。

采用最大似然估计法(MLE)方法来计算模型的转移概率,在训练语料不足或参数空间庞大的情况下,会遇到数据稀疏(Data Sparsity)问题:即有许多合法的在未来的文本中要遇到的同现现象在统计语料中从未出现过,因而在遇到这种情况时,会出现零概率情况。合理地平滑处理数据稀疏的估值算法,目前有很多。解决此问题的一种较简单的的方法是使用二元和单字频率的加权平均,该方法是Markov模型的数据平滑方法,其基本思想就是:若统计数据不充分,确切地说不可信时,我们宁可回到n-1元组来计算。在实际应用中,是用它们的线形组合来实现的。在我们的模型中是使用了此方法来计算同现概率。

在我们的模型中用同现概率反映汉语文本中汉字间的相邻关系。为了获得汉语词词和字字的同现概率,我们对大规模语料进行了统计得到同现概率库。输入汉字数字码时用动态规划法求最佳路径,得到最可能的汉字语段。

与台式计算机不同,对于小型化通讯设备或手持计算机来说,CPU速度低,存储量小,要求同现概率库不能太大,对于统计得到的同现概率,要进行筛选、整理、压缩,并根据用户的实际需要对求最佳路径算法进行改进,以达到手持通讯产品能够接受的实用水平。

    用《人民日报》、《中国青年报》及《参考消息》等社科方面的文章进行测试,自动转换汉字的正确率如下:

    智能输入自动转换汉字的正确率:                        

          全拼音(字母键)         94.2%

                (数字键)         93.9%

      笔画数字码(数字键)         95.6%

    例句1                                 

    全拼音

      数字键输入: 3763   087  833  4316  18  6263  83   06  738                 

      字母键输入:GONG  ZUO SHI  JIAN  BU  NENG TI  ZU  QIU   

    笔画数字码

          字输入: 121  32311 25114  42521 1324 54255 25123 25124 16714

        字词输入:     12132     251142     132454  25123   251216

    例句2                                       

    全拼音

      数字键输入:  833 9316  4363  43   21  0316   32  832  383  436  18

      字母键输入:  SHI XIAN JING  JI   FA  ZHAN  HE SHE  HUI  JIN  BU

    笔画数字码

          字输入:44544 16715 55151 44142 08094 51364 36731 45241 34114 66874 21213

        字词输入:   445416    551544     080951   36731  452434    668721

五、结

从对数字键盘汉字输入分析不难看出该方法的优良特性是:

    1.使用0-9编码的汉字数字码输入技术,包括拼音数字码及笔画数字码输入系统。可以分为三个层次:字输入、词输入、连续句输入(即智能输入)。简单易学,“上手能用”,普通用户都能方便地驾驭汉字输入。对于装有数字码智能输入的系统,由于应用了中文上下文关系的智能技术,输入更加方便,连续输入基本上不需要选字。 

2.  经测试可以达到如下指标

       汉字输入平均码长:

     单字输入时,平均码长小于6/字(包括“确认键”,字词混合输入时,平均码长小于4/字。

   重码字键选率:

单字输入时,键选率为11%;字词混合输入时,键选率为10%。

返回