现代汉语词类相关性的统计与分析

毕广吉

在中文信息处理过程中,词类信息占有重要地位,通过对大量语料的统计分析,我们得到了两组数据:

1)描述现代汉语词类相关性的词类搭配矩阵,该矩阵客观地描述了连续自然文本中上下文词类搭配的关系。

2)兼类词在不同语言环境中所呈现的词类统计规律,从而产生对自然文本中兼类词的量化描述。

一、词类相关性分析的意义及实施

在现代汉语连续自然文本中,上下文词类的搭配有一定的统计规律,这是显而易见的。通过对大量语料标注词类属性,并进行统计计算得出的词类搭配规律,在中文信息诸多领域都有重要价值。这些领域包括汉字键盘输入、语音与模式识别、自动分词、自动词类标注、汉‑外及外‑汉翻译、人工智能、自然语言理解等方面。以汉字键盘输入重码词的处理为例,当输入汉语拼音jiqi时,将出现机器、极其、及其、激起等重码词。但是这些重码词的词类是不同的,他们在文本中出现时前后的词类环境也不相同,根据这些特点,就不难区分这些重码词。例如,当上文是修理、制造这类动词时,基本上可以确定所需的重码词是“机器”。

词类相关性统计分析的主要困难在于,在连续的自然文本中词类属性是未知的(未标注的)。只能对原始语料先进行自动分词处理。然后利用一个属性词库对已分词语料自动标注词类,进一步通过人工反复校对,修正自动分词和自动标注词类中的误差,最后交统计程序处理。

其中困难最大之处在于兼类词的处理,有的词条兼类达6类之多,在得到兼类词的内在规律之前,只能用人工去处理。

二、词类搭配统计结果(词类矩阵)与分析

我们对总字数为450988的自然文本进行上述处理,共分成250560个词条,词条种数为26652。得到的词类有13种,如表1所示。

1   各种词类统计简表

序号

词类

出现次数

出现频率

词条数

占总词条比率

1

名词

78733

0.314228

13401

0.487585

2

动词

61944

0.247222

9453

0.329833

3

形容词

17041

0.068012

3232

0.112770

4

副词

16855

0.067269

771

0.026902

5

代词

15571

0.062145

473

0.016643

6

数词

7088

0.028289

416

0.014515

7

量词

6774

0.027035

315

0.011479

8

助词

26562

0.106011

58

0.002328

9

连词

9162

0.036566

197

0.007118

10

介词

9654

0.038530

128

0.004641

11

感叹词

924

0.003688

61

0.002128

12

象声词

200

0.000798

109

0.003803

13

词缀

52

0.000208

2

0.000244

 

 

 

 

 

 

 

 

 

由以上数据可见,名词和动词的使用率占有绝对的优势,二者合计使用率达56.15%,而形容词、副词、代词均占6%左右,意料之中的是助词(主要是“的”)占10.6%,以上6种词类共占86.49%,是使用最多的词类。

通过对自然文本上下文词类搭配关系的统计,得到词类相关性矩阵如表2所示。在表2中,列表示上文的词类,行表示下文的词类,中间数据为各种搭配的统计数字。不难看出,在各种搭配中,名-名(17683)、名-动(16838)、动-名(16161)、助-名(12504)搭配占有绝对的优势,其次当属动-动(9957)、动-助(9931)、副-动(9501)、名-助(9052)。可见最活跃的词类是名词和动词,通常印象中并列的形-名、副-动搭配实际上前者出现的几率还不足后者的一半。

不可能出现的词类搭配也是重要信息。抛开使用度较少的感叹词、象声词和词缀不论,在其他10种词类中,由于统计数字极少实际几乎不可能出现的搭配有:数-代、连-助、数-副、数-连、连-量、数-介、介-连、介-量。在活跃的名、动、形、副、代中,形-数、形-代搭配相对也是极少的。

仍以前面汉字键盘输入为例,若上文是数词,则在输入jiqi时,就不可能是重码词“极其”,“及其”,而是“激起”的可能性也很小(数-动搭配仅为214)。


2:  自然文本上下文词类搭配矩阵

序号

 

 

名词

动词

形容词

副词

代词

数词

量词

助词

连词

介词

语感词

象声词

词缀

1

名词

17683

16161

4090

607

3254

1323

2825

12504

2607

5135

19

3

3

2

动词

16838

9957

2608

9501

4623

214

881

4171

2816

1394

24

25

2

3

形容词

2654

3311

617

2946

968

113

754

2187

703

579

10

1

1

4

副词

4980

2125

278

1620

1820

15

279

518

900

170

3

1

0

5

代词

1249

3983

138

288

498

9

80

843

767

1621

13

1

0

6

数词

971

1977

117

284

580

109

132

1024

145

262

2

4

2

7

量词

186

480

163

53

503

4843

52

267

20

25

0

1

31

8

助词

9052

9931

4873

176

1312

41

260

282

11

179

2

66

1

9

连词

2991

1179

328

160

334

19

65

116

97

24

4

0

0

10

介词

2178

1751

230

1002

596

23

109

226

553

94

2

4

0

11

语感词

251

251

148

5

59

4

16

73

3

0

5

0

0

12

象声词

47

21

11

10

8

0

1

8

4

0

0

9

0

13

词缀

15

5

0

0

2

1

11

0

0

0

0

0

0

三、兼类词的统计结果与分析

在上述250563个词条中,兼类词有122558个,占48.9%;而在26652个词条种数中,兼类词有3666个,占13.8%,可见较少的兼类词却占有较高的使用率。其中以兼2类的最多,最多的可兼6类。这正是处理词类问题的主要困难所在。

使用次数最多的前20个兼类词依次是:了、是、一、在、和、着、个、有、也、中、人、上、说、就、对、都、与、地、为、美。兼类最多的前20个词是:本(兼6类)、来(5)、好(5)、过(5)、所(5)、下(5)、同(5)、点(5)、重(5)、然(5)、了(4)、是(4)、一(4)、和(4)、着(4)、也(4)、就(4)、对(4)、为(4)、要(4)。表3给出了兼类情况统计。

序号

兼类情况

词条数

出现频率

出现次数

占总词条比率

1

不兼类

22986

0.862449

128005

0.510895

2

2

2750

0.103182

71197

0.284148

3

3

681

0.025552

23839

0.095142

4

4

184

0.006904

24860

0.099217

5

5

45

0.001688

2564

0.010233

6

6

6

0.000225

98

0.000382

7

6类以上

0

0.000000

0

0.000000

3:  兼类情况统计简表

兼类词在何种语言环境(语境)中具有哪一种词类,也是有一定统计规律的,表4给出了“和”字呈现不同词类时的语境。“和”字兼4类,在兼类词中按使用次数排序为第5。

4:  “和”字呈现不同词类时的语境

前一词

本词条(和)

后一词

词类

次数

词类

次数

词类

次数

名词

1300

连词

2093

名词

1153

动词

565

动词

526

形容词

71

形容词

189

代词

42

代词

74

助词

22

副词

35

副词

10

数词

34

量词

5

介词

20

数词

5

量词

5

介词

3

连词

4

连词

2

象声词

1

名词

49

介词

173

名词

101

副词

35

代词

52

动词

30

动词

9

代词

17

形容词

6

连词

9

副词

1

助词

5

介词

1

形容词

4

 

0

介词

1

 

0

副词

1

动词

5

连词

2

名词

1

副词

1

 

0

名词

1

 

0

助词

1

名词

 

形容词

4

名词

1

由于兼类词使用活跃规律复杂,其词类信息比较难于实用,应多借鉴上下文的词类属性,特别是上下文中不兼类的词的属性来初步确定兼类词的词类情况。这样以来不兼类词的词类属性就显得十分重要,在我们所涉及的语料中,前20个不兼类词是:的(助)、不(副)、我(代)、他(代)、这(代)、合同(名)、技术(名)、你(代)、她(代)、很(副)、自己(代)、我们(代)、问题(名)、他们(代)、发展(动)、小(形)、看(动)、三(数)、中国(名)、什么(代)。

四、其他问题与前景展望

我们对标注词类后的语料进行统计,得到了44种统计结果,总数据量非常之大。其中包括对各种词类进行的前后三词关联统计和对名词、动词、形容词的前后五词关联统计,从结果看,两词以上的关联统计并未发现很明显的统计规律。

如果依据这些统计结果进一步处理更大量的语料,则手工校对量必定会极大地减少,而在更大量语料基础上得到的统计规律可望更具有实    用价值。

本文所用语料取自罗振声教授主持的清华大学ZW大型语料库。

返回