语言学与应用语言学 信息网络时代中日韩语文现代化国际学术研讨会论文集 浏览文章

日汉机译系统中日语分词技术的研究与实现
 

  邻接规则库:
  右侧左侧 动词性接尾词 ...
  カ变动词 1
  サ变动词 1
  名词 0
  ...... ......
  (注:1表示可以邻接,0表示不可以邻接)
  四、结束语
  与中文分词不同,在对日语进行分词时,由于存在:1、日文编码的多样化(SHIFT-JIS\EUC\JIS\GBK);2、日文假名、汉字的混排现象;3、日语助词的"粘着"特性,活用型特别频繁等问题,造成日语分词有许多困难。针对这些问题,在分词词典的构造上采用基于广义表的信息描述、组织方法,这样信息的层次性明显,对分词词典的回溯检索、动态增删也能提高效率;在分词规则上构造邻接规则表,基本思想是通过邻接规则表判断切分结果左右两侧一定长度窗口中的词是否可以正常连接;同时应用三元语言(TRI-GRAM)统计模型计算出邻接词的概率矩阵,对分词结果进行评价,做优化上的处理。
  该技术的研究和实现不仅对日汉机器翻译有重要的作用,而且对其他有关日文信息处理领域有着重要的借鉴作用。


 
 
{ 作者:汤蓉、徐立军、尹宝生、潘峰、年新   编辑: 宋沁潞   }
 
 
  


Copyright 2004-2008  All Rights Reserved 制作维护:『山东大学中文信息研究所』