APP下载

计算机识别藏语虚词的方法研究

2014-02-27高定国扎西加赵栋材

中文信息学报 2014年1期
关键词:藏语藏文实词

高定国,扎西加,赵栋材

(1. 西藏大学 藏文信息技术研究中心,西藏 拉萨 850000;2. 西藏大学 工学院计算机科学系, 西藏 拉萨 850000)

1 引言

近年来,随着藏文信息处理技术的发展,藏语的信息处理已经在字处理方面取得了很好的成绩,现进入到了语句研究的阶段,语句处理的前提是对藏语词的处理。藏语中的实词由于其意义的实在以及在藏语的语义句法结构中的重要地位,受到了藏文信息处理学者们的普遍重视,也取得了一定的成绩,但面向信息处理的虚词研究还有待于加强。虚词自身虽然用法灵活,但虚词与虚词、虚词与实词的搭配常常构成比较稳定的语义块标记[1]。因此,从藏语的虚词入手,根据虚词的搭配及其在形成藏语语义块结构中的标记作用来分析藏语语句的句法结构,并据此进行藏语语句的语义块自动切分等研究,对藏文句子研究有很重要的作用。

藏语虚词在藏语文档中出现的频度很高,虚词搭配规则形式化分析的可行性则由藏语虚词自身的特点决定: 虚词是封闭集合,其中的各个词汇是可以一一枚举的[2];虚词尽管用法灵活,但它们是语言中性质比较稳定,不易产生变化的部分;虚词与其他词汇构成的搭配是确定的,也是可以枚举的[3]。虚词搭配的可枚举性、稳定性和确定性等特点,使得虚词搭配关系的形式化规则特别有利于被擅长搜索和匹配的计算机所直接利用,从而对计算机句法分析提供简单、高效和健壮的句法规则。

现代藏语虚词搭配规则形式化分析研究以及由此派生的藏语语义块自动切分技术的研究应用于新一代Internet搜索引擎、藏语问答系统、自动抽取、自动语义块切分、机器翻译、自然语言理解、人工智能等多个领域。藏文虚词的研究是藏文信息处理技术中词、句及语义研究的基础和前提,为进一步研究藏语短语、藏语句法分析等提供依据,也为开展藏文文法及语义的研究工作奠定基础,而计算机自动识别藏文虚词又是藏语虚词研究的前提。

2 藏文虚词分析

2.1 藏语虚词的重要性

藏语的词汇可以分为实词和虚词两大类。实词是名词、动词、形容词等具有实在意义的词汇,能够在藏语语句中充当主要成分。虚词是格助词、关联词等没有实在意义的、不能作为语句的主要成分,不能单独用来回答问题[4]。与实词相比,虚词本身的意义虽然不够“实在”,但是它能够配合实词表达出确切的语义,是将实词连接起来构成藏语语句表达确切语义的“粘合剂”。研究现代藏语语句的计算机句法分析,就不能不对这类具有将实词组织起来形成一定句法结构的功能性词汇加以重点研究。藏语语句的构成具有其他语言所不具备的特色: 一个藏语语句是由实词经过虚词的再编码从而有规则地进入句法结构而形成的语义块序列[5]。按照这一思想,藏语语句的构成过程可以大致描述如下: 首先由实词和结构助词形成语义比较集中的语义块,再由虚词将这些语义块按照一定的顺序构成语义块序列。因此,虚词是藏语语句结构的有机组成部分,并且在藏文句子中藏语虚词的出现频率又很高,所以,虚词对藏语句子的研究很重要。

藏语虚词的研究,历来受到语言学研究者的重视。但是,这些研究的目的主要是帮助人们更好地理解藏语,面向的是人而不是计算机。因此,这些语法书籍常常以将虚词的用法分门别类举例说明的方式编排,对于采用计算机的藏语语言处理来说,必须首先将这些语言学知识进行形式化的处理,才能应用于计算机自动句法分析。

2.2 藏语虚词的使用方法

顾名思义,自由虚词的使用就不受前后字符的添接限制。理论上,在使用自由虚词时,可选择与格相符的任何一个自由虚词都可以,但实际使用时,也受语言习惯等限制。有些格的虚词中自由与不自由兼而有之,例如,作格、位格、饰集词等。使用时按照该虚词本身是自由还是不自由来确定该虚词的使用情况。

2.3 计算机识别藏语虚词的难点分析

藏文虚词有兼类性、组合性、黏着变体性、结合性等特点,这些特点加大了计算机识别藏语虚词的难度。

1. 虚词的兼类性。有些虚词与实词兼类,它既是虚词又是实词。例如,(虚词后面括号中的中文就是该虚词作为实词时的意义)(队)、(病)、(坡)、(山羊)、(青稞)、(宿命)、(懂)、(脸)、(母)、(吻)、(尸体)、(年)、(齿)、(天)、(人)等; 部分虚词与虚词也兼类,例如,等。甚至有些虚词兼多种类,例如:是实词“烟”,又是位格的虚词,还兼疑问代词“多少”。藏语虚词的兼类性增加了计算机识别虚词的难度。

3 藏文虚词的识别方法

懂藏文的人在阅读一句话时,主要通过语义来确定虚词的,但计算机不能像人一样从语义来判断,要理解语义的前提还是先分词。藏文分词算法基本上采用“规则+特征”的方法,首先通过虚词把句子划分成“块”,再对“块”用“最大匹配”算法来切分成词[8],计算机识别藏文虚词非常重要,按照藏文虚词的使用方法和计算机识别藏文虚词的难点分析,制定了首先排除虚词的兼类性、再利用不自由虚词的接续规则来判断虚词、再识别和还原黏着虚词、最后结合中嵌否定词和指人后缀的方法来识别藏文虚词。藏文文本中识别虚词和文本划“块”的过程如图1所示。

图1 藏文文本中识别虚词和文本划“块”的过程

3.1 兼类虚词的排除

3.2 利用不自由虚词的接续规则判断虚词

不自由虚词的使用受到前后字符的限制,充分利用该特点建立一个虚词词典,格式如: {虚词前导字符后接字符}。在藏文连续文本中找到这类虚词时,利用其“前导字符”和“后接字符”,即不自由虚词的接续规则来识别这类虚词。

3.3 黏着虚词的识别还原法

按照藏语虚词的黏着变体性特点,分了三种情况来识别虚词的黏着性。

if(“整块与词典匹配”成功)

该“块”就是一个词;

else{

if( “块”与词典匹配成功)

else{

if(“新块”与词典匹配成功)

分离黏着虚词;

还原“被黏着”对象;

还原黏着虚词;

else

“块”中去掉最后一个藏文音节;

}

else

“块”中去掉最后一个藏文音节;

}

}

“块”中被划出了词和虚词以后,剩下的部分又组成新的块,调用同样的算法来进一步划分词和识别虚词。

3.4 结合中嵌后缀虚词

4 结果分析

综合考虑文献的年代、类别、体裁、地域、风格等,从经典作品中选择了2 525句。根据以上提到的“藏语虚词的识别方法”,设计出了相应的藏文虚词的识别程序,识别藏文虚词的同时进行了藏文分词。对结果进行分析,2 525句藏文句子中有45 685个藏文音节,其中包括10 126个藏文虚词,程序正确识别了9 830个藏文虚词,正确率高达97.076 8%,但同时也存在以下缺陷。

4.1 词典不完善导致的错误

4.2 仅基于规则导致的错误

4.3 规则的缺陷导致的错误

5 结语

藏文虚词在藏文自然语言处理研究中占有很重要的地位,文本详细分析了藏文虚词的兼类性、组合性、黏着变体性和结合型等现象,提出了首先排除虚词的兼类性、其次利用不自由虚词的接续规则来判断虚词、再识别和还原黏着虚词、最后结合中嵌否定词和指人后缀来识别藏文虚词的方法。利用该方法识别藏文虚词的正确率达97.076 8%。

文本还对结果的错误类型进行了分析,指出了其错误主要由词典的不完善和规则的缺陷导致,以后还需要在大量真实的藏文文本中不断测试、不断补充词典和完善规则。同时引入统计模型来尝试是否对识别藏文虚词有利。

[1] 孙茂松,陈群秀.中国计算语言学研究前沿进展(2007—2009)[M].清华大学出版社,2009.

[2] 吉太加.现在藏文语法通论[M].甘肃民族出版社.2000.

[3] Daniel Jurafsky,James H.Martin著,冯志伟、孙乐翻译.自然语言处理综论[M].电子工业出版社,2005.

[4] 色多五世罗桑崔臣嘉措.藏文文法根本颂色多氏大疏[M],民族出版社,2007.

[5] 江荻. 现代藏语动词的句法语义分类及相关语法句式[J].中文信息学报.2006(1):37-43.

[6] 格桑居冕,格桑央京.实用藏文文法教程[M].四川出版集团,四川民族出版社.2008.

[7] 扎西加,珠杰.面向信息处理的藏文分词规范研究[J].中文信息学报,2009,23(4):113-117.

[8] 陈玉忠,李保利,俞士汶,等.藏文自动分词系统的设计与实现[J].中文信息学报,2003,17(3):15-20.

[9] 才智杰藏文自动分词系统中紧缩词的识别[J].中文信息学报,2009,23(1):35-37.

[10] 刘汇丹,诺明花,赵维纳,等.SegT: 一个实用的藏文分词系统[J].中文信息学报,2003,26(1):97-103.

[11] 宗成庆.统计自然语言处理[M].清华大学出版社,2008.

猜你喜欢

藏语藏文实词
浅谈藏语中的礼仪语
藏语传统辞书词目编排法探析
敦煌本藏文算书九九表再探
悬置、隐藏与冒犯:松太加“藏语电影”中的“作者”话语变奏
基于大数据分析的初中文言常用实词确定的研究
——以部编版教材为例
西藏大批珍贵藏文古籍实现“云阅读”
文言文实词词义推断的基本策略
黑水城和额济纳出土藏文文献简介
文言实词50例
文言实词推断法