APP下载

藏语判断、存在动词识别策略

2013-10-15龙从军

中文信息学报 2013年4期
关键词:特征词藏语组块

李 琳,龙从军

(1.中国社会科学院 民族学与人类学研究所,北京100081;2.中国社会科学院研究生院,北京102488;3.中央民族大学 民族语言监测分中心,北京100081)

1 引言

判断动词和存在动词在藏语中使用广泛且用法多样。它们不但可以作判断句、存在句的谓语;还可以构成描写句谓语;也可以作为语法标记附加于其他动作动词之后,共同构成句子的谓语组块,表达句子的体貌、示证范畴;此外还可以通过添加名词化标记构成非谓语组块。判断动词和存在动词的歧义性给藏文文本标注和藏语句型识别等藏语信息处理研究带来了困难。

为了识别判断、存在动词在不同语境的不同含义,本文借助藏语语法规则以及藏语信息处理的相关技术,提出了一个自动判别方法。首先,对判断动词和存在动词在文本中出现的语言环境进行形式化表述;然后,提取他们的上下文特征词;最后,利用特征词从肯定与否定两个方面判别其词性并标注。对于不能以上下文特征词判定的现象我们借助动词词表辅助识别,从而减少由于未登录词或者词类兼类造成的不能识别或者误识别的情况。从实验结果来看,本文的方法可以有效判定判断、存在动词词性。

2 含判断、存在动词句子识别

藏语是SOV型语言,动词都位于句尾,名词放在动词前面[1]。在书面藏语文本中,判断、存在动词后面还可以附加一些连词,或者句子的结束标志:单垂线、双垂线或者四垂线。但是当判断、存在动词出现在嵌套句的小句或者作为句群中的分句时,情况会稍微复杂一些。识别出包含判断、存在动词句子,是识别其含义的先决条件。因此,本文首先要解决提取含有判断、存在动词句子的问题。

我们认为,判断、存在动词右侧的语言特征有助于识别出这类句子。通过研究我们总结出判断、存在动词右侧的语言环境可分为[2]:1)直接煞尾的;2)带有语气标记的;3)带有连词标记的;4)带有名物化标记;5)带有名词化和连词标记的这五种情况。值得提出的是,藏语中名词化标记可以加在整个短语、句子上,从而使整个短语和句子名词化。同时,当一个句子从句法结构上看已经完结,但是上下文句意还没有表达完结、需要补充说明时,也使用名词化标记。判断、存在动词的右侧特征可总结为规则集1,如下:

(1)名词性短语(NP)+判断、存在动词+句子结束符号。例如,

先前,亚东国王有一个聪明而又关心百姓,名叫尼措桑布的仆人。

(2)NP+判断、存在动词+分句连词+垂符。例如,

这座宫殿有13层,高度有117米左右。

(3)NP+判断、存在动词+示证标记+垂符。例如,

(亲眼看见)从楼上窗子里掉下一块玉石。

(4)判断、存在动词+名词化标记+分句连词+垂符。例如,

湖周围的山绵延大约有250公里。

(5)判断、存在动词+语气词+垂符。例如,

这是扎西的寝室吗?

利用规则集1,我们从《学说藏语300句》[3]774个句子中识别带有这两类词的句子。我们抽取出带有判断动词(yin\min\red)的句子分别有52、1、117句,带有存在动词(yod\med\vdug\yod red)的句子分别有76、13、54、24句。全部语料中判断、存在动词及同形形式共有337句,占测试语料的44%。这一结果也说明在藏语中判断、存在动词使用非常广泛。

3 判断、存在动词特征词及规则集

由判断动词和存在动词构成的谓语组块结构相对简单[4-5]。判断、存在动词前面有极少的副词对其修饰,后面也很少有体貌、示证成分(除外),但可能附加一些语气词[6]。

我们认为,要对判断、存在动词在不同语境下的词性做出准确的判定,其左边的语言要素非常重要。即可以根据判断、存在动词左边的一些特殊的词、短语作为识别特征直接判断出该词词性。

当判断、存在动词作谓语动词时,其左边为名词性成分。因此本文利用某些封闭的、能够预测其左边为名词性成分的特征词,如数词指示代词等来识别是否是判断、存在动词,并把这些特征词总结为规则集2:

(4)格标记。

4 非判断、存在动词特征词及规则集

判断、存在动词的用法多样,除了作判断、存在句的谓语动词外,还具有其他更加复杂的用法[7]。用法可分为以下两类:一是作为动作动词的体貌、示证标记;二是作为描写句的谓语动词,与形容词一起构成句子的谓语组块[8]。

藏语(口语)中单独以动词结尾的句子不多,在谓语动词后总是带有一些其他成分(泛称语尾)。谓语动词组块可扩展为形式(1)[4]:

{(状语)+动词+(动态补语)(+助动词[情态和趋向])(+体貌—示证标记)(+语气词)}

4.1 作体貌、示证标记时谓语组块结构

当判断、存在动词作体貌、示证标记时,根据扩展形式(1)句子的谓语组块结构可归纳为以下几类。

(1)(副词)+动词+体貌标记。例如,

同学们一起读着书。

(2)(副词)+动词+助动词+体貌标记。例如,

他说:不要磕头,我们大家是平等的。

(3)(副词)动词+趋向动词+体貌标记。例如,

他们到南方温暖的地方去过冬了,明年的春天回来。

(4)(副词)动词+趋向动词+助动词+体貌标记

我想回来了。

4.2 描写句谓语组块结构

(1)(副词)形容词(副词)+ 判断、存在动词

质量非常好。

(2)(形容词性)疑问代词+判断、存在动词

你看味道怎么样。

(3)(副词)形容词/副词+判断、存在动词+语气词

你身体好吗?

4.3 规则集3

通过以上对句子谓语组块的分析,我们发现当左特征词符合以下规则集3时,可以判定在该语境下,该词不是判断、存在句的谓语动词。

由于一些标记本身也存在同形歧义情况,因此可以用来否定判断、存在动词作谓语的特征词比较少。尤其是否定判断动词作谓语更难,比如+判断动词,+判断动词,如果不考虑前面的词性,无从判定是判断动词还是体标记。

(3)助动词,趋向动词。

区分描写句的特征词主要是描写性形容词和一些修饰形容词的副词。(ha cang)和(zhe drags)通常用来修饰形容词,而不常修饰动词。

5 识别过程

我们把谓语组块作为识别的主要特征。首先,找出句子结尾符合判断、存在动词加右特征词各形式的句子。然后,利用本文第3节和第4节提出的规则集对左特征词进行分析,从而判别出该语境下该词的词性。识别过程见图1。

首先,利用规则集1提取出谓语组块包含判断、存在动词的句子。然后,查询左特征词是否符合规则集2。如果是,则该判断、存在动词的词性为动词;如果否,进行下一步判断。第三步,判断左特征词是否符合规则集3。如果是,该词是体貌示证标记或描写句谓语;否则进行下一步判断。第四步,利用助动词和动词词典判断左特征词。如果是,则可标记该词为体貌示证标记或描写句谓语;否则该词为判断、存在句谓语动词。

6 实验及分析

图1 判断、存在动词识别流程图

本文首先通过人工筛选,从774个句子中筛选出带有判断、存在动词的句子,然后对这些句子分类,结果为:存在句26句,描写句50句,判断句92句,其他动词句161句。以规则为主的过滤法识别情况是,利用规则集2中的各类特征词共正确识别出82个判断、存在动词。其中,以数词作为特征正确识别16个;以格标记作为特征正确识别11个;以代词作为特征正确识别出52个;以敬语标识为特征识别出3个。利用规则集3,排除带有判断、存在动词及同形词的句子136句。其中利用助动词、趋向动词为特征词,可以正确辨识出60个和4个句子中判断、存在动词同形词为体貌—示证标记。利用常见的形容词作为特征词,可以正确识别为描写句动词的有45个。最后,利用动词词典,正确辨识了70个句子中的判断、存在动词作体貌—示证标记。采用本文的方法,对判断、存在动词及同形形式的337个句子进行识别,正确识别319个,正确率达到94.66%。

从上述测试结果可见,利用规则方法层层过滤识别判断、存在动词效果明显,正确率较高。把依靠动词词表放到最后一个步骤,大大减少了因兼类而误识别或者未登录词条无法识别的情况。利用动词词表的结果也表明了这一点。利用动词词表识别时,10个识别错误中的9个是由于未登录词造成的。例如,

我刚购进了一点冬虫夏草。

本文所利用的规则集非常小,仅仅几十个特征词,但是识别效果还是不错的。下一步需要分析识别错误,进一步扩大特征词和测试语料。但是语言本身有它的复杂性,就存在动词而言(vdug)\(yod)本身又可以作为动作动词用。例如,

这个小洞在他的眼睛正上方带给他便利,因此向上看时,有一只老鼠呆在那里。

米拉多杰僧格爱好赌博,而且很精通,经常获胜。

因此对于这些特殊的现象,还需要进一步研究,调整识别策略,提取有效的特征词,同时也可以采用统计方法对过滤

后不能用规则识别的现象进行处理。

7 结束语

本文针对现代藏语判断、存在动词进行识别研究。通过考察含有判断、存在动词句子的句子结构,我们建立了判别规则集。首先,从句子结尾逆向找出符合判断、存在动词加右特征词各形式的句子。然后,利用本文提出的判断规则集对左特征词进行分析,从而辨别出该语境下该判断或存在动词的词性。

[1]胡坦.藏语存在句[C]//藏语研究文论.北京:中国藏学出版社,2002:474-504.

[2]赵维纳.藏语句子边界识别研究[D].北京:北京语言大学,2010.

[3]江嘎,等.学说藏语300句[M].北京:民族出版社,2006:1-313.

[4]江荻.面向机器处理的现代藏语句法规则和词类、组块标注集[C]//江荻,孔江平.中国民族语言工程研究新进展.北京:社会科学文献出版社,2005:10-93.

[5]江荻.现代谓语动词的识别与信息提取[C]//第20届东方语言计算机处理国际会议论文.沈阳:清华大学出版社,2003:125-137.

[6]周继文,谢后芳.藏语拉萨话语法[M].北京:民族出版社,2003:42-43.

[7]胡坦,索南卓嘎,罗秉芬.拉萨口语读本[M].北京:民族出版社,1986:25-70.

[8]江荻.藏语拉萨话的体貌、示证及自我中心范畴[J].语言科学,2005,4(1):70-88.

[9]胡坦.拉萨藏语中的“是”字句[C]//胡坦.藏语研究文论.北京:中国藏学出版社,2002:454-473.

猜你喜欢

特征词藏语组块
浅谈藏语中的礼仪语
基于类信息的TF-IDF权重分析与改进①
藏语传统辞书词目编排法探析
当代女性藏语长篇小说《花与梦》中女性成长主题研究
悬置、隐藏与冒犯:松太加“藏语电影”中的“作者”话语变奏
组块理论的解读及启示
融入注意力机制的越南语组块识别方法
基于改进TFIDF算法的邮件分类技术
双船浮托法整体拆除岐口18-2平台组块技术研究
OPEN:一个基于评论的商品特征抽取及情感分析框架