APP下载

基于依存语法的蒙古语语义角色分类及其标记研究

2013-10-15包晓荣华沙宝达胡白乙拉

中文信息学报 2013年4期
关键词:论元内蒙古大学蒙古语

包晓荣,华沙宝,达胡白乙拉

(内蒙古大学 蒙古学学院,内蒙古 呼和浩特010021)

1 引言

从语言信息处理整体的视角来看,语义角色标注是对自然语言理解的一个有益的探索。在自然语言理解系统中,不但要识别文本中的实体,而且还需要做语义分析。语义分析是自然语言理解的根本性问题,也是自然语言处理的难点和热点问题。语义分析包括浅层语义分析和深层语义分析。

语义角色标注是浅层语义分析的一种简化形式的实现方式,具有定义清晰、评测容易等特点,它是目前的研究热点。语义角色标注综合利用了分词、词性标注等底层的语言信息,以及高层的句法分析,命名实体识别等信息,人们从这些信息中可以挖掘各种特征,再利用各种机器学习算法,做到自动的语义角色标注,因此,它会促进机器学习研究的发展。在浅层语义分析的基础上,进行深层的语义分析将成为未来研究的重点。

蒙古文信息处理研究工作从20世纪80年代着手建立语料库开始,基本完成了字处理、词处理阶段的工作,现在全面开展句子处理阶段的工作。语义分析是句子处理阶段的重要任务之一。

从蒙古语信息处理的实际需求出发,为蒙古语信息处理研究提供一个系统化、形式化的蒙古语语义标注体系和一个规模相当的语义角色标注语料资源是蒙古语信息处理基础研究和应用研究的基础之一。建立蒙古语语义角色标注体系和蒙古语语义角色标注语料资源是蒙古文信息处理事业走向自然语言理解最终目标的必经之路,无论从理论意义还是从应用需求来讲,它的研究价值都非常重要。

蒙古语浅层语义分析,是一项开拓性的研究工作。本工作不会仅仅停留在基础理论和方法论的抽象层面上,而由它产生的标注语料资源和语义角色特征描述,将对多义词的语义识别、确定短语结构关系、指定词语语义搭配提供有效的可操作信息,对开发研制蒙古语信息检索、指代消解、机器翻译中的蒙古语语句自动分析和自动生成等应用系统都有直接的应用价值。

2 语义角色分类及标记相关研究

2.1 其他语言语义角色分类及标记

要进行语义角色标注,相应的标注体系是必需的。在国内外众多相关研究项目中,都分别制定了相应语言的语义角色标注体系。但是,由于各种语言的情况不同,各个标注系统的出发点和着眼点不同,各个语义角色标注系统所制定的标注体系也可以互不相同。下面比较Prop Bank和北京大学中文网库的语义角色分类和标记。

Prop Bank的语义角色是编了号的原型角色,是中观层次上基于特定动词的角色。Prop Bank包括论元角色标注集和标注语料库。在Prop Bank中出现的语义角色分为核心论元和非核心论元两大类。核心论元可分施事、受事、与事等多种论元,非核心论元又可以按照功能分出小类。具体来看,主要有:ARG0,ARG1,ARG2,ARG3,ARG4,ARG5,ARGM-ASP,ARGM-BNF,ARGM-CND,ARGMCRD,ARGM-DGR,ARGM-DIR,ARGM-DIS,ARGMEXT,ARGM-FRQ,ARGM-LOC,ARGM-MNR,ARGM-PRD,ARGM-PRP,ARGM-TMP,ARGMTPC,ARGM-ADV,TBERR 等23个小类。其中ARG0-ARG5是核心论元,其他都属于非核心论元[1]。

北京大学中文网库是汉语的真实文本上进行多层次的语义关系标注的语料库[2]。中文网库的语义角色是属于所谓中观层级的语义角色。北京大学中文网库的语义角色分为必有论元和非必有论元两大类。必有论元再分A.主体论元:(1)施事A(2)感事Se(3)经事Ex(4)致事Cau(5)主事Th;B.客体论元:(1)受事P(2)与事D(3)结果R(4)对象Ta(5)系事Re。非必有论元再分为 A.凭借论元:(1)工具I(2)材料 Ma(3)方式 M (4)原因 Rn(5)目的Ai。B.环境论元:(1)时间T(2)处所L(3)源点So(4)终点Go(5)路径Pa(6)范围Ra(7)量幅EXT 等22个小类[3]。

语言都有共性,所以其他语言的语义角色分类对我们制定基于依存于法的蒙古语语义角色分类有很大的参考价值。

2.2 蒙古语语义角色分类及标记

蒙古语在传统研究和信息处理研究中,也注意到了语义角色研究的必要性。蒙古语语义角色分类及标记方面的研究有:

蒙古语传统研究进行句子研究和语义研究当中注意到了语义角色研究的重要性。具有代表性的有,宝·哈斯巴根[4]提出的施事、当事等10个类的分类,德力格尔玛[5]提出的施事、受事等10个分类,特图克[6]提出的主体、受体等6大类42个小类的分类,其木格[7]提出的主题格、客体格、领体格、工具格等8大类14个小类。

蒙古文信息处理工作进行句子分析和语义分析的时候注意到语义角色标注的重要性。从蒙古语信息处理角度:额尔敦朝鲁[8]根据内蒙古大学编撰的《蒙汉词典》,《蒙古语语法信息词典》以及100万词级现代蒙古语语料库,对蒙古语动词做了语义分类,划分为5个大类121个小类。其中,根据动词的不同特点,有些类细划分为2层,有些划分为3层,还有划分为4层的。海银花[9]根据《蒙古语语法信息词典》的名词分库,对14 105条名词做了语义分类,大体上分7个大类,根据不同情况再细分,细分层次最多有8层。德·萨日娜[10]根据对初中语文第一册的分析,提出了一套蒙古语语义角色分类,第一层分4个大类,第二层分28个小类,第三层再分39个细分类。富涛[11]从26万词规模的语料库抽取2 602个例句,经过实例分析,提出了一套针对蒙古语简单谓动句的语义角色分类,大体上分3个层次,只是对第三层次的用具类和位置类进一步做了3个细分类和4个细分类。

蒙古语语义角色分类和标记研究在传统语言学和信息处理研究方面进行过,还取得一定的成果。但是,这些研究成果还存在一些问题。因为,有的分类只是针对词的语义特征的而不是对句子语义单位之间的语义关系的;有的虽然是针对语义角色的,但依据的语料有一定的局限性或者针对的题材单一;语义角色的名称和种类不统一,命名过于随意;划分颗粒度过分粗或者过分细,没有经过语义角色标注实际操作检验。关于蒙古语语义角色的研究成果是我们制定基于依存语法的语义角色分类的着重参考点。

3 基于依存语法的蒙古语语义角色分类及标记

3.1 蒙古语依存句法分析树库

内蒙古大学在国家自然科学基金资助下构建了50万词级的蒙古语依存句法分析树库。为建立该树库,借鉴了其他语言依存树库的成功经验,并针对蒙古语自身特点,把蒙古语语义关系分为4大类,设立了包含17种依存关系的蒙古语依存关系标记集,用有向弧表示从属词和支配词之间的依存关系,对句子的核心词以及上述17种语义关系的标注和插入句的处理都给出了详细的标注规范,用了括弧形式和树形形式两种标注形式[12]。

蒙古语依存关系标记集的规模和所包含的依存类型是合理的,它覆盖了蒙古语所有的依存现象,并且用该标记集标注的蒙古语依存句法分析树库包含了丰富的句法结构信息。总的来说,蒙古语依存句法分析树库的建立,对制定蒙古语语义角色标注体系和标注规范提供了重要参考依据,对建立蒙古语语义角色标注语料资源提供了可操作的基础条件。

基于依存语法的语义角色标注方法是通过挖掘句子中单词或短语之间存在的依存关系得出句子中成分的角色。蒙古语语义角色分类基于依存句法树的话,不但可以利用单词之间的依存特征,而且也可以预测与目标谓词有依存关系的短语为某种语义角色。我们对一定数量的标注依存关系的蒙古语语料进行基于依存语法的蒙古语语义角色手工标注,分析了依存关系和语义角色的对应关系。例如,依存关系“SUBJ”对应“施事”、“当事”、“存在”、“主题”等语义角色,有些被动句中对应“使动”的语义角色。

3.2 基于依存语法的蒙古语语义角色分类及标记

基于依存语法的蒙古语语义角色标注研究中直接引用上述有关蒙古语语义的分类和标记仍然存在一定的问题。

目前,我们对蒙古语依存句法分析树库的5 000个句子进行语义角色手工标注实验,考虑基于依存语法语义角色的手工标注和自动标注,初步制定了包括主体、客体、领体、修饰4大类,施事、当事等24个细分类的语义角色分类及标记。具体分类及其标记如表1所示。

表1 蒙古语语义角色分类及其标记

其中,标记代码采用了语义角色蒙古语名称的前三个字母,发生重复时从后续字母中选择一个合适的字母,调整了代码标记的第三个位置。

经过一定数量的蒙古语真实语料的验证,基于依存语法的蒙古语语义角色分类基本覆盖蒙古语语义角色现象。这表明基于依存语法的蒙古语语义角色分类是合理的,科学的。

标注依存关系的蒙古语语料库是进行语义角色标注研究的语料资源,蒙古语依存句法分析树库有树形形式和文本形式,同样基于依存语法的蒙古语语义角色标注也有树形形式和文本形式。标记依存关系的蒙古语句子语料上进行语义角色手工标注的句子实例如下。

文本形式:

注:括弧内是蒙古语拉丁转写和汉语翻译。

单词后面第一个括弧内的标记表示依存关系,第二个括弧内的标记表示语义角色。树形形式:注:大写标记表示依存关系,小写标记表示语义角色。

图1 蒙古语语义角色标注实例

总括,本文从蒙古文信息处理的角度出发,对基于依存语法的5 000个蒙古语句子进行语义角色手工标注,制定了蒙古语语义角色分类和标注体系。我们将以手工标注语料为基础,通过机器学习的方法,研制一个蒙古语语义角色自动标注系统,建立蒙古语语义角色标注的语料资源。

[1]Dowty D.Thematic Proto-Role and Argnment Selection[J].Lauguage,1991,(3):547-561.

[2]杨敏;常宝宝.基于北京大学中文网库的语义角色分类[J].中文信息学报,2011,25(2):3-8.

[3]袁毓林.语义角色的精细等级及其在信息处理中的应用[J].中文信息学报,2007,21(4):10-20.

[4]宝哈斯巴根.现代蒙古语动词研究[M].北京:民族出版社,1995.

[5]德力格尔玛.蒙古语语义研究[M].沈阳:辽宁民族出版社,2001.

[6]特图克.蒙古语句子语义学结构[J].中国蒙古学,2008,1:1-7.

[7]其木格.蒙汉语常用语义格对比研究[D].中央民族大学:中央民族大学硕士学位论文,2008.

[8]额尔敦朝鲁.面向信息处理的蒙古语动词语义研究[D].内蒙古大学:内蒙古大学博士学位论文,2005.

[9]海银华.面向信息处理的蒙古语名词语义研究[D].内蒙古大学:内蒙古大学博士学位论文,2010.

[10]萨日娜.蒙古语格框架的研究[D].内蒙古大学:内蒙古大学博士学位论文,2006.

[10]王步康,王红玲,袁晓虹,等.基于依存句法分析的语义角色标注[J].中文信息学报,2010,24(1):25-29.

[11]富涛.面向信息处理的蒙古语简单句谓动句句模研究[D].内蒙古大学:内蒙古大学博士学位论文,2011.

[12]冯文贺;姬东鸿.命题库:分析与展望[J].外语电化教学,2010,6:25-32.

[13]斯·劳格劳.现代蒙古与依存句法自动分析研究[D].内蒙古大学博士学位论文,2011.

猜你喜欢

论元内蒙古大学蒙古语
基于端到端的蒙古语异形同音词声学建模方法
《闲隙》
靳双双、赵娇作品
内蒙古大学文学与新闻传播学院
——高建新教授
提高翻译水平对年轻一代蒙古语广播工作者的重要性
“守望相助在美好家园”全区蒙古语原创歌曲演唱会精彩上演
首届蒙古语RAP专场演唱会——“无线内蒙古MONGOL RAP之夜”
施旖旎作品
基于依存树距离识别论元的语义角色标注系统