APP下载

藏语短语结构标注树库构建方法研究

2023-05-05仁青卓么张丹完么措

电子技术与软件工程 2023年2期
关键词:藏语句法短语

仁青卓么 张丹 完么措

(1.青海师范大学计算机学院 青海省西宁市 810001)

(2.西北民族大学中国语言文学学部 甘肃省兰州市 730000)

在任何一种语言中,短语结构的分析与描述是进行句法研究的核心内容。如果我们把各类词组的结构和功能都足够详细地描述清楚了,那么句子的结构实际上也就描述清楚了,因为句子不过是独立的词组而已[1]。短语是最重要的语法单位,在语言分析中起着举足轻重的作用,其构造原则同句子的构造原则基本一致,内部结构也比较稳定,往往作为一个整体与句子中的其他成分发生作用。在自然语言处理中,短语作为语言分析的一个层次,占有十分重要的位置。有效的短语分析对降低其后句法分析难度,缩小句法分析器的搜索空间,提高机器翻译的翻译正确率是很有帮助的[2]。

藏语短语结构标注树库是依据句子的核心成分(即谓语),通过分析句子中各个语言单位之间的句法功能和语义关系,从大到小,从长到短的依次分析构成句子的各类短语结构,直至词层面为止,而这样产生的短语结构规则库在处理涉及短语和句子的各类语言现象时能够作为一定的依据和标准,对短语结构进行深入分析,从而进一步加强对句法结构的分析和研究。同时,在语言运用中能够有效提高短语和句子结构的识别和处理能力。而构建语言分析模型可以自动识别各类短语结构,实现短语的自动划分与标注,还可以进一步对藏语短语进行深层次的分析,为藏汉机器翻译系统的设计与实现提供规则库的支持。

在进行语料的加工和处理时,词和短语等的自动划分和标注研究显得至关重要。藏语短语划分和标注的理论,以及有关技术的研究和实现等不仅可以为构建大规模的,其他各种类型的藏语语料库提供理论和方法支持,也能应用到各类藏语语料库的深入分析和研究当中。

1 树库概述

树库是指对自然语言进行句法或语义标注后,以树形结构存储的一种语言资源[3]。构建树库的过程实际上就是分析句子生成的过程,可以对不同层次的,构成句子的每一个成分进行特征与组合规则的详细描述。短语结构树库是依据句子的核心成分(即谓语),从大到小,从长到短的依次分析构成句子的各类短语,直至词层面为止,从而分析句子的构成过程,标注其句法结构或语义关系。树库的构建工作在任何一个语言当中都显得至关重要,尤其在自然语言处理领域,树库是很重要的语言知识资源,能够为语言研究和语言信息处理提供很好的数据平台。目前,世界上成规模的树库主要有短语结构树库和依存结构树库两种类型。在中文领域,成规模的中文树库主要有宾州中文树库、Sinica 中文树库、清华中文树库、国家语委中文树库、北大中文树库、哈工大中文依存树库及北师大句本位句式结构树库[4]。

国外关于句法分析的研究是从20 纪50年代开始的。国外在树库构建方面取得了较好的成效,其中从规模和质量上在看,英语树库的构建工作相对成熟,其中比较大的树库有英国Lancaster 大学UCREL 的Lancaster 树库和美国的Pennsyvania 大学的Penn 树库,前者的标记体系规模较大,从不同层面描述了详细的短语句法信息,而后者的标记则较为简单,只有14 个句法标记。以下是对各类语言的树库构建情况所做的概况,如表1所示。

表1:各类语言的树库构建情况

虽然全部机器学习技术都可以被认为是基于过去的观测学习如何做出预测,但是深度学习方法不仅学习预测,而且学习正确地表示数据,以使其更有助于预测[5]。近年来,越来越多的研究人员在藏语短语和句子的层次分析方面进行了大量探索和深入研究,积累了许多有价值和可供参考的研究成果,可运用到短语结构树库的标注过程当中,为树库的构建工作提供有力的支持。

2 藏语短语结构标注树库的构建

在藏文传统文法中,有关短语的论述并不多,然而这并不表示在藏文文法体系完善,欠缺有关内容,而是没有在语言运用层面进行相应的分析研究。在藏文传统文法中,对藏语短语的名称和概念,以及分类等都没有形成一个统一的标准。关于短语的名称,藏族学者的看法有所不一,分别有“མིང་ཚིག ཚིག་དུམ། མིང་གི་ཚོགས་པ།”三种,其中以“མིང་གི་ཚོགས་པ།”居多;关于短语的定义,分别在五个藏文语法书中有所界定,基本都是根据短语的形式和功能进行的定义。根据本人之前做过的一些研究工作和进行的总结,藏语短语的概念可定义为:相关联的两个或两个以上的词用格助词进行连接,能区别意义的,充当句子成分的语言单位。这是依据短语在句子中的位置和功能进行的概念界定。而对短语的分类大多是依据藏语的四大根本词类进行相应的四类短语的划分,即动词短语,名词短语,数量词短语和形容词短语。

近年来,从信息处理的角度藏语短语进行研究的论文层出不穷。其中,《面向语言信息处理的藏语短语及其分类方法研究》[6-9]等文章中,主要研究藏语短语的结构和规则,分布特征,分类信息等内容;《基于短语的藏英统计机器翻译关键技术研究》[10-12]等文章中,通过对藏汉,藏英机器翻译系统工作原理的研究,提出了构建基于短语的统计机器翻译模型,尝试提高藏英或藏汉机器翻译的性能;《基于句法树的藏语最长名词短语识别》[13-15]等文章中,通过分析的藏语短语的统计特征,提出了识别和抽取有关藏语短语结构的算法和模型等。藏语树库的构建工作也相继起步,有关研究成果有扎西加,多拉的《藏语依存树库构建的理论与方法探析》[16]等,这些论文结合藏语自身的语法特点,在论文中提到了相关树库构建的理论和方法,树库的构建模式和构建技术,并通过树库的构建,制定出了相应的标记和规范,设计实现了标注工具,对相关树库进行了较为详尽的分析研究。

2.1 基于深度学习的藏语短语结构标注树库的构建

语料库是对语言知识的表示,而树库是对语料进行过深加工之后形成的资源库,既可作为对语言学和自然语言进行深入分析研究的重要依据,也是语料库语言学和自然语言处理技术发展到一定阶段的产物。标注树库是一项费时费力的工作,需要完善的标注体系和规范的标注流程以保证标注的质量。另一方面,由于标注规范的复杂性,需要标注者拥有相关的专业背景。即使这样,标注者对句子的不同理解也会产生不同的标注结果,这为树库的建设带来了一定的困难[17]。藏语是谓语后置性语言,加之藏语虚词,即自由虚词和不自由虚词在句子中的功能非常强大,起着连接句子前后的纽带作用,因此,在进行藏语短语标注树库的建设时,在借鉴其他语言树库构建的理论和方法外,还要根据藏语自身的特点,进行细致入微的分析。

树结构这种层次标注方法可以很详细的描述出句法信息等,但是必须遵循一定的语法规则。树库的构建都是在特定的语法理论的框架下制定标注规范的,不同结构类型的树库之间最本质的区别不在于采用了何种标注体系,而在于依照何种语法体系制定的该标注体系。从这个角度上讲,短语结构树库最本质的特征在于其标注体系的制定是站在“短语”的角度,采用了“短语中心”的语法理论,这种语法理论是通过直接描写句子“直接成分”(如主谓、定中、述宾、附加等)的方式分析句子的结构,进而制定标注体系[18]。因此,在进行短语结构的标注实践时,需要以完整的层次结构树为基础,通过对10000 个藏语句子进行标注,首先完成对各种复杂的语言现象的分析和标记,进而对结构树上的每个短语结构节点进行标记,即结构标记和关系标记 ,形成双标记集的句法信息描述体系,进而制定藏语短语结构树库的标注体系。树库的标注工作是在对藏语短语结构的句法语义进行深入研究的基础上,通过对句子层次结构的标注实践过程,形成一个计算机可分析和理解的藏语短语结构规则库。

2.1.1 通过标记的形式进行语料中短语边界的确定检测

首先选取各类藏语句子进行短语结构的标注,目的在于建立一个较为完整的藏语短语结构树库。因为句子的长短不一,为了节省空间,便于标注,对短语结构的划分主要采用括号(bracket)标注的方式,将句子中由两个或以上词类形成的短语左右添加括号,形成相应的括号对后标记相应的短语结构类型的标记,依靠语言知识进行校对。而从短语结构标注语料中提取各类短语结构时,采用统计和规则相结合的方法,从各类短语的结构出发,以构成各类短语的核心成分作为标志,获得短语结构的候选项,利用统计算法和短语规则库对候选项进行检测,以获得各类短语结构。

藏语短语标注和规范的制订是藏语自然语言处理的重点内容。通过句法语义分析,对各类藏语句子中的短语进行划分与标注,制定相应的工程规范是开展各项研究的基础。此项任务开展的关键是:在一个完整的句子当中,需要着重分析句子的组成成分和结构,以及组成句子的词和短语间的组合形式及搭配规则,进行对不同类型的短语的分析和同一类型下不同类型短语的形式和区分规则的归纳总结,以制定在尊重语言事实的情况下,符合藏语自身规律和全面概括藏语短语规则的短语标注体系。

2.1.2 建立藏语短语结构标注树库

如图1所示,藏语短语结构标注树库构建的基本流程为:首先,在保证藏语句子的完整性的前提下,借助表示一个藏语句子的单垂符或双垂符的标志,从大规模的藏文原始文本中抽取各类藏语句子作为处理文本;然后采用词类、短语划分与标注的国家标准对整理完成的文本进行词类和短语的划分与标注,进行人工校对。在建立短语结构树库时,采用人工标注的方式,并结合其他的一些标注工具进行5000 句的短语结构树的构建工作,进行初步测试,之后再进行剩下5000 句的短语结构树的构建工作,以便最后建立一个藏语短语结构树库的标注体系。

图1:短语结构标注树库构建基本流程图

一直以来,藏语语言学家在藏语语法研究方面进行了很深入研究,积累了很多有价值的研究经验,这些可充分吸收到藏语短语结构标注树库的构建工作当中。

藏语句法分析是藏语自然语言处理中最根本的理论基础和关键技术。句法树库是以句子的构成成分和组合规则为依据生成不同类型的短语结构树,从而揭示句子中词与词、短语与短语间的语法结构和语义关系。短语结构树可以对句子的不同层次的短语结构及其组成成分的特点进行细致入微的描述,但由于有些句子太长,层次太多,标注和分析会显得较为麻烦,而且在中心词的判定上会出现判定不准的情况。因此,在藏语短语结构标注的过程中要兼顾对句子层次和句法信息的观察,以获取任一句子完整准确的句法层次树,从而制订藏语短语结构标注规范尤为重要。

2.2 对各类藏语短语结构标注树的分析研究

对各类短语结构类型的统计和分析能够为树库的构建提供丰富的资源。藏文信息处理的研究内容包括词法分析,句法分析,语义分析和语用分析等,而在词法分析阶段已经取得了较好的成果,目前正转向句法和语义分析阶段。在运用有关短语结构的语法理论,参照汉英等其他民族语言中的短语研究和处理实践等相关研究成果的基础上,从各类藏语短语结构树中得到较为详细和全面的句法结构和语义信息的研究渐趋重要。短语的句法成分分析,指各种藏语短语在句子中充当了哪些成分;短语的语义角色分析,分析藏语短语在语言运用中扮演的角色[19]。通过句法和语义标注的短语结构规则库在处理涉及藏语短语和句子的各类语言现象时能够作为一定的依据和标准。此外,在对短语结构规则进行深入研究的基础上,进一步加强句法结构的分析和研究,能够对短语的结构规则产生更为深刻的理解,在语言运用过程中,能够有效提高短语和句子结构的识别和处理能力。通过构建树库进行句法分析等的方法不仅行之有效,在实际应用当中也取得了较好的成效。

本课题的研究将在遵循有关短语树库的构建与藏语语法理论的前提下,依托句子的环境,试图从句法和语义两个层级上分析和归纳藏语各类短语结构的组合规则,对短语进行深层分析,以解决在面向自然语言处理时遇到的有关藏语短语研究的各类问题。

对于短语结构的规则的描述,应该考虑以下因素:

(1)核心词的描述:分析短语结构中核心词的功能和语义搭配能力;

(2)外部特征和功能描述:在较长的短语或者嵌套短语中,分析其组合特征和与其他短语间的从属关系和组合规则;

(3)短语结构中的内部关系描述:分析短语结构中各组成成分间的语义关系。

句法分析和标注是对语料库进行深加工和处理的一个重要的环节。句法分析和标注的结果对进一步进行藏语句子语义关系等的分析和标注提供有力的支持。通过正确的和完整的句法信息的描述,借助一个语义知识库和自动标注工具,可以准确地标注出有关句子或短语等的语义信息。

藏语短语结构标注树库的构建需要进行短语结构的划分和标注,因此,依据相关分析理论,应用一些实体标注工具和句法分析器主要进行句法信息的描述尤为重要。句法标注(Syntax Tagging,ST)是以一定的语法理论为指导,将句法结构形式化,便于计算机处理。短语结构语法(Phrase Structure Grammar,PSG)和依存语法(Dependency Grammar,DG)是现有句法标注的两种理论[20]。从自然语言处理的角度对藏语短语进行句法功能和语义关系等的描述时,使用这两种理论体系能够详细准确的标注出藏语短语的句法和语义关系。在语料中对短语结构的标记形式如表2所示。

表2:藏语短语的标注形式

短语结构语法(Phrase Structure Grammar,PSG)和依存语法(Dependency Grammar,DG)的句法分析技术;

Chomsky 将语言分成句法,语义,语音三个部分,其中,句法部分是最为重要的,它不仅构成了句子的深层结构,也能将其转换成表层结构。语义部分对句子的深层结构进行语义结构的说明,而语音部分对表层结构做出语音说明(语言的神经机制)。Chomsky 语言学的特点是更注重于语言的结构转换规则的研究。他认为,短语规则是形成句子的一套规则。短语结构的标注是通过句子层面到词层面,句子的外部结构到内部关系,从最长短语到最短短语(准短语)进行的描述出藏语句子的句法信息,覆盖藏语词,短语,句段等各个层次的句法单元。

规则(1)S →NP VP(2)NP →NP NP(3)VP →VP NP(4)NP →NP NP(5)NP →nn gi(6)NP →nn gi(7)VP →vt VP(8)NP →nn qj(9)VP →vu gi

其短语结构树库如图2所示。

图2:藏语短语结构树示意图

图3:藏语依存关系分析图

本文通过对藏语句子进行句法结构和语义信息的标注后,提出了符合藏语规范的句法树库标注体系,对句子中各种结构进行了很好的分析与标注,并在应用阶段能够得到验证。

2.3 基于深度学习的藏语短语结构分析模型的建立

通常情况下,使用一些工具去进行数据的挖掘是需要用到不同的数据分析模型的。传统的研究方法主要是基于统计学的模型,近年来基于神经网路的语言模型也得到广泛应用,并取得了一定的成效。将深度学习的方法运用到构建藏语短语结构分析模型的工作中,需要把藏语短语句法结构标注树库作为语义知识资源,采用以句法功能为主,语义为辅的策略,先为短语中的每一个实词构造“词图”,然后合并“词图”而组成“短语图”,最后得到一个关于藏语短语结构信息和语义信息的知识图[21]。

非线性神经网络语言模型可以解决一些传统语言模型中的问题:它可以在增加上下文规模的同时参数仅呈线性增长,缓解了手工设计退避规则的需要,支持不同上下文的泛化性能。

神经网络的输入是k元文法w1:k,输出是下一个词的概率分布。k个上下文词w1:k当作一个单词窗口:每个词w和词嵌入的对应,输入向量x是k个词的串拼接。

输入的x 之后被传给一个拥有一个或多个隐层的多层感知器(MLP):

V 是一个有限的词表,包括针对未登录单词的唯一标识UNK,句子开头的补齐符号。词表的大小|V 丨在10 000 到1 000 000 词之间,常见规模大概在70 000 左右[22]。

综上所述,藏语短语结构标注树库构建技术的研究工作显得刻不容缓,是进行藏语句法分析和构建藏语短语分析模型的主要依据。“在理论语言学和计算语言学研究中,树库的重要性都日益凸显,是连接两者的桥梁:在理论语言学领域,树库为语言学家提供了基于真实语言的数据,为完善和验证传统的语言学理论奠定了坚实的基础;在计算语言学领域,依据树库建立的语言模型提高了自动句法分析和机器翻译的准确率,推进了机器理解自然语言的步伐。[23]”藏语短语结构树库的构建,可以对构成句子成分的每一个短语结构进行详细的观察,依托句子的环境定义短语的概念,划分短语的类别,进行大类之下一些小类短语的细致区分,明确句子和短语的区别,可填补有关藏语短语研究在传统文法中提及甚少,未详细定义的空白。对于短语的识别问题,采用基于深度学习的短语结构树的识别技术,不仅可以快速有效大量处理相关数据,而且还能综合提高识别性能。在自然语言处理领域中,短语的正确识别和分析对机器翻译、信息检索、文本分类以及句法分析都具有重要作用。

Chomsky 在《信息论杂志》中指出,语言理论试图解释说话人在其有限的语言经验的基础上生成和理解新的句子并拒绝其他不合语法的新序列的能力。这是研究语言学理论的实质问题。构建树库的一个重要意义在于通过生成一定的语言规则,结合一定的理论体系分析和验证各种语言现象,进而自动生成更多的合乎语法的结构。因此,通过观察各种语言现象,根据语言经验,归纳总结其中的语言规则是非常重要的。短语结构分析模型的建立是要通过统计归纳的语言规则,建立一个统计语言模型,以期能够自动生成合乎语法的新序列的能力,即从任一句子中能够自动生成各类短语结构。

3 结束语

藏语短语结构的划分与标注是构建树库,进行句法语义分析的基础,亦是进行相关任务研究必不可少的条件。本文的研究是跨藏语语法研究和藏文信息处理两个领域进行的。一方面,研究的具体结果对推进藏文信息处理技术的发展有直接的应用和参考价值;另一方面,从藏文信息处理的角度来审视藏语语法研究,可以从多方位的研究视角去观察藏语语法中的相关问题,进行详细和规范的描述,进而完善藏语语法体系。

本文研究的主要目的在于面向自然语言处理的实际需要,以形式化的方式对藏语各类短语结构规则进行较为全面的描述,预期目标是完成一个带有句法语义信息标注的藏语短语结构树库,这样的树库可以给一些应用系统的开发提供直接的规则库的支持。随着自然语言处理的迅速发展,对自然语言进行深层分析,比如机器翻译,信息检索,自动文摘等成为当下最为主要的工作,开发这类应用系统,需要计算机掌握尽可能多的有关自然语言的知识和非语言知识,以便进行语言模型等的构建,实现有关技术的进一步发展与应用。

猜你喜欢

藏语句法短语
浅谈藏语中的礼仪语
述谓结构与英语句法配置
汉藏语及其音乐
藏语拉达克话的几个语音特征
藏语地理分布格局的形成原因
《健民短语》一则