APP下载

布拉格学派的功能生成描述理论

2019-11-07冯志伟周建

现代语文 2019年7期

冯志伟 周建

摘  要:功能生成描述理论不但是布拉格学派在信息时代的继续和发展,而且是少有的将理论和实践完美地结合起来的语言学理论。通过着重介绍布拉格依存树库(PDT)和捷克语动词配价词表(Vallex),来探讨功能生成描述理论在自然语言处理中的应用价值。布拉格依存树库采用三级标注体系,由词汇层、形态层、句法层和语义层四个层级构成。捷克语动词配价词表内容丰富,信息量大,便于使用。布拉格依存树库和捷克语动词配价词表有助于验证功能生成描述的理论主张,对自然语言处理也是大有用处的。

关键词:功能生成描述;布拉格树库;动词配价词表

“功能生成描述”(Functional Generative Description,简称FGD)理论是由捷克语言学家斯加尔(Petr Sgall)等人创立的一种形式化的语言理论,它是布拉格功能主义语言观在信息时代的反映。这种理论的目标,是从功能主义和语言生成的角度出发,使用形式化的方法来描述语言,具有强烈的方法论色彩,因此叫做“功能生成描述”。

这一理论的代表作是捷克布拉格查理士大学的斯加尔、哈吉科娃(Hajicová)和帕内沃娃(Jarmila Panevová)合著的The Meaning of the Sentence in Its Semantic and Pragmatic Aspects(《句子意义的语义及语用研究》,1986)以及斯加尔和哈吉科娃共同撰写的论文Dependency Syntax in Functional Generative Descriptions(《功能生成描述中的依存句法》,2003)。限于篇幅,本文仅介绍了功能生成描述理论的部分内容,建议感兴趣的读者阅读原文。

一、功能生成描述理论

功能生成描述理论是一种分层次、基于依存原则的语言学理论,同时也是一种源于自然语言处理(Natural Language Processing,简称NLP)实践的语言学理论。因此,功能生成描述理论非常注重语言的形式化描述和計算机实现。

功能生成描述理论认为语言是一种层次性的功能结构,在语言意义和语音表达之间存在着如下五个层次:

·语义层

·表层句法层

·形位层

·音位层

·语音层

在功能生成描述理论中,语义层占有重要的地位。在语义层表示中,最重要的概念是基本依存结构(Basic Dependency Structure,简称BDS)。基本依存结构是在词表和表示依存关系种类的特征结构时所形成的字母表上的字符串。

功能生成理论的这种形式化描述是现代语言学理论所必要的。这样的形式化描述,一方面发展了布拉格传统的语言学理论,另一方面,也有助于该理论在自然语言处理领域的应用。

可以说,围绕功能生成描述理论,布拉格的学者们不但构造了一系列的自然语言处理应用系统,也在像捷克语这样的自由词序语言的依存语法的形式化理论和计算机实现方面作了许多开拓性的工作。

白雪(2016)曾对功能生成理论作了较为系统地评介,并在配价的组织模式、层次上,将其与乔姆斯基(N.Chomsky)的最简方案进行了比较。本文从自然语言处理的角度,着重对布拉格依存树库(PDT)和动词配价词表(Vallex)作进一步的补充,以飨读者。

二、布拉格依存树库

布拉格依存树库(Prague Dependency Treebank①,简称PDT)是在功能生成描述理论基础之上建立的,它是目前世界上规模最大的依存树库。布拉格依存树库是一个含有丰富的语言学信息的手工标注捷克语树库。它还有配套的树库查询、标注和分析软件,供使用者选用。

布拉格依存树库采用三级标注体系,除了形态层(morphological layer,简称m-layer)之外,其他的两个层次分别为表层句法(analytical layer,简称a-layer)和深层句法(tectogrammatical layer,简称t-layer)。表层句法层相当于我们一般所说的句法层,深层句法相当于我们一般所说的语义层。除了这三个标注层之外,布拉格依存树库还将那些没有标注的文本视为一个独立的层级,叫做“词汇层”(word layer,简称w-layer)。这样,一个句子在依存树库中的标注就有了四个层级:即词汇层、形态层、句法层和语义层。

布拉格依存树库中句子的标注及四个层级之间的联系,如图2所示:

图2说明了捷克语句子“Byl by ?el dolesa”的标注情况。“Byl by ?el dolesa”对应的逐词英译为:“He-was would went to forest(他想到森林中去)”。

在图2中,从下至上的四个层级是:词汇层(w-layer)、形态层(m-layer)、句法层(a-layer)和语义层(t-layer)。值得注意的是,原句词汇层中所含的输入错误“dolesa (to forest)”,在形态层得以恢复为正常的“do lesa”。

在形态层(m-layer)中,每一个词的下面有两行附加信息,其中的第一行为该词的词典形式(词目),第二行标明了该词在句中的形态特征。

除增加了一个全句的支配结点外,句法层(a-layer)中的结点和形态层中所出现的词是对应的。在每个结点下面,标注该结点与其支配词之间的依存关系类型。依存树库中的句法层与其他依存句法理论得到的分析树基本相似,尽管这里没有采用箭头来标记词间支配关系,我们还是可以很方便地从一个词在句法结构树中的上下位置来判断该词的地位。

语义层(t-layer)中的结点和输入句子中的词不是一一对应的,而且结点上的词还使用了配价词典中的形式标记。结点下面的标记表示该词与其支配词之间的语义关系,如:“ACT”表示“行动者”,“PRED”表示“谓词”,“DIR3”表示“趋向”,等等。在语义层中,全部的单词都是实词,不再有介词或其他虚词的位置。从这个角度来说,可以把语义层视为句子中心词的配价实例化之后的一种结果。由此可见,为了进行语义层的标注,配价词典是必不可少的。

总的来说,功能生成描述理论实质上是一种多层级的依存语法理论,配价在这种理论中占有重要的地位。按照功能生成描述理论的创立者哈吉科娃和斯加尔(2003)的说法:“如果将依存视为一种基本关系,那么词汇单元的句法特性就可以依据其可有或必有的从属成分来进行描述,这种描述可包括词汇组合的限制,它们与句子表层结构的关系等。……广义的配价框架包含了所有的补足语和说明语,狭义的配价框架只考虑补足语和那些必有的说明语。”因此,在功能生成描述理论的初创时期,另一位创立者帕内沃娃(Jarmila Panevová)就在Prague Bulletin of Mathematical Linguistics(《布拉格数理语言学通讯》)发表了题为On verbal frames in functional generative description(《功能生成描述中的動词框架》,1975)的长文,专门讨论配价框架的问题。

三、捷克语动词配价词表

2008年发布的捷克语动词配价词表(The Valency Lexicon of Czech Verbs,简称Vallex),共收有6460个词项,可能是目前最大的面向应用的配价词表。

除了语言研究的一般用途外,在自然语言处理中,捷克语动词配价词表(Vallex)还有以下用途:

1.可以保证语料库和布拉格依存树库(PDT)中配价结构的一致性;

2.可以帮助进行自动句法分析;

3.可以帮助生成输入句子的语义结构表示;

4.可以帮助通过自动的方式来构造动词配价词典。

我们不妨以捷克语动词配价词表中的具体词条“z?ídit”(建立)及其构成为例①,来直观感受一下Vallex配价词典的格式,具体如图3所示:

图3中的词项(word entry)为含有某一动词所有义项的抽象单位。词项由一系列非空的框架项(frame entries)构成,其中每一项对应一个义项。框架项包含配价框架本身的描述、意义的解释及其他附加信息。配价框架是由一些框架槽(frame slots)构成的,每一个槽表示该动词要求的补足语。每一个槽是由其函子(functor,即句法语义关系的名称)和可能的形态形式来表现的。

在捷克语动词配价词表中,每一词条(entry)的内容非常丰富,主要包括:Headword lemma(中心词的词目)、aspect(体)、gloss(词条说明)、frame slot(框架槽)、functor(配价功能)、type of complementation(补足语类型)、morphemic forms(形态形式)、mark for idiomatic frame(成语框架的标示)、frame entry(框架条目)、valency frame(配价条目)、aspectual counterpart(体成分)等。

值得一提的是,捷克语动词配价词表不但提供了传统的印刷版,也构建了xml格式和html格式的电子版本,这对词表的共享、交流和使用,都是很有意义的。特别是建立在html格式之上的交互界面,非常便于人们使用,具体如图4所示:

通过这个交互界面,用户可以按照不同的指标来浏览配价词表的内容,对各类动词的配价结构进行定量和定性的研究分析。例如,如果用户要查询单词“brát”的配价功能,可以点击functors,交互界面就会显示出它的各种配价功能,如ACT,ADDR,PAT,LOC,DIR等。

总的来说,功能生成描述理论不但是布拉格学派在信息时代的继续和发展,而且是少有的将理论和实践完美地结合起来的语言学理论。本文着重介绍的布拉格依存树库(PDT)和捷克语动词配价词表(Vallex),不仅有助于验证功能生成描述的理论主张,而且对自然语言处理也是大有用处的。目前已有数种欧洲语言采用PDT的标注体系来构造相应的树库,这对功能生成描述理论的传播和进一步应用无疑是大有裨益的。

参考文献:

[1]Jarmila Panevová.On verbal frames in functional generative description II[J]. Prague Bulletin of Mathematical Linguistics,1975,(23).

[2]Petr Sgall,Eva Hajicová,and Jarmila Panevová.The Meaning of the Sentence in Its Semantic and Pragmatic Aspects[M].Dordrecht:D.Reidel,1986.

[3]Eva Hajicová,Petr Sgall.Dependency Syntax in Functional Generative Descriptions[A].In ?gel,Vilmos;Eichinger,Ludwig;Eroms,Hans-Werner;Hellwig,Peter;Heringer,Hans-Jürgen;Lobin,Henning (eds.).Dependenz und Valenz: Ein  Internationales Handbuch Der Zeitgen?sischen Forschung[C].Berlin:De Gruyter,2003.

[4]白雪.功能生成理论评介[J].现代语文(语言研究版),2016,(2).