APP下载

句法和语义的对应——语义形式化的基石

2016-03-02林胜强邹崇理四川师范大学政治教育学院四川成都60068中国社会科学院哲学研究所北京0073

关键词:句法语义

林胜强,邹崇理(.四川师范大学政治教育学院,四川成都60068;.中国社会科学院哲学研究所,北京0073)

句法和语义的对应——语义形式化的基石

林胜强1,邹崇理2
(1.四川师范大学政治教育学院,四川成都610068;2.中国社会科学院哲学研究所,北京100732)

[摘要]在我国的语言学界和计算语言学界,缺乏语义分析的形式化已成为中文信息处理的瓶颈问题。要使语义分析形式化,需要建立句法和语义对应的原则,这样能够把句法的可计算性延伸到语义那里。此外,从哲学角度思考,句法和语义的对应显示出一些差异现象。这种“差异”的根源之一在于自然语言中存在的非连续现象。在自然语言某些非连续现象那里,“特异”的语义成分对形成整体的语义来说是非组合的,这就是句法和语义对应的“盲区”,也是语义形式化需要关注的地方。

[关键词]句法;语义;语义形式化;自然语言

今天的时代是计算机信息处理的时代,“大数据”和“云计算”等概念渗透到人类生活的方方面面。百度总裁李彦宏在2015年两会提出“大脑风暴”的设想,而这立马涉及到“计算机句法分析”和“计算机语义理解”等概念。要想计算机理解自然语言,必须做到让自然语言的句法和语义成为可计算的形式化对象。上个世纪中叶,敏锐的科学家就已经觉察到这样的问题,他们分别是机器翻译之父B.Hillel和数学家Lambek以及语言学界“哥白尼式革命”的倡导者Chomsky,他们创立的范畴语法和转换生成语法各自一定程度解决了自然语言句法的形式化。但自然语言语义的形式化是随后60-70年代出现的逻辑语法(也叫形式语义学或语言逻辑)的开拓者Montague基于句法和语义对应的原则而提出的。在计算机信息领域对自然语言的处理实践中,这个原则面临许多具体挑战。本文关注在处理句法和语义对应关系时遭

遇到的自然语言中的非连续现象,主要从理论上围绕句法和语义的对应以及语义形式化提出自己的论点。

一、自然语言形式化研究的必要性

语言分为有声语言和书面语言,这两种语言形式的物质载体不同,但其句法构造和语义所指都是具备的。要想计算机理解自然语言,首先要把自然语言的句法构造变成可计算的可推演的对象。我们先来看看国际上句法分析形式化直接作用于计算机信息处理的实例,据此表明自然语言形式化研究的必要性。

作为范畴类型逻辑的兰贝克演算,对自然语言句法构造进行了可证明和可计算的形式化研究,这是一种应计算机信息处理需求产生的理论。如英语句“Livia hates someone”的句法构造可以分析为兰贝克演算的证明网。其证明结构为:

图1和图2均满足非循环性和连通性,表明该句的证明结构是证明网,从而判定该句子符合语法的要求。

Grail作为基于Prolog程序的语法分析器,是范畴类型逻辑对自然语言分析的计算机实现,这种实现的基础就是兰贝克演算的证明网概念[1]。设定词库后,Grail可在视窗界面上通过证明网方式展示对自然语言的形式化分析过程。

启动Grail程序后,输入英语句“Livia hates someone”的符号串后,视窗界面便由左至右出现对应的范畴np、两个复合范畴的分解树和推演期望获得的目标范畴s(图3)。

其中用黑体标记的原子范畴表示具有否定极性的原子公式,用白体标记的原子范畴表示具有肯定极性的原子公式,而复合范畴采取分解树的表述方式。这时根据肯定公式匹配相应否定公式的原则形成若干公理联结,于是获得这样的证明结构:其所有的修正图满足非循环性和连通性。即获得关于英语句“Livia hates someone”句法分析的证明网。上述操作程序可以让计算机的Grail语法分析器自动地执行,最后获得整个句子的证明网视窗界面(图4)。

自然语言能够产生句法构造丰富多样的语句,人类容易理解一定范围内语句的句法构造,但是计算机要处理更多复杂的构造,却需要对此进行形式化分析。如果没有关于句法构造的形式化描述,计算机人工智能体是不能理解自然语言的。因此,自然语言的形式化研究值得逻辑语法和计算语言学学者去关注。

二、语义形式化的缺失是中文信息处理的瓶颈

关于自然语言的句法分析形式化问题国内外在最近几十年里取得了不少的进展。范畴语法的现代版本之一是基于规则而关注语言事实分析需求的组合范畴语法CCG。CCG的优势在信息处理上,它所表现的现象比词汇功能语法、中心语驱动语法等要深,可以更快地评价语句中的语词是否有依存关系、谓词-论元关系等。CCG分析器在分析速度和准确度上都占优势。2009年在约翰普金斯大学举行的夏季研讨班上,研究者采用优化的句法分析算法,使CCG句法分析在维基百科语料上达到每秒超过100句

的分析速度,且抽样显示,其分析精度并没有明显损失,说明CCG可以用来进行工业规模的句法分析。

在中文信息处理领域,CCG的研究现状是,计算语言学家主要关心如何根据中文信息处理的需求构建相适应的句法规则,确立词条的句法范畴的指派,从而实现更高效、更准确的自动句法分析。据本课题研究团队所掌握的关于CCG的大量文献来看,国外的论著专门讨论语义问题的尚且不多,在汉语的计算语言学研究领域,几乎没有开展语义形式化的工作,语义形式化的缺失现象更为突出。以清华大学计算机专业博士生导师、微软亚洲研究院自然语言处理组资深研究员黄昌宁教授为首的研究团队,近年来致力于从事CCG的汉语信息处理工作。他们把基于转换语法的清华中文树库转换成基于CCG的中文树库,取得的成绩令人瞩目。该团队主要成员、清华大学周强教授2012年4月6日在中国社科院哲学所做的报告显示:CCG的研究在汉语的句法分析方面硕果累累,CCG处置的规模大约有45,000个汉语句子和100万个汉语词。选择基于文学、学术、新闻、应用四大体裁的平衡语料作为加工对象,尽可能多地覆盖了汉语的各种语言现象。但这些真实文本的CCG分析结果仅限于句法层面。

为说明汉语CCG研究语义缺失所带来的问题,这里以汉语动词时间句为例,如周强教授在报告中提出的汉语句“这个问题我们已研究过了”的分析树图[2]:

图5中的“已”、“过”和“了”都是与时间有关的词条,在语义上,三者是密切关联的,所体现的时间逻辑语义是一个整体,构成了一个表示类似过去时或现在完成时的时间算子。但图5在句法层面的分析却按照汉语的自然词序把它们分隔开,为它们各自指派了不同的范畴以方便句法计算。这种分析符合汉语的习惯表达,但没有从语义角度考虑问题,很难表现出三个词条构成的语义整体。因而图1的句法分析是一种为了方便句法计算而忽略语义理解的简单处理,我们很难为这样的句法分析树推演的每一节点同步匹配合适的语义表达式。

中文信息处理与印欧语系的语言信息处理有不同之处,中国工程院院士陈力为对此概括了五条,我们列举其中的两条[3] 6:1.印欧语言多有形态变化(例如:复数、单数,过去、现在,阴性、阳性等等),而汉语缺少形态变化。计算机对汉语的处理(例如机器翻译、人机接口等)无法利用形态变化,只能在句法、语义上找出路。2.汉语语法研究尚未形成规范化,而且人们习惯于约定俗成的语法。于是语义研究显得尤其重要。例如,“吃饭”、“吃大碗”、“吃食堂”的理解只能靠语义来解决。陈院士的概括强调了在中文信息处理中语义形式化分析的重要性。北京大学计算语言所詹卫东教授在句法形式化研究方面取得了丰硕的成果,构造了一个分析现代汉语10类短语结构的全局性规则147条[3] 116。这些规则在使用中虽然涉及到一些语义因素,且作者认为在语义方面也做了一些工作,但距离和句法同步推演的语义形式化还相差甚远。在汉语短语结构那里,一个成分能否跟另一个成分搭配,取决于句法、语音、语义和语用等多种因素。相对而言,句法因素可操作性强,语义制约因素更复杂一些。汉语在语义方面的规律,对人讲述是很容易的,但要以形式化的方式告诉计算机,却非常困难。我们感觉,语义形式化是中文信息处理的重点,同时更是难点,跟国际上关于印欧语言的形式化研究相比,在语义方面做到像句法形式化那样可计算确实是汉语计算机处理的瓶颈问题。

三、语义形式化的基石:句法和语义的对应

要使语义分析形式化,必须强调句法和语义对应的原则,这样才能够把句法的可计算性延伸到语义那里,这就是句法和语义对应的价值,语义形式化的坚实基础是句法和语义的对应。

句法是语言表达式之间的排列关系,是表达式在空间位置上的移动规律。传统语言学所谓句法是指:对语言符号串的线形排列进行成分分析,语句切分为主谓宾定状补等句法成分。现代理论语言学的Chomsky学派认为,句法就是有关语言层次结构的由小到大的生成规则。而在逻辑语法看来,所谓句法不仅是语言层次结构由小到大的生成规律,更是指一种便于组合性语义解释的规则机制。

语义指语言表达式的意义,是人们对语言表达式的理解或解读。传统语言学所说的语义是指语言符号串的意思,词义是最基本的意义单位,词典编纂和训诂释义是针对词义的方法。现代理论语言学采用义素分析和语义场等方法研究语义,词义决定短语和句子的意义。而逻辑语法所谓语义是指跟句法生成相对应的东西,是基于外部世界的一种模型论语义解释,而这种语义同句法一样是可计算的对象。

逻辑语法关于语义的上述理解已经包含了句法和语义对应的思想。要想彻底了解句法和语义的对应,有必要从其根源——蒙太格语法的通用语法思想说起。蒙太格的通用语法认为,自然语言的句法基础是一个代数结构〈A,Fγ〉γ∈Γ,自然语言的语义基础也是一个代数结构〈B,Gγ〉γ∈Δ。蒙太格给两个代数结构建立了同态对应关系[4] 225:

h是从〈A,Fγ〉γ∈Γ到〈B,Gγ〉γ∈Δ的同态,当且仅当,(i)〈A,Fγ〉γ∈Γ和〈B,Gγ〉γ∈Δ是相似的(即Γ=△并且Fγ与Gγ是同样位数的运算);(ii)h是以A为定义域和以B的子集为值域的函项;(iii)任γ∈Γ,〈αξ〉ξ<β是Fγ的定义域中的任意序列,则h(Fγ〈αξ〉ξ<β=Gγ(〈h(〈αξ〉)〉ξ<β)。

句法代数中有句法表达式的集合A,与之对应,语义代数中就有语义值的集合B。句法代数中有生成句法表达式的算子Fγ,与之对应,语义代数中就有组合语义值的算子Gγ。h是关联对应两个代数结构的映射。在句法代数和语义代数同态对应的基础上,蒙太格确立了“句法规则对语义规则”的思想,这是句法和语义对应的实现。简言之,给自然语言制定一条形式化的句法规则,相应就要制定一条形式化的语义规则。自然语言表达式的语义离不开其句法的构造,句法描述自然语言由词条生成词组短语,再由词组短语产生句子的规律,语义顺着句法的步调,描述自然语言由词条的语义组合成词组短语的语义,再由词组短语的语义组合成句子的语义。句法的出发点是词条,语义的出发点是词条的逻辑式,句法由小到大的生成依据句法运算,语义的意义组合依据相应的语义运算。例如在蒙太格的PTQ英语语句系统中,句法和语义的对应表现为:

句法规则:若α是名词短语,β是动词短语,则F(α,β)即αβ是句子。

语义规则:若α′,β′分别是α,β的语义,则G(α′,β′)即α′(β′)是αβ的语义。①上述句法规则和语义规则的应用实例:令α=John,β=walk,α′=λPP(j),β′=walk。句法:John是名词短语,walk是动词短语,则F (John,walk)即John walks是句子。语义:λPP(j)是John的语义,walk是walk的语义,则G(λPP(j),walk)即[λPP(j)]walk即walk(j)是John walks的语义。在范畴逻辑语法那里,表现出更为严格的句法和语义的对应思想。比如英语句“the short boy walks”的推演,除词条外的每一节点都显示出句法范畴和语义词项的对应,每一步推演都是句法和语义的同步推演:

(图6) “the short boy walks”的句法语义并行推演树

在图6的推演中,词条the的语义词项ι对应句法范畴np/n,词条short下的语义词项short对应句法范畴n/n,词条boy下的语义词项boy对应句法范畴n,词条walks下的语义词项walk对应语义词项nps。第一步推演:句法范畴n/n和n的推演结果是n,同时从语义词项short和boy推出short(boy);第二步推演:从句法范畴np/n和n推出范畴np,同时从语义词项ι和short(boy)推出ι(short(boy));第三步推演:从句法范畴np和nps推出s,同时从语义词项ι(short(boy))和walk推出walk ι(short(boy))。

显然,确立了自然语言句法代数和语义代数的同态映射后,就使句法规则对应语义规则成为可能,就使句法推演和语义推演对应起来,就使句法的可计算性自然延伸到语义那里去,就使语义的形式化成为现实。一般来说,自然语言的句法相对单纯,形式化的操作容易掌控,这就使语言学家Chomsky创立的

转换生成语法在自然语言的句法形式化分析方面取得了巨大成功。而逻辑学家Montague不满足于此,他基于句法和语义对应的思想,把句法的形式化扩大成语义的形式化,从而实现了某种超越。这就是句法和语义对应的理论价值。

四、句法语义对应的哲学思考及其问题

句法和语义对应的思想对语义形式化及其自然语言的计算机处理具有重要的理论价值,它在逻辑、语言和计算三者的跨学科研究中起到了里程碑的作用,是三学科交叉领域的地标式的建树。我们不妨对此从哲学角度考量考量,句法和语义的“对应”意味着“一致”和“趋同”的倾向,辩证法告诉我们,“趋同”中有“差异”。在逻辑语法那里,句法代数和语义代数之间虽然可以建立同态映射关系,但二者毕竟还不是一回事。自然语言的句法规则刻画的是句法表达式的运算,而语义规则描述的则是语义词项(内涵逻辑式或λ-项)的运算。这种差异可从蒙太格语法的分析树a和分析树b的对比中看出(图7)。

(图7) 蒙太格语法的句法分析树和语义分析树

从自然语言句法生成角度看,图7中分析树a只有两步:对词条love和词条Mary进行运算生成短语love Mary,再对词条John和短语love Mary进行运算生成语句John loves Mary;图7中分析树b是对应句法生成的语义翻译树。从语义词项的组合看,树底两步是跟句法分析树a步调一致的:从词条love对应的λ-项LOVE和词条Mary对应的λ-项进行运算生成短语love Mary对应的λ-项LOVE,再对词条John对应的λ-项和短语love Mary对应的λ-项进行运算生成语句John loves Mary对应的λ-项但树顶节点的语义运算却多出了三步转换,这就是语义计算不同于句法计算的“异”,同时也可以见到语义层面的λ-项包含更多的计算步骤。

然而,更令人关注的是,句法和语义对应的另一种“差异”是在对自然语言所谓非连续现象的分析中表现出来的。什么是自然语言中的非连续现象?组合范畴语法CCG的创立者Steedman认为“自然语言中的非连续结构是范畴语法以及其他语法理论的核心问题”[5]。Wood提出如果可作函数运算的两成分在句法上不相邻,则无法直接毗连,这就是不连续现象[6]。Morrill把非连续结构定义为句法和语义的不匹配[7]。这里采用蒙太格语法的分析树方式并以汉语的某些非连续表达式为例来讨论句法和语义对应的“差异”。如下述复合量化句和介词方位句:

(1)每个学生读不同一本书。(2)上海在北京和广州之间。

就语义分析的方便而言,上面例句的语义分析树分别是①跟蒙太格语法的原著不同的是,下面的分析树每个节点略去了语义类型的标记,并且用汉语词的黑体表示该汉语词对应的逻辑词项。:

按照通常的做法,蒙太格语法对例句(1)的句法分析树是:

(图10) 例句(1)的句法分析树

例句(2)的句法分析树按照通常做法几乎无法构造。显然,图10的句法分析是基于通常自然语言生成顺序的两分法,句法推演方便但无法对此配置语义分析。而图8的语义分析则是方便语义函项计算的多分法,出发点是非连续的复合词条。非连续的复合词条是自然语言本身没有的句法单位,这里句法分析和语义分析对应不起来。这些表明在自然语言中,句法和语义对应会出现一些“盲区”。本文不打算在这里罗列自然语言句法和语义对应的“盲区”,只是针对例句(1)这样的非连续复合量化句进行深入剖析,找到问题的症结,提出关于句法和语义对应的一些新看法。

五、句法和语义对应“盲区”的思考

为了揭示自然语言分析中句法和语义对应出现的问题,考虑语义形式化注重逻辑和计算的现代品味,我们采用类型逻辑语法的方式展示句法生成和语义组合的过程。例句(1)换用范畴类型逻辑的分析推演为:

(图11) 非连续复合量化句的分析树

图11仍是一种多分法的推演,严格讲是一种偏重语义函项运算的分析。这里句法和语义对应的困境表现在图7树顶排列的词条顺序甚至词条本身都不是自然语言句法表层所具有的。如果要坚持类型逻辑语法关于自然语言的单层结构思想,势必在图11的顶部添加自然语言句法表层的排列作为出发点,这时句法和语义的对应原则要求从自然语言表层的句法符号串推出方便语义分析的格局。这样,首先需要运用置换的结构规则,把作为宾语的量化词组跟动词交换位置;其次,采用量化词组的复合叠置的规则获得有助于语义分析的格局。即:

(图12) 非连续复合量化句从句法表层起始的分析树

在广义量词理论看来,图12中的Q1是〈1,1〉类型的量词,Q2也是〈1,1〉类型的量词,它们的叠置复合Q1°Q2=Q[每个……不同一本…]是〈1,1,2〉类型的量词。令A=学生,B=书,R=读,图8的叠置复合概括为:

其语义缩写为:(Q1(A)Q2(B))(R)=Q1°Q2(A,B)(R)。

通常量词的叠置复合是可以化归的,即复合量词的涵义可以从单个量词的涵义推导出来。令F是有n个名词主目和一个k-元动词主目的量词Q1,G是有h个名词主目和一个m-元动词主目的量词Q2,那么F与G的叠置F°G是有n+h个名词主目和(k+m)-元动词主目的量词,其语义归结为:

对任何A1,…,An,B1,…,Bh哿E和R∈Rk+m而言,

上述定义可见,复合量词的整体涵义可以化归为组成它的单个量词的涵义。英语句“Most critics reviewed just four films”的分析说明了这一点[8] 133~134。

most(critics)(four(film)(reviewed))=(most(critics)°four(film))(reviewed)=[most°four](critics,film)(reviewed)

即“(most(critics)(four(film))(reviewed))”的语义决定量词叠置复合后“[most°four](critics,film)(reviewed)”的语义。

但图12量词叠置复合的操作在句法和语义的对应方面出现错位。句法上,单个量词“每个”和单个量词“不同一本”在句法上生成复合量词(每个,不同一本),语义上在这里却不是由Q1的语义和Q2的语义组合成Q1°Q2的语义,尽管在其他场合单个的Q1具有固定的量化意义。Keenan已经证明[9] 109~150,像图12的最后结果中的量词叠置复合是不可化归的,即Q1°Q2(A,B)(R)的真值条件无法通过(Q1(A)Q2(B))(R)推导出来。就是说,复合量词Q1°Q2的整体涵义是专门定义的,而不是由Q1和Q2的量化意义推导出来。在图12那里,Q1和Q2是一种特异的语义成分,它们单独的涵义在量词的复合整体涵义中不起作用,复合量词Q1°Q2的意义是非组合的。

所以,为推进语义形式化,笔者提出:应该区分量词叠置复合的两种形式——组合的和非组合的,进而在自然语言中区分两种非连续的现象。非组合的复合量词,其单个的部分量词担当的是所谓语义特异成分的角色,在自然语言量词叠置复合的情况下,这些特异的语义成分对形成复合量词整体的语义来说是非组合的。句法上,单个量词Q1和Q2生成复合量词Q1°Q2,语义上却不是由Q1的语义和Q2的语义组合成Q1°Q2的语义。这就是句法和语义对应的“盲区”及其实质。

如果能够辨认并且对句法和语义对应的“盲区”进行筛选,其价值在于:第一,能够知道句法和语义对应原则的局限,这个原则尽管在语义形式化进程中起到巨大作用,但也有其适用范围,范围以外只能做特殊处理。第二,句法和语义对应的适用范围内的领域正好顺利实施句法和语义的对应原则,这样能够更好地促进语义的形式化。

六、结束语

本文说明了形式化方法对自然语言信息处理的作用,说明了语义形式化是中文处理的软肋,论述了句法和语义的对应是语义形式化的重要基础。本文尤其关注句法和语义对应的“盲区”,提出语义特异成分的概念,指出在对非连续的量化句的分析中,量词的叠置复合在某些场合下是非组合的,这是句法和语义对应的局限所在。

[参考文献]

[1] Moot,R.Logic of Categorical grammar[M].Berlin:Springer,2012.

[2]周强.组合范畴语法CCG和汉语处理[R].中国社科院哲学所学术报告,2012.

[3]詹卫东.面向中文信息处理的现代汉语短语结构规则研究[M].北京:清华大学出版社,2000.

[4] Montague,Richard.Universal Grammar[M]//R.Thomason.Formal Philosophy.New Haven:Yale University Press,1974.

[5] Steedman,M.J.Combinatory Grammars and Parasitic Gaps[J].Natural Language and Linguistics Theory,1987,(6).

[6] Wood,M.Categorial Grammars[M].London:Routledge,1993.

[7] Morrill.Categorial Grammar:Logical Syntax,Semantics,and Processing[M].Oxford:Oxford University Press,2011.

[8]邹崇理.逻辑、语言和信息——逻辑语法研究[M].北京:人民出版社,2002.

[9] Keenan,E.L.Unreducible n-ary Quntifiers in Natural Language[M]//Peter Gardenfors.Generalized Quantifiers.Dordrecht:Kluwer Academic Publishers Group,1987.

[责任编辑:熊显长]

[作者简介]林胜强(1963-),男,四川隆昌人,四川师范大学政治教育学院教授,主要从事语言逻辑、逻辑哲学研究;邹崇理(1953-),男,四川成都人,中国社会科学院哲学研究所研究员、博士生导师,主要从事自然语言逻辑研究。

[基金项目]国家社会科学基金重大招标资助项目:10&ZD073

[收稿日期]2015-09-30

[中图分类号]B81

[文献标志码]A

[文章编号]1001-4799(2016)01-0055-07

猜你喜欢

句法语义
述谓结构与英语句法配置
语言与语义
市场调查报告句法特征分析
句法二题
诗词联句句法梳理
批评话语分析中态度意向的邻近化语义构建
“分”的音变构词及其句法语义特征
“社会”一词的语义流动与新陈代谢
“上”与“下”语义的不对称性及其认知阐释
“吃+NP”的语义生成机制研究