APP下载

基于中文信息处理的汉语词汇语义结构研究
——以“高+N”二字组合①为例

2014-06-23

关键词:义项现代汉语形容词

秦 亮

(中国传媒大学文法学部,北京 100024)

基于中文信息处理的汉语词汇语义结构研究
——以“高+N”二字组合①为例

秦 亮

(中国传媒大学文法学部,北京 100024)

“高”是典型的表事物量度属性的单音节形容词,是单音节形容词中很重要且特征较为明显的一类。在传统词汇语义分析的基础上,运用逻辑语义学理论,以“高”为个案,考察“高+N”二字组合的语义结构关系,初步建立汉语单音节形容词和后现名词性成分组合的逻辑语义模型及理解模式,为其进一步形式化提供语义信息和知识,从而为中文信息处理的词义分析提供一种新思路。

“高”;内涵逻辑;语义结构

汉语的合成词绝大多数是“词根+词根”的复合词,还有少数“词根+词缀”的加缀式合成词,这些都是词表面形式的组合方式。这一现象促使我们思考如何从意义的角度分析合成词内部的语义结构。汉语和印欧语不同,它本身存在着不分词连写、没有严格意义的形态变化等特点,且汉语从古至今一直处于不断地变化和发展之中,词汇化现象使得汉语的理据性变得越来越不明显,汉语词汇的形式和意义之间的关系变得更加复杂和隐晦,语义缺省现象较多,在句法层面上无法直接看出构词成分之间的语义关系。这些都给中文信息处理增加了困难。因此,语义分析及研究在汉语研究中起着重要的作用[1]。此外,传统语法一直以研究形名组合的句法关系为重点,努力探求形容词在形名组合中的句法功能,主要有分类、限定、修饰和描写等句法功能。这些研究未能揭示形名组合中形容词与名词的语义组合关系。

形容词“高”表事物的量度类属性,是单音节形容词中很重要且特征较为明显的一类。“高”的使用频率较高,在《现代汉语常用词表》②中的频率序号为“76”。笔者在文中将以“高”为例,建立“高+N”二字组合的内涵逻辑语义分析研究模式,并辅以句法加以验证,努力探求语义和句法的同构关系,以期为汉语进一步形式化提供更多的语义信息,也为中文信息处理提供一种“可理解”的语义组合模式。

一、通用词典释义

对于“高”的词典释义,本文以《现代汉语词典》(第五版)③中的释义和词项作为考察对象。《现代汉语词典》中“高”共列了8个义项:

① 汉语语言研究中在词与词组的划分问题上仍在存在很大分歧,本文借鉴王洪君(1994)[2]“以字和字组为基点观察字组中成分字间的语法和语义关系”的思想,绕开汉语词切分的问题,使用“‘高+N’二字组合”这一提法,将“高”看作形容词性的“字”,“高”的意义可以是能单独使用的、自由的形容词词义,也可以是不能单独使用、粘着的形素义,“N”看作名词性的“字”或“字组”,“N”可以是不能单独成词的、粘着的名素和能单独成词的、可自由使用的单音节名词、双音节名词以及少量的三音节名词。但汉语中的词绝大多数都是双音节的,双音化的现代汉语中词的典型特征对双音节词的组合研究而言,足以揭示词的语义组合问题(熟语除外),且很多多音节的词都是“高+N”组合作定语的定中式复合词或短语的一类词。基于此,本文只考察典型的“高+N”二字组合的语义组合关系。

② 参见《现代汉语常用词表(草案)》,北京商务印书馆2008年版。

③ 参见《现代汉语词典(第五版)》,北京商务印书馆2005年版。

《现代汉语》中“高+N”二字组合有:高倍 高参 高层 高产 高潮 高程 高档 高等 高地高调 高度 高端 高峰 高干 高阁 高胡 高级 高价高见 高教 高空 高利 高粱 高龄 高炉 高论 高门高能 高频 高企 高腔 高跷 高僧 高师 高士 高手高寿 高速 高汤 高堂 高徒 高位 高温 高校 高效高薪 高压 高原 高云 高招 高枕 高知 高职 高中高足 高祖

这些义项是根据“高”后面的名词性成分的意义归纳的,没有经过抽象提取,缺乏系统性。“高年级”的“高”表“等级在上的”,但也可理解为义项④“在一般标准或事物之上的”,所以义项④⑤的语义有交叉;义项②③意义重合,“高度”本身就是事物离地面的垂直距离。此外,有些结构中“高”的语义没有在以上义项中出现,例如“高枕”,我们认为“高”的义项应该是“使……高”,“高”不是“枕头”本身所具有的形式,而是附加上去的意义。

二、组合的语义结构分析

若根据“高”的各项词典释义,“高+N”二字组合的分类也将出现多且意义交叉的现象,为了更好地抽象概括出“高+N”二字组合的形式化表达,本文将“高+N”二字组合分成以下几类[3]:ⅲ高见 高论 高足

ⅳ高枕

对这四组词的意义进行仔细考察,最后将这四组形名组合的意义归纳成四种,分析如下:

(一)第一类

ⅰ主要从实际的物理角度来度量事物的垂直于相对平面的距离。“高”表示事物距离相对平面的距离比较大。

高层:

① 高的层次

② (楼房等)层数多的

③ 级别高的

“高层”由义项①引申到义项②,然后隐喻为义项③,语义发生了隐喻变化,即基于结构的相似性,从一个认知域到另个认知域进行投射。这一语言发展机制在语言发展中起了很大的作用。

1.到地球附近时,它受到地球磁场的作用,进入地球的两极地区,轰击高层大气而发光,这就叫极光。(《中国儿童百科全书》)

2.新城区的街道宽阔整齐,到处是一幢幢现代化高层建筑以及栽有各种花卉的公园。沿街开设着许多新型商店。(《中国儿童百科全书》)

3.200多位来自内地西部多个省份的高层行政人员,16日获香港公开大学颁发的工商管理硕士学位证书。(新华社2004年新闻稿)

4.中国与阿拉伯国家关系密切,近年来在各方面取得很大发展。双方高层交往不断,政治关系很好。去年,双边贸易额达到了254亿美元。(新华社2004年新闻稿)

以上例子中,例①和例②都是和高的本义相关,例③和例④是隐喻后的意义,隐喻基础是“高”的抽象要素。

高潮:

① 在潮的一个涨落周期内,水面上升的最高潮位

② 比喻事物高度发展的阶段

③ 小说、戏剧、电影情节中矛盾发展的顶点

5.海平面每年上升1厘米,至2030年,将上升30厘米,并称在最高潮位下,可淹没1 154平方公里面积的沿岸区域及岛屿。(新华社2004年新闻稿)

6.皖南事变是国民党反动派发动的第二次反共高潮,是国民党阴谋策划的围攻新四军的事件。(《中国儿童百科全书》)

7.文学作品的情节由开端、发展、高潮和结局四部分组成。(《中国儿童百科全书》)

“高潮”从义项①到义项②或义项③,语义发生了隐喻。

高峰:由山的高峰,隐喻为事物发展的最高点或领导人员中的最高层。

8.湖南省的大庸、桑植、慈利这三个县的交界处,海拔约800米,最高峰1 300米,总面积达119平方千米。(《中国儿童百科全书》)

9.在繁忙的大型机场,不到一分钟就有一架飞机起飞或者降落,比高峰期间的公共汽车还多。(《中国儿童百科全书》)

10.总统穆巴拉克和伊朗总统哈塔米在日内瓦举行了24年来两国间首次高峰会议。(新华社2004年新闻稿)

高堂:由高大的厅堂转指喻为父母,转喻是基于事物的相关性,由一个认知域向另一个相关认知域过渡。这一语言发展机制和“隐喻”在语言发展中都起了很大的作用。

11.托他人之福,下榻在一家豪华饭店。从坐落环境、建筑设计到内部的高堂邃宇,它堪称一流。(1996年《人民日报》)

12.邓民昌本来有生还的希望,可他选择了死。当时,他仅45岁,

上有高堂,下有儿女,但他要用一死来唤起民族的觉醒。(1994年《报刊精选》)

以上这几个词在进行具体处理时,我们该采取什么方法去辨别它们的语义?中文信息处理采用什么标准?对这些词进行抽象类义提取,概括出其内涵和外延义都似乎显得很困难。但不管是人与人之间的交流,还是用计算机进行自然语言语义理解,都需要对词义作出正确的判断。人类的自然语言具有丰富性、歧义性、多变性、模糊性等特点。我们在使用自然语言进行交流时,往往处于一定的语言环境之中,有很多语言之外的言语要素对交际作出提示,包括:时间、地点、场合、手势、上下文以及交际双方的身份、地位、教育背景,等等。这使得人们的语言交际变得简单、顺利。但计算机信息处理却无法考虑到语言之外的言语要素、环境要素,这就使得语义信息分析处理变得十分困难。习惯的做法是找出这些词在进入句法结构时的语义选择限制。例如:“高层”指“级别高的”时,后面往往接表[+人]的地位或职位词;“高峰”指山的高度时,往往搭配成“最高峰”;“高堂”指“父母”时,与“有”是一个很常用的搭配等,在此基础上再结合“高”的内涵特征义进行解释。

(二)第二类

主要从抽象的角度,对事物进行基于一般标准、程度或等级的对比或评价,表明在一般标准或程度之上。

“高教、高校、高知、高职、高中”这些词都是缩略词,所以后面的“教、校、知、职、中”是名词性的“教育、学校、知识、职业学校、中学”的缩略词,因而将其看作为名词性的“N”。

“高调”作为“高的调门”这一意义在现代汉语中已经不常用了,只是局限于声乐方面。这一用法我们可以通过制定词表的方式来实现计算机语义信息的自动分析,但实际用的更多的是其隐喻义“脱离实际的议论或说了而不去实践的漂亮话”。例如:

13.豫剧:原称河南梆子,也叫河南高调。是在河南地方小调的基础上,吸收秦腔、蒲州梆子等形成的新剧种。(《中国儿童百科全书》)

14.大胆开拓,勇于进取,并不意味着只是说大话、唱高调,而在于实实在在地工作,实实在在地落实。(1993年《人民日报》)

“高调”表后一义项时,往往和“唱”组合成“唱高调”这种常见搭配,可以在此语义限制的基础上结合“高”的内含逻辑语义进行解释。

(三)第三类

“高”表敬辞,这一用法可以通过制定词表的方式来实现计算机语义信息的自动分析,本文对此不作讨论。

(四)第四类

在“高枕”一词中,虽然其结构上很像“高峰、高原”,是“高+N”,但是这里的“高”已经具有使动义了。相比其他具有致使义的形容词,如:圆梦(圆了梦)、圆谎(圆了谎)等,“高枕”一词内部结合紧密,中间不可以加其他成分。

15.七八位匠人,费两天工夫,从头改筑,已经成功十分八九,总算可以高枕而卧,前夜的雨却又将门口的南墙冲倒二三丈之谱。(周作人《苦雨》)

16.胜利者满以为有了禁止德国成立空军这一条原则界限就可以高枕无忧了。其实这是一条极其含糊、极不明确的界限。(《第二次世界大战回忆录》第一卷 风云紧急)

“高枕”很少和其他成分进行语义搭配,习惯上和“无忧”搭配成成语“高枕无忧”。

三、抽象类义的提取

逻辑学认为“概念”是反映思维对象及其特有属性的思维形态,且“思维对象”是指一切能被人类认识或思考的客体,既可以是有形的也可以是无形的,因而概念是通过反映思维对象的特有属性来反映思维对象的。概念包含内涵和外延:内涵指概念所反映的对象的特有属性或本质属性;外延则指具有概念所反映对象的特有属性的对象,即概念的适用范围。

语词是概念的载体,概念的形成和存在依赖于语词,语词表达着概念。现代汉语中主要依据词的语法功能对词进行语法分类,但是名词、动词、形容词、数词等的原始分类,就是根据它们表达概念性质的不同划分的。在现代汉语中,形容词大都表达属性概念。从逻辑语义角度看,形容词有两个重要的逻辑特征:第一,决定一事物之所以成为该事物而区别于其他事物属性的本质属性,即形容词的内涵义;第二,这种特有属性转指表达实体概念的外延意义。基于此,本节对“高”作如下的内涵逻辑分析[4]:

“高”<形>,象形字。甲骨文字形,象楼台重叠之形。从“高”的字多与高大或建筑有关。本义:离地面远;从下向上距离大。

17.城非不高也,池非不深也。《<孟子·公孙丑>下》

18.不登高山,不知天之高也。《荀子·劝学》

考察《现代汉语词典》与《倒序现代汉语词典》①参见《倒序现代汉语词典》,北京商务印书馆2002年版。中所有“高”的双音节构词(所有“高”的前后位“高+N”构词),本文提出“高”的抽象类义:

外延指称义:事物到相对平面的垂直距离。例如:高胡。

内涵特征义:在一般标准、程度或等级之上。例如:高温、高手、高速、高龄。

将“高”的语义、词性和构词形式对应关系归纳如下表:

释义 本义:离地面远;从下向上距离大 外延指称 内涵特征义在一般标准、程度或等级之上词性 形容词 名词 动词 名词 名词 形容词 动词高层2高傲 高大高远高燥高昂1标高提高1高胡登高 跳高增高斜高高昂2构词前后位高层1高潮高程 高地高度 高峰高阁 高空高粱 高炉高门 高跷高堂 高原高云 音高高矮 高低高产2高参 高调高端2高干 高僧高汤 高温 高压高士 高手 高徒高价 高教 高校高频2高利 高能高腔 高寿 高人高龄1高师 高薪高招 高枝 高职高知 高中 高祖高位高考 高明2高热高下高倍 高产1 高档高速 高频1 高级高效 高龄2 高等高端1高贵 高亢 高慢高尚 高危 高兴1高雅高妙 高洁 高强高深 高明1 高难高发 高迈 高超高涨2高枕高兴2高歌 高估高就 高举高看 高扬高攀 高聘高升 高耸高涨1高企提高2拔高高烧 崇高孤高 清高

续表

四、形式化及其描述

意义的“叠置原理”,即语言表达式的意义是其直接组成成分意义的函项。简言之,一个复合表达式的意义是由它的直接成分的意义组合而成,直接成分的意义决定了复合表达式的意义。将“叠置原理”运用到现代汉语的构词中,即为:︱AB︱=︱A︱+︱B︱。具体为:“A”和“B”分别是词或语素,它们构成双音词AB时,它的语义︱AB︱就是“A”语义︱A︱和“B”语义︱B︱的合成。从句法“组合”的层面来看,很难直接体现出这种“合成”关系,但只要对其构成成分进行抽象类义提取之后,就能合理、自动地得出合成的意义。

笔者选取“高+N”组合中的典型案例来分析,尝试抽取“高+N”组合的形式化规则。

(一)高云

F1为一个集合,F1={高云、高原、高门、高空……}

F1为函数值,高是一个函数,函数式为:F1=高{NX},NX为自变量,且为名素变量。

高云∈{名词}∧{高(N)},then[|高+云|=|高|+|云|]∧“高”的作用是描写“云”距离地面或水平面的垂直距离大,以区别其他高度的“云”。规则的语言描述:当“高云”为名词并且“云”为名词时,“高云”的值就是“高”的值加上“云”的值,即“离地面的距离大的云”,此时“高”的作用是描述“云”距离地面或水平面的距离大。

这一类词的语义可以总结为:

If NX∈{N}∧{高(NX)},then[|高+NX|=|高|+|NX|=距离地面或水平面的垂直距离大的NX]∧“高”的作用是描写“NX”距离地面或水平面的距离大。

(二)高温

F2为一个集合,F2={高温、高汤、高压、高薪、高寿……}

F2为函数值,高是一个函数,函数式为:F2=高{NX},NX为自变量,且为名素变量。

高温∈{名词}∧{高(N)},then[|高+温|=|高|+|温|]∧“高”的作用是描述“温度”在一般温度之上。规则的语言描述:当“高温”为名词并且“温”为名词时,“高温”的值就是“高”的值加上“温”的值,即“在一般温度之上的温度”,此时“高”表示所描述的“温度”在一般温度之上。

这一类词的语义可以总结为:

If NX∈{N}∧{高(NX)},then[|高+NX|=|高|+|NX|=在一般标准、程度或等级之上的NX]∧“高”的作用是描述“NX”在一般标准、程度或等级之上。

(三)高效

F3为一个集合,F3={高效、高档、高等、高级……}

F3为函数值,“高”是一个函数,函数式为:F3=高{NX},NX为自变量,且为名素变量。

高效∈{形容词}∧{高(N)∈属性词},then[|高+效|=|高|+|效|]∧“高”的作用是描写、限制的“效率”在一般效率之上。规则的语言描述:当“高效”为形容词并且“效”为名词时,“高效”的值就是“高”的值加上“效”的值,即为:在一般效率之上的效率,“高效”的作用是描写、限制的“效率”在一般效率之上。

这一类词的语义可以总结为:

If NX∈{A}∧{高(NX)∈属性词},then[|高+NX|=|高|+|NX|=在一般标准、程度或等级之上的NX]∧“高”的作用是描写、限制“NX”在一般标准、程度或等级之上。

(四)高枕

F4为一个集合,F4={高枕……}

F4为函数值,高是一个函数,函数式为:F4=高{NX},NX为自变量,且为名素变量。

高枕∈{V}∧{高(N)},then[|高+枕|=|高|+|枕|=使枕高],规则的语言描述:当“高枕”为动词并且“枕”为名词时,“高枕”的值就是“高”的值加上“枕”的值,为:使枕高。

这一类词的语义可以总结为:

If NX∈{V}∧{高(NX)},then[|高+NX|=|高|+|NX|=使NX高]

以上为具有代表性的“高+N”组合的内涵逻辑的形式语言表达,它为计算机中文信息处理相关程序编译以及语词识别提供了基础性的语义信息和更为科学的客观语言依据。

就汉语来说,目前语义自动分析还有重重困难,基础也极为薄弱。这就需要根据计算机的要求加强词汇语义分析,尤其需要运用现代逻辑语言学的方法对词的构成进行分析研究。本文分析了“高”作为量度类形容词的内涵逻辑语义,主要就“高”前后位的双音节构词进行了分析,并提取出了“高”的内涵特征义,建立了“高+N”的语义模型,旨在为其他类形容词,尤其是量度类形容词建立分析模型。

[1]吴颖.现代汉语单音节形容词语义结构研究[D].上海:上海师范大学,2002.

[2]王洪君.从字和字组看词和短语[J].中国语文,1994(2):102-112.

[3]郭曙纶.汉语动词的类义与逻辑配价研究[D].上海:上海师范大学,2001.

[4]吴颖.时间形容词的逻辑语义分析[J].语言文字应用,2008a(3):134-141.

(责任编辑:郭红明)

Study of Chinese Lexical Semantic Structure Based on Chinese Information Processing Taking Two Word Combination of“Gao+N”as Example

QIN Liang
(Grammar Faculty of Communication University of China,Beijing 100024,China)

“Gao”is a typical monosyllabic adjective with obvious characteristics for measurement attributes.On the basis of the traditional lexical semantic analysis and by using logical semantics theory and examining the structural semantic relationship of the word combination of“Gao+N”,we establish a logical semantic model and comprehension model of the composition of monosyllabic adjectives with their post-nominal elements to provide formalized semantic information and knowledge,and in this way we provide a new way for the semantic analysis of Chinese information processing.

“Gao”;connotation logic;semantic structure

H13

A

1673-0453(2014)03-0068-06

2014-05-08

上海市教委创新重点项目“面向信息处理的形容词词义组合理解与生成”(11ZS128)

秦亮(1984—),男,江苏金坛人,中国传媒大学博士研究生,主要从事语言学及应用语言学专业研究。

猜你喜欢

义项现代汉语形容词
认识形容词
现代汉语位移终点标记“往”
“楞”“愣”关系及“楞”在现代汉语中的地位
现代汉语中词汇性的性范畴
两用成语中的冷义项
形容词
北大版《现代汉语》增订本)出版
Enhanced Precision