APP下载

基于语素分析的原常用汉字字频下降探因

2014-05-11牟玉华1孙尊章徐凌

上饶师范学院学报 2014年5期
关键词:常用字构词语素

牟玉华1,孙尊章,徐凌

(1.上饶师范学院,江西 上饶 334001;2.江西农业大学,江西 南昌 330045)

2013年8月19日,国务院正式公布了《通用规范汉字表》*通用规范汉字表》,由教育部、国家语言文字工作委员会历时十多年组织研制,是《中华人民共和国国家通用语言文字法》配套的规范化字表。该表收录汉字8105个,根据现代汉字的通用程度划分为三级。(以下简称《通用字表》),该字表的一级字表中收录3500个常用汉字,与1988年发行的《现代汉语常用字表》(以下简称《常用字表》)所收的字数相同,但所收汉字略有不同。两个表体现了不同时期高频汉字的实质运用情况,二者之间的差异反映了20余年来中国语言生活发生的变化。本文对《常用字表》和《通用字表》进行对比分析,发现二表中存在103个汉字的差异,差异率达到2.94%。可见现代汉语常用汉字在稳定中变异,变化的幅度不大。见于《常用字表》、不见于《通用字表》一级字表的103个原常用汉字是(按笔画排序):邢、芍、凫、阱、坞、杈、鸠、诅、苫、奄、昙、咆、刽、瓮、衩、虱、荚、茴、荞、荠、枷、昵、盅、秕、奕、飒、涎、荸、桅、蚜、铆、秫、笆、胯、袒、娩、麸、掖、掸、晤、冕、畦、蛆、蛉、赊、铡、铣、笤、傀、舷、翎、裆、谒、揖、蛔、锉、黍、牍、腌、焙、搪、蓖、蒿、楔、楞、楣、硼、碉、蛹、嗤、锨、锭、肄、滓、蔫、榛、碴、辕、嘁、幔、箍、漩、嫡、缨、樊、镊、膘、潦、嬉、蟥、螟、篙、膳、燎、壕、檩、镣、儡、糜、癞、攒、攘、蘸。上述103个字中有102个汉字进入《通用字表》的二级字表,仅有“楞”*“楞”为“棱”的俗体,逐渐被规范正体替代。进入三级字表。103个原常用汉字的笔画总数为1217画,字均笔画为11.82画,高于《常用字表》中3500个常用汉字的平均笔画9.2画[1],可见汉字笔画多寡已影响了汉字书写的字频。

“字”无论是作为纯粹的书写符号,还是作为形音义结合的语言单位,一直是汉语研究领域关注的重点。中国传统语言学以书面语为对象,将“字”作为基本语言单位研究。自《马氏文通》后,汉语研究借鉴西方语言学理论有了长足的发展,汉语研究从“字本位”向“词本位”转变。美国结构主义语言学家布隆菲尔德提出“语素 (morpheme)”概念后,“语素”便成为现代汉语词汇学和语法学中广泛使用的重要概念。吕叔湘先生认为:“语言的静态单位是:语素,词,短语(包括主谓短语),以及介乎词和短语之间的短语词,其中语素是基本单位。”[2](P24)语素有单音节和多音节之分,“《新华字典》收单字11000个左右,据粗略统计,其中的97.8%都是单音节语素。”[3](P208)可见,汉字虽是第二性的,但大多情况下汉语的一个语素是用一个汉字来记录的,这为汉字与语素的对应研究提供了理论依据。

语言文字规范是不断发展的,它与社会发展、人民语言生活有着深度联系。从常用字选字的差异可管窥不同时期高频汉字的语用问题。本文着重对上述103个汉字进行语素分析,探求常用汉字与时代、社会因素之间的关系,用模因理论寻找二者之间的关联度,以求得常用汉字字频下降的原因。

一、 语素的判断标准和切分原理

语素的研究,成果虽丰硕,但分歧较大。语素判断标准不统一和切分原理不一致,使得以语素为单位的研究难免会遇到一些问题。本文对此问题有下列看法:

(一)语素的判断标准

尹斌庸在1984年提出的“读音和意义两者完全相同的,原则上作为一个语素”的判断标准对学界有很大的影响力,但该标准指出“意义相同包括一切派生意义在内,只要意义上有派生关系,即使派生关系拉得很远,一线相连,一般仍算作意义相同”[4],该观点会引发语素的多义性问题。对此有些学者提出“语素项”[5]的理论来解决这一问题。笔者认为不妥,因为语素是最小的音义结合单位,从理论上讲不能分解出不同语义特征或语法形类的语素项。本文在确定语素时采用下列判断标准:一个汉字对应多个义项时,若义项联系松散,或改变读音、改变词性,则认定为不同语素;若这些义项紧密联系,认定为一个语素,这些“具有共同基础的互相有联系的多个义项,是非区别性的,是语义变体”[6]。例如“秕”有三个义项:秕子、子实不饱满、恶坏,我们将前两个合并为一个语素,“恶坏”认定为另一个语素。又“镊”有名词、动词两个义项,认定为两个不同语素。关于汉字义项的认定以及语素构词的问题,本文以《现代汉语词典》(第6版)为蓝本,该词典虽以记录普通话语汇为主,但也酌收了“不久以前还使用的旧词语、旧意义,现在书面上还常见的文言词语”[7](P7)。考虑到本文所研究的是现代汉语常用字部分,对于古义项、古语词或仅见于书面的文言词语不再收入。

(二)语素的切分原理

目前“替换法”作为一种确定语素的可操作的方法,受到学术界较广泛的认可。但这种方法,也引发了一些学者的质疑,因为替换法要求“语素的构词数量均大于一,这样才有可能比较它们在构词中的表现”[8]。同时,“在运用替代法识别语素的过程中,已经对语言单位的功能进行了限定,即它只能位于一定的位置上,或是前字,或是后字,不能易位。”[9]综合以上因素,本文对语素的判断,在“替换法”的基础上,同时考察“一次构词语素”和“反向构词语素”。前者指只能组成一个词的语素,如“裤衩”的“衩”;后者指不能运用替换法进行定向构词、但能在反方向构词的语素,如“分娩”的“娩”不能构成“娩”的形式,但可反向构成“娩出”。

二、原常用汉字的语素量分析

根据以上判断标准及切分原理,我们对见于《常用字表》而不见《通用字表》的103个原常用汉字进行逐字分析,这些汉字共代表的单音节语素为129个,每字平均代表1.25个语素,该数据略与尹斌庸统计的1.22个大致相同[4],但小于苑春法、黄昌宁统计的1.54个[5]。本文判断语素的标准在语义域上更窄、包括姓氏等语素,从原理上讲,汉字代表语素的数量应大于前尹、苑之说;尹统计的是累积出现频率占99.99%以上的4000多个汉字,苑统计的是6763个通用汉字,根据周有光的“汉字效用递减率”理论[10](P168),尹、苑统计的汉字范围越广、字均语素量应越低。本文统计的字均语素量偏低,汉字与语素的对应关系较为单一,说明这些汉字使用域偏窄,正是这些原常用字字频下降的重要原因之一。103个原常用汉字与语素的对应关系,见表1:

表1 汉字与语素的对应关系

如表1所示,103个原常用汉字中有9字有音无意义,不是语素,这些纯记音汉字分别是:昙、荸、笤、蛔、蓖、嘁、蟥、傀、儡。余下的94个语素汉字中有“奄”“荠”“奕”“碴”“腌”、“茴”6个字,既代表语素,又有只记音不表义的用法,如“奄”有忽然义,是不成词语素,可构词为“奄然”“奄忽”;此外,“奄奄”指气息微弱,而此处的“奄”无意义,是半记音文字。纯记音汉字的比例占总数的8.7%,半记音汉字的比例占总数的5.82%,共计14.52%。据苑春法、黄昌宁统计,覆盖6763个常用汉字的语素有10442个,其中单字语素有9712个,占总数的93.0%[5],该统计表明常用汉字中纯记音文字占7.0%。本文所统计的记音文字高于这一比例。记音汉字必须与其它汉字组合才具有意义,一般而言,组合方式是固定、单一的,这势必也影响了汉字使用的频率,也是字频下降的原因之一。

从表1看,语素汉字中一字一素和一字二素的占了绝大多数,占总字数的87.4%。而“一字二素”的实际运用情况在多数情况下是相当于“一字一素”的,它一般可分为两类情况,一类是一个语素常用,而另一语素不常用,如“樊”“铣”“掖”“秕”;另一类是两个语素有语法意义的转化关系,多数由名词向动词、量词转化而演变为二个语素,如“箍”“镊”“锭”“锉”,这类汉字的转义语素适用面特窄,一般只与原名词语素搭配。同时应该指出的是,本文依据义项紧密性原则判断语素,具有非区别特征的语义变体的数量很少。从这个角度来看,103个原常用汉字的语素适用领域较为单一,这也正是这些汉字字频下降的重要原因。另外,从语言底层基本单位“语素”与汉字的对应关系看,汉字与语素之间具有很高的匹配性,故将汉字定为“语素文字”是有一定根据的;近年来,“语素本位”原理在汉语研究中方兴未艾,常用汉字的研究也理应受到关注。

三、语素汉字的语法形类分析

语素构词不是毫无规律的意合,词的构成和短语的构成有极大的相似性,正如张志公所言:“从语素到词,到词组,到句子,就是一个组合过程,而组合的原理是‘一以贯之’的。各级的组合,虽有小异,不失大同”[11],所以我们认为语素不仅具有意义,还具有语法类别。语素在语法组合中既有语义的规律,也有语法的规律;语素在语法类别的分类是一种语法功能上的聚合分类,与词语的词性相似,故我们把语素的语法形类分为:名词性语素、动词性语素、形容词性语素、副词性语素、数词性语素、量词性语素等等。与多数学者不同,本文认为词性不同的义项应属于不同语素,故本文不涉及兼类语素,本文对103个原常用汉字所包含的129个单音节语素进行语法形类分析,见表2:

表2 语素汉字的语法形类表

如表2所示,名词性语素、动词性语素、形容词性语素占了所有语素的绝大多数,这一点与尹斌庸[4]、金立[12]、李长庆[13]、张莹[14]的统计数据相同,但名、动、形三类语素各自所占比例与上述研究相比有较大的差异,其中名词性语素占58.91%,明显大于前四人统计的41%、36.18%、36.54%、49.8%;形容词性语素占9.3%,明显小于前四人统计的13%、11.61%、12.6%、18%。研究对象不同会出现不同的结果,前四人研究对象主要是汉语常用字,而本文探讨的范围是字频下降的原常用汉字,研究结论的差异提示我们汉字使用频率与语素的语法形类有重要关系:名词性语素与社会的关联最紧密,语频变化最快,语频处于下降趋势的较多;动词性语素具有恒定性,语频变化不明显;形容词性语素是当前社会的新宠,使用频率较高,语频处于下降趋势的语素较少。以下对不同语法形类的语素作具体分析:

(一) 名词性语素

在原常用汉字所包含的129个单音节语素中,名词性语素有76个,所占比重最大,是语频变化的核心要素。根据语素适用的相关场合,我们把名词性语素分为12类(非严格意义的种属类别),不能归入的列入“其它”之中。如表3所示(汉字后上角的数字是一字多素现象的识别标识,下同):

表3 名词性语素的义类分析

据表3,名词性语素使用频率下降主要涉及以下因素:1.适用域狭窄,如低频的姓氏语素、化学元素及方言语素等。2.与时代脱节。表3中器物、刑具、战事、食物、交通工具、服饰等类别中所涉及的语素基本反映了传统社会的面貌,这些语素的语频下降是无法逆转的。值得注意的是,当前社会正处于农耕社会向工业社会转型期,一些传统农业领域的语素逐渐退出言语交际的舞台,如种植业中被逐渐淘汰的农具、农作物、以及相关害虫名。这些再次论证了名词是一般词汇中最活跃的部分,其消亡、滋长与社会变化息息相关。

(二)动词性语素

在原常用汉字所包含的129个单音节语素中,动词性语素有39个,如下(按笔画排序):凫2、鸠2、诅、苫2、咆、刽、铆、袒1、袒2、娩、掖1、掖2、掸、晤、赊、铡2、铣1、铣2、谒、揖、锉2、腌、焙、搪1、搪2、嗤、肄、碴1、箍2、镊2、嬉、燎1、燎2、糜3、攒1、攒2、攘1、攘2、蘸。

上述39个动词性语素均为动作动词,一般而言动词的语频变化不大,这些动词性语素语频下降的原因主要有以下五种情况:1.使用域狭窄,可分两种情况:一是由名词转为动词性的,这类词的使用域基本局限原名词的范围,如铡2、锉2、箍2、镊2、苫2;一是搭配对象单一,如袒2、娩2、攒1、铣2。2.具有古代书面语特征的动词语素使用频率下降:诅、咆、刽、袒1、掖1、晤、谒、揖、攒2、搪1、嗤、肄、燎、攘1、攘2、、糜3。3.传统工艺正消渐消失:铣1、焙、搪2。4.俚俗的口语词渐难登大雅之堂:铆、掖2、掸、赊、腌、碴1、嬉、燎2、蘸。5.记录语素的汉字字形被替代,如“凫2”同“浮”、“鸠2”同“纠”,异体字形中俗体被正体替代。

(三)形容词性语素

在原常用汉字所包含的129个单音节语素中,形容词性语素有12个,如下(按笔画排序):奄、昵、秕2、飒、蔫1、蔫2、蔫3、嫡、潦、糜、癞2、攘3。其中“嫡”为属性语素,本文不另立区别词词类,暂入形容词语素中,属非谓形容词语素。

从语义特征上看,12个形容词性语素有8个带有明显的颓败性特征,分别是:秕2、蔫1、蔫2、蔫3、潦、糜、癞2、攘3,这些语素的语频下降与汉民族的避讳心理、隐晦曲折表义的言语表达习惯相关。从语源出处看,主要分为两个来源,一是古代书面语,如奄(指“奄弃”的“奄”,“奄奄一息”的“奄”不是语素,是记音汉字)、秕、嫡、糜、攘、;一是口语词汇,蔫1、蔫2、蔫3、潦、癞2。

(四)量词性语素

在原常用汉字所包含的129个单音节语素中,量词性语素仅“锭”“畦2”2个,这与量词数量本身少有关。“锭”“畦2”都是名量词,“锭”因适用对象的流通性而渐消失,“畦”被新的精准、国际通用的量词所代替。

四、语素汉字的构词能力分析

语素构词能力是指一个语素能组成多少合成词的个数,它是评价语素结合性的重要标志。文中语素构词的选词以《常用构词字典》《现代汉语词典》(第六版)为主要依据,因《常用构词字典》收字不全、收词较旧,《现代汉语词典》(第六版)收词不全,本文还酌收了一些较常用的百度词条中的词语。不同形类语素的平均构词力归纳成表4:

表4 名、动、形、量四类语素构词力统计表

据表4可知,原常用汉字的语素构词能力普遍很弱,平均构词力仅为3.82个。这一结论不仅大大低于尹斌庸先生在考察4871个高频单音节语素时统计的16.9个平均构词力[4],而且也低于李长庆先生在考察958个常用不成词实语素统计的12.23个平均构词力[13]。语素的构词能力反映了该语素语用的活跃程度,从对比中可知,原常用汉字所代表的语素构词能力差,正是这些汉字字频下降的重要原因。

在名、动、形三大主体语素中,名词性语素的构词力最强,平均构词力为4.17个;形容词性语素的构词力次之,平均构词力为3.64个;动词性语素最弱,平均构词力为3.35个。“语素的结合性和语素的相对独立性构成一种反相关的关系[4],名词性语素的构词力最强,而相对独立性最弱,原常用汉字中名词性语素所占比例高达58.91%,从某种意义上说,相对独立性弱也是导致语频降低的重要原因。

为了更清楚地看出原常用汉字中语素构词能力的情况,我们画出四类语素合计构词能力用概率分布图,见图1。

据图1所示,原常用汉字的语素构词力大体呈下降趋势,构词力为7时有些许逆转,但此后又迅速下降,随后趋于平衡,最后渐趋于语素0和1之间。

图1 名、动、形、量四类语素合计示意图

五、记音汉字的构素分析

在103个原常用汉字中有15个汉字有记音无义的用法,它们不是语素。其中有9个纯记音文字,分别是“昙、荸、笤、蛔、蓖、嘁、蟥、傀、儡”; 6个半记音文字,分别是“奄、荠、奕、碴、腌、茴”。

非语素汉字,组合能力较弱,一般只有一种组合方式,且汉字组合后的语义也极为单纯,一般只表一个语素。15个非语素汉字,仅“昙”字有两种组合方式“悉昙”“昙花”、分别代表两个语素,其余各字与其它汉字组合后,均代表一个语素,这15个非语素汉字可组合成14个语素(15个汉字中有四个汉字两两内部组合,详见上文构素方式),记音汉字构素能力弱也是其字频下降的原因之一。

15个记音的非语素汉字构成语素的方式有五类:(1)叠音构素:奄奄、嘁嘁、奕奕。(2)双声或叠韵构素:荸荠、傀儡、拉碴、腌月赞。(3)非双声叠韵:蚂蟥。(4)音译构素:悉昙。(5)类属构素:昙花、茴鱼、笤帚、蛔虫、蓖麻。前四类构素后可看成多音节单纯词,记音汉字与音同音近的汉字结合起来表达意义,这种借助语音叠加表义构成语素的方式,具有因声求义的普遍特性,语源义较模糊,命名理据艰涩难求。除音译构素外,前三类构素组合方式较多地保存在文字产生初期。随着汉字体系的成熟,人们更多地关注文字的形义联系,而在此基础上,文字记录的语言也逐渐规范起来,语言单位组合更具规则性和理据性,大量产生的新词多为合成词,注意语素之间的组合规范,而早期理据难觅的多音节语素也在使用中逐渐消亡,这是语言成熟规范化的标志,也正是《诗经》大量多音节语素消亡、以及本文所探讨的记音汉字字频降低的根本原因。第五类“类属构素”的情况较为复杂,它们看似是“小名加大名”的定中合成构词,然而单个汉字“昙”、“茴”、“笤”、“蛔”、“蓖”本身是没有意义的,它们的意义在于字组之中,依然不是语素。但是由于字组组合的单一性和稳固性,使得这些记音汉字浸染带有了一定的语义特征,其字组组合也看似具有语素构词的特性,这实为记音符号语素化的问题。汉语早期很多非语素汉字在不断的组合中,通过“语素化”的过渡阶段,进而演变为语素,如“芍药”的“芍”,现可构词为“白芍、红芍、芍花”;而“昙”、“茴”、“笤”、“蛔”、“蓖”五个记音汉字却没能成功过渡,这也正是其字频下降的原因。

六、结论

103个见于《常用字表》而不见于《通用字表》一级字表的原常用汉字,有94个语素汉字和15个记音汉字(其中有6字兼具两种特性)。不同的语素汉字在语素量、语法形类、构词能力等方面都存在差异,汉字与语素对应比例的高下、语素汉字的使用域宽窄、时代流变,是影响语素汉字字频变化的重要原因;其中低频姓氏语素、传统工艺语素、涉农语素、古雅语素、颓败性语义特征的语素、俚俗口语语素是语频下降最快的部分。根据陈保亚的平行周边原则[15],这些语素汉字的结合多数不具备平行周边性,属于不规则语素组和解释性规则语素组,不具备无限生成新的平行语素组的能力,语符解释性弱、生成性差是制约语素使用的瓶颈。在原常用汉字中,记音非语素汉字所占比例较高,且使用频率持续走低,在汉语各级语言单位逻辑严密的生成系统中,它们是亟待被规范和被整理的部分。

参考文献:

[1] 郭曙纶,朴贞姬.《GB13000.1字符集:汉字字序(笔画序)规范》笔画数统计报告[J].现代语文,2006,(11):39-40.

[2] 吕叔湘.汉语语法分析问题[M].北京:商务印书馆,1979.

[3] 邢福义.现代汉语[M].北京:高等教育出版社,1993.

[4] 尹斌庸.汉语语素的定量研究[J].中国语文,1984,(5):538-347.

[5] 苑春法,黄昌宁.基于语素数据库的汉语语素及构词研究[J].世界汉语教学,1998,(2):7-12.

[6] 夏允贻.语素分析问题[J].上海师范大学学报,1990,(1):135-140.

[7] 中国社会科学院语言研分所词典编辑室.现代汉语词典(第六版)[Z].北京:商务印书馆,2012.

[8] 董为光.“语素替换确定法”献疑[J].语言研究,1994,(1):30-35.

[9] 吴金玲.替代法确定语素的若干问题[J].四川师范大学学报(社会科学版), 2005,(增刊):99-100.

[10] 周有光.中国语文的现代化·现代汉语用字的定量问题[M].上海:上海教育出版社,1985.

[11] 张志公.谈汉语的语素——并略介绍哈尔滨语法教学讨论会[J].语言教学与研究,1981,(4):4-18.

[12] 金立.汉语常用字中的不成词语素研究[J].绍兴文理学院学报,1999,(3):47-54,62.

[13] 李长庆.现代汉语不成词语素研究[D].北京:北京师大硕士学位论文,2008.

[14] 张莹.现代汉语专职语素研究[D].湘潭:湘潭大学硕士论文,2008.

[15] 陈保亚.论平行周遍原则与规则语素组的判定[J].中国语文,2006,(2):99-108.

猜你喜欢

常用字构词语素
从构词词源看英汉时空性差异
《最低入门等级音节、汉字、词汇表》语素和语素义分析
多义语素识别及教学探讨
——针对对外汉语语素教学构想
关于常用字覆盖率统计算法的研究
语素的判定、分类及语法单位关系研究述评
因果复合词
认知视野下“好”、“坏”构词的对称性研究
“分”的音变构词及其句法语义特征
谈常用字词的选取及其等级划分
构词派生:语义关系与句法结构