基于新HSK词汇大纲的词汇等级类推分析

2019-10-21张引兵宋继华彭炜明郭冬冬

中文信息学报 2019年9期

张引兵，宋继华，彭炜明，郭冬冬，张金

(1. 北京师范大学信息科学与技术学院，北京 100875；2. 淮北师范大学数学科学学院，安徽淮北 235000)

0 引言

HSK是一项国际汉语能力标准化考试。目前，HSK已成为留学中国的通行证、申请来华留学奖学金的必备条件和学校教学评估的重要手段，并被越来越多国家的政府部门和跨国企业作为员工招聘、提薪和晋升的重要依据。为使汉语水平考试(HSK)更好地服务于汉语学习者，国家汉办组织中外汉语教学、语言学、心理学和教育测量学等领域的专家，在充分调查、了解海外汉语教学实际情况的基础上，吸收原有HSK 的优点，借鉴近年来国际语言测试研究最新成果，推出新汉语水平考试(HSK)[1]。

新HSK词汇大纲由于收词规模的限制，对于许多类型的词汇只是象征性的收词，从而导致本应收入大纲的词汇没有收入进来。例如，大纲只收了“星期、星期一、星期日”，而没有收录“星期二”至“星期六”等词语；收录了“月、正月、八月”，而没有收录其他月份词语；收录了“春、夏、秋、冬”，而没有收录“春天、夏天、秋天、冬天”。类似地，像“这个、很多、这么、人们、每天、这些、那儿、一天、那个、每个、上学、老人、大熊猫、打开、外国、男人、春节……”这些常用词语都没有收录。但如果把这些词都算作超纲词，显然是不合理的。这些词汇对应的大纲等级信息缺失，将给教材编写、水平测评等一系列应用问题带来巨大的障碍。

本文旨在探索词汇等级的类推机制，力争实现类推过程中隐性知识的显性化及分散知识的系统化，使得词汇等级类推的每一个环节都有章可循，有据可依，从而更好地发挥新HSK词汇大纲在汉语词汇定级、文本难度分级中的指导作用，夯实其在本领域的基础资源地位。同时，也可为其他领域教学词汇大纲的制定提供一定的借鉴。

1 资源基础

1.1 词汇大纲资源

1.1.1 新HSK词汇大纲

新HSK词汇大纲采用2015年9月人民教育出版社出版的《HSK考试大纲》最新版本[1]。大纲收录了国际汉语教学中常用的基础词汇，并对这些词汇按照一至六级进行了等级划分。另外，在每一级词表之后举例式地给出了若干个类推词汇，共计650个。

1.1.2 《通用大纲》

《国际汉语教学通用课程大纲》[2](以下简称《通用大纲》)中，汉字部分分为六级，共计2 500个汉字；词汇部分基本沿用《HSK考试大纲》。

1.1.3 《音节大纲》词汇

《汉语国际教育用音节汉字词汇等级划分》[3](以下简称《音节大纲》)，是面向全球汉语国际教育的国家标准，是一种标准化、系统化、规范化的等级水平划分。《音节大纲》词汇三个等级共收词11 092个。

1.2 汉语词典资源

1.2.1 现代汉语词典

《现代汉语词典》(以下简称《现汉》)[4]是我国第一部规范性的语文词典，以规范性、科学性和实用性为主要特点，在汉语语言教学理论研究界具有较强的权威性。作为一部全面收录现代汉语中基本词、常用词等的综合性词典，在汉语普及、推广普通话、汉语规范等方面发挥着重要作用[5]。

1.2.2 现代汉语语法信息词典

《现代汉语语法信息词典》(以下简称《GKB》)[6-7]是为计算机实现汉语句子的自动分析与生成而由北京大学研制的一部面向中文信息处理领域的电子词典。其收词从包括《现代汉语词典》《现代汉语频率词典》《信息处理用现代汉语五千词表》在内的多部词典中选出，经过时间和实践检验证明能够有效服务于中文信息处理领域，适合作为中文信息处理用基本单位[6-7]。

1.3 词法标注资源

1.3.1 现代汉语构词结构模式

对于汉语的构词，研究者们很早就注意到词汇的构词结构与句法结构具有相似性。赵元任[8]认为在词语的构词成分之间存在着类似于句子之间的关系。根据词语内语素与语素之间的关系，朱德熙[9]也有过类似的论述。苑春法等[10]指出，复合词的基本结构基本上和词组、短语、句子的结构一样，也存在着主谓、偏正、联合、述宾、述补等结构。基于构词结构的这种思想，郭冬冬等[11-12]设计了一套描述构词结构的符号集，用来描述词素之间的组合关系，如表1所示，在此基础上构建了包含672条词汇构词结构模式的现代汉语构词模式知识库，如表2所示。

表 1 现代汉语构词结构关系符号集

1.3.2 现代汉语语义合成方式

为了研究在构词时词义发生变化的情况，苑春法等[10]将其分为三种情形，其一，词语的义项是其语素意义的组合；其二，词语的义项已经转化，不再是其语素意义的组合；其三，介于前两者之间的情形，即词语的义项和其构词语素有关系但又不完全是其构词语素意义的组合。词义的生成可以分成两个阶段，第一个阶段可以表示成“语素义+语素义→词义”的过程，第二个阶段可以表示成“词义的本义→词义的引申义”。吉志薇等[13]将二字词词素义和词义之间的关系(意指方式)分为：惯指、加指、失指、另指、仿指、专指。

表 2 构词结构模式知识库

本文在前人研究基础上，将词义合成方式概括为惯指、失指、泛指、特指、喻指、代指、模糊等7种类型，如表3所示，并采用郭冬冬等的构词结构模式符号体系，设计了如图1所示的词汇标注系统，即标注：词语的内部结构、词素义项以及词义合成方式。以《现汉》收录的多音节词为范围，总计标注了 69 642个词项的词法信息。

表 3 词义合成方式知识库

图1 《现汉》词汇标注系统

2 基于规则的新HSK词汇等级类推

索绪尔[14]把凡是不属于语音性质的词的外形变化，都看作是类推引起的，而类推必须有一个模型及对此模型的有规则的模仿。类推形式就是以一个或几个其他形式为模型，按照一定规则构成的形式。

在汉语领域，姜同绚[15]指出，类推变化在汉语词语中表现得非常充分，不仅表现在词语的构成、语音的演变上，还表现在词义发展上。类推作用于构词，一方面跟语义有关，另一方面与人们总是善于由已知知识去推知和掌握未知知识的认知规律相一致。类推机制在新词语结构生成中的作用主要可以从音节的增减、附加法构词能力、词族现象和外来词语的借用及类推影响等方面分析考虑。

本研究将《现汉》收录词语删除非Unicode编码词语后，共得词形65 831个；与GKB收录词形取并集，共得92 091个，作为词汇等级类推的候选集。另外，由于单音节词汇等级的类推相对更不稳定，故直接将《通用大纲》收录而新HSK大纲没有收录的1 579个单音节词汇及其等级纳入进来。

2.1 基于减字类推规则的词汇等级类推

所谓的减字类推规则，指的是一个多音节词语通过减去部分音节的方法而得到新的词语，并且新得到词语的等级由原多音节词语的等级确定。即：由一个词语减字默认词的等级与原词的等级相同。例如，

电子邮件 3=>邮件 3；日用品 5=>用品 5；知足常乐 6=>知足 6；等等。

如果对于同一个词语的等级，可由多个不同的多音节词语通过减字默认的方式得到，并且所得出的等级不同，则取最低的类推等级。例如： “服务员 2=>服务 2；服务区 4=>服务 4”，则“服务”的减字默认级别为“2”。

总的来说，减字默认类推规则可概括为，“类推等级同原词汇等级”、“就低不就高”。

类推算法流程如图2所示。通过减字类推共得到207个双音节词汇及其等级，如表4所示。

图2 减字类推算法流程

类推模式数目示例ABC=>AB55出租车 1=>出租 1办公室 3=>办公 3志愿者 5=>志愿 5ABC=>BC40打电话 1=>电话 1打篮球 2=>篮球 2伤脑筋 6=>脑筋 6ABC=>AC18怎么样 1=>怎样 1打篮球 2=>打球 2青少年 5=>青年 5ABCD=>AB47公共汽车 2=>公共 2高速公路 4=>高速4飞禽走兽 6=>飞禽 6ABCD=>BC6吞吞吐吐 6=>吞吐 6二氧化碳 6=>氧化 6总而言之 6=>而言 6ABCD=>CD41电子邮箱 3=>邮箱 3名胜古迹 5=>古迹 5悬崖峭壁 6=>峭壁 6

2.2 基于组合默认规则的词汇等级类推

组合默认词指的是由两个或多个词汇通过整体或部分组合的方式得到的词。例如,

运动 2，会议 3=>运动会 3

茶 1，叶子 4=>茶叶 4

如果对于同一个词语，其等级可由多组不同的词汇通过组合默认的方式而得到，并且所得出的该词语的等级不同，则按最低的等级进行词汇等级的类推。例如，

学习 1，出租车 1 => 学车 1；

学习 1，卡车 4 => 学车 4；

学习 1，刹车 6 => 学车 6。

……

则通过组合默认的方式所得的“学车”的级别由类推过程中所得的最低级别所确定，故最终通过组合默认的方式所得到的“学车”的级别就为“1”。总的来说，组合默认类推规则就是类推词汇等级遵循“单次类推就高不就低” “全局就低不就高”原则。

组合类推算法流程如图3所示。

图3 组合类推算法流程

在新HSK大纲已有的词汇等级的基础上，按照组合默认规则，结合对新HSK已有类推词汇的分析以及词汇的组合方式，给出基于组合默认词的词汇类推模式，具体如表5所示。

表5 组合默认词汇类推模式

类推过程中，要求类推前的基础词汇必须为HSK大纲词汇，所得类推词汇为类推候选集内的词汇，并且排除HSK大纲所规定的已有词汇。

2.2.1 双音节词汇等级的类推与筛选

通过对表3中组合类推生成双音节词汇的16种模式的分析，结合对组合类推条件的限制，可以通过多音节词汇对单音节词汇的析取，后15种生成模式所生成的双音节词汇都是第一种生成模式所生成模式的子集。通过实验，共得到基于组合类推生成双音节词的第一种模式的词语40 034个，其在各等级的分布如表6所示。

表6 A B=>AB式组合默认词汇类推

结合所构建构词结构模式知识库以及对类推词汇结果的统计分析发现，词语内部结构会影响词汇的整体难度等级，当结合方式为简单的修饰关系或者为词缀结构时，这种结合方式对词汇难度等级影响较小，则在这种情况下可以直接由词汇内部成分的等级通过组合默认类推的方式得到合成的词汇及其难度等级。对于由单音节语素通过组合默认类推的模式得到双音节词汇的情形，满足nn、an、vn、n…n、a…a、n-u、a-u、v-u等几种构词结构模式时，类推相对合理，则可以用来辅助对所得类推词汇等级的筛选。

该环节得到了包含特定结构模式的18 715个双音节词汇等级类推等级的类推集，详细分布如表7 所示。

表7 基于构词结构模式匹配的双音节词汇等级筛选

2.2.2 三、四音节词汇等级的类推与筛选

针对表5中组合类推生成三、四音节词汇的8种组合默认类推模式，共类推得到7 531个三音节词、719个四音节词，各模式类推所产生的词汇等级的详细信息如表8所示。

表8 三、四音节组合默认词汇类推

表9 基于构词结构模式匹配的三音节词汇等级筛选

通过对类推所得四音节词汇的统计分析，发现四音节词汇的构词方式大多为n2n2、a2n2、v2n2、n2v2、a2…a2、a2v2、a2→v2、n2‖a2、v2|n2、v2…v2、v2v2、n2‖v2等结构模式，详细信息如表10所示。同时还发现，当由两个双音节词汇通过组合默认类推得到的四音节词汇满足这些结构模式时，所得到的四音节词汇等级基本都是合理的，则在这种情况下可以直接由词汇内部成分的等级通过组合默认类推的方式得到合成的词汇及其难度等级，且所得到的719个四音节类推词汇等级均可收入类推集。

表10 基于构词结构模式匹配的四音节词汇等级筛选

2.3 基于词义合成方式知识库的词汇等级筛选

类推是否合理不仅与构词结构方式有关，还与类推词汇的意指方式有着密切的联系。例如，

天 1，书 1=>天书 1；冷 1，门 2=>冷门 2；

白 2，脸 3=>白脸 3；发 3，毛 4=>发毛 4；

白 2，领 5=>白领 5；煎 6，熬 6=>煎熬 6。

上述这些例子中类推得到的词汇大多发生了转义，无法很好地根据类推前词汇的等级来类推这些词汇的等级。

在前面几节中通过类推得到了25 229个词语及其等级。利用所构建的词义合成方式知识库对该部分进行筛选过滤，过滤掉词义合成方式为惯指部分以外的1 467个词语，最终剩余23 762个词语及其类推等级，将此词汇集合称为“HSK类推扩充集”。被过滤掉的非惯指词汇分布详见表11。

表11 非惯指词汇分布

3 实验结果数据分析

3.1 八套国家汉办主干教材词汇覆盖对比分析

本文采用国家汉办8套主干教材课文文本作为实验对象，分别以新HSK词汇大纲和类推词汇集对八套教材进行词汇覆盖情况的统计。8套教材为：《新实用汉语》《快乐汉语》《长城汉语》《跟我学汉语》《汉语教学直通车》《当代中文》《汉语乐园》《中文听说读写》。

从人工标注好的8套教材语料[16-18]统计得到词形6 191个、词次111 929个，去除其中的人名、地名、机构名、数字等非通用词汇之后，剩余词形5 888个词、词次108 532个。类推前后词汇集对教材语料的覆盖情况对比如表12所示。

通过文献[19-20]的研究可以看出，在对外汉语中高级教材中普遍存在超纲词过多的问题，平均约59%的生词是超纲词，这与本文中基于新HSK大纲词汇所得出的国家汉办8套主干教材的词形超纲率51%基本吻合。无论是从词形超纲率还是词次超纲率来看，类推扩充后的新HSK大纲词汇更符合教材难度的实际情况。

表12 八套主干教材词汇超纲词分布

3.2 基于相对熵的对比分析

类推后的词汇集大大扩充了带等级信息的词汇数量，这对于词汇大纲应用于文本难度的评级问题是否有益还需经过真实文本的实验验证。本文还是以8套主干教材为实验语料，测算不同难度级别文本在类推前后其词汇等级分布的差异。

首先采用交叉标注的方式对教材进行难度等级标注，分为1～6级，详见表13。

表13 各级语料分布

词汇等级分布的差异采用相对熵衡量。相对熵又被称为KL距离或KL散度，是两个概率分布间差异的非对称性度量[21]。设P(x)、Q(x)是随机变量X上的两个概率分布，则在离散随机变量的情形下，相对熵的定义[22]如式(1)所示。

由于KL(P||Q)≠KL(Q||P)，所以相对熵并不满足物理上“距离”的对称性。为了使其满足对称性，定义相对熵的对称形式为式(2)。

因此，对于两个不同级别的语料词汇等级的概率分布，其对称形式的相对熵具体可以表示为式(3)。

其中，参数p、q的下标i的取值范围是从1到7，对应于词汇的1级到6级以及超纲词。pi、qi表示两个不同级别的语料中第i级词汇的概率，对数log的底数取常数“e”。

新HSK大纲和类推扩充后的词汇等级分布分别如表14、表15所示。

表14 基于新HSK大纲统计的语料词汇等级分布

表15 基于HSK类推扩充集的语料词汇等级分布

统计所得基于新HSK大纲词汇及其HSK类推扩充集的词汇等级概率分布详细信息分别如表16、表17所示。

表16 基于新HSK大纲统计的词汇等级概率分布

续表

表17 基于新HSK大纲类推统计的词汇概率等级

基于新HSK大纲词汇及其类推扩充后的词汇等级分布计算所得出的各级语料相邻级别之间KL距离的详细信息如表18所示。

表18 相邻等级语料词汇分布相对熵

从计算所得到的相邻级别之间相对熵来看，对于初、中难度级别的文本类推前后的区分度比较接近，说明HSK类推集的词汇等级基本符合原大纲的难度定级标准。而对于较高难度级别的文本，原大纲由于收词过少，直接用其作标准进行文本难度级别判断，明显存在区分度偏低的问题；而基于HSK类推扩充集统计高难度语料的词汇等级分布，不同级别之间相对熵有明显的提升，这说明类推工作对于原大纲的补足作用是明显的。

4 结语

本文利用知识工程的方法，迭代使用减字默认、组合默认等词汇等级类推规则，力争实现类推过程中隐性知识的显性化、分散知识的系统化，使得词汇等级类推的每一个环节都有章可循，有据可依，完成了基于新HSK大纲词汇等级的系统类推工作，并结合所构建的汉语词法知识库对类推结果进行了筛选。最后，通过对类推结果的统计分析，表明本文的研究工作可以更好地发挥新HSK词汇大纲在汉语词汇定级、文本难度分级中的指导作用，也可为其他领域教学词汇大纲的制定提供一定的借鉴。