APP下载

俗语语料库与语典编纂相关问题的思考

2011-08-07王海静

辞书研究 2011年4期
关键词:对牛弹琴惯用语歇后语

王海静

(山西省社会科学院语言研究所 太原 030006)

语料是辞书编纂的基础,语料库是辞书编纂重要的支撑平台和技术手段。合理运用语料库进行辞书编纂,是辞书编纂现代化发展的必然趋势。汉语俗语(包括谚语、歇后语、惯用语、俗成语),是历代群众创造并在口语中广泛流传的语言单位。它题材广泛,内容丰富,几乎涉及社会生活的各个方面,是人们世代集体经验和智慧的结晶,是中华民族文化的重要组成部分。编纂俗语语典不仅是对传统文化的一种继承和发扬,而且能够进一步促进汉语研究的深入发展。

研究俗语这种特殊的语言材料,编纂高质量的语典,更需要语料库的支持。由于俗语的特殊性,在建设语料库时,也需要我们特殊对待,以便同其他专业语料库区分开来。笔者曾在国家社科基金项目“汉语俗语语料的计算机处理与相关语言学问题研究”中承担“汉语俗语语料库”的开发研制工作,并承担完成了山西省社会科学院2008年度青年课题“基于计算机语料库的歇后语研究”任务,完成了“歇后语语料库模型”。现总结两个语料库的经验教训,对俗语语料库的建设及应用做一介绍。

一、利用数据库技术建立俗语语料库

(一)现代语料库的定义

现代意义上的语料库(即狭义的语料库)应具备以下特征:

(1)有明确的建库目的(学习、研究、编纂辞书等);

(2)按照一定标准收集的类型多样、真实自然的语言材料(口语或书面语);

(3)存储在计算机中,并能借助各种计算机技术对语料进行加工;

(4)具有多种功能、满足多种用途的语料集合。

用一句话来概括,现代意义上的语料库是指按一定目的和标准收集各种类型的真实语料,并利用计算机的存储、检索等技术手段对语料进行加工而建立起来的、满足多种用途的语料集合。语料也是一种特殊的数据,承载着一定的信息。新世纪,在科学技术飞速发展的强力推动下,计算机处理文字的能力愈来愈强,数据库技术已经发展得比较成熟,语料库的设计和实现完全可以借鉴数据库技术的发展成果。

(二)建库过程总述

总的来说,“汉语俗语语料库”、“歇后语语料库模型”的建设主要分三个阶段:收集整理语料——建立语料模型——编写应用程序软件。

收集整理语料,要有目的性,并有一定的标准,这是建立语料库的前提。语料的性质和特点,从一定程度上决定了语料库建设的类型和方法。语料信息是语料库的核心内容。建设俗语语料库时,以汉语语汇学理论为指导,根据俗语的性质和特点去甄别收集语料。首先界定什么是俗语;然后对俗语内部的歇后语、谚语、惯用语、俗成语进行区分;进而保证所收集的俗语全面而典型。

语料库中的语料应该如何存储,才能全面反映俗语语料的各种特性,显示出单个语料之间的联系,便于用户从中研究出各种规律,这就是语料模型的问题。语料模型是语料库系统运行的后台和基础,正如不同的数据模型具有不同的数据结构一样,对于不同的语料,应采用不同的语料模型。例如,英汉双语平行语料库和《四库全书》语料库中,对于语料的组织、存储等,就不能采用相同的处理方法。语料模型要根据语料的自身特征来确定,俗语语料库的建设,关键也在于抓住俗语语料的特点,进行分析,寻找最合适的语料构成方式,合理组织语料库的结构模型。

一条俗语语目,附带有语性、书证、例句等属性特征,完全可以采用二维表格的形式来描述。因此我们主要采用关系模型来组织俗语语料。关系模型是数学化的模型,一个表格代表一个关系,是一个集合,概念清晰,便于用户理解和使用。关系模型是一种成熟的数据模型,Visual FoxPro、Access等多种数据库软件都用其组织数据。另外,采用关系模型组织的语料很容易转化为XML数据格式,具有很大的通用性。

编写应用程序软件,是指根据需求有针对性地开发出各种功能(如排序、检索等),有效地实现人机互动,从庞大繁杂的语料库中抽取有用信息,使资源得以合理共享。“汉语俗语语料数据库”共有四种排序方式,实现了四种检索方式,并在每次检索完毕后,自动进行使用频率统计;“歇后语语料库模型”则在此基础上,根据歇后语的结构特点,增加了前语和后语分别排列、分别检索的功能,并实现了整个语料库程序的可移植性。

(三)俗语语料库的特点

目前国内建设的语料库主要包括英语语料库、汉语语料库和平行语料库。汉语语料库主要包括口语语料库、书面语语料库,书面语语料库主要为词汇研究服务,涉及新闻、文学等语体。我们建立的语料库,以“俗语”这种特殊的汉语材料为主要内容,必然有其自身的特点:

1.收集范围宽广

我们所建立的是俗语语料库,包括谚语、惯用语、歇后语、俗成语四类,语料来源涉及古今经典、通俗小说、口头文学等各方面。语料库中不仅收集了大量的不带例句的俗语语目,而且也收集了适量的带有例证的俗语。这种做法既有利于单纯的语目与带有例证的语目相互补充配合,又使得语料库的内容相对丰富和完整。

2.检索手段多样

检索功能是语料库最重要的组成部分。以“歇后语语料库模型”为例,总的来说,有三种检索手段:前语检索、后语检索和整条检索。这是根据歇后语的结构特征来设计的:“前语检索”是对歇后语破折号前的“引子”部分进行任意字检索;“后语检索”是对歇后语破折号后的“注释”部分进行任意字检索;“整条检索”是对歇后语语目进行任意字检索,包括谐音检索。几种检索方式可以搭配使用,检索完毕后,还会自动显示查找结果的频率统计。

例如,在语料库中检索“张飞”二字,前语检索结果为44条,反过来在后语中检索,则显示“没有匹配内容”。同样,检索“黄鼠狼”三字,前语检索结果为40条,反过来在后语中检索,也显示“没有匹配内容”。“张飞”是人民大众熟悉的历史文化人物,“黄鼠狼”也是人们熟悉的动物形象,他们只在前语中出现,而不出现在后语中,说明歇后语中“引子”具有形象色彩、感情色彩、风格色彩、身份色彩等,特别是形象色彩几乎贯穿于每条歇后语。

又如,在语料库中检索“不安好心”四字,就可以发现作为结论的“不安好心”,只在后语中出现,用来给前面的各种描述作“注释”。另外,除了人们所熟悉的“黄鼠狼给鸡拜年——不安好心”外,还有“野猫来给鸡拜年——不安好心”、“狐狸装猫叫——不安好心”两种说法,此时,即使前语不同,只要后语一样,就可以归为同义歇后语。

再如,在语料库中检索“对牛弹琴”四字,全部检索结果显示为8条匹配记录,“对牛弹琴”,可以既当前语,又作后语。其中,“对牛弹琴”四字,在前语中出现3次,在后语中出现5次。后语相同的5条歇后语为:“抱琵琶进磨房——对牛弹琴”、“抱着琵琶赶大车——对牛弹琴”、“抱着琵琶进磨房——对牛弹琴”、“抱着琵琶进牛棚——对牛弹琴”、“背着琵琶进磨房——对牛弹琴”,都可以归为同义歇后语。另外3条歇后语为:“对牛弹琴——充耳不闻”、“对牛弹琴——枉费心机”、“对牛弹琴——一窍不通”,虽然前语相同,但后语却截然不同,不能归为同义歇后语。

3.分类标注语性

“汉语俗语语料库”中的每条俗语按属性分类标注,分为谚语、歇后语、惯用语、俗成语四类。此外,针对歇后语构成上的特殊性,进一步标出其前后两部分的语性。通过检索排序等手段,可以发现大量语类交叉现象,帮助人们进一步划清语的界限,对于研究不同语类之间的转化,也有一定研究参考作用。

二、俗语语料库对语典编纂的作用

“汉语俗语语料库”、“歇后语语料库”除了能为语典编纂提供大量例句外,还有以下四方面的作用。

(一)提供多种排序方式

语汇类辞书要求语目按一定格式排列。语料库中语料采用多种排序方法:语目音序排列、笔画排列、书证出处排列、书证作者排列,后两者采用时代先后排列。具有相同、相似特征的语料排列在一起,便于编写人员在选择语目时,按需要导出大量资料,并且进行初步排序。

(二)根据使用频率选择主条

语言总是处在一种“变”的状态中,“语”也不可能没有变体,而且流通时间越长、流通范围越广,变体就越多。因此,在编纂语典时,编写者就需要在意义相近的多条语目中,选择通用的作为主条,选择由于地域、时间等因素造成的变体作为副条。表1就是以“情人眼”为检索关键字,通过“汉语俗语语料库”检索出的相关结果:

表1 “情人眼”检索结果

在检索出的25项结果中,“情人眼里出西施”出现了18次,其中古代作品中引用了7次,近现代作品中引用了9次;而“情人眼内出西施”、“情人眼里有西施”分别出现了4次、3次,在近现代作品中未出现。这个数据能够在一定程度上反映出“情人眼里出西施”是最通用的,可以作为主条,而其他两条则可以作为副条收录。由此可见,利用语料库的检索手段,特别是语料库的自动统计频率功能,可以迅速将同义或异形的语排在一起,显示出变体,并可以根据“语”出现的频率统计,确定主、副条。

(三)发现多义语目

俗语也存在一条语目包含多个义项的情况,使用语料库进行检索可以帮助避免义项遗漏。比如谚语:“闻名不如见面,见面胜似闻名”,其常用意义为:“听说一个人的名声,不如亲眼见到本人来得真切;见到了本人,比听说的名声更好。含褒义。旧时多作为见面时的客套话。”然而通过检索语料库,就可以看到如下两条例句:

①《水浒全传》四回:“那官人下马,入到里面,老儿请鲁提辖来,那官人扑翻身便拜道:`闻名不如见面,见面胜似闻名,义士提辖受礼。'”

②《后西游记》三二回:“闻名不如见面,见面胜似闻名。人人久传你孙大圣的名头,我只道你是他嫡派子孙,又传了金箍铁棒的道法,定然是个三头六臂的好汉,却怎生得这般尖嘴缩腮,猴子般的模样?”

例①所表达的是人们比较熟悉的意思,例②所表达的感情色彩则与例①完全相反,指听说的只是虚名,亲眼见到后才知不怎么样,含贬义。类似于这样排列在一起的例句,使编者可以一目了然地发现同一语目的多义性,做出完整、合理的注释。

(四)发现语类交叉

谚语、歇后语、惯用语、俗成语之间都或多或少地存在语类交叉的现象。如下例:

①康濯《东方红》一五章四:“他们下车以后,首先就碰到商业局……非要留住他们细细谈谈采购、运转当中的经验和问题!好老天!这不是叫他们鲁班门前耍大斧!”

②《红楼梦》一九回:“宝玉笑道:`再不说了。那原是那小时不知天高地厚,信口胡说,如今再不敢说了。'”

③ 刘绍棠《乡土》:“我说:`人家说这号生马难整,只有他敢挂,物缺为贵嘛!'`花脚王'一捋胡子:`鲁班门前抡斧,不知天高地厚。他挂掌刘的老爷爷是俺爷爷的徒弟,差辈呢!'”

例①“鲁班门前耍大斧”是惯用语,比喻在行家面前逞能卖弄。例②“不知天高地厚”也是惯用语,形容人不知道事情的艰难,自高自大。例③组成“鲁班门前抡斧——不知天高地厚”则为歇后语,形容人狂妄自大,过高估计了自己。一条歇后语包含了两个惯用语,三个例句语意各有差别。这种语类交叉的现象,通过语料库的特殊处理,能够清楚地表现出来,供编写者在编纂辞书时参考。

三、建立俗语语料库仍需解决的问题

(一)资料主要依靠人工搜集

在两个语料库的语料录入问题上,我们虽然采用了OCR扫描录入、光盘电子书复制录入、网上搜集等方法,但首先必须人工识别出大量语料中的俗语,挑选出来再进行录入工作。也就是说,目前还无法从大量连续的自然文本语料中,自动识别出哪些是俗语,再将有用信息提取出来。汉语中“语”的使用非常灵活,特别是歇后语在结构上的特殊性,使得它的自动切分和识别更加困难。例如:

①我可是个好强的人,什么事我都想得开,窗户纸儿,一戳就透。(浩然《艳阳天》四九章)

②“师兄!”桥隆飙道,“这是层窗户纸,一捅就破呀,你为什么不早捅开?”(曲波《桥隆飙》八)

③后来才知道他有个姓陈的女朋友,俩人的关系很好,只隔一层薄窗户纸——一捅就破,就是谁也不先开口。(李英儒《野火春风斗古城》五章二)

可以看到,“语”的结构并不像词那样固定,这三条同义歇后语,前后两部分可以分开运用,破折号可以换成逗号,语节之间还可以加入其他成分。其他语类的结构也存在不同程度的非固定性。因此,如何针对“语”的结构利用已有的词的自动切分成果,实现“语”的自动切分,是我们今后要解决的问题。

(二)语性主要靠人工标注

“汉语俗语语料库”和“歇后语语料库模型”的所有语性的标注都是人工进行的,这无疑增加了语料库建立的繁复性。而且目前国内对于俗语的定性分类还没有统一的标准,我们采用的是温端政先生《汉语语汇学》(商务印书馆,2005)一书中的分类标准。该分类标准主要将俗语分为四类:谚语、歇后语、惯用语、俗成语。其中,谚语是表述性的,惯用语是描述性的,歇后语则是引注式的,成语则是“二二相承”的四字格形式。请看下例:

①杨锦元《芹菜炒鱿鱼》:鱿鱼中含有钙、铁元素,对骨骼发育和造血十分有益,且含大量的牛磺酸,可抑制血中胆固醇含量。而芹菜有降压消脂的作用。芹菜炒鱿鱼是很好的降压搭配,不妨试试吧。

②王玉平等《中国的金领阶层》:“他很幸运地被聘为技术员,但他找不到事业的感觉。在最初的日子里,他竟连续炒了五个老板的鱿鱼。”

例①里的“炒鱿鱼”,是特指煎炒菜肴,属于词组。例②里的“炒鱿鱼”,就是比喻解雇或辞职,是惯用语。因为鱿鱼片本来是切得又平又直,一下油锅就自动卷成圆筒状,和卷起来的铺盖外形差不多,所以人们多用作比喻义“卷铺盖走人”。可见,即使实现了自动分语,计算机能够从大量的文本资料中提取出“语”的相关资料,对于这些定性及分类标准也是无法理解的,因此必须先建立起标准的机读语料库。如何设计编成完整精确的机读语料库,是需要进一步开发的大工程。

扩大、完善俗语语料库的工作,仍有很长的路要走。辞书编纂以语料库为基础,语料库要以语言学和计算机技术的发展为基础。因此,辞书编纂者最好既有语言学的理论功底,又有丰富的辞书编纂经验,同时还能够熟练地掌握计算机技术,具有一定的编程经验,这样才能不断完善语料库。好的语料库经过稍许的加工提炼,就可以作为辞书编纂的辅助平台,不仅能够帮助编纂者又好又快地编写出高质量的辞书,还能加快电子辞书的编制过程。

1.冯志伟.计算语言学基础.北京:商务印书馆,2001.

2.冯志伟.应用语言学综论.广州:广东教育出版社,2001.

3.李宝安.中文信息处理技术原理与应用.北京:清华大学出版社,2006.

4.刘开瑛.中文文本自动分词和标注.北京:商务印书馆,2000.

5.王馥芳.当代语言学与词典创新.上海:上海辞书出版社,2004.

6.温端政.汉语语汇学.北京:商务印书馆,2005.

7.俞士汶.计算语言学概论.北京:商务印书馆,2004.

8.张绍麒.辞书与数字化研究.上海:上海辞书出版社,2005.

9.章宜华.计算词典学与新型词典.上海:上海辞书出版社,2004.

10.Douglas Biber等.语料库语言学.北京:外语教学与研究出版社,2000.

猜你喜欢

对牛弹琴惯用语歇后语
Fun Idioms趣味惯用语
韩语固有惯用语的认知机制
对牛弹琴
对牛弹琴
大笨狗酷比多
——对牛弹琴
歇后语
歇后语大声读
歇后语大声读
歇后语大声读
对牛弹琴