APP下载

基于COCA语料库对Indict的英语近义词辨析

2019-09-19熊焕力

长春教育学院学报 2019年8期
关键词:语域近义词词频

熊焕力

自Sinclair提出“由词之结伴而知词”的概念以来,对于词汇的相关语言学研究蓬勃发展。在英语词汇中,近义词占据着很大的比重,近义词辨析对于理解内容、厘清概念和逻辑有着重要的作用,也是英语教学的重点。学生对近义词的掌握总是不尽如人意,而事实上,教师在教学中对近义词的把握也并非总是成竹在胸,所以常常成为教学中的难点。目前,常规英语教学中对近义词一般从语法、语义两个维度比较异同,方法本身并无不妥,但这样的处理往往依赖教师个人的教学经验甚至个人感受,或是查阅词典之后的个人总结,缺乏大量真实语境提供数据支持。语料库语言学的兴起以大量真实语境为基础,为近义词的总结归纳提供大量真实数据支撑的结论。

本研究中,笔者选取了indict表示“控告”之意的动词用法作为研究对象。使用COCA语料库的在线检索软件,首先以词频作为基础标准,选取indict的一组近义动词。它们都有“控告”之意,所以日常很难区分它们的动词用法。然后,本文将在COCA语料库中进行检索,统计这一组近义词在共时的不同语域中的词频分布以及历时的使用频率,以期发现indict及其近义词在不同语域中的出现规律以及历时的使用频率变化。并期望以此作为利用语料库工具进行近义词辨析的一个实例,尝试初步展示语料库在近义词辨析方面的作用。

一、基于COCA语料库的近义词辨析方法

本文以COCA语料库(the Corpus of Contemporary American English美国当代英语语料库)为基础,试图研究以下问题:indict及其近义词在共时的不同语域中,以及在历时的使用频率上有何异同以及变化?

COCA语料库目前的库容量为5.2亿词汇,是当今最大的英语平衡语料库,覆盖了美国1990年至2015年间的各种类型语料,并还在持续更新中。COCA规模庞大,持续更新且更新速度较快,并配有词性标注。同时,该语料库有五大子库,所选语料来自美国口语、小说、各大流行报纸、杂志以及学术期刊五大类,在这五大子库中基本呈现出均衡分布的特征。(汪兴富,2008)这些特征都使得基于该语料库的相关研究有着较为客观可信的数据基础。

采用COCA的在线检索工具提取关于indict用法的索引行,然后对其进行观察、描述和分析,研究其频数、类联接以及分布语域,以得出最后的研究结论。

二、基于COCA语料库的indict近义词对比分析

以语料库为基础所进行的近义词辨析,以大量真实语料所提供的分析为基础,再通过定量分析统计的方式最终得出定性结论,这样的方式将定性分析与定量分析相结合,得出的结论较之传统的简单定性的研究方法更为真实可靠。COCA语料库不仅语料庞大,其配套的在线检索功能也十分强大,支持复合表达式,可查询任一指定词汇的近义词、频数和分布语域。本研究以“indict”为中心词,在COCA在线检索界面输入[=indict].[v*]的表达式,检索indict的动词近义词,结果如表1所示。

表1 Indict的近义词统计表

基于表1提取索引行进行分析,发现其中summon与indict的主要意义相去较远。因此,本文将分析indict及其5个近义词在本族语语料库中的语域词频分布和搭配词语,通过观察检索行所呈现的近义词搭配特征,发现它们的类联接、搭配特征、语义韵和语义偏好等语言特征。

在近义词辨析方面,对其语域分布信息进行统计往往有助于从实际应用的层面,即语用层面区分开来,使学习者能够更加准确地辨析近义词在实际语用层面的异同。(张金福,2012)笔者就indict、charge、accuse、prosecute、impeach、arraign这组样本近义词进行分析。

表2 Indict及其近义词在COCA语料库中不同语域的词频分布统计表

由表2可以知,indict一共在COCA中出现了805次,每百万词的标准词频为1.51,在这一组近义词中,出现的标准频次位列第四;charge是出现标准频次最高的一个,共7698次,每百万词的标准词频为14.42;其次是accuse,出现频次为2473,标准频次为4.63;impeach的总频次为525,标准频次为0.98,在这一组近义词中排名第五;最后是arraign,出现总频次仅为9,标准频次为0.02。对总频次数据进行初步分析,这组近义词中,最常用的是charge,标准频次为14.42,是accuse标准频次的三倍多;accuse和prosecute的总频数和标准频次都非常接近;而indict出现的总频数是525,标准频次为0.98,大幅低于排名第二第三的两个单词;arraign出现的频次非常低,在5亿词次的COCA语料库中仅仅出现9次。

观察这组词在COCA语料库中各子库的分布和频次可以发现,charge标准频次出现最高的为 Newspaper子 库(21.75)及 Magazine子 库(18.60),其次是Spoken子库(15.81),分布频次最低的是Academic子库,标准频次为5.73,约为Newspaper子库中标准频次的1/4;accuse出现标准频次最高的是Spoken子库,为6.84,在其他子库中的出现频次都几乎不超过spoken库的一半;prosecute也是在Spoken子库中出现频次最高,明显高于其他子库,在Fiction子库中最低;indict也同样是在Spoken子库中出现频次最高,远远高于其他子库;其余词出现频率过低,可以忽略。

由此可以看出,这一组近义词中,charge最为常用,大幅多于其他词,并且charge多出现在新闻类的材料中,同时在口语中也被广泛使用,很少出现在学术类的材料中;accuse和prosecute接近,虽然使用频率显著大幅低于charge,但这两个词都属于这组词中较为常用的词,而且大多出现在口语当中,其中prosecute很少在小说类文学作品中使用;indict的总体使用频率也不高,常见于口语当中。

另外,COCA中使用chart功能还可以得到所查询表达的历时分布情况,这组近义词的历时分布情况如下:

从表3可以看出,总体上indict在每5年度期间的使用频率变化不大,不过总体来说,从1995-1999年,indict的使用频率比其他时间段都高。另外,这一组近义词的纵向词频中普遍变化不大,除了indict外,impeach也在1995-1999年间有较大幅度词频上升。横向上看,这一组近义词中charge一直是显著高频出现,大幅高于其他近义词;accuse和prosecute次之,出现频率也比较高;arraign出现频率一直很低,几乎可以忽略。

表3 indict及其近义词的历时分布词频统计

三、结论及启示

计算机技术的飞速发展为人民从海量真实语料中总结规律提供了可能性。本文通过使用COCA(美国当代英语语料库)对indict及其近义动词进行了词频、语域分布、搭配、类联接等方面的研究分析。根据本研究可以得出以下结论:第一,这一组近义词中,charge是最为常用的,大幅多于其他词,并且charge多出现在新闻类的材料中,同时在口语中也被广泛使用,很少出现在学术类的材料中;第二,accuse和prosecute虽然使用频率显著低于charge,不及其一半,但这两个词都是属于这组词中较为常用的词,并且大多出现在口语当中,prosecute很少在小说类文学作品中使用;第三,indict的总体使用频率也不高,常见于口语当中;第四,这一组词在纵向上的词频大多比较稳定,只有1995-1999年间,indict和impeach的使用突然出现显著上升。

本研究尝试以这一组近义词辨析为例,展示语料库的优势,说明语料库的参与给近义词辨析乃至英语教学带来全新的方式,应该鼓励英语教学者和学习者运用语料库,从大量具体真实的语料中获得第一手信息,更好地学习、认识和掌握语言点。

猜你喜欢

语域近义词词频
怎样辨析近义词
找找近义词
25年来中国修辞研究的关键词词频统计*——基于国家社科与教育部社科课题立项数据
词频,一部隐秘的历史
以关键词词频法透视《大学图书馆学报》学术研究特色
汉语音节累积词频对同音字听觉词汇表征的激活作用*
浅析语域的特性及教学模式探讨
系统功能语言学语域思想新解*
语域语块与外贸英语教学
利用语域预测功能突破听力语言焦虑