APP下载

文学作品的语料库检索分析

2020-03-23周莹

现代交际 2020年4期
关键词:分析

周莹

摘要:语料库语言学的发展为文体分析开辟了一条新途径,为研究文学作品的语言风格和主题提供了详细的定量依据,并帮助读者更好地理解原著的思想。借助AntConc语料库工具,将LOB语料库作为参考语料库,利用形符(word tokens)、词频(word frequency)、关键词(keywords)、索引(concordance)等功能对小说《呼啸山庄》的叙事风格,故事情节、人物性格、语言特征等进行分析,为文学作品鉴赏提供新的解读视角。

关键词:呼啸山庄  AntConc LOB语料库

中图分类号:I712.074  文献标识码:A  文章编号:1009-5349(2020)04-0112-02

随着计算机技术的发展,语料库语言学成为一门新兴的学科,为文体分析开辟了一条新途径。语料库工具应用的范围也越来越广泛,如翻译研究、语法研究、文体学研究和词典开发等。将语料库工具应用于文学作品分析,为文学文本中的语言特征、主题等提供了新的解读途径。《呼啸山庄》作为艾米莉·勃朗特唯一的一部小说,受到国内外许多学者的关注。但是,大多数研究都来自学者个人的主观分析。相比之下,基于语料库的方法比传统的研究方法更具有客观性,并且可以更准确地分析出艾米莉·勃朗特是如何使用语言来揭示主题和描绘作品人物的。本文以LOB语料库作为参考语料库,通过AntConc工具中的形符(word tokens)、词频(word frequency)、关键词(keywords)和索引(concordance)等功能依次分析小说情节、主题、语言特征、人物性格等。

一、数据收集

1.观察语料库和参考语料库

根据Stubbs[1],参考语料库是比观察语料库大得多、且包含相同体裁文本的或者是大型混合的一般语料库。而英语本族语语料库使用的是LOB语料库。LOB语料库是由500个文本的英国英语构成,整个语料共有1123452形符(word tokens);因此选择LOB语料库作为参考语料库(reference corpus),选择《呼啸山庄》原版英文小说作为观察语料(observed corpus)。《呼啸山庄》的英文纯文本下载自https://www.gutenberg.org/ebooks/768[2]。

2.语料库工具

使用语料库软件AntConc 3.5.7从观察语料库和参考语料库中收集数据信息。这个工具是由日本早稻田大学的Laurence Anthon设计和开发的,是一款免费的语料库检索工具,主要功能包括索引工具(concordance)、词簇(Clusters)、搭配(Collocates)、词表(Word List)、关键词(Keyword List)等,被许多人广泛地应用于语料库语言学研究和数据驱动的学习。

二、数据分析与讨论

1.形符(word tokens)与类符(word types)比值分析

形符表示在语料库中出现的所有单词,而类符表示在语料库中的单词类型。借助AntConc工具,可以收集两个语料库中形符与类符的基本统计信息。观察语料库有119398个形符,而参考语料库有1123452个形符。下面是《呼啸山庄》与LOB语料库中的形符类符表1:

类符/形符比(Type/Token Ratio,简称TTR)指的是特定语料库中类符数和形符数的比率[3] ,它被称为词汇密度,能反映文本所使用词汇的丰富程度。TTR比值越大,说明该文本所使用的词汇量越多;反之则越少。表1中LOB语料库的TTR值是3.53,而《呼啸山庄》中TTR值是7.7。从两个语料库的TTR数值看,《呼啸山庄》的词汇丰富程度是大于LOB语料库的。然而,文本或语料库越大,那么其TTR就越小。因此,比较不同大小语料库的TTR值的意义不大。标准化类符/形符比(Sd. Type/Token Ratio)更适用于不同大小语料库的词汇量对比。到目前为止,AntConc还不包括该项功能,可借助wordsmith等语料库工具进一步分析。

2.词频分析(word frequency)

高频词汇的检索是运用语料库检索分析文学作品的主要方法之一。首先通过单词表(word list)工具对语料库中的所有单词计数,然后有序地列出语料库中最常用的单词。表2提取了《呼啸山庄》小说中出现频率最高的50个单词。

由表2可以看出,《呼啸山庄》小说频繁使用人称代词,高频词中的人称代词多达9个,其中,人称代词“ I(我)”是最常用的词,这表明《呼啸山庄》的故事是通过第一人称来叙述的。而且,人称代词“you(你)”的重复使用表明文本中发生了很多对话。另外,发现“he(他)”,“his(他的)”和“him(他)”的發生次数(共4485次)比“she(她)”和“her(她)的”的发生次数(共2889次)要高得多。同时,前50个高频词中也出现了“mr(先生)”一词(共312次)。由此可以看出,男性角色在这部小说中占有重要的地位。

表中另外一个突出的特点是,“Heathcliff”“Linton” “Catherine”等名字出现在前50常用词中。这意味着这部小说的故事很可能与出现的这些人名有关。此外,前50个高频词中包含5个动词:“was”排名第15,“be”排名第26,“is”排名第29,“said”排名第41,“were”排名第44。5个动词中有3个为过去时,且出现频率最高的是“was”,唯一的概念动词“said”也是过去式,这都表示小说中提到的大多数事物或故事都发生在过去。

3.关键词(key words)分析

在语料库语言学中,关键词是在文本或语料库中数据频率统计上显著出现的词。语料库软件将文本的单词列表与较大参考语料库的单词列表进行比较,识别出关键词。在文学作品中,主题词有助于分析作品中的基本信息及主要情节。使用AntConc工具将观察语料库(Wuthering Height)与参考语料库(LOB)进行比较,得出排名前15位的常见关键词,见表3。

从表3可以看出,“I”一词排在第一位,说明故事是第一人称来叙述的。在《呼啸山庄》中,Lockwood是整个故事的叙述者。他首先以第一人称的角度讲述了自己居住在呼啸山庄时的所见所闻。既是小说的叙事者,同时也是小说中的角色,但故事中发生的这些活动他是没有参与的。他只是一个观察者,客观而冷静地描述了过去和现在发生的事情。因此,Lockwood这个名字在小说中很少出现。

从关键词表中,还可以得出有关小说主题的一些信息。可以清楚地判断出《呼啸山庄》的主要角色。关键词前10中的出现人名是Heathcliff,Linton和Catherine,可以确定整部小说都是围绕这三个人物发展的。值得我们注意的还有关键词是“Master(主人)”。这本书讲述了三个主要角色之间的爱情以及Heathcliff的复仇故事。[4] Heathcliff重新回到呼啸山庄和画眉山庄,并最终成为这两个地方的主人,因此经常看到“Master”这个词。

4.索引(concordance)分析

索引功能可以帮助搜索特定的关键词并查看该关键词所在的上下文。通过这种方式,可以查看事情发生时的语境和作者描述人物的语言,从而使读者更好地理解作品。索引功能搜索关键词“Heathcliff”,可以清楚地看到他所在的上下文。搜索結果显示,与“Heathcliff”相关的大多数单词都是消极的,例如自私、暴力、恶魔等。Heathcliff离开家后,性格变得阴暗且狂野;他非常残酷,一心只想报仇。而通过索引功能显示出来的描述凯瑟琳的词主要分为两种:一种用于描述凯瑟琳的性格特征,例如野性、狂热。另一种则是用于描述凯瑟琳的生活状态,例如沉默、困惑、忧郁等。这两种类型的词充分体现了凯瑟琳的双重性格,她狂野且渴望荒原,又无法抗拒名利双收的诱惑;同时显示了凯瑟琳失去爱情并离开旷野后的沮丧状态。通过索引检索,小说人物性格特征变得格外清晰。

三、结语

语料库分析工具为分析文学作品提供了新途径。它为研究文学作品的语言风格和主题提供了详细的定量依据,并帮助读者更好地理解原著的思想。通过对大量数据进行定量分析,可以更直观、客观地解读文本。当然,文本检索有其自身的局限性。研究人员需要以多种方式去解释文本,以更好地理解作品。

参考文献:

[1]Stubbs, M. Text and Corpus Linguistics: Computer-Assisted Studies of Language and Culture [M].Cambridge: Blackwell Publishers, 2005.

[2] Bront?, E. Wuthering Heights[OL].http://www.gutenberg.org/etext/768,2007.

[3]杨惠中.语料库语言学导论[M].上海:上海外语教育出版社, 2002.

[4]杨璐,西斯克利夫与凯瑟琳的爱恨情仇[J].世界文学评论,2010(2):87-91.

责任编辑:孙瑶

猜你喜欢

分析
导数考向分析
民航甚高频通信同频复用干扰分析
分析:是谁要过节
一道解析几何题的分析与探究
回头潮
一个递推数列问题的类化分析
万有引力易错题分析
三角恒等变换常考点分析
基于均衡分析的我国房地产泡沫度分析