APP下载

《活着》的语料库检索分析

2018-04-20赵慧

文教资料 2018年35期
关键词:语料库

赵慧

摘    要: 本文利用语料库检索软件Antconc,对余华长篇小说《活着》从主题、故事情节和人物形象塑造等方面进行了较为深入的分析。首先,利用Antconc的主题词功能提取出小说主题词并进行归类,结果发现主人公“福贵”的人生由四位重要人物填充。然后,利用该软件的索引功能,对主要角色“我”(主人公“福贵”)进行检索,对检索内容进行统计分析后,得出了主人公“福贵”的人生经历和性格特点。

关键词: Antconc    语料库    《活着》

1.引言

《活着》是著名作家余华在1992年创作的一部长篇小说,讲述了福贵这一小人物在建国前至70年代末,这三十年的时代浪潮中命运的跌宕起伏,并通过主人公一生的生存状态告诉世人活着的自为性和终极性。该作品同余华的另一部作品《许三观卖血记》同时入选百位批评家和文学编辑评选的“九十年代最有影响力的十部作品”,余华也凭借这部作品于2004年荣获法兰西文学和艺术骑士勋章。《活着》在余华文学创作历程中具有重要的分水岭意义,是作者放弃先锋探索重返写实之路的乡土力作。

本文采用基于语料库的研究方法,以《活着》为研究对象,首先利用语料库检索软件Antconc的主题词功能提取出主题词并进行归类,分析小说的主题和作者的写作风格;然后利用软件的索引功能对主人公“我”进行检索,对节点词“我”的搭配词进行统计分析,深入探讨主人公的人生阅历和人物形象特点。本研究的目的在于,通过语料库方法对余华作品《活着》进行量化分析和定性研究,挖掘前人在传统研究方法指导下尚未发现的文本意义,为语料库在揭示中国文学作品显性和隐性内容方面具有可能性和有效性提供强有力的支撑。

2.研究背景

余华是当代杰出的文学创作家,相对于其他作家来说,他具有更加独特新颖的想法。其作品以纯净细密的叙述,打破日常的语言秩序;其创作视角打破常规的固定思维,颠覆了人们对叙事类小说的印象,建构起一个又一个奇异、怪诞、隐秘和残忍的独立于外部世界的文本世界,实现了文本的真实。余华的作品在中国文学史上占据着不可取代的重要地位,已有不少文章对余华的作品进行分析探讨,尤其是为他带来殊荣的《活着》。这些研究涉及《活着》的主题意义、叙事视角、角色剖析、悲剧美学、语言风格等各个方面。然而,至今还未发现基于语料库对该作品的研究分析。

从20世纪80年代开始,将语料库分析工具运用到文学作品中的研究逐渐升温。语料库语言学以真实语言使用中的语言事实为基本依据,凭借现代计算机技术,采用数据驱动的实证主义研究方法,以其各种功能強大的语料库索引软件为手段,以文学语言和文学结构为研究对象,通过用词分布分析、文体特征分析、情节分析等计算机统计分析技术,拓展传统的文学研究,在提炼文学修辞、文学意象、文学叙事的规则,考察作者的写作风格,甚至鉴别作品的真实作者等方面具有优越性,为文学研究和欣赏提供了一个全新的视角。

而最近十几年,语料库语言学和文体学的逐渐融合催生了另一种新的研究范式——语料库文体学。语料库文体学的形成标志是2006年Martin Wynee在The Corpus Approaches to the Language of Literature研讨会上发表的报告,界定了这种问题分析方法研究的对象是文学语言的研究。

语料库文体学成为一门独立的学科至今已有12年的时间,在这十几年间,该学科的研究热度逐渐升温,除了综述性文章(程萌,2014),更多的学者选择以具体的文学作品为研究对象进行实证性研究。最早进行文本分析的是国外学者,最具代表性的是Tabata和Mahlberg二人以Dickens的23部作品作为语料库进行了文体学分析。后来,国内的一些学者也逐渐对问题分析产生兴趣,利用Wordsmith Tools、Antconc等分析软件对《马贩的女儿》(谢少华)、《喧哗与骚动》(吴锦玉)、《傲慢与偏见》(张冰)、《蝴蝶梦》(刘洋)等外国文学作品进行问题研究。由于语料库检索软件大都是由西方学者开发并适用于英美文学研究以及中文自身的特殊性,目前国内的语料库文体学研究大都集中于对国外文本的分析,本文检索到的以中文作品为研究对象进行文体分析的文章只有三篇(陈婵、程乐,2014;杨松梅、任培红,2015;徐丽雯,2017)。为了弥补语料库文体学对于中文文本分析的不足,本文以《活着》为研究对象,先对其txt文本进行预处理,利用NLPIR软件对文本进行分词,然后再利用语料库检索软件Antconc对分词后的文本进行主题词分析和关键词检索。

3.基于语料库检索的《活着》的分析

3.1高频词检索

将分词之后的文本放入Antconc软件中,运用词表功能“Word List”对《活着》文本中出现频率在前30的词进行检索,并制成高频词统计表(见表1)。发现词频最高的是第一人称代词“我”,由此可以为读者提供《活着》的叙述手段是第一人称叙述的信息,而事实的确是主人公福贵以第一人称的口吻在讲述自己的人生经历。最常见的动词是“说”,由此可见文中含有大量的对话过程。“到”“去”“走”等表示位移的动词出现频率也较高,说明小说以移动式视角给读者展现一幅动态的人生画卷。此外,除去一些常见的虚词“的”“也”“就”以及常用的代词“这”“他”“她”等,小说中最常出现的名词是“家珍”“凤霞”和“有庆”,由此可见这四个人在福贵的人生中占据着重要地位。如表1所示:

表1    《活着》词频前30的词语统计表

3.2索引定位分析

在检索出高频词之后,可以通过Antconc的索引定位“Concordance Plot”功能,对文中高频词出现的位置进行检索定位,从而得到被检索词《活着》中的情节分布图。例如,对出现频率最高的“我”进行检索,可得到如下图示:

图1    “我”在小说《活着》中的情节分布图

从“我”的情节分布图来看,“我”在文中频繁出现,贯穿文章始终。这不仅仅是因为“我”作为人称代词,所以使用频率高,更是因为“我”在大部分情况下是指称小说主人公“福贵”,而以第一人称的口吻叙述又是本文的叙事视角。

“家珍”是小说中出现频率第二高的人名,该词的情节分布图如下:

图2    “家珍”在小说《活着》中的情节分布图

從“家珍”的情节分布图可以看出,主要人物“家珍”的出现同样贯穿了小说始终。由此可见,“家珍”是福贵生命中最为重要的人,在福贵生命故事中扮演着重要角色。

3.3主题和情节检索

通过提取和分析文学作品中具有超常频率的词或词组,可以确定文本的主题词和表达该主题的词集。主题词的提取原理是通过对比一个连续的整篇文本和一个更大的参照语料库,把文本中词频具有显著差异的词语提取出来,生成一个主题词表。因此,统计主题词需要建立两个语料库,一是观察语料库,二是参照语料库。本文的观察语料库即研究对象《活着》,总字数为12万左右;参照语料库是由余华的另外两部长篇小说《在细雨中呼喊》和《许三观卖血记》构建的语料库,总字数为228,058。具体内容如表2所示:

表2    语料库明细

选择《在细雨中呼喊》和《许三观卖血记》为本文的参照语料库的原因如下:

(1)《在细雨中呼喊》和《许三观卖血记》是余华的重要代表作品,可以很好地反映余华的写作风格;

(2)《活着》《在细雨中呼喊》以及《许三观卖血记》被称为是“余华的三部曲”(程光炜,2018);《在细雨中呼喊》创作于1991年,写作者的“心灵自传”;《活着》创作于1992年,写福贵生存之艰难;《许三观卖血记》创作于1995年,写底层人的耻辱。通过分析这三部作品,我们可以知道余华写作手法的发展历程。

(3)基于《在细雨中呼喊》《许三观卖血记》和《活着》的特殊关系,以这两部作品作为参照语料库在对比《活着》与余华其他作品在小说主题、故事情节、人物形象塑造等方面的异同具有重要作用。

建好相应的语料库之后,我们着手对语料进行分析,利用Antconc的Key word List功能,生成《活着》的主题词表。本文对主题词表中的主题词进行聚类,其中将“我”既归入称谓词类,又归入人物角色类,具体见表3:

表3    分类后的《活着》主题词表

通过对主题词表进行分析,我们大致可以得出如下结论:

(1)从人物角色一栏来看,“家珍”“凤霞”“有庆”“二喜”“苦根”是出现频率和关键值最高的几个词,而这几位人物角色恰恰是福贵生命中最重要的人,这和《活着》主要讲述的是福贵和和他的亲人们的故事情节相一致。

(2)从称谓词中可以看出,一方面,小说触及到了福贵其他亲人的生活;另一方面,可以看出故事发生的年代,人们之间的称呼词汇。

(3)从“牛”“羊”“亩”“田里”等词可以分析出福贵的生活环境在农村。他之前是高高在上的地主少爷,后来解放战争后,自己从事农业生产。

(4)从“佃户”“红卫兵”“人民公社”等词,可以判断出福贵生活的年代在国民党统治末期到新中国成立前期这一阶段。这部小说的创作背景跨越了解放战争前夕、内战、土地改革、“三反五反”、“大跃进”、“文化大革命”等新中国成立前期重大历史节点,其中“佃户”是解放战争前夕,小农经济还没有瓦解的状态下所使用的词汇,被地主雇佣干活的的劳动者即佃户;“红卫兵”是文化大革命中的专有词汇,是文革期间一个特殊的政治团体;“人民公社”“工分”是人民公社化运动时的产物。

(5)在主题词表中,我们还可以分析出福贵除了农事之外,还有其他的社会活动。对“赌”“输”等词进行索引定位分析,可以得出福贵早期有赌博的不良嗜好。对“坑道”“子弹”“俘虏”等词进行检索,发现这些词主要集中在小说的前半部分,位于“赌”之后的位置,说明福贵早期还有一段当兵的经历。

3.4对主要人物“我”的检索

利用Antconc中的Concordance功能,可以穷尽列举出所有人物出现时的上下文,借此可以检索出对某一人物角色的所有描摹,这非常有利于研究者进行角色性格和小说人物塑造技巧的分析。由于“我”在文中不仅仅指“福贵”,还是一个比较常见的人称代词,在对话中难免会出现指称者非“福贵”的情况,所以需要先对检索情况进行筛选,并将筛选后的结果进行分类统计,分别为:(1)福贵的交际圈;(2)福贵的社会活动;(3)福贵的心理状态。结果如表4所示:

表4    有关“我”(指代福贵)的检索结果分析

从上表可以看出,“福贵”的主要交际圈是他的亲人们:妻子家珍、女儿凤霞、儿子有庆、女婿二喜和外孙苦根。这些人相继来到福贵的人生中,陪伴着福贵走过了不同的阶段,分别在福贵的人生轨迹中留下了印记。然而他又一个个送他们离开,最终没有一个人可以陪福贵活到最后。例句如下:

(1)那时候,我儿子有庆还没出来,我女儿凤霞刚好四岁。家珍怀着有庆有六个月了,自然有些难看。

(2)二喜对我和家珍说:“爹!娘!我把凤霞娶走啦!”

(3)孩子生下来就没有了娘,就叫他“苦根”吧。

(4)老人又吆喝起来:“二喜有庆不要偷懒!家珍凤霞耕得好,苦根也行啊!”

从福贵的动作描写词中,我们可以看出福贵在从一个阔绰少爷沦落为一个贫穷农民这一过程中的转变。身份尊贵时,他吃喝玩乐无所不好,极度挥霍,荒淫无度,从不考虑后果。

(5)那妓女嘟嘟哝哝背着我往城门走,说什么雷公不打睡觉,人才睡下就被我叫醒,说我心肠黑。我把一个银元往她胸口灌进去,就把她的嘴堵上了。

(6)我赌博时也在青楼,常玩的是麻将牌九和骰子。我每赌必输,越输我越想把我爹年轻时输掉的一百多亩地赢回来。

(7)刚开始输了,我当场给钱。没钱就去偷我娘和家珍的手饰,连我女儿凤霞的金项圈也偷了去。

年轻时,过惯了有钱人生活的福贵逛青楼、好赌博,最后把家产给败光了。但在经受贫穷的磨炼之后,他懂得了生活的不易,过得格外节俭。连给儿子买五颗糖,都属于额外支出。

(8)这天我进城賣柴,卖完了,我花五分钱给有庆买了五颗糖,这是我这个做爹的第一次给儿子买东西。

二喜迎娶凤霞时的排场,在他看来已经是很奢侈了。

(9)他们的口袋都鼓鼓的,见到村里年轻的女人和孩子就把口袋里的糖果往他们身上扔。这样大手大脚把我都看呆了,心想扔掉的都是钱啊。

从表现福贵心理状态词的描写,可以分析出福贵从最初的厚颜无耻,不知悔改,到钱财散尽,一无所有,再到过惯了贫穷的日子,亲人离散之时内心情感的转换。

(10)我对她又打又踢,我怎么打她,她就是跪着不起来,打到最后连我自己都觉得没趣了。家珍头发披散,眼泪汪汪地捂着脸。

(11)我一个人往家里走去,走走哭哭,哭哭走走,想想自己才挑了一天的钱就累得人都要散架了,祖辈挣下这些钱不知要累死多少人。

(12)家珍是城里小姐,出身细皮嫩肉的,看着她干粗活,我自然心疼家珍。

从表面上看,福贵是一个悲剧人物,他有一个悲惨的人生,生活落魄,亲人遭受不幸而相继离去,孤苦伶仃。但正如文中所说“热爱人生的人,是敢于将生活的苦酒一饮而尽的人”,这正体现出福贵虽然处于社会最底层,在无奈中承受生命的沉重,在不可改变的现实状态中妥协,但是他仍然是一个热爱人生的人。即使在历经苦难,他也没有想过轻易放弃自己的生命,反而认为活着就是最大的财富。这是当时人们在困境中的真实反映,这样的坚忍足以让人震惊于生命的伟大。

4.结语

不可否认,想要真正领会一篇文学文本的内涵,需要深入阅读文本,了解作者的时代背景,对文本进行深刻的剖析。而语料库检索软件的出现,语料库文体学的兴起,为文学分析的研究提供了便利,使得短时间内了解小说的主题、主要人物、情节发展、叙事脉络、叙述视角成为可能,并为小说的进一步分析提供了客观的语言证据。

Antconc简单便捷的操作和强大的检索功能,让越来越多的文学作品分析成为可能。但是目前研究的局限于外国作品分析,对于中国文学作品的分析仍是空白。本文利用语料库检索软件Antconc,从高频词检索、索引定位分析、主题词和情节检索以及主要人物分析等方面,对余华作品《活着》进行较为深入的研究,得出了小说的主要故事情节、主人公“福贵”的人生经历及性格,并为基于语料库的研究方法在揭示中国文学作品显性和隐性内容方面具有可能性和有效性提供了支持。

综上所述,语料库检索可以成为研究中国文学作品行之有效的方法和工具。基于语料库的研究方法不仅可以为传统的文学评论提供可视的数据手段,揭示隐性的深层次的文本意义,从而帮助读者更好地理解小说的主题、情节和人物形象。但是我们也要承认它过度依赖语言学形式和统计,导致文学作品分析具有模式化的缺陷。我们在利用检索软件进行分析时,要注意主观分析和客观数据的平衡。

参考文献:

[1]陈婵,程乐.莫言作品《蛙》的语料库检索分析[J].浙江工商大学学报,2014(5).

[2]刘洋.基于语料库检索分析《蝴蝶梦》[J].才智,2016.

[3]张海云,谢群芳.基于语料库的文学作品检索分析——以越南中篇小说《至飘》为例[J].解放军外国语学院学报,2010(3).

[4]张冰.基于语料库的《傲慢与偏见》检索分析[J].湖北科技学院学报,2014(1).

[5]吴锦玉.《喧哗与骚动》的语料库检索分析[J].鄂州大学学报,2014(12).

[6]谢少华,刘叶.《马贩的女儿》的语料库检索分析[J].北京化工大学学报,2014(4).

[7]徐丽雯.巴金长篇小说《家》的语料库检索分析[J].海外英语,2017(22).

[8]程光炜.论余华的三部曲——《在细雨中呼喊》《活着》《许三观卖血记》[J].中国现代文学研究丛刊,2018(7).

[9]曾昭群.试论余华小说《活着》中的人物形象和艺术特点[J].中国培训,2017.

[10]杨松梅,任培红.《京华烟云》的语料库检索分析[J].长江大学学报,2015(9).

[11]王梦迪.《活着》人物形象分析[J].西部皮革,2016(4).

[12]张爱萍.余华《活着》的叙事结构与美学特征研究[J].兰州教育学院学报,2018(3).

[13]翟星宇.论《许三观卖血记》的叙事艺术[J].呼伦贝尔学院学报,2018(1).

[14]丁金国.基于语料库的语体风格学研究——兼论量化与质化的关系[J].烟台大学学报,2009(4).

[15]林静声.从先锋的幻影走入“民间”的本真——论余华《活着》《许三观卖血记》中的父亲形象[J].江苏师范大学学报,2018(1).

[16]程萌.2002—2014年基于语料库的文学研究综述[J].山东广播电视大学学报,2015(2).

猜你喜欢

语料库
《语料库翻译文体学》评介
基于语料库的“はずだ”语义用法分析
基于语料库“隐秘”的词类标注初步探究
基于COCA语料库的近义词辨析 ——以choose和select为例
基于JAVAEE的维吾尔中介语语料库开发与实现
语篇元功能的语料库支撑范式介入
基于英汉双语平行语料库的无根回译研究
基于语料库的近义词辨析研究——以suspect和doubt为例
低碳经济英语语料库建设与应用
基于网络语料库的“给力”研究