APP下载

菲茨杰拉德作品一致性的潜在语义分析

2013-09-05刘海燕尹晓虎

统计与信息论坛 2013年1期
关键词:菲茨杰拉德测度相似性

刘海燕,尹晓虎

(1.南京信息工程大学 语言文化学院,江苏 南京 210044;2.72465部队,山东 济南 250022)

一、引 言

美学价值和审美观因时因人而异,有关菲茨杰拉德评论的研究便印证了这一点。尽管现在菲茨杰拉德被誉为“爵士时代的桂冠诗人”,然而他在生前并未获得如此崇高的文学地位,并且评论家们对于他的作品,尤其是他的长篇小说,一直充满了争议。例如,Miller便认为《了不起的盖茨比(The Great Gatsby)》是菲茨杰拉德创作生涯的顶点,而《夜色温柔(Tender is The Night)》和《最后的大亨(The Last Tycoon)》则是华丽的失败,因为后两部作品再也不能实现《了不起的盖茨比》所达到的艺术水准[1]293-296;Edward Weeks也曾经认为在《人间天堂(This Side of Paradise)》和《夜色温柔》之间找不出任何不同[2]1-10。同时,也有评论家对此存在不同看法,评论家Seldes认为《夜色温柔》是菲茨杰拉德作家生涯中最伟大的小说;Malcolm Cowley甚至曾经将这部作品中的事件按照时间顺序重新排序,试图推翻以往评论家们都认为的《夜色温柔》在结构上是断裂的和松散的这一论断[2]1-10。

文学批评应该回归到文本文学成就的研究,但迄今为止关于菲茨杰拉德作品的评论几乎都与其生平和传记有关,这些定性的评论并不能提供有力的证据以支撑对菲茨杰拉德作品优劣的比较和评判。从结构上看,文本表现为语段和按照句法定义的单元(从句、句子)序列,同时也是一个统一的整体,完整、一致、情感、信息、人本、分段、时空统一等是文学文本最重要的概念[3]。有意义的优秀的英语文本必然是一致的、有条理的和连贯的,“在一致的文本中,意义是清晰的,文本的各个段落形成了统一的整体”[4]。文本具有较高的一致性被认为是写作上取得成功的一个重要指标,一致性高的作品更容易被阅读和理解[5]。

Halliday和Hasan是最早研究一致性的学者,他们认为文本不是形式的整体,而是语义和逻辑的整体[6]。Harker认为一致性是文本的一种表象性质,它描述文本中的结构和相互关系,通过这种结构和 关 系 建 立 表 面 上 的 统 一 性[7];Hwang 和Merrifield则认为一致性是文学文本的一个固有属性,它描述了文本不同要素之间的关系,取决于作者表达其意图的方式[8]189-210;Leech和 Short将文本一致性分为交叉所指(如使用代词)和联系,联系包括句子之间的逻辑或其他联系,包括意义的隐含联系[9]250-251;Tyrkkō提出一致性是对文学文本质量的一种评价,包括语法一致性和词汇一致性[10]。语法一致性是指文本而不是单词的堆砌、句子的罗列,文本意义的标准是不仅句子及其序列有意义,而且它们要有明确的所指;词汇一致性就是文本中词汇项的意义之间的关系。

由此可见,学者们对于一致性概念和内涵的认识还不尽统一,亟需建立能够自动处理文本和计算文本一致性的方法及工具。近年来,心理语言学、语料库语言学和计算语言学的最新发展,已经建立了能够在不同维度上分析文本的复杂计算机工具,特别是已经有能够自动处理大型词汇索引、语法解析、语义分析、论文评分、摘要评论等的算法和程序[11]。基于这些最新成果,有研究提出:文本的一致性可以通过考察文本不同单元所描述语义信息的相关程度进行测度,而文本内部相关程度的评估则可以采用潜在语义分析方法[12]107-122。

因此,可以利用潜在语义分析方法来计算文本的一致性测度,这为定量比较和判别菲茨杰拉德不同作品在写作上的优劣和差异提供了一种可行的思路。以下通过计算菲茨杰拉德的四部小说《人间天堂》、《漂亮冤家(The Beautiful and Damned)》、《了不起的盖茨比》和《夜色温柔》的一致性测度,首次对这些作品从语义角度进行一致性的定量比较,以检验上述作品现有的定性评论。

二、小说文本的向量空间模型与潜在语义分析

潜在语义分析是一种用于提取和推断语篇中单词使用语境之间关系的完全自动的数学/统计技术,其基本思想是假设在单词及其语境之间存在着潜在的依赖关系,并且这种关系可以用其中若干变量构成的语义空间来表示,它的主要功能是通过比较文本的向量表示从而计算文本之间的相似性,这一相对简单的相似性标准源于文本意义的心理学理论,并且已经在许多文本分析任务中取得了与人类分析结论相一致的结果[13]。因此,作品的意义可通过探讨单词与其上下文之间的关系来理解[14]。

潜在语义分析的基础是文本的向量空间模型,文本的意义是文本中所出现的所有单词意义的平均,并可采用矩阵的形式表示。矩阵中的行代表不同的单词,每一列表示一个文本章节或其他语境,行和列对应的元素表示行所代表的单词在列所代表的语境中出现的次数[15]。

具体而言,如果以小说的章节来划分文本语境,假设在包含D个章节的小说中共有T个类符,类符i∈(1,2,…,T)在章节j∈(1,2,…,D)中出现的次数用频率fij表示,这些频率构成了类符章节矩阵F,该矩阵即为小说文本的向量空间表示;F的每一列表示小说中的一个章节;类符i在章节j中的相对重要性用ωij表示,ωij的值是fij和单词统计测度重要性的函数。基于对类符章节矩阵F或类符权重矩阵W=(ωij)的奇异值分解,即可进行文本潜在语义分析。

三、基于潜在语义分析的作品一致性测度及其计算

本文分析的并非是矩阵F,而是类符权重矩阵W=(ωij)。ωij通常被定义为ωij=lijgi,其中gi是反映类符i的整体价值的全局权重,例如可以是类符出现的章节个数的倒数;lij是反映类符i在章节j中重要性的局部权重,例如类符频率的对数。在本文的分析中,全局权重采用了逆章节频率,而局部权重则采用了类符的对数频率,其中类符i的全局逆章节频率权重定义为gi=ln(D/dfi),dfi是类符i的章节频率,定义为dfi=dij,dij为1表示类符i在文本j中出现,否则为0;类符i的局部对数频率权重定义为lij=ln (fij+1)。

为了测度小说文本的一致性,笔者考察了小说章节之间的相似性,并定义了小说的章节相似性矩阵S。对于由D个章节构成的小说,其章节相似性矩阵S为D×D的对称矩阵。矩阵S中的元素sjk表示章节j与章节k之间所表达意义的相似程度,这一相似程度可以利用类符在这两个章节中的权重向量的余弦函数来计算,即:

根据上述定义,利用笔者的计算结果[16],即可计算菲茨杰拉德小说的章节相似性矩阵。下面以包含了9个章节的《了不起的盖茨比》为例,其章节相似性矩阵S的计算结果为:

利用章节相似性矩阵S的一些性质,可对小说文本的一致性进行分析和比较,其理论基础如下:

定义1[17]446-450矩阵被称为正矩阵,是指该矩阵的元素都是非负的且该矩阵不是零矩阵。若该矩阵的所有元素都为正,则称该矩阵为严格正矩阵。

定义2[17]446-450n(n≥2)阶的矩阵A= (aik)被称为不可约的,是指对于集合 {1,2,…,n} 的任意非空子集P,总存在k∈P和jP,使得ajk≠0。

定理1[17]446-450非负矩阵A是不可约的,当且仅当A的矩阵指数exp(A)严格正。

定理2(Perron-Frobenius定理)[18]若非负不可约矩阵A的谱半径为ρ(A),则有:

1.ρ(A)>0,且ρ(A)是A的重数为1的本征值。

2.A的对应于ρ(A)的左和右本征向量都是正的。

3.若λ为A的其他本征值,则有|λ|≤ρ(A)。

根据定义1、2和定理1,小说文本的章节相似性矩阵S是不可约的严格正矩阵。由定理2知:任何严格正的相似性矩阵S都至少存在一个实数非负本征值,且该本征值的模是所有本征值中最大的,从而可以用该本征值作为小说文本的一致性测度,记作λCoherence。同时,因为相似性矩阵S是对称的且其元素sij都介于0和1之间,包含D个章节的小说章节相似性矩阵SD×D的最大本征值则不会超过D。为比较包括不同章节数的小说之间一致性的差异,定义小说文本的一致性系数(Coefficient of Coherence):CC=λCoherence/D,有 CC∈[1/D,1]。

基于上述定义和定理,菲茨杰拉德小说一致性的潜在语义分析计算步骤可以归纳如下:

(1)首先获得小说文本的电子版,对其中的拼写和语法错误进行必要的修正。

(2)根据上下文的时态和语态将文本中的缩写、缩略语等补充完整,如将“I’m”改成“I am”。

(3)去除文本中的符号和数字,包括引号、连字符等。

(4)编制计算机程序读入小说文本,利用KSTEM算法将单词词干化,构建小说文本的类符列表。

(5)编写算法,统计小说各个章节中的类符数及其在各章节中的出现次数,以获得文本的向量空间表示矩阵F。

(6)计算类符的全局逆章节频率权重和局部对数频率权重,以建立类符权重矩阵W。

(7)对菲茨杰拉德的每部小说,根据类符权重矩阵计算其章节相似性矩阵S。

(8)对每部小说的章节相似性矩阵S进行奇异值分解,以得到对应的最大本征值。

(9)根据每部小说章节相似性矩阵S的最大本征值和章节数,计算小说的一致性测度和一致性系数。

采用上述方法和步骤,计算菲茨杰拉德的四部小说的一致性测度和一致性系数,结果见图1。

图1 菲茨杰拉德小说一致性的计算和比较图

如图1所示,从文本一致性的角度看,《人间天堂》到《了不起的盖茨比》,菲茨杰拉德在对文本一致性的把握上是稳步提升的。然而对于《夜色温柔》,其一致性测度与一致性系数却展现出两个相反的结论:一致性测度显示《夜色温柔》要优于菲茨杰拉德的前三部作品;一致性系数却表明《夜色温柔》稍逊于前三部作品。

对于这一结果可以这样理解:小说文本的一致性与小说章节的结构安排有关,菲茨杰拉德的前三部作品都是分为9个章节,而《夜色温柔》则细分为61个章节。一致性测度是从整体连续性的角度来考察小说主题的全局连贯性和统一性,而一致性系数则是从章节与章节之间相关性的角度考察小说主题的局部连贯性和统一性。从这个意义来说,尽管《夜色温柔》较菲茨杰拉德的前三部作品在主题意义上更为集中和内敛,然而该作品的章节安排却使章节与章节之间的意义表达更为松散,这就可以解释为何不同的评论家对菲茨杰拉德的小说会有不同的认识和评判。

四、结 论

小说文本的一致性是该小说在创作上是否良好的一个重要指标,评论家们对文本一致性的认知分歧将会导致对该作品评判的差异。潜在语义分析为定量计算和比较不同作品的一致性提供了可行的思路和方法。本文以菲茨杰拉德的四部长篇小说为例,基于潜在语义分析方法首次定义了小说文本的章节相似性矩阵、一致性测度和一致性系数,并根据一致性测度和一致性系数对菲茨杰拉德的四部作品进行了比较和分析,检验并解释了现有不同评论家们对这几部作品的定性评论。

本文的计算和分析表明:小说文本的一致性与小说章节的结构安排有关。一致性测度是从整体连续性的角度来考察小说主题的全局连贯性和统一性,而一致性系数则是从章节与章节之间相关性的角度考察小说主题的局部连贯性和统一性。评论家们对小说文本全局一致性和局部一致性的不同侧重,导致其对同一部作品有着截然不同的评论。

[1] Bryant Mangum F.Scott Fitzgerald:American Novelist and Short Story Writer,Reader's Guide to Literature in English[M].London:Fitzroy-Dearborn,1995.

[2] Kirk Curnutt.The Cambridge Introduction to F.Scott Fitzgerald[M].Cambridge,UK:Cambridge University Press,2007.

[3] Alois Heuboeck.Some Aspects of Coherence,Genre and Rhetorical Structure and Their Integration in a Generic Model of Text[J].Language Studies Working Papers,2009,35(1).

[4] Ambreen Shahriar,Habibullah Pathan.Coherence and the Role of Cohesion in Coherent Texts[J].Language in India,2012(5).

[5] Mirella Lapata,Regina Barzilay.Automatic Evaluation of Text Coherence:Models and Representations[C].in Proceedings of the 19th International Joint Conference on Artificial Intelligence,San Francisco:Morgan Kaufmann Publishers Inc,2005.

[6] Eyyup Coskun.Text coherence in the narrative texts of Turkish students and Bilingual Uzbek students in Turkey[J].Scientific Research and Essay,2009(7).

[7] John Harker W.The Role of Cohesion and Coherence in Processing Literary Texts[J].Working Papers of the Linguistics Circle of the University of Victoria,1986(1).

[8] HWang Shin Ja J,Merrifield William R.Language in Context:Essays for Robert E.Longacre[M].Dallas:Summer Institute of Linguistics and the University of Texas at Arlington,1992.

[9] Leech Geoffrey N,Short Michael H .Style in Fiction:A Linguistic Introduction to English Fictional Prose[M].New York:Longman,1981.

[10] Jukka Tyrkk.Fuzzy Coherence:Making Sense of Continuity in Hypertext Narratives[D].Helsinki:University of Helsinki,2011.

[11] McNamara Danielle S,Max M.Louwerse and Arthur C.Graesser.Coh-Metrix:Automated cohesion and coherence scores to predict text readability and facilitate comprehension[R].Memphis:University of Memphis,2003.

[12] McCarthy Philip M,Briner Stephen W ,Vasile Rus,et al.Textual Signatures:Identifying Text-Types Using Latent Semantic Analysis to Measure the Cohesion of Text Structures,in Natural Language Processing and Text Mining[M].London:Springer-Verlag,2007.

[13] Preslav Nakov.Latent Semantic Analysis for German literature investigation[C].in 7th Fuzzy Days on Computational Intelligence,Theory and Applications,London,UK:Springer-Verlag,2001.

[14] Roberto Basili,Paolo Marocco.A geometrical approach to literary text analysis[C].in Toward Computational Models of Literary Analysis,Genoa,Italy:University of Roma Tor Vergata,2006.

[15] Landauer Thomas K,Foltz Peter W,Darrell Laham.An Introduction to Latent Semantic Analysis[J].Discourse Processes,1998,25(2-3).

[16] 刘海燕,黎漫晖.菲茨杰拉德创作能力的变迁--基于词汇测度的统计分析[J].统计与信息论坛,2010(10).

[17] Thieme Horst R .Perron-Frobenius Theory of Positive Matrices and Associated Linear Dynamical Systems,in Mathematics in Population Biology[M].Princeton:Princeton University Press,2003.

[18] Unnikrishna Pillai S,Toresten Suel,Cha Seunghun.The Perron-Frobenius theorem:Some of its applications[J].IEEE Signal Processing Magazine,2005(2).

猜你喜欢

菲茨杰拉德测度相似性
一类上三角算子矩阵的相似性与酉相似性
三个数字集生成的自相似测度的乘积谱
R1上莫朗测度关于几何平均误差的最优Vornoi分划
平面上两个数字集生成的一类Moran测度的谱性
我国要素价格扭曲程度的测度
浅析当代中西方绘画的相似性
认真
完美无缺的作品
干船坞中的美国“伯克”级导弹驱逐舰“菲茨杰拉德”号(DDG 62)
《了不起的盖茨比》与菲茨杰拉德