APP下载

基于语料库的英语名词性成分使用频率及其文体分布考察

2016-12-01刘国辉

山东外语教学 2016年4期
关键词:实词宾语副词

刘国辉

(上海海事大学 外国语学院, 上海 201306)



基于语料库的英语名词性成分使用频率及其文体分布考察

刘国辉

(上海海事大学 外国语学院, 上海 201306)

名词性成分作为语言系统中最基本的构成成分,一旦其使用频率出现较大变化,必然导致整个语篇结构或布局的变异。正是基于此,本文通过大型英语语料库COCA和COHA,从共时和历时两个不同角度,以五种不同文体(口语、小说、期刊、新闻和学术)为对象,来实证考察这种共轨性。具体来说,首先考察词性与文体之关系,然后以作主语和宾语的三种名词性成分(派生名词、名词性小句、-ING形式和TO不定式)为切入点进一步具体考察,结果发现:实词远高于虚词的使用频率,口语体与学术体呈明显对立态势;派生名词在学术文体中使用最多,而小说文体中则最少,且多作主语;名词性小句多出现在口语文体中,作主语的小句多于作宾语的;-ING形式和TO不定式形式也多出现在口语中,两者作宾语的变化很大。由此可见,某种词性的使用频率若过大必使整个文体系统转向另外的系统。

词性;英语名词性成分;使用频率;文体分布;美语语料库

1.0 引言

现实的自然语言一般都体现为某种体裁归属,即便是最平淡的白话也是一种体裁。那么,何谓“体裁”?语言之体裁在于作者为特定读者和目的就呈现方式所进行的一种独特语言处理方式,既体现在语言不同层面或视角的选择上,也体现在思维和情感表达的个性化上。这样,一个好的文体可使人们之间的语言交际显得更准确、更直接,达到如闻其声、如见其人之最佳效果。然而,文体的建构首先离不开语言最基本的成分——词,词又离不开词性,因为词性是词的基本属性。即词一般都具有“词性”(词内在的语法、语义属性和外在认知、功能属性),否则该词无法在语言系统中立足或发挥应用的功效,即便进入了系统,也会立即被淘汰,因为它没有任何属性编码或载荷,不能被系统认可或接受。现代语言学中的“词性”大多数情况下等同于“词类”(word class),源于拉丁语的“pars orationis”,拉丁语又转借于希腊语的“méros lógou”,其字面义是“口语的部分”(part of speech)或“句子的部分”(part of sentence)。也就是说,它是口语和书面语不可或缺的基本组构成分。那么,影响词性系统最重要的参数是什么呢?Givón(1979)和Lehmann(1991)认为是“时间稳定性”(time stability)。名词性成分则是时间稳定性的一个重要载体,这种成分所占比例的多少会直接影响到文体类型表征及其转换,它们之间是一种共轨的同步关系,不是一种互不相关的独立运作关系。同时,每个词性都反映一个概念类型,即词性所有的成员共享某些语义特征或从原型角度看每类词性都有一个焦点,其周围有固定成员。正如Halliday(1985)所言,句中通常由实词来传递大部分信息,实词越多,句子所载的信息量也越大。反之,信息量就越少。然而,就笔者所了解的现有文献,绝大部分文体学论著主要关注词汇层面的正式度、专业性、词义、偏离、色彩、修辞和搭配等,很少学者(如Jucker,1992;Biber,1993;Thornborrow & Wareing,2004;李逵六,2004;刘世生、朱瑞青,2006)去关注词性或词类与文体之关系,且这些关注更多集中在名词化与语篇文体类型之间的个案研究,如王晋军(2003)、杨信彰(2006)和王立非(2012)等。一方面显得有点单一,另一方面显得不够系统,其效果和说服力需加强。同时,自然语言表征需要将某种意义表征连续不断地转换(transform)为句子或语篇,其中一个中心任务就是对词汇的选择或词汇化处理(lexicalization),不少学者(Marcus, 1987;Nirenburg & Nirenburg,1988;McDonald,1991)认为人们对此重视不够。为此,本文通过英语大型语料库COCA和COHA,从共时和历时两个不同角度,以五种不同文体(口语、小说、期刊、新闻和学术)为对象进行实证考察。选择美国杨百翰大学的语料库COCA和COHA作为实证材料,主要有三个方面的理由:一是美语是当代英语的一个重要代表;二是COCA大型语料从共时角度看不仅提供量大、范围广,而且提供了不同文体语料,以便就不同文体之间进行比较;三是COHA提供了大量的历时语料(从1810年到2000年,200年时间),可让我们真正了解这种语言的历史演变轨迹与走向。

2.0 词性与文体

一般来说,不同词性会给文体呈现不同的特质,体现对事物的不同观察角度。比如名词能就事物的性质、特点、内容等做出具体或抽象的、正式的与非正式的处理;动词能通过不同的时、体、态来生动形象地描述事件的性质、状态、过程或结果;形容词能很好地刻画具体事物的性质特征和评价事物;而副词则能清楚地表明作者的立场、态度并对相关命题内容进行评价(李逵六,2004:73-82,125-144)。刘世生、朱瑞青(2006:99-105)也认为一段文字中如果某一种词性的单词比重超过了正常的水准,就可称为这种词性的文体。一般来说,开放词类(即名词、动词、形容词和副词)对文体影响较大:若名词使用过多就是名词性文体,动词过多就是动词性文体,形容词过多就是形容词性文体,副词过多就是副词性文体。不过,作为语法系统的词性本身具有非常强的稳定性,几千年来人类语言的词性类别基本不变,这为语言系统的稳定性提供了前提保证,否则让人无法识别或辨认。比如古英语和现代英语、古汉语和现代汉语皆是如此,它们之间虽有较大程度的差异,但没有脱离整个原有体系,变为另一个完全不同的或没有一点关系的独立体系,即英语还是英语,汉语仍是汉语,没有出现英语变成汉语或汉语变成英语的状况。为此,Cyre(2005)通过语料进行了实证考察,结果发现人类语言之语法的确不是一蹴而就的,而是一代一代人逐渐累积而成的规则或规律,如图1所示(细线表语言知识,粗虚线表语言总规则,细虚线表语言中出现的新规):

图1 语法规则演变的总态势

即人类语言的总体知识构架不管经过多少时间都不会有太大变化,然而人类语言所使用的总规则在不断增长。每代人对语法新规虽有所贡献,但都保持在一定范围,没有出现突变情况。也许正是这样,它才能被人们所传承并发展下去。否则,会影响人们之间的正常交际。同时,这种语法新规会一代一代地减少,呈递减态势,如图2所示(上下虚线表示新规最大和最小变化限度,中间实线表平均状态)(同上):

图2 每代语法新规的发展态势

因此,Szymanek(2005)认为语言的发展变化总体来说是缓慢的,且呈连续统,不会出现突变。事实上,不可能每代人都有那么多新规出现,这样也可减轻后代学习和掌握的负担。不过,语言的使用总存在一定程度的倾向性或偏好。这种偏好总与一定的文体相联,体现特定的交际功能和意图。按Joos(1967)的《五只钟》(TheFiveClocks)中所提出的五种语体来看,在此所涉五种文体(口语、小说、期刊、新闻和学术)中口语文体一般多为随意体(casual style)或亲密体(intimate style),学术文体则属于庄重体(frozen style)或正式体(formal style),而小说、期刊和新闻三大文体则居于前面两者之间。为了较全面地了解词性与文体之关系,我们首先从共时角度对COCA中五种不同文体进行考察(因篇幅所限,具体操作程序略去,详见汪兴富等,2008),关注实词中的名词、动词、形容词和副词,虚词中的介词、冠词、代词和连词表现,其结果如表1所示(使用频率以百万计,以下同):

表1 不同文体中的词性使用频率

总体来看,实词和虚词的总均量分别为525642.10和305228.01,前者远高于后者的使用频率,相差1.7倍左右。从实词方面看,口语文体与学术文体呈明显对立态势,口语的动词(208482.66)和副词(74440.29)最多,而学术的名词(259631.47)和形容词(96065.39)则最多,说明口语的动态性与学术的静态性差异突显。实词方面的使用频率从多到少可排列为:名词>动词>形容词>副词,即名词(215008.34)使用最多,副词(58887.60)则最少,前者是后者的3.6倍左右,说明有关物的表征在实词中占有绝对优势。从不同文体所用的实词总量看,学术文体最多(550565.70),口语体最少(500571.15),可能是因为学术文体更多关注及物性所致,其文体模式从多到少可排列为:学术>期刊>新闻>小说>口语。不同文体中实词的具体使用情况,口语和小说可排列为:动词>名词>副词>形容词;期刊、新闻和学术文体可排列为:名词>动词>形容词>副词,说明前两种文体很相近,其口语特色明显,而后面三种文体相近,其书面性较浓。从虚词方面看。虚词方面的使用频率总体从多到少可排列为:介词>冠词>代词>连词,介词总均量为105260.55,而连词则为57342.99,前者是后者的1.8倍左右,说明介词所体现的关系属性很重要。从不同文体所用的虚词总量来看,小说最多(326787.22),而新闻则最少(285172.40),这可能与两者对信息量的追求不同有关。虚词方面的文体使用频率模式可排列为:小说>口语>学术>期刊>新闻。就不同文体中虚词使用情况而言,口语和小说可排列为:代词>介词>冠词>连词,期刊和新闻可排列为:介词>冠词>代词>连词,而学术则可排列为:介词>冠词>连词>代词。口语文体与学术文体在此也呈明显对立态势,口语的代词(94172.63)和连词(61300.20)最多,而学术的介词(127484.44)和冠词(87906.52)则最多,进一步说明口语的指称性与逻辑性,学术的严密性与限定性。也就是说,虚词中代词和介词成了口语体与学术体最重要的指标或差异所在。然后,基于COHA,从历时角度考察,如表2所示:

表2 不同时段的词性使用频率

不管是实词还是虚词,最近200年来都存在不同程度的发展变化,但变化不大(各种不同词类和总量都如此),仍以实词为主,虚词为辅,说明英语语法结构系统基本上保持了其原有的正常稳定态势。就实词来说,总量有所增加,从1810年的522015.24到2000年的530702.51,增长了8687.27。这期间除了名词减少之外(从213642.85到212137.12),其它三大词类都有所增加,特别是副词(从53351.45到61184.37)。同时,不同词类所出现的高峰期也有所不同,名词在1810年,动词在2000年,形容词在1850年,而副词则在1900年。但无论如何变化,四大词类的排序从多到少仍是:名词>动词>形容词>副词,名词居首位。就虚词而言,总量在减少,从1810年的321564.84到2000年的311784.63,减少了9780.21,这与前面的实词增长基本抵消(实词增,虚词减,互为动态状)。这期间除了代词增加(从66891.01到71241.93)之外,其它都在减少,而且不同词类所出现的高峰期都基本相同,都在1850年到1900年这50年期间,是英语结构系统的一个比较大的调整期,可能与美语意欲体现自己的独特性有关。最后,虚词的四大词类排序是:介词>冠词>代词>连词,介词居首位,与前面的共时考察相同,再次表明语言系统自身的某种稳定性。

3.0 名词性成分与文体

上面对词性与文体进行了一个总体考察,发现名词在实词中占有绝对优势。下面就名词作进一步具体考察,特别是其中的名词性成分(派生名词、名词性小句、-ING形式和TO不定式),因为这种成分只具有名词的一些语法功能,语义上具有一定的物化功能,而形态上则不一定是词,与典型的三维空间名词(如“table,tree,house”)具有一定距离。同时,它们与典型名词的距离是不等同的,派生名词靠得最近,不过多为抽象名词;名词性小句在形态上与典型名词相差较远,它不是词,而是句子;与典型名词的距离最远的应是-ING形式和TO不定式,因为它们还部分隐含动词的功能,可受副词修饰,而前两类则已失去动词功能,只能起名词性作用。Vendler(1976)将名词性成分(nominals)分为两组:非完全(imperfect)和完全(perfect),两者的根本区别在于其动词性特征,即前者多为事件(events),而后者则多为事实(facts)。事实性的可直接转换为名词,受限定词和形容词的修饰,如“Theswimming in the river is acceptable, hisslowswimming of the Channel”;而事件性的则只能接受副词、否定词的修饰,如“John’s swimming the Channelslowly”,“hisnotkilling Smith”,不能转换为名词,如“*the singing the Marseillaise”。Vendler(1976)认为前者这种事件、过程、行为或结果会被人们看到、听到或观察到,它们的出现可能突然、猛烈或延长,而后者则不可能有这些特征或特性的展示。如果事件与事实之间发生转换,不仅仅涉及语义问题,还涉及到结构之间的转换,名词化不可避免卷入其中。下面具体操作时,派生名词以“-tion”为例,作主语时表征为“* tion [v*]”(动词总称),作宾语时表征为“[v*]* tion”, 其它以此类推;-ING形式以*ing [v*]为主语,[v*]*ing为宾语,TO不定式以to [v*] [v*]作主语 ,[v*] to [v*]作宾语进行考察。

3.1 派生名词

基于Biber, et al.(2000:322-323)的研究,我们主要考察以“-tion,-ment,-ity,-ness,-ism”结尾的五个常用派生名词,了解它们在不同文体中作主语和宾语的表现,其结果如表3所示:

表3 不同文体中派生名词的使用频率

纵向看,五个不同派生名词的使用频率模式可排列为:-tion > -ment > -ity > -ness > -ism,即“-tion”最多,作主语时达1083.11,作宾语时为380.07;而“-ism”则最少,作主语时为82.34,作宾语时只有36.50。这样,前者是后者的10多倍。同时,它们在学术文体中使用最多,而小说文体中则最少,可能是学术更多关注物,不管是抽象的还是具体的。而小说则更多关注人外在和内在活动的刻画,而不太关注物所致。此外,它们在不同文体中的使用频率模式从多到少可排列为:学术>新闻>期刊>口语>小说。横向看,五个不同派生名词作主语的比作宾语的多,前者为419.69,后者为153.34,前者是后者的2.7倍左右。

表4 不同时段派生名词的使用频率

特别是学术文体中,因为人们已把各种抽象的物当作生命体处理,让它们具有施事行为,以使客观事物更具一些“人性”色彩,难怪Adams(2001:15)认为派生词汇整体来说是书面文体的重要特征。那么,不同时段派生名词的使用又如何呢?如表4所示:各个不同时期作主语的都比作宾语的多,说明它们虽多为抽象名词,但人们更愿意将其作为施事来处理。不过,这几个派生名词作主语在1810年达到高峰期,为451.07;1850年左右作主语最少,为368.52;而作宾语在2000年左右达到高峰期,为110.83。也就是说,它们作主语有所减少,而作宾语则有所增加,这可能是其作主语的能力在减弱,而作宾语的能力在增强,因为从语义角度看它们作为处置对象比作为施事似乎更合适。纵向看,1810年、1950年和2000年是三个不同程度的高峰期,因为1810年“-tion、-ity、-ness”派生名词作主语分别为1153.06,373.35,281.07;1950年“-ment、-ism”派生名词作主语和宾语时分别为499.98,72.81;88.37,25.02。而2000年“-tion、-ity” 派生名词作宾语分别为272.43,121.62。也就是说,它们作主语、宾语是相当不稳定的,进一步说明它们不具有真正生命体施事那样的强施事能力和意愿。

3.2 名词性小句

名词性小句在此主要包括THAT、WHAT、WHICH、WHERE、WHEN、WHY和HOW小句,它们都是句子,与词对文体的影响会完全不同。主要考察其作主语和宾语情况,其结果如表5所示:纵向看,所有文体中作主语的小句多于作宾语的小句,达2-3倍,这可以说是一种信息前置突显表征。横向看,THAT、WHAT和 WHICH小句中作主语是作宾语的1至20倍以上,说明其主语性很强。然而,WHERE、WHEN、WHY和HOW小句作主语和宾语很少,因为它们更多作状语,以说明事件发生的地点、时间、理由和方式,而非处置对象。从不同文体来看,口语中的THAT、WHAT、WHERE、WHY和HOW小句作主语和宾语是所有文体中最多的,分别为1301.94:632.33;447.53:339.01;1.57:4.23;1.90:10.02;3.57:15.39。这印证了Halliday(1985)在研究英语书面语和口语特征时所言,由于口语的即时性决定小句在口语中的出现频率要远远大于它们在书面语中的出现频率,而功能词正是串联小句的重要手段。最后,WHICH小句在学术文体中作主语和宾语是所有文体中最多的,分别达325.32和13.74;WHEN小句在学术文体中作宾语是所有文体中最多的,达25.83,这些说明学术文体更多关注语言结构的逻辑性和研究成果所存在的时间性。至于其历时演变如何?其结果如表6所示。

表5 名词性小句在不同文体中的使用频率

表6 名词性小句在不同时段的历时使用频率

横向看,各类小句作主语的情况在不断减少,从1810年的199.19到2000年的149.86;而作宾语的情况似乎刚好相反,从1810年的45.84到2000年的66.07,主要出现在最近100年时间左右。也就是说,名词性小句作宾语更符合、更能体现英语信息尾重特点。纵向看,大多数小句(如WHAT、WHICH、WHEN、WHY和HOW小句作主语;WHERE、WHY和HOW小句作宾语)的使用高峰期出现在1810年左右,这是一个重要转折点。只有少数高峰期出现在2000年左右,如WHAT、WHEN和THAT小句作宾语,THAT小句作主语。这与上面共时结果基本一致,即物性和时间性较强的小句成为当代英语名词性小句使用的重要趋势。

3.3 -ING形式与TO不定式

现在看看既具名词性,又具动词性的-ING形式与TO不定式,其结果如表7所示:总体来说,-ING形式和TO不定式作主语较之作宾语少,前者为1127.86,后者为6916.51。也就是说,前者只有后者的六分之一左右。且主要集中体现在口语体方面,在作主语(1248.61)和宾语(10469.65)方面得到了充分展示,说明它们不仅有静态性,更具有动态性,符合口语表征,也符合语言现实状况。

表7 不同文体中-ING形式与TO不定式的使用频率

其历时演变如何?参见表8所示:200年来,这两种表征作主语的情况变化不大,只是略有减少,从1810年的1188. 20减到2000年的1057.16;而作宾语的情况则变化很大,增加了2倍左右,从1810年的3364.79增加到2000年的6675.99,且高峰期都在2000年,分别为6666.97和6685.00。这些说明它们更适合作宾语,而非主语,因为它们多少都含有一定的非生命体物性,是人们支配的对象,而非施事主体。

表8 不同时段-ING形式与TO不定式的使用频率

4.0 结语

本文通过大型英语语料库就名词性成分使用频率与文体分布进行了初步考察,发现实词远高于虚词的使用频率,前者是后者的1.7倍左右,同时实词的使用频率在增加,虚词在减少,口语文体与学术文体呈明显对立态势;派生名词在学术文体中使用最多,而小说文体中则最少,且多作主语,但在减少;名词性小句多出现在口语文体中,且作主语的小句多于作宾语的,达2-3倍,不过作主语在减少,作宾语在增加;-ING形式和TO不定式形式也多出现在口语中,两者作主语的情况变化不大,但作宾语的则变化很大,增加了2倍左右。由此可见,某种词性的使用频率应具有一定的恒定性,若过大必使整个文体系统转向另外的系统。不过,以上发现主要是美语的使用情况,英语的其它语言变体可能不同,比如英国、加拿大、澳大利亚和新西兰这些以英语为母语的国家,还有那些将英语作为二语的国家,如新加坡、印度等,更不用说全球更大范围将英语作为外语使用的国家和地区。

[1] Adams, V.ComplexWordsinEnglish[M]. Harlow: Longman, 2001.

[2] Biber, D. The Multi-dimensional approach to linguistic analyses of genre variation: An overview of methodology and findings[J].ComputersandtheHumanities, 1993,(26):331-345.

[3] Biber, D. et al.LongmanGrammarofSpokenandWrittenEnglish[M]. Beijing: Foreign Language Teaching and Research Press, 2000.

[4] Cyre,W. Evolving natural language grammars[A]. In Xindong Wu, et al. (eds.).InformationProcessingwithEvolutionaryAlgorithms:FromIndustrialApplicationstoAcademicSpeculations[C]. London: Springer, 2005.129-142.[5] Givón, T.OnUnderstandingGrammar[M]. New York: Academic Press, 1979.

[6] Halliday, M. A. K.SpokenandWrittenLanguage[M]. Oxford: Oxford University Press, 1985.

[7] Joos, M.TheFiveClocks[M]. New York: Harcourt, 1967.

[8] Jucker, A. H.SocialStylistics:SyntacticVariationinBritishNewspaper[M]. Berlin: Mouton de Gruyter, 1992.

[9] Lehmann, C. Predicate classes and participation[A]. In S. Hansjakob & P. Waldfried (eds.).Partizipation.DassprachlicheErfassenvonSachverhalten[C]. Tübingen: G. Narr, 1991.183-239.

[10] Marcus, M. Generation systems should choose their words[A]. In Y. Wilks (ed.).TheoreticalIssuesinNaturalLanguageProcessing[C]. New Mexico State University Press, 1987.211-214.

[11] McDonald, D. D. On the place of words in the generation process[A]. In C. L. Paris, et al. (eds.).NaturalLanguageGenerationinArtificialIntelligenceandComputationalLinguistics[C]. Kluwer: Dordrecht. 1991.227-248.

[12] Nirenburg, S. & I. Nirenburg. A framework for lexical selection in natural language generation[A]. InProceedingsofThe12thInternationalConferenceonComputationalLinguistics(COLING-88)[C]. Budapest, 1988.471-475.

[13] Szymanek, B. The latest trends in English word-formation[A]. In P.tekauer & R. Lieber (eds.).HandbookofWord-Formation[C]. Netherlands, Springer, 2005.429-448.

[14] Thornborrow, J. & S. Wareing.PatternsinLanguage:StylisticsforStudentsofLanguageandLiterature[M]. Beijing: Foreign Language Teaching and Research Press, 2004.

[15] Vendler, Z.LinguisticsinPhilosophy[M]. Ithaca: Cornell University Press, 1976.

[16] 李逵六. 德语文体学[M]. 北京:外语教学与研究出版社,2004.

[17] 刘世生,朱瑞青. 文体学概论[M]. 北京:北京大学出版社,2006.

[18] 王晋军. 名词化在语篇类型中的体现[J]. 外语学刊,2003,(2):74-78.

[19] 王立非. 商务英语词汇名化的语料库考察及批评分析[J]. 外语电化教学,2012,(3):3-8.

[20] 汪兴富等. 美国当代英语语料库(COCA)——英语教学与研究的良好平台[J]. 外语电化教学,2008,(5):27-33.

[21] 杨信彰. 名词化在语体中的作用——基于小型语料库的一项分析[J]. 外语电化教学,2006,(2):3-7.

A Corpus-based Survey of English Nominal Frequency and its Corresponding Stylistic Distribution

LIU Guo-hui

(College of Foreign Languages, Shanghai Maritime University, Shanghai 201306, China)

The nominal is one of the most fundamental elements in linguistic system. The frequency changes of nominals will inevitably produce the upcoming variation of the whole textual structure or overall arrangement. This paper hereby endeavors to make an empirical survey of such synchronization between nominal frequency in use and stylistic variation from the synchronic and diachronic perspectives of five styles (spoken, fiction, magazine, newspaper and academic) in terms of large-scale English corpora COCA and COHA. To put it in more details, we first examine the relations between parts of speech and styles, then make further check from the angle of three kinds of nominals(derived nominals, nominal clauses, -ingform andtoinfinitive form)when used as subject and object. It is found that the frequency of content words is far more than that of functional words, spoken style being opposite to academic style; derived nominals are used most frequently in academic style while least in fiction, and more often as subject; nominal clauses usually appear in spoken style as subject more than as object; -ingandtoinfinitive forms are often employed in spoken style as well, with great changes as object. All this shows that if the use of certain part of speech goes far beyond commonly accepted frequency for a particular style, an integral variation of the whole style into a distinct one cannot be avoided.

part of speech; English nominal; frequency in use; stylistic distribution; American English corpus

2015-07-21

本文为国家社科基金项目(项目编号:12BYY126)的阶段性成果。

刘国辉(1963-),男,四川人,博士,教授,研究生导师。研究方向:认知语言学、语用学和英汉对比研究等。

10.16482/j.sdwy37-1026.2016-04-001

H0-05

A

1002-2643(2016)04-0003-09

猜你喜欢

实词宾语副词
连词that引导的宾语从句
副词“好容易”及其词汇化成因
韩国语副词“더”与汉语副词“更”“再”的对应
宾语从句及练习
文言文实词词义推断的基本策略
文言实词50例
文言实词推断法
中考试题中的宾语从句
副词和副词词组
例说文言实词解题误区及对策