APP下载

基于语料库的英语写作水平与词块运用关系研究

2018-10-20杜双艳常荣荣

黑龙江教育学院学报 2018年7期
关键词:词块语料库写作

杜双艳 常荣荣

摘要:词块作为一种能将功能与形式融为一体的语言单位,能更好地体现出语用、语法及句法之间的关系。首先收集某高校英语专业学生的54篇毕业论文,并自建平行语料库。参照Altenberg词块分类法,将词块分为三类:完整分句、分句成分和不完全词组。统计数据可知,学生写作中存在大量词块,且呈现词块长度越长使用数量越少的分布态势。其中,分句成分所占的比例最多,不完全词组次之,完整分句最少。研究分析表明,写作水平高的同学更能灵活地使用词块。

关键词:语料库;词块;写作;结构类型

中图分类号:H319.36文献标志码:A文章编号:1001-7836(2018)07-0124-03

词块指由多词组成,可以独立用于构成句子或者话语,实现一定语法、语篇或语用功能的最小的形式和意义的结合体[1]。该结合体是语言语篇写作的重要组成部分,二语学习者若提高外语写作水平,还需掌握词块的使用状况并正确地运用词块。在综合运用语言的基础上,学习者将自身的语法与思维通过写作呈现出来,而词块是写作过程中语言运用的关键。本文拟基于安徽省某高校2016届英语专业本科毕业生的论文,自建小型语料库,研究不同的分层次的论文,考察英语学习者写作水平与词块运用之间是否存在关联。通过使用Emediter,Antconc等语料库分析软件辅之以人工筛选对词块数据进行分类统计,分析不同层次论文在词块数量和结构类型上的差别,总结出英语学习者写作水平与词块运用之间的关系,以期对英语教学与学习提供可行建议。

一、文献综述

国外语言学家Becker1975年首次提出“预制语块”这一概念,指一种特殊的“多词词汇现象”,即多个词汇的组合[2]。Lewis在“The Lexical Approach”中提出“多词预制词块”在语言学习中不可或缺[3]46。Nattinger & DeCarrico提出语言的产出过程就是“对预制语块进行选择,然后将这些语块串联起来的过程。”[4]国内,有关词块的研究多从理论发展至实证研究上。杨玉晨基于国外有关词块的研究成果,提出词块的定义,即:“词块”是固定和半固定的结构化了的“板块”结构[5]。王立非、张岩基于SWECCL语料库的作文子库研究发现中国学生在写作过程中词块运用种类较少,与语言本族语者相差较大[6]。龚成红研究得出词块的运用得体与语篇是否连贯关系紧密且成正相关[7]。在词块分类方面,Becker从结构和功能上将词块分为六大类,即原文片断、情景话语、元语篇、聚合词、句子构造结构和限制性短语[2]。Altenberg从功能和形式上将词块分为三大类:完全分句 (不独立分句和独立分句)、分句成分(多分句成分和单分句成分)和不完全词组[8]。目前,国内有关词块分类的研究多是基于Altenberg的词块分类法。Altenberg是第一个基于语料库驱动的词块研究者,最早采用语料库频率信息识别词块,对基于语料库的词块研究做出了巨大的贡献。因此,本文基于该分类标准,对不同层次论文中的词块运用进行分析。

二、研究设计

1研究问题

本研究通过考察不同词长词块在论文中的分布状况,采取Altenberg的词块分类法研究安徽省某高校英语专业毕业生论文词块的使用状况。依據论文划分标准,考察学生写作水平高低与学生在写作过程中词块运用之间的关联。本研究试图回答三个问题:(1)不同写作水平论文在篇幅长度和词汇运用上有何差异?(2)3—6字词长词块在不同写作水平论文中数目及结构类型分布状况如何?(3)学习者写作水平与词块运用之间是否相关,存在何种关联?

2语料库简介

本研究所使用的语料为研究者自建语料库,以安徽省某高校2016届英语专业本科毕业生为研究对象。首先,依据学生毕业论文成绩,按照相同比例从优秀、良好及及格三个不同层次的论文库中随机抽取54篇论文;然后,依据论文得分进行分组统计,统计标准与该校不同层次论文成绩划分标准相符,即:85分以上为英语写作水平较高的高分组,85—75分为中分组,75—60分为写作水平较低的低分组;最后,建立小型研究语料库。建库主要经过以下阶段:采集语料,删除冗余信息,校对,保存语料TXT的格式,去噪等语料处理。该语料库包括高分组、中分组及低分组三个子库。

3研究方法与步骤

本文基于研究者自建毕业论文语料库,结合定量与定性的研究方法,探索英语学习者写作水平与英语语言词块运用之间的关系。首先,将高分组、中分组和低分组三个子库分别导入Antconc语料库软件中,统计出三个子库的形符和类符,并计算出三组论文的形符类符比,即TTR值;然后,利用Antconc软件中N字语词频表功能检索三组子库毕业论文中3—6词长词块数据,考察不同水平论文中3—6词长词块数目的使用状况;最后,研究者根据前文提及Altenberg的词块分类法,分析三组论文中3—6词长词块的不同结构类型,统计频数并考察不同结构类型词块的运用情况。

三、研究结果与分析

1三组论文的TTR值

形符(token)类似于我们日常说的“词”,总形符数是语料库容量最常用的测量单位。类符(type)作为一个统计量,指语料库文本中任何一个独特的词性(word form)。重复出现的形符只能记作一个类符[9]。形符类符比,即TTR值,是衡量语篇文本词汇密度的常用办法,可说明文本中词汇的运用丰富度。TTR值越大,表明词汇的使用难度较低,词汇的多样性较少,反之,则表明词汇的使用种类较多且难度大。本文首先利用Emeditor文本编辑器,对高分组、中分组与低分组的语料进行文本降噪处理,清除原始语料中冗余内容,包括论文的致谢、目录及参考文献等部分,仅保留论文正文;然后,研究者将语料分别导入Antconc3.2.4w,依次点击“word list”与“start”按钮,得出三组论文形符与类符值。具体统计结果如表1:

由表1可知,高分组形符数高达75 295,中分组次之为68 938,低分组形符数最少为67 555。可以看出,三组不同水平毕业论文中,高分组论文篇幅长度最长,中分组略高于低分组,形符差距为1 383,整体呈现写作水平越高的论文其篇幅越长。论文词汇难度运用方面,高分组的TTR值最高为13.54%,中分组为12.57%,而低分组最低为11.77%。由于TTR值的高低与词汇运用多样性成反比,则可得出高分组中词汇运用的丰富度低于中分组和低分组且高分组的词汇变化幅度小。研究结果与该高校论文加分标准中词汇运用越丰富分数越多的原则相违背。经考察,高分组词汇丰富度较低的原因是由论文中大量使用功能词而引起的,如:and,a of,the等词语。基于上述研究数据,得出三组论文篇幅长度与论文写作水平呈正相关,论文的词汇运用多样性与写作水平呈负相关。

2三组论文中不同词长词块的分布状况

词块是计算机可以检索出的以相同形式反复出现的两词或多词的有意义的连续词组单位。研究者通过Antconc3.2.4w软件N字语词频表功能,检索出不同词长的多个具有意义且合符意义的词块。利用Antconc软件工具中的“Cluster”词群功能,在软件下方按钮处分别设置所需检索的词长数字,在“Search Term”中选取“N-Grams”项,并在“N-Gram Size”中设置词长,分别输入三字词长、四字词长、五字词长及六字词长。为便于研究,在基于Biber[10]提出词块是词容为100万词的语料库中出现频率为10次以上的词语序,研究者结合语料库库容,以三个子库中3—6词长的连续词组单位且最低出现的频率值为5的词块作为研究参数,最后点击“Start”按钮,得出原始不同词长词块数目,然后人工筛选并删除非词块词语组合,如can be found in, equal interpersonal relationship with, of interpersonal function of the等意义残缺且语法错误的词汇组合。得出的最终结果如表2示:

由表2可以看出,不同词长词块在三组论文中分布状况各不相同。研究发现,得分越高的论文,使用词块数量越多。高分组论文运用词块数量最多,中分组论文词块数量略少于低分组且观察统计结果,低分组中三字词长词块与四字词块均多于中分组,这是由中低两组论文篇幅长度相近而引起的。从词块长度来看,三组论文中,词块数量随着词块长度的增加而衰减,词块长度越短,其数量越多。如上表所示,高分组中,3字词块的数量为5 416,使用频率高达77.11%,而6字词块的数量仅为113,频率低至1.61%。不同词长词块中,3字词块分布最广,所占比例最大。三组论文中3字词长词块的分布频率最高为中分组(81.82%),最低为高分组(77.11%);4字词长词块使用数目次于3字词块且二者差距较大,三组论文中4字词长词块所占比重最多为高分组(16.37%),最少为中分组(13.26%);5字词长词块的使用分布状况略高于6字词长词块,高中低三组论文中,5字词块的使用频率分别为:4.91%,3.91%,3.28%;6字词长词块使用频数远远低于其他词长词块,如高分组使用频数仅为113,频率为1.61%,中分组与低分组相近,频率分别为0.91%和1.02%。

对比三组论文不同词长词块使用状况,发现该校英语专业学生在写作过程中均使用大量词块,其中,3字词长词块使用分布最广。总体考察中发现写作水平越高的论文其词块使用数量越多,不同长度词块的使用呈现出词块长度越长使用数量越少的分布态势。

3三组论文中不同词块结构类型的分布状况

前文提及本文参照Altenberg的词块分类法对三组论文中不同词块的结构类型进行分析。即形式上将词块分为三大类,包括完整分句、分句成分及不完全词组。完整分句是语言学句法层级最高的语言实体,具有相对完整的主谓结构和语法意义。它包括独立分句及不独立分句。独立分句表达完整的语义可单独使用,如;I dont know, the plot goes on the following等,从属分句需与其他分句构成完整句子,如:in my opinions,as the evidence on the aboved等。分句成分可分为单分句成分和多分句成分,如:and others, three years ago等和there are, I believe等。不完全词组指不具备完全结构与形式的词组,如:most of them, so as to等。具体词块结构类型在三组论文中的分布状态如表3所示。

从表3可以看出,三组论文中,分句成分结构类型的3—6字词长词块分布最广,完整分句和不完全词组结构类型的词块使用数目远远低于分句成分,其中,不完全词组的分布数量略低于完整分句。高中低组论文中分句成分结构类型的词块使用频率相近,所占组别总数频率分别为:73.73%、76.99%、83.87%,其中,多分句成分结构类型词块远远高于单分句成分词块,三组论文多分句成分词块和单分句成分词块之间的频率差分别为:32.87%、30.99%、25.01%。三组论文3—6完整分句结构的词块使用分布中,高分组和中分组的使用频率相近,分别为13.6%与13.59%,低分组的使用频率较少为9.30%,频数分别为955、462、365。在完整分句结构类型词块运用上,独立分句远远高于不独立分句,二者在三组论文中的使用频数差分别为:855、438、347。全部词块使用数据中不完全词组结构类型词块的使用数目最少,呈现得分越高的论文不完全词组使用数量越少的特点,具体的使用频率呈阶梯分布状,其使用频率分别为:12.67%、9.42%、7.33%。

从3—6词长词块不同结构类型在三组论文中的分布状況发现,英语专业学习者在英语词块运用写作过程中,大量使用具有分句成分结构词块,多是带有多分句成分结构的词块,而完整分句和不完全词组结构的词块运用较少。三组论文完整分句、分句成分及不完全词组结构词块的分布频率(12.16%,78.03%,9.81%)与Altenberg[8]基于本族语口语语料库CLL的研究结果(10%,76%,14%)相似。基于不同结构类型词块在三组论文中的分布状况可总结得出,学生英语写作过程中分句成分结构词块运用较多,且水平越高词块结构类型越多样。

四、教学启示与结语

本研究通过个人自建小型语料库,统计分类数据得出英语学习者写作水平高低与词块运用丰富度紧密相关。研究结果发现,二语学习者毕业论文篇幅长度及词汇使用上表现为得分越高,论文篇幅越长,词块运用越丰富;在不同词长词块使用频率上表现为3字词长词块使用频率最高,6字词长词块使用频率最低,总体上呈现出词块长度越长使用数量越少,论文得分越高,词块数量越多的发展特点;在词块结构类型上表现为分句成分结构词块使用数目最多,完整分句和不完全词组结构词块运用较少,呈现出写作水平越高,词块结构类型运用越丰富。由此表明,英语写作水平与词块运用之间紧密相连,且与词块使用数目和结构类型呈正相关。

Michael Lewis[3]47提出语言包含词块,当词块组合在一起时就产生了连贯的语篇。语篇连贯性是写作水平高低的重要标志之一,而写作是教学英语的重要内容,著名语言学家Sinclair也认为词语在教学中占有中心地位[10]。所以,培养学生的词块意识是词块教学的关键,学生在写作时需熟练掌握不同词长及类型词块的运用。同时,在教学过程中,教师首先应有意识地培养学生对不同词长词块的识别与应用,促使学生养成良好的词块学习习惯;然后,因孤立学习单词效果不佳,教师应引导学生记忆并理解词块搭配及结构,保证学习质量同时促进语言输出,提高学生语言运用能力和语言使用的准确性;最后,可结合语料库方法,检索出教学过程中常用词块搭配及相关典型语境,加强词块教学与学生英语学习。

参考文献:

[1]马广惠.词块的分类与识别[J].解放军外国语学院学报,2011(34):1—4.

[2]Becker J. The phrasal lexicon. In R. Shank & B. L. Nash-Webber(eds). Theoretical Issues in Natural Language Processing. Cambridge, MA: Bolt Beranek & Newnan, 1975:96.

[3]Lewis M. The Lexical Approach[M].Language Teaching Publications, 1993.

[4]Nattinger J. & Decurrico J. Lexical phrases and Language Teaching[M].Oxford: Oxford University Press, 1992:40.

[5]杨玉晨.英语词汇的“板块性”及其对英语教学的启示[J].外语界,1999(3):24—27.

[6]王立非,张岩.基于语料库的大学生英语议论文中的词块使用模式研究[J].外语电化教学,2006(8):36—41.

[7]龚成红.非英语专业研究生在不同文体写作中词块变体运用的实证研究[D].兰州:西北师范大学,2008.

[8]Altenberg B. On the phraseology of spoken English: The evidence of recurrent word-combinations[C]//In A.P. Cowie: Phraseology: Theory, Analysis and Applications. Oxford University Pressa, 1998:101.

[9]梁茂成,李文中,许家金.语料库应用教程[M].北京:外语教学与研究出版社,2010:9—11.

[10]Sinclair J. & A. Renouf. A lexical syllabus for language learning[C]//MaCarthy, M.J. & R.A. Carter. Vo-cabuary in language teaching. London: Longman,1988:141—160.

(責任编辑:刘东旭)

猜你喜欢

词块语料库写作
《语料库翻译文体学》评介
如何让小学生写作返璞归真
高中英语阅读与写作有效结合
写作教学策略初探
大学英语教学中的词块教学
词块在初中英语写作教学中的应用研究
基于JAVAEE的维吾尔中介语语料库开发与实现
美国总统就职演说词中的词块研究
语料库语言学未来发展趋势