参考网


语料库研究浅论

2010-06-28 07:40:20 《时代文学·下半月》 2010年2期

王志涛

摘要:本文在借鉴前人研究成果的基础上,对语料库语言学的发展及应用概貌进行了重点突出的归纳和总结,通过对语料库的定义、分类、标注以及语料库的检索软件等方面的介绍,达到对语料库在实际申的使用有一个整体的把握。并结合自己在论文写作中用到的研究方法,提出了自巳时语料库使用的心得,总结了语料库语言学作为实证性研究重要手段的意义及语料库的发展前景。

关键词:语料库;微型语料库;实证性研究;词性标注;句法标注

1引言

20世纪60年代,乔姆斯基所倡导的理论语言学成为了语言研究的主攻方向,但他对语言进行的实证研究并没有被广泛关注,随着现代科技的发展和进步,实证性研究在语言学领域逐步展开,人们才开始研究自然语言的实际运用和某种特定语言结构在不同语境中的用法差异,

语料库来自拉丁词corpus,原意为“汇总”、“文集”等,复数形式为corpora或corpuses。最早的语料库是20世纪60年代初夸克/Randolph Quirk)等建立的百万词次的“Survey ofEndish Usage(SEU)”现代英语语料库。著名的(英语语法大全)(A Comprehensive Grammar of the En吵sh Idnguage,Longman 1985)就建筑在这个语料库的基础之上。对英语语言学界产生了深远影响。s0年代之后。语料库语言学成为一门新兴语言学分支学科,在语言教学、二语习得、方言学、句法和语义、音系学、翻译研究和个人自主学习等方面开辟了广阔的发展前景。改革开放后,计算机软硬件技术不断提高,国外引进的图书馆资源日益丰富。充分发掘学术资源,采用计算机软件进行半自动化信息处理和人工干预校正的模式,自行创建一个适合研究需要的微型语料库已成为可能。

早在1982年,上海交通大学的黄人杰、杨惠中教授就主持建立了一百万词次的专门用途英语语料库ODESr)。2003年,桂诗春和杨惠中两位教授主持完成了中国英语学习者语料库巾称CLEC),这是国际上第一部公开发布的学习者语料库。

2语料库的发展过程

运用语料库去研究语言可以追溯到19世纪末,当时的技术水平还很低,只是卡片制作和人工检索的阶段,成果应用的范围也非常有限。20世纪初,美国教育家nom山kC(L921)为了改进英语教学而收集了4,500万词次的英语语料库,其中有四分之三的语料来自于(圣经)和其他经典文学作品,通过对这些书面语料的词频统计写出英语基本词汇及词典等。20世纪50至60年代,英国知名学者R,Quirk等合作建立Survey Of En班sh Usage(SEU)(Quirk 1968),先是纸质语料,后来在80年代建成电脑版本,这是从传统语料库到电脑语料库的重要标志。接下来。出现了三大经典语料库:最早的Brown University Standard Corpus of Present-Day AmericanEndjsh Corpus(BROWN)(Francis 1964)和Lancaster-Osslo—Bergen Corpus(LOB)(J0hansson ct址1978)分别收集了100万词次的美国英语和英国英语。在80年代又建成了I,ondon-Lund Corpus 0f Spoken English(LLC)(Svartvik&Quirk; 1980),是汇集了50万词次的英语口语语料库。

20世纪80年代到90年代,是语料库发展的第二个阶段,由广州石油大学建立的石油英语语料库GPEC和上海交通大学的科技英语语料库。就是在这个时期建成的。同时,国外的英语国家语料库British National Corpus田N_以及International Corpus o{Enzbsb oCE)。都是现在应用很广的大型机读语料库。

到了20世纪90年代中期,语料库进入第三个发展阶段。此时的明显特点是:大规模;深加22;应用广泛。

从现在的发展需求来看,建立各种具有某种特定用途的语料库也成为明显的发展趋向,比如建立针对教学的微型语料库、针对研究各种文本特点的微型语料库,对某种特定的语言特点进行实证性研究是建立微型语料库的唯一目的。

3语料库的类型

建立电脑语料库可以在全世界、全国或某地区乃至个人的能力范围内实施(柯平2004)。现时比较流行的语料库可以有以下几种类型。

3.1原始语料库,也叫生语料语料库(Raw corpora)。就是把各种自然语言的文本按照一定的归类标准汇编到一起建立的语料库。这一类语料库因为没有标注,或称附码,而用途范围较小。

3.2附码语料库,也叫标注语料库(Annotated corpora)。是指对生语料进行了再加工,即针对某种语言特点并对加了标注的语料库。像前面提到的BROWN和IX)B,还有像美国的COCA等大型语料库都是附过码的语料库,这样一来就很方便机器检索。

如:

Vs>7hedevelopmentandimplementation0f<Ⅱo>technologyhasaffectedsocietiesin<Ⅱ>everycomcrof d0>the

这就是经过了机器自动附码的语料库文本。

3.3平行语料库(Parallel corpora)。是指两种或多种语言在句子、短语乃至单词层面上达到了同步对译的语料库。这样的语料库可以作为翻译的常用语料库,大大地帮助了翻译者们的工作效率。

3.4学习者语料库(Learners corpora)。是指非母语学习者的口头或笔头语料的语料库,也可以包括学习者错误类型的语料库。国内用的比较好的是桂诗春组织建成的中国英语学习者书面语语料库,简称CLEC。

3.5微型语料库(Minibank)(Yangmin 2008)

在現实中,除去大型语料库之外,还有相当数量的,可以针对特殊目的而建立起来的各式各样的微型语料库。大型语料库因为过于庞大,价格昂贵,其可及性不高(梁茂咸2003)。若要将教学科研工作需要的语料库都收集起来,尤其是收集国外大型通用语料库并做到能够及时更新,对英语教师个人来说是很大的负担。所以大型语料库对使用者个人而言往往遥不可及,不如自建的微型语料库使用方便傑茂成2003')。

4微型语料库的定义

关于微型语料库的准确定义到目前为止尚未确立。在语言教学中,大型语料库通常应用于教学大纲的编制和教材的编纂,而应用于课堂教学的语料库则有所不同,一般来说它

是精心采集的,旨在帮助语言学习者理解语言现象的微型语料库。语料库语言学界目前虽然尚未在微型语料库定义上达成一致意见,然而对微型语料库定义的研究,恰恰可以验证辛克莱1997年所做的论断:“语料库的概念还在发展中”。语料库的规模大小取决于个人的研究目的而非一概而论,决不是越大越好,要具体问题具体对待。我们自建微型语料库怎么建,建多大为好,完全取决于研究目的,可以是几万词次,也可以是几十万词次,关键是保证语料库建立的效度和信度。

4.1微型语料库的建立

首先要建立所需的语料库,其建立过程包括以下几个方面:语料库建立原理在建立语料库之前,首先必须要弄清楚建立该语料库的目的和组建原理。在建立语料库之前,研究者应该明确自己使用语料库的目的,是用来分析句子结构还是编撰词典等等。如果是研究新闻文本或期刊文本,就要建立新闻文本或期刊文本的语料库,在采集语料时也要本着真实语言的原则在外文期刊上按照抽样标准进行采集。

微型语料库虽然使用方便,其语料代表性容易受到质疑:微型语料库中的样本,往往不足以代表全体样。但由于语料库的大小和研究所需的语料数量目前没有给定的定义,目前谈到微型语料库的代表性,只是相对于通用大型语料库而言,指微型语料库语料数量相对偏少或取样比例过低,不具有全面的代表性,因此认为基于微型语料库的研究也就不具备有效性。然而,语料库材料应以研究者需要为基础,能够根据自己的学习和研究需要获得自己的代表性就可以用语料库来配合研究目的进行研究了。

4.2语料标注的原则

语言的理解有赖于人的经验。一般认为,以文本或语音形式存在、经过标注的语料可以借助计算机技术提取和分析更加丰富的知识,因此,有必要通过人工将知识表示出来,并标记到语料中的对应位置,这就是语料标注。语言可以分为字、词、句、段、篇等层次,不同层次上的标注既有联系又有区别。对词的标注,我们称之为了agl;ing,我们把句法标注称为Syntax了agging,也可以称之为Parsing,是对句子的语法结构进行标注,相对词的标注难度要更大。附码是语料库建设的关键一环,因为它是实现语料机读化的唯一办法。关于附码,我们一般分为机器附码和手工附码。目前在国内对于语料库词的标注准确率已经是达到了97%甚至更高,普遍使用的附码工具是CLAW4,CLAWS5和CLAWS7,其中应用较广的还是CLAWS4。

5微型语料库的常用检索工具

软件是语料库研究者必不可少的工具,”左手拿着语料库,右手拿着软件,就可以搞语料库研究了”。(粱茂成2008)关于语料库的检索,指的是研究者在计算机的辅助下从已标注语料库中检索出某种语言特点的过程。常用的语料库检索软件有Wordsmith,Concordance,PatCount,AntCone。Range,ParaConc等,各种软件的检索性能各有差异,在此,要谈到的是非常适用于个人自建微语料库检索的软件AntCone,因为与其他软件相比而言,AntConc可以在网上免费自由获取,正是为个人研究者量身定做的一款不可多得的优秀检索软件。相比Wordsmith而言,功能基本相同,甚至有些方面还要优于Wordsmi出。因其初代版本性能相对软差,而未能在研究界得到推广应用,而现在越来越多的人开始使用AntCone来进行语言学研究。AntCone主要具有以下功能:,索引”(Concordance),”索引定位”(Concordanee Plot),“文件查看”(File View),“詞丛,(Clusters),“N元模式”(部分词丛),“搭配”(Collocatcs),统计量(Statistical Measures),“词单”(WordList),“主题词单”(Keyword L㈤,共九种常用功能。微型语料库研究者使用这个软件可以对检索结果进行频率分析(frequency an,Iysjs),制作语境共现(eoncordancing),还可以进行统计分析(statistical analysis)。这些功能可以独立使用,也可以搭配使用。对于徹型语料库的检索工具而言,使用AntConc个人认为是最佳选择。

另外,在对语料库进行检索对于软件的选择也要概据研究者的研究目的而定,必要时也可以进行之个软件的交互使用,以达到期望的研究目的。

6结语

本文在介绍了一些语料库的基本情况之后,结合自自身在研究中的体验,重点探讨了微型语料库的定义、建库原则、附码原则、以及适合于微型语料库检索的软件AntConc,旨在为语料库的初探者对语料库有一个整体的感知。望能为语言学发展尽绵薄之力,