APP下载

微型语料库HUEMWEC的建设与应用

2013-09-04曾利霞

怀化学院学报 2013年9期
关键词:赋码语料语料库

曾利霞

(怀化学院外国语言文学系,湖南怀化418008)

语料库能成规模地将零散的书面或口语语料汇集起来,加以系统管理和开发,并利用软件进行自动检索;其优势是可以批量地获取人们言语行为的信息,便于发现规律和趋势以用于研究与教学[1]。国内基于语料库的教学研究的绝对数量越来越大,将语料库应用于外语教学的趋势也越来越明显[2]。随着语料库语言学的兴起,国内外学者们致力于学习者语料库的开发,陆续建立起了多个大规模的语料库,如国外 LLC(Longman Learners' Corpus)、BNC(British National Corpus)、ANC(American National Corpus)、 LOCNESS(Louvain Corpus of Native English Essays)等语料库,国内CLEC(Chinese Learners' English Corpus)、 MSEE(Middle School Educational English)、COLSEC(Chinese Learners'Spoken English Corpus)、

SWECCL 1.0和SWECCL 2.0等语料库。学习者语料库的建设已经成为当今语料库语言学研究的重点之一[3],这些大规模语料库的建成为之后的各种相关研究提供了坚实而有价值的数据资源。

随着语料库建设和辅助英语教学知识的进一步普及与相关技术的飞速发展,广大一线教师可以在充分学习专家们的语料库建设经验后,从自己的教学与研究需求出发建设小型专用的语料库。这种小型专用语料库有着种种优势:目标明确、语料收集针对性强、语料能不断扩展、及时更新、自主设计、灵活标注[4]。目前越来越多的小规模的语料库已经建成或正在建设中,涵盖了口语语料、书面语语料、双语语料、对比语料、特殊英语语料等不同类型和范围。这些语料库是国内英语学习者语料库总体建设的有效补充,为建设者们的教学和科研提供了真实的语料,具有实际的研究和教学指导双重意义。

一、HUEMWEC建库的必要性与可行性

HUEMWEC的建设和使用有着重要的意义。首先,该语料库的建立及应用将推动我校英语专业学生根据各自需求和兴趣,进行探索式—发现式—验证式学习。其次,该语料库的建立有助于相关一线教师避免主观和偏颇,科学地、理性地、全面地掌握学生的语言学习情况和语言特点,找出学生写作中相对普遍存在的问题,从而开展有的放矢的教学。再次,该语料库的建设是国内学习者语料库总体建设的补充。因此,该语料库的建设是必要的。

语料库的建立是一项非常费时费力的工作。一个大型、系统语料库的建立可能需要研究者们付出数年甚至数十年的努力。但是,基于本校师生教学与研究需求的微型语料库库容量相对较小,标注和分析也相对容易,而且可以在教学过程中不断补充,因而难度大大降低。另外,笔者开展同行之间的合作,并集合了几位感兴趣的高年级学生,共同致力于HUEMWEC的建设和发展。因此,该语料库的建设具有可行性。

二、HUEMWEC的特点

小型专用语料库HUEMWEC具有以下四个主要特点:

(一)微型。与CLEC、COLSEC等大型的普遍适用于英语学习者、库容量为数百万词次的语料库不同,初步建成的HUEMWEC仅收集了640篇怀化学院2010级学生专四模拟考试作文,约13万词次。

(二)本地化。HUEMWEC主要用于本校英语专业师生教与学的分析、反思、发展与研究,从而为本校及同等水平学校的英语教学提供参考,因此,它的语料仅限于本校英语专业学生书面英语。但是,笔者及其团队采用大型语料库的赋码和标注符号,以便在一定条件下资源共享。

(三)发展性。HUEMWEC收录的语料可以识别来源并且可进行历时的跟踪调查。目前该语料库初步建成,但笔者及其团队将根据教学和研究的需求继续致力于该库的扩大和完善,收录不同年级学生不同时期的书面英语语料,以便动态地掌握其书面语言能力的变化。

(四)参与性。当前及后续的建库,都由笔者与同事合作指导若干高年级学生开展语料的收集、输机、校对、赋码、标注和入库等工作。学生的参与一方面出于分散劳动强度的要求;另一方面,参与的学生也为自己毕业论文的撰写获取了实证性的数据。

三、HUEMWEC的建设

(一)语料的来源与分类保存

HUEMWEC语料来自怀化学院2010级两次专四模拟考试写作语料。试卷批改之后输入计算机存档。这些未经处理的语料叫做生文本 (raw text)。存档时把每一个生文本作为独立文件用学号单独命名存为纯文本(.txt)格式,便于让软件识别和添加新的文件。

(二)语料的整理、赋码与标注

将生文本合并后进行简单的整理和加工。首先,利用“文本整理器”软件批量进行去除段落首尾空格、去除首跳格、去除段落间空行、全角标点变半角标点等处理[5],然后重新命名该整理文本并保存。接着,在文本头用尖括号标出该语篇的作者姓名、性别、年级、班级、文本字数这些基本信息,便于之后的研究与继续建设。然后,利用德国斯图加特大学计算语言学研究所Helmut Schmid设计的TreeTagger免费工具对其进行自动词性赋码操作并另命名保存。最后,手动进行一些简单的错误标注。错误标注是基于表1对错误标注的赋码进行的。

表1

简单来说,在完成规划、语料收集、输机、校对、赋码、标注、入库这些工作后,HUEMWEC初步建成。笔者及其团队会在今后的教学中不断添加新的语料并根据不同的需求补充标注,使其发挥更大的作用。

四、HUEMWEC的应用

HUEMWEC的建成和后续发展可以在以下四个方面发挥积极作用:

(一)促进自主型和探究型学习模式的培养

本族语语料库可以为语言学习者提供真实的、地道的目的语表达方式,而作为学习者语料库的HUEMWEC能够清楚地反应出本校英语专业学生综合的语言水平和普遍存在的语言使用问题。两者结合起来使用,学生在老师的指导下使用易于操作的检索软件如文本分析程序Writer's Workbench,进行对比、分析、探索、发现、总结,在自我探究的过程中发展语言能力。这种探究式的学习方法可以延伸到课堂之外,学生掌握了这种方法以后可以随时利用检索工具,解决自己学习中遇到的各种疑问,从而达到自主学习的目的。

(二)确定学生中间语中的典型错误,增强教学的针对性

笔者和同事在教学过程中发现学生中间语中存在的错误数量大种类多,那么哪些是值得进一步关注的典型错误呢?教师帮助学生认识到自己在语言使用中的错误并改正它们的显性教学方式比一味给学习者提供正确语言输入的隐性教学方式更容易使学生在语言学习方面取得进步[6]。HUEMWEC建成之后,就可以利用该语料库数据分析本系学生错误的类型、特点和原因,相应地给予针对性的指导。例如,笔者在批改作业的时候发现学生常产出这样的句子“Venice is greatly benefited from its extensive contact with China”, 检索 HUEMWEC后发现该类型的错误具有非常强的代表性。目前,笔者正致力于统计该类型的错误,分析原因,以期在今后的教学中给学生明确、有效的指导。

(三)为教和学的评价与反思提供更全面的依据

与考试成绩相比,HUEMWEC的检索数据更能全面地反映出本校学生综合语言水平与老师的教学效果。通过分析该语料库数据,可以掌握学生语言在词汇、句子结构、格式、断句、衔接手段等各方面的特点,从而实质性地评价教和学的效果。另外,随着HUEMWEC的扩充,纵向比较学生不同时期的书面语言,可以动态地了解教学对学生语言能力发展的干预效果及学生语言能力的发展。

(四)为高年级学生撰写毕业论文提供数据支持

在兴趣的驱动下,2010级几位学生选择写作基于语料库研究的毕业论文,如基于HUEMWEC的怀化学院英语专业学生写作现状分析、语法错误分析、冠词误用分析等。他们在HUEMWEC基础上根据自己的需求进行再加工,不但丰富了自己的研究素材,也为HUEMWEC的建设做出了贡献。

尽管HUEMWEC的建设还需要不断的丰富和完善,但是我们在收集整理的过程中一边分析、一边利用语料为教学服务,已经取得了初步成效。笔者相信,通过团队的力量和研究的扩展与继续,HUEMWEC的标注会更细,内容也会更加充实。同时,它在培养学生英语写作能力和自主学习能力、促进相关课程的教学效果及师生的科研等方面会得到更广泛的应用。

向参与HUEMWEC建库工作的段海霞、唐洁琼、黄春等同学诚表谢意。

[1]刘学惠.英语师范生课堂话语的建库、分析和应用[J].外语电化教学,2006,(5):42-46.

[2]刑富坤.语料库:值得教育技术学关注的新型学习资源 [J].解放军外国语学院学报,2006,(2):67-70.

[3]甑凤超,张霞.语料库语言学发展趋势展望[J].外语界,2004,(4):74-77.

[4]谢家成.论个人教学语料库的构建 [J].外语电化教学,2003,(3):30-33.

[5]梁茂成,李文中,许家金,等.语料库应用教程 [M].北京:外语教学与研究出版社,2010.

[6]Carroll,S.&Swain,M.Explicit and Implicit Negative Feedback:An Emperical Study of the Learning of Linguistic Generalization[J].Studies in Second Language Acquisition.1993,(15):357-366.

猜你喜欢

赋码语料语料库
基于实物“ID”的变电站整站赋码管控系统及方法研究
《语料库翻译文体学》评介
英语视频新闻语料库的构建
基于语料调查的“连……都(也)……”出现的语义背景分析
华语电影作为真实语料在翻译教学中的应用
基于JAVAEE的维吾尔中介语语料库开发与实现
迎接食品安全新法麒锐与您共谋发展
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法
语料库语言学未来发展趋势