APP下载

英语视频新闻语料库的构建

2017-12-21郭文正

校园英语·上旬 2017年13期
关键词:英语新闻语料库

【摘要】建设英语视频新闻英语语料库对于英语的学习者具有重要的意义和价值。结合语料库语言学理论,从语料库的代表性、语料库的规模、语料的抽样、语料的标记、语料的赋码等几个方面探讨了英语视频新闻英语语料库的建设程序,提出了一些关于建设该类语料库的方法和思路。

【关键词】英语新闻 抽样 赋码 语料库

语料库是真实语言材料的集合,通常都村粗在计算机里,具有信息量大、信息复杂等特点。作为人们经常接触的语言材料,新闻的内容能够反映社会生活,新闻语言具有强烈的时代性,对日常生活用语的使用有着重要的意义,也可以说是标准语言,能够体现现代英语发展特征和社会趋势。以英语新闻作为选材来源,建立一个视频新闻语料库并进行不同目的的研究具有深远的意义和十分重要的价值。

一、建设新闻英语语料库的目的

近几年来,国外在新闻英语方面的研究有了长足的进步,关于新闻英语的特点及在国内新闻报道的研究,近几年来国内许多著作和论文体现的较多,近年来,国外在相关领域已经建成了报刊新闻英语语料库,例如:路透社报刊新闻英语语料库,它存在的主要目的是研究报刊新闻英语。因此,建立一个用来分析和研究新闻英语,提高新闻英语的研究能力,提高英语播音主持专业英语新闻教材的编写和教学水平的新闻英语语料库,具有重要的意义。新闻英语语料库应该具有丰富的功能,包含大量的材料,如:视频新闻英语文本、语音文件等。

二、英语新闻听力教学语料库的设计原则

语料库的设计是所有工作的第一步,也是语料库建设中最重要的一个环节,设计的质量会关系到语料库的质量并在一定程度上影响后续相关语料库的研究。设计阶段要对问题进行全面分析,通常来说要全面考虑,必须充分考虑语料库的规模、内容、语料样本,下面就语料库的设计原则进行阐述。

1.语料库的代表性原则。语料库建设的首要原则是代表性原则,它是区分语料库与语料档案库的一个重要标志。一般来说,视频新闻英语语料库的主要特征是有限的语料样本能够最大限度地反映新闻英语。因此,这就要求建库者应该收集尽量丰富的各种形式的文本,这样在一定程度上可以保证语料库的总体特征,提高语料库的代表性。

2.语料库规模适度性原则。通常来说,语料库的规模要尽量大,这样可以涵盖更加丰富的内容,但在事实上操作难度很大,其规模会受到很多影响因素的限制。因此,日常管理过程中,建库者是运用统计学的原理,以语料代表性和合理分配样本比例为基础,通过一定比例的样本从总体上反映语言学特征,这样就可以不必片面追求规模,同样达到比较理想的效果。

语料库的规模有四个层次,分别是:词次、库文本数量、层间样本数量和库样本容量。各层次之间的比例要从平衡的角度进行合理分配。综上所述,随着科学技术的进步,应用现代化的互联网和多媒体技术,可以实现建立100万词次容量的广播新闻英语语料库,这一规模就可以完全满足研究广播新闻英语的需要。

三、语料抽样

语料库自身也存在着矛盾,应用过程中发现无尽的语言事实和有限的语料样本之间的矛盾是永远无法解决的,语料库常见的研究方法是用有限的语料代表整体语言事实。要尽最大限度的解决这个问题,必须在确定规模的基础上根据统计学理论进行科学抽样,使建成的语料库达到总体效度的标准。

英语视频新闻语料库的语料全部从英语新闻选取,语料库的建设目的是为主流标准英美新闻语言的研究提供数据,所以采取英语报道中的材料。

1.等距抽样。语料库建设者必须充分考虑所手机的内容要具有多样性,这样抽样时才具有代表性。当新闻报道遇到重要新闻热点事件时,如奥运会或者恐怖袭击等,在一段时期当中新闻报道将会用大量篇幅覆盖该主题,这就会使抽样在平衡性上造成偏差。这样在一段时间内占某一新闻事件将不会对语料选取的多样性和均衡性造成影响,但是从现代统计学的观点来看,其随机指定的方法未免缺乏科学性和精确性。为了达到更好的代表性和平衡性,可以采取统计学中的等距抽样的方法,做好样本排列顺序和样本抽样间距的设计。

2.分层抽样。分层抽样是“按照总体已有的某些特征,将总体分成几个不同部分,每一部分称为一层,然后再分别在每一部分中进行简单随机抽样。”在分层抽样中,各层子样本方差可能会小于总体方差,具有较好的均匀性,可以得到较高的精度,分层抽样可以减少误差,提高精度。

3.语料的预处理、添加文本头标记和文本的结构标记。进行抽样后的语料还不能直接加入预料库,之前需要进行加工和标识。目前常用的方法是在Wordsmith 软件中撰写命令语句,再导入抽样后的语料进行处理,方便快捷地就可以完成预处理的工作。

根据语料库建设的通识做法,需要对每篇语料加注文本头,以提供这篇语料的有关基本信息。文本头的标记提供包括语料的来源、收集时间等七个方面的基本信息。标记的方法可以参照研究者的需要进行。

四、语料的赋码

抽样语料不经过赋码只能被称作生语料。使用生语料库只能进行制定词频表或借助语料库检索软件对特定词的词频、用法和搭配加以研究,不能完全发挥语料库在新闻英语研究方面的潜力。经过赋码的语料库则具有更广泛的研究价值。

语料库的赋码是对语料添加语言特征码的过程。语料库的赋码有两种:词性赋码和句法赋码。词类赋码目前已可以自动进行,对不受限制的语料进行自动赋码的准确率已可达到96%以上的准确率,基本上可以满足语言研究和应用的需要。而对语料进行自动句法赋码的准确率还不高,还没有达到应用的程度,对语料的句法赋码到目前为止还必须采取计算机软件协助下的人工赋码方法 。

英语新闻报道内容丰富,形式多样,语言灵活,词语、句法活用情况频繁。就其英语视频新闻而言,文本的赋码不可能达到绝对的准确率,但经过努力可以保证准确率达到90%以上,基本达到后期研究的需要。

五、英语新闻语料库的应用

新闻英语语料库的建设和应用还需要很长时间的探索。严格意义上来讲,“语料库本身并不包含和语言相关的新信息,但基于语料库的检索引擎给我们提供了观测旧信息的新视角。”通过语料库软件检索功能,将调研语料库中所有词按照词频高低进行排列。通过频率词表除可以观察不同新闻语篇的特点,能够掌握词汇的频率等信息,进而计算出選词指数。利用语料库软件的文本索引功能对整个新闻语料库进行检索,可以呈现出英语新闻报道的规律。

六、结语

当今社会,新闻编辑和文化研究能力只所以得到进一步提高,主要取决于英语视频新闻语料库及相应检索软件的发展和进步为其研究提供了一个新的平台。

多媒体技术从技术和应用角度能够为新闻从业者、新闻教学和英语学习者提供非常便捷的服务。借助一些语料库检索软件,可以快速了解英语新闻词汇和语篇特征,解析新闻英语中的常见词汇、常用语言的连接关系。此外,新闻英语语料库与新闻文本对应的视频文件还有很多作用,可以提供查询服务,提供借阅服务,还可以为编写新闻英语教材提供了大量丰富的素材,教材编写者还可以通过软件的查询功能实现快速选取语料库中需要的材料,而且还能根据语料库样本的统计特征控制所选材料的难易程度,进而促进新闻英语的研究。

参考文献:

[1]Kennedy,Graeme.An Introduction to Corpus Linguistics[M].New York:Longman,1998.

[2]韩宝成.外语教学研究中的统计学[M].北京:外语教学与研究出版社,2000.

[3][英]霍斯顿.应用语言学中的语料库[M].北京:世界图书出版公司北京公司,2006.

[4]李晓娜.多模态话语分析南宁国际民歌艺术节海报[J].安徽文学(下半月),2010(12).

[5]王立非,文艳.应用语言学研究的多模态分析方法[J].外语电化教学,2008(03).

作者简介:郭文正(1979-),河南郑州人,文学硕士,平顶山学院外国语学院副教授。

猜你喜欢

英语新闻语料库
基于语料库翻译学的广告翻译平行语料库问题研究
浅谈语料库分类及用途
国内外语料库建设研究简述
运用语料库辅助高中英语写作
央视英语新闻频道对大学英语教学影响的研究
英语新闻标题翻译中的把关研究
大学四、六级考试改革新增新闻听力应对技巧与实践探索
浅析提高英语新闻听力水平的方法
英语新闻中文化传播的特色与现状
谈英语新闻中的模糊限制语