APP下载

基于大数据的日语语料库的开发和教学应用研究

2018-03-01杨本明

戏剧之家 2018年34期
关键词:语料库

杨本明

【摘 要】信息技术和存储技术的迅速发展为日语口译语料库的构建提供了现实的可能,本研究基于数据库检索软件AntConc平台,选择青空文库中具有代表性的20部日文小说,把小说中的台词进行数据化处理,尝试建设一个小型的日语语料库,以其为日语课堂教学提供有益的参考。

【关键词】语料库;日文小说;检索软件

中图分类号:G64 文献标志码:A 文章编号:1007-0125(2018)34-0205-02

随着“一带一路”国家大战略的推进和国际贸易合作的迅猛发展,当代大学生在学习外语时不但要练好听、说、读、写、译五项基本功,而且时代的发展对外语类毕业生的口译能力提出了更高的要求。如何在有限的时间内提高外语课堂教学质量?如何更加有效地培养出适应市场需求的外语类人才?这对当下的外语教学提出了挑战,同时也不得不引起教育工作者的深思。信息技术的发展和存储技术的不断提升为外语教学和研究提供了便利,本文首先对国内外的日语语料库的建设现状进行了梳理,简单分析了这些语料库的特点和功能。其次在吸收前辈们优秀经验的基础之上,基于数据库检索软件AntConc平台,选择具有代表性的20部日本小说,把小说中的台词进行数据化处理,尝试建设一个小型的日语语料库,以期为日语口译课堂教学提供有益的参考。

一、日语语料库发展综述

最近十年来,随着硬件储存技术和互联网技术的迅猛发展,国内外语料库的建设也呈现出良好的发展势头。利用关键词“语料库”三个字在中国知网进行检索,可以发现该领域的研究论文从2008年的481篇增加到现在的千余篇。但是输入“日语语料库”三个关键词,只能检索到17篇参考文献,并且最早的一篇关于日语语料库的文章发表于2009年,而早在1982年,学者杨惠中就已经开始构建JDEST科技英语计算机语料库,这说明日语語料库的建设和发展远远落后于英语语料库的发展。通过对先行文献的梳理发现,在国内研究方面,北京外国语大学徐一平教授团队建设的《中日对译语料库》、上海外国语大学毛文伟教授团队建设的《中国日语学习者语料库》具有代表性。在国外研究方面,近十年来,日本国立国语研究所在语料库建设方面取得了飞速的发展,先后建立了现代日语书面语均衡语料库(『現代日本語書き言葉均衡コーパス』),现代日语口语语料库(『日本語話し言葉コーパス』),国语研究所日语网页语料库(『国語研日本語ウェブコーパス』)等十几个大型语料库,极大地方便了国外研究者和学习者。

(一)国内日语语料库发展综述

国内日语语料库的发展主要分为三个阶段,第一阶段是计算机化以前的阶段,称之为传统语料库时期,主要以卡片语料库为主。第二阶段为计算机化以后的阶段,称之为现代语料库时期。第三阶段为超级计算机存储阶段,称之为大数据语料库时期。20世纪90年代以前,国内语料库的建设一般是以卡片存储的方式建立的,这种日记本式的语料库建设需要人工书写,占据空间大,不方便查阅,规模也极其有限。20世纪90年代以来,随着计算机存储技术和网络技术的发展,国内的日语语料库建设开始有了起色。2000年以后,日语语料库建设进入快速发展时期。其中,北京日本学研究中心徐一平教授团队建设的《中日对译语料库》和上海外国语大学毛文伟教授建设的《中国日语学习者语料库》极具代表性,这两个语料库不论在规模上,还是在质量上都填补了国内的空白。

北京外国语大学北京日本学研究中心徐一平教授团队所建设的《中日对译语料库》项目在国内日语语料库建设史上具有里程碑一样的意义,该语料库共收录了中日双语各种文本语料2013万余字。上海外国语大学谭晶华教授、毛文伟教授团队建设的《中国日语学习者语料库》开创了日语学习者语料库建设的先河,该语料库的开发对于高校日语教学具有积极的指导意义。国内外其他高校日语语料库的建设,虽然也有所建树,但是如前所述受到资金和版权的限制,发展并不是特别迅速。

(二)国外日语语料库发展综述

1948年12月,日本文部省设立了国语国立研究所。这一研究机构早在20世纪50年代就围绕日语进行了大量的调查与研究,但是由于客观条件的限制,近半个世纪以来,日本语料库的建设比较缓慢。到90年代前半期为止,日语语料的建设还主要是以人工方式进行的。90年代后期,随着计算机技术的迅速发展,日本的语料库建设也进入了飞速发展时期。其中有代表性的日语语料库主要有以下几种:

1.『現代日本語書き言葉均衡コーパス(BCCWJ)』(構築 2006-2011, 公 開2011)

该语料库收录了1976年-2005年30年间的语料,选材包括书籍、白皮书、新闻报纸、博客、bbs、教科书等内容,语料库的规模达到1亿430万字。目前该语料库有“少纳言”、“中纳言”、“DVD版”三种,其中“少纳言”供日语研究和学习者免费使用。

2.『日本語話し言葉コーパス(CSJ)』(構築 1999~2003,公開2004)

该语料库是国立国语研究所、情报通信研究机构、东京工业大学联合开发的日语口语语料库,选材来自演讲、对话、朗读等内容,语料库的规模为750万字,录音时间为660小时。目前该语料库提供“中纳言”、“USB数据”两种版本供研究者和学习者使用。

3.『日本語歴史コーパス(CHJ)』(構築2010~ , 段階的に公開)

该语料库是国立国语研究所开发的日语历时语料库,内容涵盖了从奈良时期一直到大正时期的日语语料,语料题材有诗歌、故事、随笔、游记、日记、狂言等内容。值得一提的是该语料库的开发为日语历史变迁的研究提供了宝贵的佐证材料。

4.『国語研日本語ウェブコーパス』(構築2011~2015, 公開2016予定)

该语料库始建于2011年,语料库选材全部来源于网络,该语料库的特色是语料库规模大,其语料达到了100亿字。因为该语料库所选择的语料全部来源于网络,所以语料比较新,符合当代人的表述习惯,但是同时也存在着语料不够规范的缺点。

5.「近代語コーパス」

该语料库建设于2009年-2012年期间,选材主要限定于明治时期—昭和时期的文学作品、杂志、畅销书等。明治时期是日语从“文语”到“口语”的转换时期,相当于中国的白话文运动。该语料库又细分为“太陽コーパス”、“近代女性雑誌コーパス”、“明六雑誌コーパス”、“国民之友コーパス”四小部分。

6.青空文库

1997年2月创立的青空文库是一个免费的日本文学作品电子图书馆。该语料库几乎涵盖了日本各个时期、各个流派、各种类型的文学作品。目前该语料库提供zip、ebk、html三种文件格式。编码方式采用Shift—JIS编码。青空文库的免费文学作品极大地方便了日语学习者和日本文学爱好者。

二、日語小说与语料库的构建

2009年本人开始筹建小规模、简易教学语料库,目前语料库约有2000万字规模。该语料库建设目前仍在进行中。预期目标是建设一个规模小,使用方便,检索迅速的语料库。语料的来源是青空文库中部分著名作家的文章。语料检索的软件载体是AntConc,该软件拥有词语检索、生成词表和主题词三大功能,通过编码、压缩后的语料,可以在该软件中以日文的形式展现,并且不会出现乱码现象。选择青空文库的原因如下:

首先,没有版权问题。版权问题是语料库建设过程中必须考虑的问题,在日本,任何文学作品的版权都受到严格的保护,任何机构和个人在没有得到作者许可的情况下都不可以转载、使用其作品。这也是语料库建设中普遍使用比较旧的语料的原因。正如前文所述,青空文库所收集语料,其著作权已经消失,根据日本著作权法,这些作品已经不存在著作权的问题,可以自由使用。制作好的语料库可以免费提供给教师和学生使用,极大地方便了日语学习和研究。

其次,语料丰富。青空文库从1997年开始建设以来,已经历时13年的时间,其规模达到相当可观,包含10752篇文学作品。其中一部分作家的大多数作品都已经录入数据库。青空文库的题材广泛,包括小说、散文、游记、书评、回忆录等各种题材,保证了语料的多样性,可以从各种不同的语言素材出发,对具体的语言现象进行研究。

再次,名家名篇保证了语料的科学性。在语料抽取的过程中,主要抽取了夏目漱石、森欧外、有岛武郎、田山花袋等名家的著名文学作品,在语法教学和词汇教学中,可以通过语料库直接检索名家的语料,避免由于教师自己造句子所带来的误差。并且名家名篇所构成的语料具有很高的文学性和艺术性,在具体的教学中,通过语料的抽取和学习,能极大地提高学生的日语水平和文学素养。

三、日语语料库建设的界限与难点

首先,规模问题。语料库建设是一项规模极其浩大的工程,受计算机内存和存储性能的影响,以个人的财力和物力所建设的语料库在规模上和性能上是有一定的局限性。同日本国立国语研究所数以亿计的大规模语料库相比,本语料库目前仅能对一些简单的语言现象进行检索,更大规模的语料库建设,只能靠国内高校间的合作。AntCon检索软件只能对小规模的数据库进行检索,如果是大规模的数据库,该软件检索需要花费较多的时间。

其次,语料选材问题。语料库的建设顾名思义语料的选择具有很重要的意义,选择什么样的语料,是日本人日常生活中使用的口语,日剧中登场人物的对白,还是日本企业中使用的商务日语,对语料库的性质起着至关重要的作用。因资金支持和人手问题,本语料库只是一个生语料库,并且不涉及语料的均衡性问题。所以在选材方面主要选取了有代表性的小说。在时间跨度上,选取了明治、大正、昭和、平成四个不同时期的作品,力争涵盖各个历史时期的文学作品,使语料库更具有科学性和代表性。

再次,语料的时效性问题。语料库制作还需要考虑的一个问题就是时效性的问题,本语料库所选取的语料并非是当下使用的日语,而是以文学作文的形式固定下来,为日本人所熟知的文学作品。关于这个问题需要说明的是语言材料的时效性并不像食品的保质期一样,很短时间内就会发生质的变化。语言是一个相对固定的东西,我们可以比较流畅地阅读250多年前写成的《红楼梦》,可以很好地说明这一点。

四、结语

随着计算机存储技术和大数据检索技术的不断发展,大量的日语学习语料充斥于网络,极大地开阔了日语学习者的视野,丰富了日语学习者的学习手段。但是,如何在如此众多的语料信息当中筛选出有用的信息,并有效提高我们的学习效率,这无疑成为亟待解决的问题。本文基于AntCon检索软件,选取了青空文库中具有代表性的小说制作成简单的语料库,服务于日语口译教学,提高了教学效果。同时,本文探讨了个人自建语料库的界限与难点,以期在今后的研究与开发中取得突破和进展。

参考文献:

[1]毛文伟.日语语料库建设的现状综述[J].日语学习与研究,2009(06).

[2]谭晶华,毛文伟.中国日语学习者语料库CLJC建设及应用综述[J].日语学习与研究,2011(04).

[3]杜泽兵.基于语料库的中国学术英语词块结构和功能特征研究[J].外语电化教学,2016(05).

[4]胡开宝,李翼.当代英语教材语料库的创建与应用研究[J].外语电化教学,2016(03).

猜你喜欢

语料库
《语料库翻译文体学》评介
基于语料库的“はずだ”语义用法分析
基于语料库“隐秘”的词类标注初步探究
基于COCA语料库的近义词辨析 ——以choose和select为例
基于JAVAEE的维吾尔中介语语料库开发与实现
语篇元功能的语料库支撑范式介入
基于英汉双语平行语料库的无根回译研究
基于语料库的近义词辨析研究——以suspect和doubt为例
低碳经济英语语料库建设与应用
基于网络语料库的“给力”研究