APP下载

语料库视域下的天津方言建档

2017-01-28甘莹

山西档案 2017年6期
关键词:建档语料语料库

文 / 甘莹

如果说建筑是一座城市的筋骨,那么方言便是一座城市的风情。阳春白雪般的诗词歌赋与下里巴人般的乡音俚语传达的都是一座城市生活的点点滴滴。天津方言就是这样一种极富个性的城市语言。它的幽默诙谐和调侃自嘲都体现了天津人的生活态度。天津能为相声专门开设一个广播频道,又能为语言文化的传承而如火如荼地进行方言建档活动。如果说热播的纪录片《五大道》勾勒出天津风雅的过往,那么对于方言的保护和传承则使天津的民间风情更加令人动容。这是一座城市对文化的尊重,更是对母语的热爱。将天津方言作为建档资源,不仅有助于审视天津的发展轨迹,而且能挖掘天津骨子里的内涵,感受地方文化的色泽。

一、天津方言建档的现状

在过去很长一段时期,方言建档主要依靠纸质文本,不仅介质单一、信息不全面,传播范围也有限。到20世纪末,随着多媒体技术的发展和语档语言学[1]的出现,语言的多媒体记录、资料的永久保存和全球传播逐步成为现实。俗话说“京油子、卫嘴子”,目前中国流行的许多词汇均出自天津人之口。可是随着普通话的普及,人们说方言的机会日益减少,天津话淡出的进程正在加速。一种方言的消失往往带来地方文化的消亡。为挽救和保存地方语言,传承地方文脉,天津市档案馆于2014年启动了“天津乡音记忆工程”,用两年时间建立起天津方言语音档案资料库,把地道、老派、正宗和具有代表性的天津话以音频的形式立体地记录下来,全面描写和展示天津方言的传统面貌,为天津乡音的记录保存注入了“档案元素”。

方言建档是一项高保真的记录工程,力求呈现方言和口传文化的自然全貌。天津方言建档围绕专家组成立、资料采集、文本档案选定、发音人甄选、音频档案录制等方面展开。档案馆面向社会征集方言资料、词汇语句、场景对话、历史故事和文艺作品,档案选定内容则由专家筛选汇编成天津方言文本。通过对词汇、成语、歇后语和例句整理建档,使天津方言得到系统有效的记录与传承。如“崴泥”这个词,在归档记录时要注释拼读出来,并且确保标注的发音规范。建档还通过录音的形式为天津的民谣民歌、俗语谚语、俏皮话、大街小巷里的吆喝叫卖、劳动号子等特色方言留声。为增强现场感,部分语音内容采用津味儿小段和情景对话的形式,生动再现了老天津人的生活场景。除了记录“说天津话”,还要记录“唱天津话”,有关相声、快板、时调等说唱曲艺名段都被归档,旨在保护以天津方言为载体的非物质文化遗产。

为了留下美丽乡音与动人乡愁,天津方言建档工作努力探索纸质、音频、视频的全媒体、多维度的天津话记录。2014年《天津方言语音建档首批文本》公布,其中包括天津方言典型词汇、方言俗语谚语和具有天津地方民俗特色的地理买卖杂志。2015年《天津方言词典》面世并正式入藏市档案馆档案资料库,成为天津方言词汇大全。2017年,天津市档案馆牵头赴安徽拍摄天津话寻根溯源纪录片《听见天津》,挖掘津皖方言在文化、历史、民俗等方面的关联,对天津方言的保护形式进行了延伸与拓展,实现档案记忆与数字记录同在同行。

二、语料库视域下天津方言建档存在的问题

(一)建档的专业基础单一,疏于语料内容的深层次解释标注

方言建档是语言学和档案学相互交叉形成的新领域,本质上属于需要语言学知识支撑并服务于语言相关领域的档案学问题。天津方言档案目前是从语言记录的角度来完成的,即在天津档案馆的组织下开展方言资源和历史文化普查、制定方言文本、征集语音发音人制作音频,最后归档建立档案数据库。这种建档模式的主要目标在于全方位记录语言而不是用语言学知识去描述和解释语言现象,因此数据库在语言特征的分析和注解上做得不够完善,语料数字化标注程度和质量有待提高,其用途仅限于档案保存,后期对于资料库的语言学研究不能有效开展,不能全面反映天津方言的情况。保护天津方言、从跨学科跨专业的角度来记录天津方言演绎的历史进程迫在眉睫。

(二)方言语档的数字平台和信息分析工具尚未成熟,疏于语料的社会共享、利用和扩充

语料库是为了某一个目的而建立的有关文本、语音及其标注的集合。它是一个完整的系统,不但包括语料及其标注集合本身,而且包括数据库管理系统。方言的语料库建档已经成为方言研究不可或缺的重要技术手段和工具,其最直接的应用就在于可对方言文本及音像文件进行数字加工处理、多媒体转写、数据统计和检索分析,可通过大量参数使我们对方言进行量化比较和总体描写。方言语料库应以建立有广泛社会共享价值、可供语言恢复、语言资源开发与利用的永久性活态语料档案为最终目标。在归档保存以后,我们要按照长期安全存取的需要进行维护和管理,并提供给用户进行访问。就天津方言语料库而言,其数据管理系统并不完善,各种分析检索手段也仅停留在存储阶段。此外,目前天津方言语档没有最大限度地进行开放性信息平台的建设,并未见到公开发布或面向用户使用的语料库或数据库电子产品,也未体现用户自主采录、集成和传输音视频语料的开放理念。

(三)天津方言语档的结构设计无法完全适应语言资源的多用途需求,疏于语料类型的全面覆盖和方言语档的成果转化

语料库建档,既要包括文本语料库,也要包括语音语料库。天津方言语音档案资料库虽然实现了数字化的有声存档,但是针对文本文献和视频纪录片的多媒体介质存档并未完全分类建库。已建语档不能提取天津话的个性特征,如特征发音、特征词、特征语法和话语标记,也不能提供方言语音识别等高级语料库技术。此外,天津方言语档的话语内容偏重预先设计和文本朗读,天津话的自然语言生活状态表现不足,体裁、语体覆盖面和多样性不广,没有完全覆盖到个人陈述、独白、会话等语体,也没有全面覆盖自然生活中的语言实践和语言生活。针对文化学、社会学等交叉学科对地域方言材料和知识内容的基本需求,已建语档不能全面反映天津方言地域自然生活的环境知识和历史方言文化,尚未真正达到语言文化建档的统一。

三、语料库视域下天津方言建档的具体对策

(一)结合语料库语言学成果,加强天津方言语料的数字化深加工

语言纪录的核心是同步标音、多层级注解、翻译成交际范围更广的语言以及建立视听材料的语料库[2]。在语料库的基础上为天津方言建档,为方言保护提供了新的路径,能够设计较为细致的语言档案构成体系。语料的采录、集成、整理、标注可实现从原始语料到生语料再到经音标、汉语和赋码等深加工标注的熟语料转换,且标注得越丰富越精细,对数据的挖掘就越深越广。建档语料的深度加工和分析可由语言文字研究机构协同完成,各专业部门发挥各自学科优势,合作共赢[3]。例如,东莞方言的有声语料库制作工作就由暨南大学汉语方言研究中心负责完成。他们通过多元主体合作共建,能够整合资源,进一步统一顶层设计标准,在语音标注形式规则、语音发音标准判断、语义解释翻译、音视频录制技术、成果整理内容方式、数据格式规范等方言档案建设工作上取得一致性,能够增强方言档案在音韵、语法、词汇、话语分析等方面的专业性和科研性,提高档案的学术用途。

(二)推进方言语料资源的传播和利用,提升语料库平台的数据管理、共享和升级功能

方言语料库应该是一种公益性的成果,不仅语言工作者可以方便地使用,社会各界以及中外语言学习者都应该从中受益。近几十年来,许多国家都相继建设了大规模多品种的语料库,例如,三大经典语料库——BROWN布朗语料库、LOB语料库和LLC伦敦—朗德英语口语语料库均有目的有系统地收集了大量在生活中使用的书面语和口头语,并用先进的电脑技术手段进行储存和开放检索。我国台湾政治大学的“汉语口语语料库”,江苏省语委的“中国语言资源有声数据库(江苏库)”均实现了网上检索[4]。开放性的语料平台设计可实现方言语料的不断扩充,突破方言学者采录的瓶颈,使方言区的群众把身边发生的或自己亲历的丰富活态语言资源不断地汇集到语料库中,完成大规模、多场合的语料采录和标注解释,真正实现方言资源的可持续发展。基于已有天津方言有声资料库,我们可开发出集基础性、集成性、权威性和开放性为一体的天津方言语料查询和应用平台,使之成为实现全文本字、词、句的检索功能、语音的声学分析功能、文化的数字信息功能和共享扩充升级等多功能、多用途的语料库集成信息系统。

(三)优化方言语料库结构和类别,大力开发天津方言产品

针对方言的多用途需求,我们可在已建的天津方言语档基础上深入开发出具有一定规模量级的规范化、标准化的“天津方言有声语料库”和“天津方言文本文献语料库”,使音像、文本、历史文化文献分类存档,并且确保最新的档案语料按类别及时入库,以丰富语档的资源体系和内容导向。建档的天津话语料可以遵循开放语档联盟的《OLAC话语类型词汇》标准,采录各种体裁样本,实现语料的合理化分布和覆盖,尽可能真实完整地还原方言的使用状态和文化特色。我们基于语料库可开发天津话电子发音词典、天津方言词频词典等文化产品,出版有关天津话的多媒体学习材料和面向大众的声像制品或网络资源,着重挖掘天津话的语意和文化内涵,使天津方言语档成为民间传统文化的典藏库。为了满足天津方言语档的保存和管理需求,我们还可进一步建立天津方言虚拟档案馆,拓展方言语料库的数字化成果,使之成为与天津科技档案馆、天津城市建设档案馆等具有同样重要地位的方言数字档案管理系统。此外,天津方言产品的开发使用也可结合网络社交媒体或移动APP等新技术,提升用户体验。

综上,天津方言的语料建档对于天津话应用研究的数字化基础建设具有重大的学术价值和现实意义。从语言学角度来看,方言是语言的各种地理变体,为方言建档是中国语言保护的重要组成部分,是抢救方言的语言文化工程。它将为语言教学研究、语言学知识普及、语言国情传递和公众语言资源意识的提高起到巨大的推动作用。此外,方言不仅是地方信息交流的工具,更是一种特殊的文化符号和文化情结,其独特的人文价值毋庸置疑。天津方言建档工作是促进天津“文化惠民”的民心工程,也是创建文化强市,响应“文化强国”的重要战略举措,能够激发我们对天津文化价值的认知与共鸣。天津方言的语料库建档一定能够构建起天津城市语言文化的独特名片。

[1]陈子丹,郑宇,武泽淼.我国少数民族濒危语言建档的几点思考[J].档案学通讯,2016(4).

[2]黄有龙,李云兵,王锋.纪录语言学:一门新兴交叉学科[J].语言科学,2011(3).

[3]赵生辉.方言建档工作的学科关系与协同机制探析[J].档案与建设,2014(6).

[4]范俊军.汉语方言自然口语语料库建设的几个基本问题[J].学术研究,2013(2).

猜你喜欢

建档语料语料库
记录历史,传承文明
——数字化测绘建档技术助力历史建筑保护
基于归一化点向互信息的低资源平行语料过滤方法*
“红心向党·创新报国”建档100周年主题征文活动
平行语料库在翻译教学中的应用研究
《语料库翻译文体学》评介
加强社区入户建档管理的初步探讨
友谊医院通州院区能建档生娃了
对外汉语教学领域可比语料库的构建及应用研究
——以“把”字句的句法语义标注及应用研究为例
国内外语用学实证研究比较:语料类型与收集方法
语篇元功能的语料库支撑范式介入