APP下载

西北花儿语音语料库管理系统设计研究

2014-01-01

渭南师范学院学报 2014年23期
关键词:演唱者语料录音

曹 静

(渭南师范学院期刊管理中心,陕西渭南714099)

语言学名词审定委员会在《语言学名词》中,将语料库定义为:“为语言研究和应用而收集的,在计算机中存储的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体.”[1]自20世纪80年代以来,计算机语料库的建设与应用,引起了许多国家信息技术领域和语言学界浓厚的兴趣;计算机语料库对自然语言处理的不同方面(如话语识别、人机对话、信息提取、网页分类、机器翻译、文档处理等)的重要性和蕴藏的潜力,得到了国际计算语言学界的广泛认可.[2]在这期间,语音语料库作为言语技术的研究与开发而建立的语音数据及其标注的集合,其研究、开发与应用在计算机技术的有力支撑下亦获得了长足进展.

“花儿”,是流行于青海、甘肃、宁夏、新疆等省区的民歌,深受汉、回、藏、土、东乡、保安、撒拉、裕固及蒙古等民族群众的喜爱,众口传唱,经久不绝.[3]2006年,“花儿”被确定为首批国家级非物质文化遗产保护项目;2009年,“花儿”被列为世界非物质文化遗产保护名录.到目前为止,在对西北花儿研究的各个领域中,语料库的研究还是一个空白.因此,设计一个语料丰富、能够统一管理、查询能力强、可视界面良好的语音语料库管理系统势在必行.

1 花儿语音语料库设计

1.1 语音语料库的相关规范

为了快速有序以及有效地建设花儿语音语料库,保证语音语料库的质量,在语音语料库建库之前,首先要研究制定好一系列适合花儿语音处理的规范标准,主要包括发音人规范、语料设计规范、录音规范、数据存储技术规范等.[4]制作语音语料库的一般规范如表1所示.

表1 语音语料库的一般规范[4]

1.2 语料库样本选择

花儿曲调极为丰富,据统计,仅青海的河湟地区就有上百种.不同的曲调有着不同的“令”.按流行地区分为“河州令”“湟源令”“川口令”“循化令”等;按照演唱民族划分为“土族令”“撒拉令”“保安令”等;按照花儿的衬词又分为“白牡丹令”“尕马尔令”“花花尕妹令”等.[5]因此,在挑选语音语料时,要根据收集的原始语料并结合花儿语料本身的特点,采用民间艺人和专业演唱者结合的方法,使所选语料尽可能覆盖花儿的所有曲调,如实反映花儿的基本面貌.语料唱本以民间采集的口语文本为主,同时兼顾各种已经汇编出版的著作.[6]语料选择还要考虑民间演唱者和专业演唱者的平衡,不仅要采集当地原生态花儿,而且也要采集一些新创作的花儿民歌.

1.3 演唱录制语音语料

花儿演唱是词随令行,即兴编唱.本系统的演唱者有专业演唱者和民间艺人两种角色.在建设语音语料库时,尽量邀请知名花儿专业演唱者演唱语料文本或根据花儿词令即兴编唱.对于民间艺人,尽量选择青海、甘肃、宁夏、新疆等省区的花儿演唱“把式”,因为他们大多都能掌握花儿曲令,且擅长即兴编词,属于真正意义上原生态的民间艺人.

由于收集语料的特殊性,根据不同的研究目的,采用两种方式:一种是演唱者登录系统在线演唱录音,另一种是人工补充语料,即系统导入语音语料.

1.3.1 演唱者在线演唱录制

在安静的环境下,演唱者登录系统后,利用配制完善的录音设备和专业的录音软件,选择演唱语料文本,或者即兴编唱,录音保存后,上传至服务器等待系统管理员审核.录音软件须在录音之前设置录音参数,主要以wav文件存储路径.

1.3.2 系统导入演唱录音文件

花儿因其特殊的传承机制,决定了原生态花儿往往存在于条件相对落后的偏远地区,那些民间花儿“把式”没有条件上网,因此这些人们极力保护和推崇的原生态型花儿要进入语音语料库并获得传承,就需要花儿语料采集者实地去采风完成.系统导入演唱录音文件适合于以下两种情况:

(1)实地采集原生态花儿语音语料

原生态的花儿饱含着对时、地、景、情的抒发,它由感而起、由情而生,没有刻意的雕琢,与生活紧密相关,更是浓缩和经典化了所要表现的内容和现象.花儿在几百年来的传承过程中,因其口授心记的特殊方式,逐渐形成了大大小小的“花儿会”“花儿剧场”“花儿大赛”“花儿演唱会”等,[7]在采集原生态花儿语料时,为了得到真正能反映原生态花儿全貌的语料,就需要花儿语料采集者到青海、甘肃、宁夏、新疆等省区,实地参加各地举行的具有代表性的“花儿会”,征得举办机构以及演唱者的同意,将其中的优秀作品进行现场录制,所录制的音频通过系统管理员导入花儿语音语料库.

(2)与网络媒体机构合作,录制花儿语音语料

随着现代计算机技术、网络技术的发展,网络花儿、手机花儿通过新型媒介大放异彩,因此,在建设语音库语料时,可考虑与网络媒体机构,如优酷网等合作,选取具有传承意义的优秀作品的语音文件,通过系统管理员导入花儿语音语料库.

2 花儿语音语料库管理系统的设计

建立西北花儿语音语料库的目的在于使花儿永久而系统地保存下来,并能够使国内外花儿学习者、研究者方便地进行大规模语音资料的查询、检索和统计.

2.1 系统的结构设计

为了提高系统的开发效率,根据系统需求分析,将花儿语音语料管理系统划分为五个模块,即用户注册模块、用户/管理员登录模块、演唱模块、语音库维护模块、查询/下载模块.用户通过主界面访问本系统,各级别系统管理员根据自己的权限执行相应的操作,具体如图1所示.

图1 系统模块图

五个模块的功能分别为:

(1)用户注册模块:主要用于登记普通用户和演唱者的姓名、性别、年龄、职业、籍贯等个人信息.普通用户没有演唱录制的权限.

(2)用户/管理员登录模块:主要用于验证已经注册的用户和管理员的账号、密码,确保其以合法的身份登录,获取相应的权限.

(3)演唱模块:主要是针对演唱者,即有条件使用网络、计算机等设备的专业演唱者、民间艺人等进行演唱录音,并上传至服务器.

(4)语音维护模块:主要用于系统管理员对用户进行添加、修改、删除等管理工作;对语料文本进行添加、删除、更新等管理工作;对语音文件进行审核、添加、删除、更新等管理工作.

(5)査询/下载模块:主要用于用户通过一定条件,如演唱者姓名、语料曲目、检索词等信息查找到自己所需要的数据,进行在线播放或者下载.

图2 系统流程图

2.2 系统业务流程图分析

花儿语音语料管理系统采用了ASP语言和SQL Server 2005数据库平台的设计方法,五个功能模块都被设计成独立组件,分别完成一项功能,这些独立组件组合成一个整体,协同工作,实现整个系统的功能.系统的流程图如图2所示.

用户注册完成后,系统管理员在后台管理系统审核已经注册的用户信息,并分配相应权限.用户登录系统成功即可根据自己的权限进行相关操作.普通用户只能查看、修改自己的个人信息;也可查询/下载语音库里的语料.演唱者用户分为专业演唱者和民间艺人,他们根据系统管理员赋予的权限,演唱录音,并上传所演唱的语音文件至服务器;也可查看、修改自己的个人信息;查询/下载语音库里的语料.系统管理员根据自身角色拥有相应的权限,可审核、查看用户资料;维护语音库所有资料.

3 系统数据库设计

花儿有很多种基本调式和旋律,其变体甚多,又因曲调词令极为丰富,大多都是即兴编唱,为了使采集到的花儿语料尽可能地反映花儿全貌,就要求所选择的数据库必须有很大的容量.在花儿语音语料数据库中不仅要存储大量的语音波形文件,而且要存储对应的演唱者信息和语料文本,对事务的处理和网络的支持也有一定的要求,又根据系统实际需要,选取MS SQL Server 2005作为数据库管理系统.

3.1 数据库分析

针对西北花儿语音语料库管理系统的设计需求,系统所设计的数据库要具备以下的数据访问功能:

(1)用户信息保存和维护:这类数据主要通过保存用户账号、密码、姓名等信息来区分不同的用户和管理员.数据在注册时向系统数据库中添加,用户登录系统时系统提供验证过程,进行登录人员身份的核对,确保登录用户身份的合法性和数据的安全性.

(2)花儿语料文本的保存与更新:这类数据主要通过语料编号、语料名称等信息保存文本语料.普通用户可以通过查询系统访问这类数据,演唱者可以根据语料文本录制语音语料,管理员可以对语料文本进行添加、删除、修改、更新等维护操作.

(3)语音波形文件的保存与更新:这类数据主要通过语音文件编号、语音录制文本信息、演唱者信息、语音文件存储位置信息等方式进行保存.演唱者录音完成后,可以上传本次录音的波形文件,系统自动对该文件进行保存.普通用户可以通过查询访问这类数据.管理员可以对数据库中存在的文件进行审核、发布、删除等操作;对于语料采集者采集到的原生态花儿语音语料和通过合作录制的花儿语音语料进行审核后添加操作.

3.2 概念数据模型设计

概念设计的目标[8]是准确描述应用领域的信息模式,支持用户的各种应用.概念数据模型是一种面向用户的模型,主要用来描述实体与实体之间的关系,实体与属性之间的关系.它是按照用户的观点出发,对数据和信息进行建模,主要用于数据库设计.[9]在概念数据模型中最常用的是 E-R模型,主要用实体—联系方法(Entity-relationship Approach)表示,简称E-R模型.E-R图是由实体、属性、联系三个部分组成的.限于篇幅,这里只给出语音语料的E-R模型,如图3所示.

图3 语音波形文件实体图

3.3 数据表设计

数据库逻辑设计的目标[8]是满足用户的完整性和安全性要求,能在逻辑级上高效地支持各种数据库事务的运行.根据上述E-R实体图可相应地设计出用户信息表、管理员信息表、语料文本信息表、语音波形文件信息表.限于篇幅,这里只给出语音波形文件信息表,其设计如表2所示.[10]

表2 语音波形文件信息表

4 结语

西北花儿语音语料库是首个专门为花儿语言民俗研究设计的完全开放性的语音语料库管理系统,为国内外花儿的学习研究提供了新的科学技术手段,也为花儿语音技术的研究提供了宝贵的数据资源.构建西北花儿语音语料管理系统,为花儿的搜集整理、理论研究、开发创新注入新的活力,将为花儿语言民俗等研究提供丰富的、有价值的资料,对弘扬非物质遗产文化,保护和传承花儿有积极的促进作用.

[1]语言学名词审定委员会.语言学名词[M].北京:商务印书馆,2011.

[2]王建新.计算机语料库的建设与应用[M].北京:清华大学出版社,2005.

[3]曹强.基于问题意识的“花儿”语言研究[J].青海民族研究,2010,21(2):85-88.

[4]热依曼·吐尔逊,依皮提哈尔·买买提.维吾尔语语音语料库管理软件的研究与实现[J].新疆大学学报(自然科学版),2011,28(2):242-247.

[5]陈秉智,次多.青藏建筑与民俗[M].天津:百花文艺出版社,2004.

[6]张统宣.陕北民歌语料库构建及WEB管理系统设计[J].计算机与数字工程,2010,38(12):128-129.

[7]赵宗福.西北花儿的文化形态与文化传承——以青海花儿为例[J].西北民族研究,2011,(1):117-127.

[8]苑森淼,康辉.数据库系统教程[M].北京:清华大学出版社,2008.

[9]陈伟.SQL Server 2005数据库应用与开发教程[M].北京:清华大学出版社,2007.

[10]邹法欣.语音语料库的设计与实现[D].桂林:广西师范大学硕士学位论文,2012.

猜你喜欢

演唱者语料录音
声乐表演中音乐素养对美声唱法的重要性
声乐演唱中乐感的有效培养研究
Funny Phonics
funny phonics
Listen and Choose
Listen and Color
声乐演唱中弱音技巧的训练与运用
声乐钢琴伴奏在与演唱者合作中的协调作用
基于语料调查的“连……都(也)……”出现的语义背景分析
《苗防备览》中的湘西语料