APP下载

水语元音声学特性分析及识别

2020-07-31赵冬梅王林李学林刘秋会

现代信息科技 2020年4期

赵冬梅 王林 李学林 刘秋会

摘  要:文章对水语的七个单元音进行声学特性研究。首先利用线性预测编码LPC模型提取七个单元音的共振峰频率值,然后绘制声学元音图并进行分析,最后利用隐马尔可夫模型HMM对水语的七个单元进行识别,识别率为83.75%。实验结果表明:水语七个单元音的共振峰频率分布之间存在相关性,验证了水语七个单元音共振峰频率分布的正确性,为水语研究提供了有力依据。

关键词:水语元音;共振峰频率;声学元音图;HMM模型

中图分类号:TN912.3      文献标识码:A 文章编号:2096-4706(2020)04-0017-04

Abstract:In this paper,the acoustic characteristics of the seven purevowels in Sui language are studied. First,the linear predictive coding (LPC) model was used to extract the formant frequency values of the seven purevowels,and then the acoustic vowelschart was drawn and analyzed. Finally,the seven purevowelsof Sui were identified using the hidden markov model (HMM). The recognition rate was 83.75%. The experimental results show that correlation between the formant frequency distributions of the seven purevowels in Sui language. The correctness of the formant frequency distribution of the seven purevowels in Sui language is verified,which provides a strong basis for the study of Sui language.

Keywords:Sui vowels;formant frequency;acoustic vowelschart;HMM model

0  引  言

随着人工智能时代的到来,各语言学者将人工智能中模式识别的方法应用到语音识别领域,在分析单元音声学特性时借助模式识别方法进行验证。2019年王桂荣、金小峰[1]等人提出了共振峰參数的对比分析方法,对两种语言单元音的共振峰频率进行声学特性分析,并采用t检验的方法进行了验证;2018年王桂荣、金小峰[2]等人利用单元音连续出现的概率作为特征参数对声学进行分析,然后采用HMM模型进行训练,提出了一种单元音的相似度分析方法;2015年杨柳新[3]等人通过对比藏语拉萨话主要元音的共振频率和声学元音图,得出藏语中五个主要元音共振频率之间的关系;2010年王昆仑[4]等人利用隐马尔可夫工具集HTK对维语八个单元音的共振频率的分布规律进行了研究;2007年钱博[5]通过仿生模式识别理论改进传统的模式识别算法,提出了基于神经网络的说话人识别方法,完成了对汉语元音映射的说话人进行识别。

贵州是一个多民族聚居的省份,随着经济社会的不断发展,各少数民族的语言使用越来越少,有些语言面临失传的危险。因此,保护少数民族语言成了一个迫切需要解决的问题。水族是贵州省黔南苗族布依族自治州的一个少数民族,尽管其人口不多,但有自己的语言,还有相应的文字——水书,水族语言具有独特的语言特性,因而本文选取水语作为研究对象。由于我校独特的地理优势,以及丰富的民族文化特色,在进行水语研究时能获得丰富的资源,为水语的研究奠定了坚实的基础。

1  水语语音数据采集

水语是汉藏语系中较为复杂的一门语言,据统计,水语辅音有44个,元音有16个,其中/i,e,a,o,u,?,?/[6]是水语的七个单元音。根据韦学纯[7]《水语描写研究》中的词汇内容,参考文中对词汇标注的音标,选择年龄在18~30岁的水族学生和教师进行词汇朗读并录音,录音环境选取类似办公室场地,噪声控制在60 dB以内,录音软件借助斐风录音软件进行录制,采样频率为44100 Hz,采样精度是16 bits,获取的语音数据采用WAV形式进行存储,标注采用Praat软件,共采集词汇2327条。

2  水语元音共振峰频率分析

共振峰是决定元音的音质和音色的重要参数。2015年Delattre[8]对声谱图的生理特征进行了解释,Delattre认为第一共振峰与人在发音时口腔的开合度有直接关系,即口腔张开越大,共振频率F1的值越大;第二共振峰则与舌位的前后有关,即舌位越往前,共振频率F2的值越大,另外,F2与圆唇非圆唇有关,即F2越小唇越圆,反之则越不圆。因此在对水语七个主要元音进行分析时,通常对元音的共振频率以及它的声学元音图进行对比分析,在水语语音特征提取、分类、识别中起到关键作用。

2.1  水语元音共振峰估算

2.1.1  估算方法

LPC模型是元音共振峰估算方法中最常用的一种方法,考虑到模型的普适性以及操作便利性,采用了该方法提取水语七个单元音的共振峰值,将语音信号模型化如图1所示。

2.1.2  实验数据

为了使实验具有一定代表性,实验从已建立的水语语料库中选取男生和女生的发音共210个数据,另外,还选取了吴宗济[9]《普通话元音和辅音的频谱分析及共振峰的测算》中普通话元音共振峰数据与水语元音的实验结果进行对比。与其他语音不同的是水语单元音无法准确地直接发音,必须借助词句进行录制,本文中采用录制好且标注完成的孤立词,在时域范围内对水语七个单元音的稳定段进行切割,将切割完成后的语音进行预处理,测量出共振峰频率值,对测量的共振峰数据进行统计,如表1所示。

2.2  声学特性分析

在2.1.2节中的表1是将估算出的共振峰数据进行统计得出最大值、最小值、平均值、标准差和离散度(离散度是用来衡量水语七个单元音中每个元音的离散程度)。离散度是标准差与平均值的百分比,即离散度越大、平均值越小、标准差越大,离散度越小、平均值越大、标准差越小,而标准差本身反映组内个体间的离散程度。根据表1的数据绘制水语的声学元音图,如图2所示,图纵、横坐标分别代表水语七个单元音的第一、第二共振峰,椭圆圈代表各个元音的离散程度。从图2中可以看出,水语单元音/?/的离散程度最大,其次是/i/、/u/,但/i/音的共振峰频率分布独立于其他六个单元音,只有/u/音的少数几个奇异点落入/i/的离散圈内,同理,/a/音与其他六个单元音共振峰频率分布相对独立,但是/e/、/?/、/?/、/o/、/u/之间出现了相关性较大的情况,很难将其区分开,尤其是/e/、/?/和/u/、/?/这两对音的共振峰频率分布出现了包含与被包含关系。

/i/音的F1在268 Hz~433 Hz之间,F2在2037 Hz~ 2867 Hz之间,符合水语单元音/i/是舌面前高不圆唇的发音特点;/a/音的F1在930 Hz~1095 Hz之间,F2在1208 Hz~2000 Hz之间,符合水语单元音/a/是前低不圆唇的发音特点,水语元音舌位图如图3所示,普通话元音舌位图如图4所示,从图3和图4可以看出,水语/a/音与普通话的/a/音相似,但略靠前;对于/e/、/?/、/?/、/o/、/u/这五个音的F1、F2的分布出现了重叠现象,/e/、/?/、/o/三个元音两两F1、F2分布相互独立,/e/与/u/的F1、F2分布也相互独立。在进行元音识别时会出现/i/、/a/音识别率高,/e/音会受/?/的影响识别率会降低,/?/音受/u/音的影响识别率也会相应降低。

由此绘制出水语单元音的舌位图和普通话元音的舌位图进行对比分析,如图3和图4所示,从图中可以看出:(1)水语元音和普通话元音/i/的位置舌面前高不圆唇元音;(2)由于/?/和/?/两个音只出现在汉借词中,所以水语/?/和/?/的音位大致与普通话的音位相同,从图3和图4中也可以看出;(3)水语的其他4个单元音与普通话的音位就有所差异,水语/a/、/e/音比普通话/a/、/e/音的开口度小、舌位靠前;水语/o/音比普通话/o/音的开口度小、舌位靠前、圆唇度低;水语/u/音比普通话/u/音的开口度大、舌位靠前、圆唇度低。

3  HMM模型识别水语七个单元音

在语音识别中,HMM模型由于其独特的优良性被广泛应用,在第二节分析的基础上,利用HMM模型对水语的七个单元音进行识别,来证实分析结果的正确性。

3.1  HMM算法模型

在元音识别中,利用该算法模型求解出最大概率δt(i)时的最佳状态序列,为水语七个单元音的识别提供了算法模型。

3.2  实验结果及分析

实验选取已建立的水语语音数据库中男女发音共1 120個数据,将训练后的数据送往HMM模型进行测试,实验中选取的特征向量是24维的MFCC系数,其中包括12维倒谱系数和12维一阶差分系数,识别结果如表2所示。

结合2.2节的分析结果和HMM模型的识别结果进行综合分析,可以得出:(1)/a/音的识别率达到了97.5%,识别效果较好,证实了水语/a/音与其他六个水语单元音的共振峰频率分布较独立,差异性较大;(2)对于/i/音的识别率有所下降,其主要原因是由于音强的影响,特征不明显,导致误判;(3)表中/e/音和/?/音识别率低,其原因主要是在共振峰频率分布中出现的包含关系,导致两音之间相互受影响,符合2.2节的分析结果;(4)针对/o/音的识别率有所降低,根据图2可以看出,/o/音的共振峰频率分布相对比较独立,但是与/u/音有所交织,所以识别率也相应受影响,除此之外,还受音强的影响,在识别过程中被误判成/e/音;(5)表2中/?/音的识别率为82.5%,在水语的七个单元音中,/?/音是唯一的一个舌尖元音,有其独特发音方式,所以24维的MFCC特征向量能够很好地对/?/音进行识别,在共振峰频率分布上受其他音的影响也较小;(6)在水语的七个单元音中,/u/音是最特殊的一个音,在图2中可以看出它受到/?/、/?/、/o/这三个音共振峰频率分布的影响,所以这导致在HMM模型识别时的效果不佳,识别率低。

4  结  论

总的来说,水语的七个单元音中,/a/音和/i/音的共振峰频率分布较独立,而/?/音和/e/音的共振峰频率分布会相互影响,/u/、/?/、/o/三个音之间也会产生一定的影响,相比之下,/u/音受到的影响最大。

通过对水语七个单元音的声学特性进行分析和HMM模型的语音识别,得出的识别率对声频特性分析的结果进行了验证,从识别率可以看出,水语七个单元音的识别效果相对较好,最低的识别率都达到了60.00%,七个元音的识别率为83.75%,获得了较好的识别率,为今后水语的进一步研究奠定了基础,为保护水族语言文化做出了贡献。

参考文献:

[1] 王桂荣,金小峰.基于计算语音方法的朝蒙单元音对比研究 [J].吉林大学学报(信息科学版),2019,37(1):68-74.

[2] 王桂荣,金小峰.语音段中朝蒙单元音概率分布的对比分析 [J].延边大学学报(自然科学版),2018,44(3):260-265.

[3] 杨柳新,于洪志.藏语拉萨话主要元音的声学分析 [J].西北民族大学学报(自然科学版),2015,36(2):51-55.

[4] 王昆仑,张贯虹,吐尔洪江·阿布都克力木.维吾尔语元音的声频特性分析和识别 [J].中文信息学报,2010,24(2):122-128.

[5] 钱博.基于汉语元音映射的说话人识别技术研究 [D].南京:南京理工大学,2007.

[6] 赖静如.李方桂《水话研究》之语言学研究 [D].北京:中国社会科学院研究生院,2015.

[7] 韦学纯.水语描写研究 [D].上海:上海师范大学,2011.

[8] DELATTRE P. The Physiological Interpretation of Sound Spectrograms [J]. PMLA,1951,66(5):864-875.

[9] 吴宗济.普通话元音和辅音的频谱分析及共振峯的测算 [J].声学学报,1964(1):33-40.

[10] 韩纪庆,张磊,郑铁然.语音信号处理 [M].北京:清华大学出版社,2004.

作者简介:赵冬梅(1993.04-),女,白族,贵州毕节人,硕士研究生,研究方向:模式识别。