APP下载

一种基于预测谱偏移的自适应高斯混合模型在语音转换中的应用

2017-09-19沈惠玲万永菁

关键词:男声女声特征参数

沈惠玲, 万永菁

(华东理工大学信息科学与工程学院,上海 200237)

一种基于预测谱偏移的自适应高斯混合模型在语音转换中的应用

沈惠玲, 万永菁

(华东理工大学信息科学与工程学院,上海 200237)

基于高斯混合模型(GMM)的语音帧谱包络转换算法容易导致转换后的语音谱包络过平滑、语音细节特征受损。通过对GMM中协方差的准确性与谱包络过平滑现象的研究,提出了一种基于预测谱偏移的自适应GMM建模方法。该方法采用平滑加权算法对目标谱的偏移进行建模,并根据语音帧信息自适应调节预测谱偏移项的比例系数,结合高斯混合模型共同实现对谱包络的转换。实验结果表明,该建模方法能够有效抑制转换后语音谱包络的失真现象,提高转换后语音的清晰度、自然度和可懂度。

语音转换; 高斯混合模型; 预测谱偏移; 自适应

语音转换是在保持源说话人语义的情况下,将其个性特征转变为目标说话人的个性特征,最终使源说话人的声音听起来更加像目标说话人声音的语音处理技术[1]。语音转换过程分为训练阶段和转换阶段。在训练阶段,首先对源语音和目标语音进行预处理,提取谱特征参数及基音频率;然后对提取的特征参数进行动态时间规整[2],之后选择转换算法建立谱特征参数和基音频率的转换模型。在转换阶段,对测试语音进行预处理和特征提取,由转换模型对语音特征参数进行转换,最后合成语音。在语音转换技术中,基音周期的提取及转换模型的建立相对比较成熟。语音谱特征参数是最能表现说话人个性特征的参数,因此,在源说话人和目标说话人之间建立一个有效的基于谱特征参数的转换模型,对语音转换质量有十分重要的影响。文献[3]提出了基于矢量量化(VQ)的语音转换算法,该算法实现简单且占用空间小,但存在将谱特征参数硬划分为不同码字的问题,导致了转换后语音的不连续性。文献[4]提出了基于模糊矢量量化的改进算法,该算法并未根本解决特征空间的硬划分产生的转换空间不连续性问题。文献[5]提出了基于径向基(RBF)神经网络的语音转换模型,该模型在谱特征参数转换时具有更高的效率和鲁棒性,但是模型存在过训练问题[6]。文献[7]提出了基于最大似然准则的高斯混合模型,该模型存在转换后语音谱特征参数过平滑问题,导致语音细节信息丢失,语音质量下降。文献[8]利用帧间信息来补偿丢失信息改进GMM,该算法改善语音谱特征参数的过平滑问题,但改进的GMM将会引入高维数的特征参数和高时间复杂度。

本文从研究高斯混合模型转换中的谱特征参数入手,针对谱特征参数相关项中协方差估计不准确导致的谱特征参数过平滑以及语音细节信息丢失的问题,提出了一种基于预测谱偏移的方法改进GMM相关项的计算,从而补偿谱包络细节信息,抑制GMM谱包络的过平滑现象,达到提高语音转换质量的目的。

1 基于传统GMM的语音转换算法

1.1基于传统GMM的语音转换算法

一个M阶高斯混合模型的概率密度函数如式(1)所示[7]:

(1)

N(X;μm;Σm)=

(2)

其中:μm为均值矢量;Σm为协方差矩阵。

对拼接后的谱特征参数进行联合高斯概率密度建模,得到每一个子分布的均值和方差。分解高斯混合模型的均值项和相关项如式(3)和式(4)所示[8]:

(3)

(4)

在转换阶段,假设xtn为源说话人的测试语音,根据最小均方误差准则,对应的目标说话人的谱特征参数ydn,如式(5)所示[8]。

(5)

其中:ymn为转换后目标说话人的均值项;ycn为相关项,分别如式(6)和式(7)所示[8]。

(6)

(7)

(8)

利用式(5)可以在已知测试语音的谱特征参数的情况下求得目标说话人的谱特征参数。

1.2传统GMM在语音转换中存在的问题

在应用传统GMM转换语音时,会使转换后的语音谱包络产生过平滑现象,即转换后的谱包络与目标语音的谱包络总体变化趋势一致,但谱包络的细节信息丢失。图1示出了目标语音帧谱包络与GMM转换后语音帧谱包络的对比。可以看出,GMM转换后语音帧的谱包络在高频部分不能很好地拟合目标语音帧谱包络的峰值,即转换后语音不能充分表征目标语音的个性特征,从而导致转换效果不佳。不少学者对过平滑现象进行了研究。文献[9]从GMM的均值项入手,提出了用后验概率相等的方法,通过在GMM中寻找一个后验概率与均值项的后验概率最接近的特征参数,代替GMM均值项;文献[10]指出GMM过平滑原因是由于相关项中协方差参数估计不准确所导致的;文献[11]提出基于混合映射模型的语音转换算法,相关项的估计由GMM和码本映射共同计算,该算法在一定程度上改善了GMM的过平滑现象,但是存在转换函数中参数选取非自适应的问题,导致对不同语音进行转换时,需通过实验求取最佳转换参数,限制了实际应用前景。

图1 目标语音帧谱包络与GMM转换后语音帧谱包络的对比Fig.1 Comparison of target and GMM converted spectral envelop

通过对比分析目标语音的相关项和GMM的相关项,可以发现GMM导致语音谱包络过平滑的原因是相关项中协方差的幅值过小,导致函数的非奇异性。在谱特征参数的维数为24的情况下,典型目标语音帧和GMM转换后语音帧的谱特征参数相关项中每一维标准差的对比如图2所示,可以看出GMM相关项的标准差浮动小于目标语音相关项的标准差,因此,本文从GMM相关项入手,对高斯混合模型(式(7))进行修正,将谱包络的特征细节保留,从而改善GMM过平滑问题,提高语音的转换质量。

图2 目标语音帧和GMM转换后语音帧标准差的对比Fig.2 Comparison of target and GMM converted speech frame’s standard deviation

2 基于预测谱偏移的自适应高斯混合模型

2.1基于预测谱偏移的自适应GMM转换算法原理

基于预测谱偏移的自适应GMM语音转换算法的流程如图3所示。

图3 基于预测谱偏移的自适应高斯混合模型的语音转换算法流程图Fig.3 Voice conversion algorithm diagram based on adaptive GMM using predictive spectral shift

首先,在训练阶段,对源语音和目标语音进行分帧、加窗、预加重等预处理。通过线性预测分析得到源语音和目标语音的谱特征参数以及基音频率。再将源语音和目标语音的每一帧特征参数进行动态时间规整,使规整后的每一帧对应相同的音节。对规整后的源语音和目标语音的基音频率进行单高斯转换[11],计算得出基音频率的转换模型。

然后,对规整后的源语音和目标语音的每一帧谱特征参数进行联合高斯概率密度建模,利用式(3)和式(4)得到高斯混合模型的每一个子分布的均值和方差,并进行分解。

之后,计算源语音谱特征参数的后验概率βm,n,如式(9)所示。

(9)

(10)

利用平滑加权算法对目标谱的偏移进行建模,得到高斯混合模型下目标说话人的谱特征参数偏移量指标C={Cm|m=1,…,M},其中Cm表示第m个高斯混合模型对应的目标说话人的谱特征参数偏移量,如式(11)所示。

(11)

(12)

最后,利用式(13)求出本文改进的GMM转换函数ydn。

电缆线的内部有大量金属,这些金属的市场价格一直很高,这就导致一些不法分子对电缆进行窃取。在城市一些偏远的地方,经常出现有不法分子盗窃电缆的现象,在偷盗的过程中还会对相应的布置造成一定程度的破坏,这也从一定程度上成为电力电缆发生故障的重要原因。

(13)

转换函数ydn由高斯混合模型的均值项、相关项和预测谱偏移项这3个分量组成。其中,λ为预测谱偏移项比例系数,λ∈[0,1],该参数用于调节ycn和yon的比例。当λ=0时,改进的GMM就是传统的高斯混合模型;当λ=1时,改进的GMM的相关项完全使用预测谱偏移的方法计算求得。

2.2预测谱偏移项比例系数λ的计算方法

语音转换分为4种不同的转换模式,即:女声转女声,女声转男声,男声转女声,男声转男声。语音谱特征参数的转换效果,一般采用平均谱失真测度DIS衡量,如式(14)所示[12]:

(14)

其中:dn(ycon,ytgt)表示第n对转换后语音帧与目标语音帧之间的IS(Itakura-Saito)谱距离[13],IS谱距离是针对线性预测分析模型,用极大似然准则推导的,对语音信号的功率谱进行比较;dn(ysrc,ytgt)表示第n对源语音帧与目标语音帧之间的IS谱距离;N表示总的语音帧数,该比值越小表示转换模型的性能越好。

转换后语音的平均谱失真测度DIS与λ的关系如图4所示。从图中可以看出,当λ取值为0.4左右时,女声转男声以及女声转女声的DIS取得最小值;当λ取值为0.7左右时,男声转女声以及男声转男声的DIS取得最小值。

从图4可以看出,λ的大小会影响语音转换的效果。为了使算法对4种不同的转换模式更具适应性,本文提出λ的自适应计算法方法,即基于每一帧中预测谱偏移所占的比重自适应选取λ值。以每一帧基于谱偏移的标准差占相关项的标准差加预测谱偏移标准差的比值为依据选取λn值,计算方法如式(15)所示。

(15)

对4种不同的转换,随机选取15帧谱特征参数,计算转换后谱特征参数与目标谱特征参数之间的IS谱距离dn(ycon,ytgt),如图5所示。从图中可以看出,自适应取值得到的转换后谱特征参数与目标语音谱特征参数之间的IS谱距离,比取最优统一值时每一帧得到的IS谱距离更小,也更小于GMM算法得到的每一帧之间的IS谱距离。因此,λ参数自适应取值后,降低了转换语音的每一帧谱包络的失真。

3 实验结果及分析

3.1评价指标

语音转换算法评判标准分为客观评判和主观评判。客观评判通过数学计算得出转换后语音幅度谱与目标语音幅度谱之间的偏差,常用的是平均IS谱失真测度,如式(14)所示。主观评价是通过多个人对转换后语音从清晰度、可懂度等方面进行评判打分,有ABX测试和平均MOS意见分两种方法。

图4 平均IS谱失真测度对比图Fig.4 Comparison of average IS distortion

图5 不同λ计算方法的IS谱失真对比图Fig.5 Comparison of IS distortion based on different λ calculating methods

ABX测试需要测试者听A、B和X这3组语音,判断出X是属于A或者B,计算公式如式(16)所示[14]。

(16)

其中:θij取值为0或者1,θij=1表示转换后语音更加像目标说话人的语音,θij=0表示转换后语音更加像源说话人;U表示参与测试人员的数量;V表示总共需要测试的语音数目。

平均MOS意见分是从语音的可懂度、自然度和清晰度等方面对语音进行评价,计算公法如式(17)所示[14]。

(17)

其中,scoreij表示第i个人对第j段语音的打分,分值从5分到1分,5分表示转换的语音效果最好,察觉不到失真;而1分表示转换的语音效果最差,失真无法忍受。

3.2实验结果与分析

实验所用的语音库由210个汉语语句组成,涵盖大约400个汉语音节,由4个说话人进行录制,其中两个男生、两个女生,可实现4种不同的转换模式。录制过程中,周围环境相对安静,且每个说话人在发音时基本保持一样的语速、语气和节奏,以保证语义在时间上对齐。语音信号的采样频率为8 kHz,8 bit量化,基本满足实验需求。

本文将传统的GMM、基于混合映射的GMM (Mixed GMM)以及改进的自适应GMM (Adaptive GMM)进行了比较。在不同转换算法下,典型语音帧的频谱图如图6所示。由图6可以看出,不论是同性之间的转换还是异性之间的转换,高斯混合模型进行转换的语音存在过平滑的问题,基于混合映射模型的语音转换算法的谱包络与目标谱包络更相近,但是高频部分还是存在谱包络过平滑问题,而本文自适应GMM算法能够得到更贴近目标语音的谱包络,有效改善过平滑现象。

图6 不同语音转换算法的语音帧谱包络对比图Fig.6 Comparison of spectral envelop based on different algorithms

图7示出了不同谱包络转换算法在4种不同转换模式下平均IS的谱失真测度。实验对比的转换算法分别是基于矢量量化(VQ)的语音转换算法[3]、基于径向基(RBF)神经网络的语音转换算法[5]、传统的GMM转换算法、基于混合映射的GMM转换算法以及自适应GMM转换算法。从图中可以看出,矢量量化算法转换的谱包络失真情况最为严重;而基于径向基神经网络的算法相对于矢量量化算法在平均IS谱失真测度上有所下降,但由于算法在均值和方差等计算中都采用了平均思想,谱失真测度整体上仍高于50%;传统的GMM算法的谱失真情况相对比于VQ和RBF算法,无论在同性还是异性之间的转换都有好转,但转换效果仍不理想;自适应GMM算法相较于传统GMM算法和基于混合映射的GMM算法在平均IS谱失真测度上均有下降,同性之间的转换,平均IS的谱失真测度降低到了50%以下,达到了一个较为理想的转换效果。

图7 不同语音算法的平均IS谱距离测度对比Fig.7 Comparison of average IS distortion based on different conversion algorithms

不同谱包络转换算法应用于4种转换模式的主观评价实验对比结果如表1所示。从主观评价指标ABX值和平均MOS意见分可以看出,基于矢量量化转换的语音在听觉上明显感觉到声音的失真,转换效果最差。基于径向基神经网络的语音转换算法相对比于矢量量化算法在清晰度上有所提高,但转换质量远低于传统GMM。自适应GMM算法在语音的辨识度、清晰度、自然度、可懂度上均有显著的提高,尤其是同性之间的转换,ABX值提高到了90%以上,平均MOS意见分接近3.0。

表1 不同语音转换算法的实验结果对比Table 1 Comparison of experimental results based on different conversion algorithms

F-M:女声转男声;F-F:女声转女声;M-F:男声转女声;M-M:男声转男声

4 结 论

本文通过对高斯混合模型相关项的分析,发现谱包络的细节丢失与相关项估计值过小之间存在关联,并由此提出一种基于预测谱偏移的自适应GMM建模方法弥补相关项引起的损失。实验结果表明,本文提出的建模方法可以有效地改善谱包络过平滑的问题,使转换后的语音谱包络与目标语音的谱包络更加切合,提高了语音的清晰度和自然度。

[1] ERRO D,ALONSO A,SERRANO L.Interpretable parametric voice conversion functions based on Gaussian mixture models and constrained transformations[J].Computer Speech & Language,2014,30(1):3-15.

[2] RABINER L,SCHMIDT C.Application of dynamic time warping to connected digit recognition[J].IEEE Transactions on Acoustics Speech & Signal Processing,1980,28(4):377-388.

[3] ABE M,NAKAMURA S,SHIKANO K.Voice conversion through vector quantization[C]//1988 International Conference on Acoustics,Speech,and Signal Processing.USA:IEEE,1988:71-76.

[4] SHIKANO K,NAKAMURA S,ABE M.Speaker adaptation and voice conversion by codebook mapping[C]//IEEE International Symposium on Circuits and Systems.USA:IEEE,1991:594-597 .

[5] 左国玉,刘文举,阮晓钢.基于遗传径向基神经网络的声音转换[J].中文信息学报,2004,18(1):78-84.

[6] NIRMAL J,ZAVERI M,PATNAIK S.Voice conversion using general regression neural network[J].Applied Soft Computing,2014,24(24):1-12.

[7] STYLIANOU Y,CAPPE O,MOULINES E.Statistical methods for voice quality transformation[C]//Fourth European Conference on Speech Communication and Technology.Madrid,Spain:Springer,1995:447-450.

[8] TODA T,BLACK A W,TOKUDA K.Voice conversion based on maximum-likelihood estimation of spectral parameter trajectory[J].IEEE Transactions on Audio Speech & Language Processing,2007,15(8):2222-2235.

[9] 赵义正.改进GMM谱包络转换性能的语音转换算法研究[J].科学技术与工程,2010,10(17):4172-4174.

[10] CHEN Yining,CHU Min,CHANG Eric.Voice conversion with smoothed GMM and MAP adaptation[C]//8th European Conference on Speech Communication and Technology.Geneva,Switzerland:2003:1065-1073.

[11] 康永国,双志伟,陶建华,等.基于混合映射模型的语音转换算法研究[J].声学学报(中文版),2006,31(6):555-562.

[12] SONG P,ZHAO L.Improving the performance of GMM based voice conversion method[C]//2008 IEEE Pacific-Asia Workshop on Computational Intelligence and Industrial Application.USA:IEEE,2008:456-460.

[13] TAIZO UMEZAKI,FUMITADA ITAKURA.Evaluation of the smoothed group delay spectrum distance measure for speaker:Dependent speech recognition[J].Electronics & Communications in Japan,1991,74(4):1-9.

[14] 赵玲丽.基于高斯混合模型的语音转换技术研究[D].南京:南京邮电大学,2011.

AnAdaptiveGaussianMixedModelBasedonPredictiveSpectralShiftandItsApplicationinVoiceConversion

SHENHui-ling,WANYong-jing

(SchoolofInformationScienceandEngineering,EastChinaUniversityofScienceandTechnology,Shanghai200237,China)

Voice conversion algorithm based on Gaussian mixture model (GMM) may result in the over-smoothing of spectral envelop and the damage of speech feature.By analyzing the relationship between covariance’s accuracy and over-smoothed phenomena,this paper proposes an adaptive GMM conversion algorithm based on spectral shift,which uses the weighted average algorithm to predict the converted spectral shift.Both the proposed spectral shift and the GMM are adopted to realize the appropriate converted spectral sequence.Moreover,the spectral shift proportion and GMM correlation are adaptively adjusted by using the spectral parameter.The experiment results show that the proposed algorithm can effectively alleviate the over-smoothing and improve the clearness naturalness and intelligibility of converted voice.

voice conversion; Gaussian mixed model; predictive spectral shift; adaptive

1006-3080(2017)04-0546-07

10.14135/j.cnki.1006-3080.2017.04.014

2016-10-10

沈惠玲(1992-),女,上海人,硕士生,研究方向为语音信号处理、模式识别。

万永菁,E-mail:wanyongjing@ecust.edu.cn

TN912

A

猜你喜欢

男声女声特征参数
冕洞特征参数与地磁暴强度及发生时间统计
呢喃(古风,女声)
基于交通特征参数预测的高速公路新型车检器布设方案研究
天下父母心(男声独唱)
基于PSO-VMD的齿轮特征参数提取方法研究
基于视频的车辆特征参数算法研究
初中男声合唱教学的探索
文艺范
名人读《意林》