基于随机共振的微弱语音谱减降噪方法

2018-03-16蔡文坚王辅忠张慧春卢欢欢

计算机工程与设计 2018年2期

蔡文坚，王辅忠，张慧春，卢欢欢

(天津工业大学理学院，天津 300387)

0 引言

谱减法对噪声的估计值存在不可避免的误差，从而使输出的语音信号伴随有“音乐噪声”。另外谱减法使用含噪语音信号的相位谱代替噪声信号的相位谱，也严重影响了语音信号的输出质量。近年来，研究人员多次对谱减法进行改进[1-3]，但在低信噪比环境下，经谱减法输出的语音信号质量仍没有太大改善。

Benzi等提出随机共振的概念用以解释冰川周期古气象问题。近年来随机共振在信号噪声处理方面的应用得到了迅速的发展，成为人们在该领域研究的热点之一。与将噪声从含噪信号中分离的常见噪声处理方法不同，随机共振方法能够利用噪声能量来放大微弱信号[4]，从而在低信噪比情况下有效提高信号质量。

为了提高在低信噪比环境下输出语音的质量，本文提出了一种基于随机共振理论与谱减法的复合型语音增强方法。首先对含噪语音信号进行二次采样[5,6]随机共振预处理，将强噪声的部分能量转移到语音信号上，再将经预处理的语音信号进行增益平均[7,8]谱减处理。通过模拟仿真实验，计算并对比复合方法与谱减法降噪处理后语音信号的信噪比增益以及感知语音质量评估测度。

1 随机共振与谱减法

1.1 双稳态随机共振理论

非线性双稳随机共振系统可以由郎之万方程进行描述

(1)

(2)

将输入的微弱信号s(t)与噪声信号n(t)通过非线性双稳系统V(x)，三者间发生随机共振现象，产生协同效应，使噪声的一部分能量转移到微弱语音信号。

1.2 谱减法

谱减法是当前使用最广泛的语音增强算法，用y(n)表示待处理的含噪语音输入信号，其由纯净语音信号x(n)以及加性噪声d(n)两部分组成

y(n)=x(n)+d(n)

(3)

对式(3)两边同时做离散傅里叶变换可得

Y(ω)=X(ω)+D(ω)

(4)

Y(ω)和D(ω)分别可以表示为

Y(ω)=|Y(ω)|ejφy(ω)，D(ω)=|D(ω)|ejφd(ω)

(5)

其中，|Y(ω)|，φy(ω)分别表示含噪语音信号功率谱和相位谱，|D(ω)|，φd(ω)分别表示噪声信号的功率谱和相位谱。谱减法利用含噪语音无话段信号的平均功率谱来近似估计噪声信号的功率谱|D(ω)|，然后将这个估计值从含噪信号的功率谱中减去，获得输出语音信号的功率谱。另外将噪声的相位谱φd(ω)用含噪语音信号的相位谱φy(ω)代替，从而得到纯净语音信号谱的估计

(6)

2 实验检测结果与分析

2.1 语音质量评估

对于随机共振模型，信噪比是最重要的测度指标之一。为了更客观地评价输出语音的质量，往往采用分段信噪比对语音信号的质量进行评估。因此实验将利用信噪比对随机共振预处理进行自适应调试，采用分段信噪比、分段信噪比增益及感知语音质量评估(PESQ)[10]等测度数据作为语音质量的主要分析指标。其中分段信噪比的定义为

(7)

式中：N为帧长(设置为15 ms-20 ms)，M是信号中的帧数。另外分段信噪比增益的定义如下

SNRIseg=SNRseg-out-SNRseg-in

(8)

式中：SNRseg-out为输出信噪比，SNRseg-in为输入信噪比，SNRIseg较SNRseg而言可以更直观得表现语音增强系统的提升效果。

而主观听音测试与感知语音质量评估测度的相关度较高(ρ>0.92)，因此实验将以分段信噪比与感知语音质量评估得分为主要的性能评估指标[12]。

2.2 仿真实验模型

仿真实验模型如图1所示。

图1 系统模型框架

由于语音信号的频率较高(0.3 kHz-3.4 kHz)，不满足绝热近似条件，无法发生随机共振现象。因此实验先对含噪语音信号进行二次采样，设置二次采样频率线性压缩比R=3200，将语音信号频率压缩至0 Hz-1 Hz，从而满足绝热近似理论；再利用Runge-Kutta方法求解郎之万方程，并设置系统参数a、b搜索范围为[0,5]，自适应寻优步长为0.02，以随机共振系统输出信噪比为衡量指标[11]，进行自适应随机共振预处理，获取最佳随机共振输出效果。

(9)

其中，减法因子k=0.7，i对应语音分析帧的编号。随后对增益函数进行时域平滑处理以减小波动。

最后对下式使用傅里叶逆变换得到增强后的输出语音信号

(10)

3 仿真结果分析

仿真测试实验选用的纯净语音样本来自文献[7]提供的公共数据库，比特率和采样频率分别为128 kbps和8000 Hz的纯净语音信号，所需高斯白噪声来自NOISEX-92标准噪声数据库。

仿真实验测试了多组纯净语音样本，以初始信噪比为-10 dB的“语音样本1”为例进行分析。对语音样本1进行二次采样，并输出其时域波形图和频域幅值谱，如图2(a)和图2(b)所示。将高斯白噪声叠加至二次采样后的语音信号上，获得初始信噪比为-10 dB的含噪语音信号，并输出含噪信号的时域波形图和频域幅值谱，如图2(c)与图2(d)所示。在时域上纯净语音被强噪声彻底淹没，无法观察出其原有的纯净语音波形，且在整个频域内均存在噪声信号能量，而语音信号的能量主要集中在低频域。

图2 纯净语音及含噪语音的时域波形图和频域幅值谱

利用谱减语音增强系统与随机共振-谱减法结合的复合语音增强系统分别处理含噪语音信号，并将处理后的时域波形图与频域幅值谱归一化输出如图3、图4所示。

图3 谱减系统输出语音的时域波形图和频域幅值谱

图4 复合系统输出语音的时域波形图和频域幅值谱

当初始信噪比为-10 dB时，对比图3(a)、图4(a)的时域波形图发现，通过复合系统的输出波形则更易观察出纯净语音的大致波形轮廓。对比图3(b)、图4(b)的输出频域幅值谱发现，经谱减语音增强系统处理后的输出信号高频区噪声能量依旧很大，而经复合系统处理后，高频噪声能量被转移到低频语音信号上来，印证了随机共振将噪声能量向语音信号转移的作用。计算两次输出语音信噪比发现，经谱减系统处理后的输出语音信号信噪比为-2.4134 dB，而经复合系统处理后的输出语音信号信噪比为-0.0031 dB，二者的信噪比差值高达2.4103 dB。

对语音样本1设置初始信噪比为-1 dB到-15 dB，分别通过谱减系统与复合系统的分段信噪比增益测试和感知语音质量评估测试。如图5、图6所示，初始信噪比从-1 dB到-15 dB的语音信号在通过复合系统后输出语音信号的SNRIseg与PESQ评估得分均优于通过谱减系统的输出语音信号。观察信噪比增益曲线，两者的SNRIseg差值在初始信噪比为-7 dB到-1 dB时比较稳定，约1.58 dB；两者的SNRIseg差值在初始信噪比为-15 dB到-8 dB范围内随初始信噪比的降低而增大，最高达5 dB。此外，观察感知语音质量评估曲线，随着初始信噪比降低，经复合系统与经谱减系统处理输出的语音信号PESQ评估得分均会随之下降，但复合系统仍可获得更高的PESQ评估得分。

此外，实验设置初始信噪比为-5 dB、-10 dB、-15 dB对多组不同的语音样本进行对比测试，并将所测的SNRIseg与PESQ评估得分数据记录于表1。对比不同语音样本不同初始信噪比下两种方法的SNRIseg和PESQ评估得分发现，复合系统在处理不同语音样本时均具有更好的效果。在不同初始信噪比下，复合系统对于不同语音样本均可获得更高的分段信噪比增益与感知语音质量评估得分。

图5 谱减系统和复合系统输出的分段信噪比增益

图6 谱减系统和复合系统输出的感知语音质量评估

输入信号初始信噪比/dB谱减系统分段信噪比增益/dB谱减系统感知语音质量评估得分复合系统分段信噪比增益/dB复合系统感知语音质量评估得分语音样本2-53.401.455.121.66-107.701.329.971.50-159.771.1514.801.31语音样本3-54.081.215.381.43-107.501.0210.231.24-159.910.7414.921.05语音样本4-53.301.474.961.64-107.291.339.931.46-159.711.2014.691.32语音样本5-53.521.314.881.46-107.801.179.811.28-159.801.0414.591.14

4 结束语

本文基于随机共振理论与谱减法提出了一种复合型的语音增强方法，利用随机共振预处理减小噪声与纯净信号间的相位差，降低谱减法中相位噪声对语音质量影响，优化了低信噪比环境下谱减语音增强方法的效果并具有较强的普适性。通过与谱减法的对比实验发现：在低信噪比(<0 dB)情况下，随机共振与谱减法的复合方法可以得到更高的分段信噪比增益与感知语音质量评估得分，获得更优的语音增强效果，提高语音信号输出质量。

[1]Miyazaki R,Saruwatari H,Inoue T,et al.Musical-noise-free speech enhancement based on optimized iterative spectral subtraction[J].IEEE Transactions on Audio,Speech,and Language Processing,2012,20(7):2080-2094.

[2]CAO Liang,ZHANG Tianqi,GAO Hongxing,et al.Multi-band spectral subtraction method for speech enhancement based on masking property of human auditory system[J].Computer Engineering and Design,2013,34(1):235-240(in Chinese).[曹亮,张天骐,高洪兴,等.基于听觉掩蔽效应的多频带谱减语音增强方法[J].计算机工程与设计,2013,34(1):235-240.]

[3]Zhang Y,Zhao Y.Real and imaginary modulation spectral subtraction for speech enhancement[J].Speech Communication,2013,55(4):509-522.

[4]LENG Yonggang,LAI Zhihui,FAN Shengbo,et al.Large parameter stochastic resonance of two-dimensional Duffing oscillator and its application on weak signal detection[J].Acta Physica Sinica,2012,61(23):230502(in Chinese).[冷永刚,赖志慧,范胜波,等.二维Duffing振子的大参数随机共振及微弱信号检测研究[J].物理学报,2012,61(23):230502.]

[5]MING Tingfeng,LONG Jingbing,ZHANG Yongxiang.Three methods of stochastic resonance in weak periodic signal detection with large parameters[J].Journal of Test and Mea-surement Techol,2014,28(6):476-480(in Chinese).[明廷锋,龙景兵,张永祥.大参数条件下弱周期信号的3种随机共振检测方法[J].测试技术学报,2014,28(6):476-480.]

[6]RENLitong,HUJinhai,XIEShousheng,etal.Vibrationfaultfeatureextractionbasedonstochasticresonancepretreatment[J].JournalofVibrationandShock,2014,33(2):141-146(inChinese).[任立通,胡金海,谢寿生,等.基于随机共振预处理的振动故障特征提取研究[J].振动与冲击,2014,33(2):141-146.]

[7]LoizouPC.Speechenhancement:Theoryandpractice[M].CRCPress,2013.

[8]LIANGWeiqian,ZHENGFang,ZHENGJiachun,etal.Sub-bandadaptivenoisereductionalgorithmtoimprovespeechintelligibility[J].JournalofTsinghuaUniversity(ScienceandTechnology),2016,56(11):1173-1178(inChinese).[梁维谦,郑方,郑佳春,等.一种改善言语清晰度的子带自适应降噪算法[J].清华大学学报(自然科学版),2016,56(11):1173-1178.]

[9]El-FattahMAA,DessoukyMI,AbbasAM,etal.SpeechenhancementwithanadaptiveWienerfilter[J].InternationalJournalofSpeechTechnology,2014,17(1):53-64.

[10]PartilaP,KohutM,VoznakM,etal.Amethodologyformea-suringvoicequalityusingPESQandinteractivevoiceresponseintheGSMchanneldesignedbyopenBTS[J].AdvancesinElectricalandElectronicEngineering,2013,11(5):380.

[11]LUHuanhuan,WANGFuzhong,ZHANGHuichun.Detectionofweakspeechsignalsfromstrongnoisebackgroundbasedonadaptivestochasticresonance[J].JournalofBiomedicalEngineering,2016,33(2):357-361(inChinese).[卢欢欢,王辅忠,张慧春.基于自适应随机共振理论强噪声背景下的弱语音信号检测[J].生物医学工程学杂志,2016,33(2):357-361.]

[12]CAIWenjian.Speechenhancementbasedonstochasticresonanceandspectralsubtractioninlowsignal-to-noiseratio[D].TianjinPolytechnicUniversity,2017(inChinese).[蔡文坚.低信噪比环境下基于随机共振与谱减法的语音增强[D].天津工业大学,2017.]