基于改进的相位谱补偿语音增强算法

2019-08-15李真李郡任慧

中国传媒大学学报(自然科学版) 2019年4期

李真，李郡，任慧

(1. 中国传媒大学信息与通信工程学院，北京100024；2.视听技术与智能控制系统文化和旅游部重点实验室，北京100024；3.现代演艺技术北京市重点实验室，北京100024)

1 引言

语音增强是指通过降低或抑制背景噪声，提高带有噪声的语音信号的质量和可懂度，也称作语音降噪[1-4]。2008年Kamil Wójcicki 等提出改变带噪语音的相位谱，而不改变带噪语音的幅度谱的相位谱补偿(phase spectrum compensation PSC)语音增强方法[5][6]。PSC采用固定的参数对相位谱进行调整，其存在的问题是在噪声强度较大的情况下，噪声去除效果并不理想，会有残留噪声。为了解决这一问题，本文提出一种改进的相位谱补偿算法(modified phase spectrum compensation MPSC)，可根据分段信噪比设定可变的调整参数。取得了较好的语音增强效果。

2 相位谱补偿算法原理

设含加性噪声的带噪语音可表示为y(n)=x(n)+d(n)，其中y(n)、x(n)、d(n)分别表示带噪语音、纯净语音和噪声的离散信号。其中带噪语音的短时傅里叶变化表示为Y(n，k)=|Y(n，k)|ej∠Y(n，k)，其中|Y(n，k)|表示其幅度谱，∠Y(n，k)表示其相位谱。带噪语音信号因为其是实信号，所以其离散傅里叶变换是共轭对称的，在信号重构阶段，两个共轭向量的和向量是最终重构后形成时域信号的关键，和向量在实轴上投影的大小决定了增强后时域信号的幅度的强弱，所以可以通过修改两个向量的共轭关系来实现信号的压缩。这就是相位谱补偿方法的原理。

其相位补偿过程如下：

首先，带噪复频谱被一个和频率有关的实值函数Λ(k)补偿

(1)

其中为了达到删除效果，Λ(k)是关于Fs/2(采样频率的一半)非对称的，采用如下的简单反对称函数

(2)

其中λ是实值常数，N是频率分析的长度，假设为偶数。

第二步，YΛ(n，k)通过反正切函数的四象限变换计算改变的相位谱

(3)

其中Im{·}和Re{·}指对YΛ(n，k)求虚部和实部。我们把改变的相位谱指定为伪相位谱，因为它不具备真实相位谱的性能。之后伪相位谱和带噪语音的幅度谱进行重新合成产生改进的复频谱。

(4)

信号幅值改变很有限

信号幅值发生明显改变图1 相位谱补偿语音增强算法矢量原理图

从图1中可以看出，对于给定λ值，对不同信号段的影响是不同的。λ大于信号幅度值才会对信号造成明显的衰减作用，如果想减弱噪声的影响，则值应该大于噪声幅度值。对于信噪比较高的语音信号，噪声幅度相对较小，此时通过引入非对称函数产生的相位补偿作用能实现对噪声的明显消除。

该算法的关键是Λ(k)的选取，由式(2)知Λ(k)函数选取即λ值的选取。λ取值越大，对共轭向量的影响就越大，从而对带噪语音信号的压缩程度就越大，但是λ值选取过大有可能会造成信号失真，λ值选取过小，对噪声压缩程度较小，会使去噪效果较差，导致更多的残留噪声。文献[6]中提出λ的经验值为3.74，在整个语音信号期间其值不变，实验证明采用固定λ值虽然取得了较好的去噪效果，但是在噪声强度比较大的情况下，如静音段，噪声去除效果并不理想，仍会有残留噪声，如图2(c)所示，选取经验值λ=3.74，可以看到噪声得到了很大幅度的消减，但是在静音段仍残留较多噪声。所以能否调整λ的取值，使其在噪声能量比较大的段(如语音间隙)，取值较大，从而也可以较大限度消减噪声。

(a)纯净语音波形图 (b)10dB高斯白噪声干扰信号波形图

(c)采用λ=3.74相位谱补偿后语音波形图 (d)改进相位补偿后语音波形图图2 语音时域波形图

3 改进的相位补偿算法

基于上面所提PSC算法所存在的问题，本文提出一个根据分段信噪比调整λ值的改进相位谱补偿算法(Modified Phase Spectrum Compensation MPSC)，使λ值根据噪声强度进行调整。分段信噪比定义如式(5)。

(5)

在语音信号的静音间隙期间的信号能量将非常小，进而导致大的负分段信噪比值，文献[7]提出解决这个问题的方法是将SNRseg的值限制在[-10dB，35dB]。基于此，在静音段设定SNRseg=-10dB。图3所示是不同输入信噪比语音信号所对应的分段信噪比，从图中可以看出SNRseg<-5dB时，已基本处于无语音的静音段，所以将SNRseg=-5dB作为临界点，SNRseg>-5dB语音信号起主要作用，可选取经验值，设置λ=3.74，当SNRseg<-5dB时，噪声信号起主要作用，此时λ取值可高于3.74，从而更加有效的压缩噪声，提高语音质量。基于此提出λ设置公式如式(6)所示。

图3 白噪声环境下不同信噪比语音信号的分段信噪比

(6)

λ*的选取越大越好，但是也不能过大，如何选取λ*的值，通过一系列实验得到表1，是在不同信噪比下，不同λ*所对应的PESQ值，从表中可以看到λ*取18时，在输入语音信噪比为0dB，5 dB，10 dB都可取得最好的语音质量，在15dB时的语音质量仅次于最优值，所以确定非对称函数的设置公式为式(7)。

(7)

4 实验仿真与分析

改进相位补偿算法的流程如图4所示。首先对信号进行分帧、加窗，傅里叶变换，之后计算每一帧的信噪比，根据信噪比的临界设定值，由式(7)确定λ值大小，根据式(1)、式(2)和式(3)确定该帧的补偿相位谱，确定每帧的补偿相位谱后，最终与带噪语音幅度谱合成复频谱，进行傅里叶逆变换，得到增强后的语音信号。

表1 不同信噪比时不同λ*取值所对应的PESQ值

图4 改进相位谱补偿算法流程图

图2(d)是改进相位补偿法的时域语音波形图，从图中可以看出相比原相位补偿法，其在语音间隙的噪声进一步得到了抑制。图5分别是white白噪声、street噪声及car噪声情况下相位补偿算法和改进相位补偿算法对带噪语音增强后提高的PESQ分值。从这三个图可以看出在不同输入信噪比，不同噪声环境下改进相位谱补偿法在语音质量的提高上均比原来相位谱补偿法取得更显著效果。并且这几种噪声环境中，白噪声环境下的ΔPESQ值最大，说明对白噪声的增强效果最好。而且语音质量提高随着信噪比的提高而更明显，进一步证明了相位谱补偿法在高输入信噪比情况下，对噪声的抑制更大，语音增强效果更好。

(a)white噪声 (b)street噪声 (c)car噪声图5 不同噪声环境下两种相位谱补偿法提高的ΔPESQ

5 结论

本文对相位补偿算法所存在的参数不可调整的问题进行改进，提出了根据分段信噪比调整参数的改进的相位谱补偿算法，使得在噪声强度较大的静音段也能取得较好的语音增强效果，并将改进的相位谱补偿算法和传统的幅度谱估计算法结合。实验结果表明该方法有效提高了带噪语音中分段信噪比较低的部分的去噪效果，相比PSC方法取得了更好的语音增强质量。