APP下载

结合倒谱阈值频谱估计与瑞利分布模型的语音活动检测*

2013-03-14李蓉李宇

自动化与信息工程 2013年6期
关键词:瑞利信噪比频谱

李蓉 李宇

(1.广东农工商职业技术学院计算机系 2.广东药学院信息工程学院)

0 引言

语音处理系统一般运行在复杂的环境噪声中。其中语音活动检测(voice activity detection,VAD)用于语音采集后信号有音与无音的检测,应用非常广泛,如各种电话终端、IP电话、音视频会议等。它在移动通话中可以控制射频模块、语音编解码的间断性工作,以节省带宽和降低能耗;在语音识别时,可以为特征提取提供有效的信号区间;在 GSM/GPRS移动数据通信中,文献[1]利用VAD在无通话时段自适应传输数据,节省带宽的额外开销。

近年来,多种方法策略用来改善带噪语音信号的检测。Sohn[2]把语音活动检测可以看作一个二元假设检验问题,提出基于统计模型似然比检测的VAD方法,其中噪声和语音的统计分布都需要考虑。Cho[3]对该方法进行了平滑改进。Ramirez[4]考虑帧间相关性,对该方法扩展到多独立观察变量情况。Gazor[5]则先对含噪语音进行DCT去相关性,并应用HMM描述检测的状态转换过程,其与Sohn的最大区别是采用 Laplacian作为语音的统计分布。利用更佳的语音统计模型可以获得更好的检测性能,最近结合GARCH滤波与Gamma分布[6]有应用于VAD。以上基于统计模型类方法需要分别计算每帧信号中语音与噪声的统计模型参数,因此算法复杂度高于G.729 Annex B[7]

另一类则由Davis等人[8]提出的基于信噪比测量的自适应阈值VAD方法。该方法在非语音时段基于信噪比测量的统计模型更新阈值(供下一帧判决使用),以比较当前帧时输入信号与判决阈值的大小作为检测活动语音的依据。与基于似然比检测方法相比,该方法考虑无语音时段噪声信噪比测量的统计分布,而不是考虑语音信号的统计模型。对于该类方法,文献[9]假设非平稳噪声(如 Babble噪声)服从Rayleigh分布,并给出了判决阈值更新表达式。文献[10]则采用倒谱阈值平滑估计噪声频谱取代Welch等方法,由于倒谱可以从语音处理系统内的其它模块复用获得,节省了运算量。本文提出结合倒谱阈值平滑与瑞利模型的VAD方法,实验表明该组合方法可以提高非平稳噪声下语音信号有音区域的检测效果。

1 噪声的倒谱阈值频谱估计

文献[11]提出一种利用倒谱阈值平滑的非参数估计方法,可有效地计算平稳信号的频谱估计。

假定语音受到加性噪声污染,并且语音信号和噪声相互独立,则含噪语音帧在短时傅立叶变换域表示如下:

其中S(k,i)与V(k,i)分别是第i帧时刻第k频段的纯洁语音与噪声信号。假设输入信号第k个倒谱kc的服从 ck均值与方差的正态分布。设第i帧时刻含噪语音信号的频谱为 Pz(k,i) >0,∀k,用周期图对当前信号单元估计有

依据信号倒谱的定义,由周期图获得倒谱c(m,i)的一个估计

信号在第i帧时刻第k频段的倒谱估计服从的高斯分布:

倒谱阈值估计方法就是寻找新的估计量,使得有更好的估计,从而有总方差V更小。可以通过UMPUT方法找到一个合理的阈值实现估计。对倒谱估计设置阈值:

其中μ起到控制虚警概率的作用。当N小于500时,建议对窄带信号取2μ=,而对宽带信号取μ=4;当N大于500时,建议对窄带信号取μ=3,而对宽带信号取5μ=。

2 基于瑞利模型的阈值更新准则

噪声信号频谱的统计分布有明显的不对称拖尾特性,用瑞利模型可以近似其功率谱概率密度函数。利用上节的倒谱阈值估计方法分别获得含噪语音的频谱k, i)与噪声的频谱,定义信噪比测量:

信噪比测量实际上是信号的瞬时功率谱密度与噪声均值的比率。VAD为了判定语音信号存在与否,在每帧信号考虑两类假设:H0表示当前信号是噪声,而备用假设H1则表示当前信号为含噪语音信号。在两种假设下,(k,i)φ分别表示为

当信噪比测量的平均值大于阈值的平均值时,初步检测到的是语音(H1),相反为噪声(H0)。最终判决需要后接一个时滞判决策略以降低错误拒绝率。在检测过程中,一旦检测出当前帧信号是噪声,立即通过式(8)更新η(k,i),供1+i帧信号的比较判决使用。

3 实验及结果分析

在 VAD检测实验中,分别用倒谱阈值平滑与Welch方法估计噪声频谱,并分别用高斯模型与瑞利模型阈值更新准则后接相同时滞策略进行含噪语音信号的状态检测。实验分别在3种不同噪声、3种不同信噪比环境中评估基于倒谱阈值与瑞利模型阈值更新准则的VAD性能指标值。实验用到的噪声库与语音数据及其格式设置与文献[9]相同。除了用于信噪比测量方差进行时间指数平均的实验中Welch方法以及其VAD中参数设置与文献[9]相同。倒谱阈值方法的参数设置如表1所示。性能评估采用文献[9]给出的5个客观评测指标。

表1 利用倒谱阈值VAD方法的参数值

4种VAD组合实验结果见表2、表3。其中表2是文献[10]获得的实验结果,表3的组合3实验结果引用文献[9]。本文为了做实验分析对比,加以引用。高斯白噪声环境下,4种组合中组合1的Correct指标最高。采用瑞利模型的组合3与组合4得分都低于采用高斯模型的 VAD,进一步验证了瑞利模型不适合用于描述高斯信号的统计分布。采用倒谱阈值估计方法组合2与4分别稍低于用Welch方法的组合1与3。在Babble噪声评估时,组合4(本文方法)超越了前2种组合。其与组合3相比,在5 dB和10 dB下Correct指标都有1%以上的提高,但在15 dB却有稍微下降。瑞利模型的引入提高了对该类具有拖尾统计特性噪声的整体检测正确率,对比组合2有3%以上的提高。对于 factory1噪声环境下,组合 4在各个信噪比中Correct值都优于前3种组合,有2%以上的优势。

表2 Gaussan准则检测指标值对比[10]

表3 Rayleigh准则检测指标值对比

总的来看,组合4倒谱瑞利在非对称统计分布噪声环境下的检测优于前3种组合,并且用倒谱阈值估计频谱算法复杂度低[10],但单纯从倒谱阈值频谱估计方法来讲,其在高斯噪声,高信噪比 Babble噪声环境下都没有取得占优的检测效果,说明该方法中的阈值设置并没有考虑具体信号的统计特性。

4 结论

本文提出一种结合倒谱阈值频谱估计与瑞利分布模型的VAD方法。该方法可以复用语音系统的倒谱运算结果,节省了计算开销,采用瑞利模型更适合与非平稳噪声环境下的判决阈值更新。实验表明该VAD在非平稳噪声环境中优于基于高斯模型的2种组合,绝多数非平稳噪声下优于Welch-瑞利(组合3),仅在15 dB Babble噪声略低。实验也反映出倒谱阈值频谱估计方法的VAD在某些情况下检测率差于其它组合的现象。针对该现象,将研究倒谱阈值频谱估计方法对含噪语音信号、非平稳信号频谱统计特性与该方法中阈值的确定问题。

[1] Huang H J, Su S L, Chen J H. Design and performance analysis for data transmission in GSM/GPRS system with voice activity detection[J]. IEEE Trans. Veh. Technology, 2002, 51(4)∶648-656.

[2] Sohn J, Kim N S, Sung W. A statistical model-based voice activity detection[J]. IEEE Signal Processing Letters, 1999,6(1)∶ 1-3.

[3] Cho Y D, Kondoz A. Analysis and improvement of a statistical model-based voice activity detector[J]. IEEE Signal Processing Letters, 2003,8(10) ∶ 276-278.

[4] Ramírez J, Segura J C, Benítez C, et al. A statistical voice activity detection using a multiple observation likelihood ratio test[J]. IEEE Signal Processing Letters, 12(10)∶ 689-692.

[5] Gazor S, Zhang W. A soft voice activity detector based on a laplacian-gasussian model[J]. IEEE Trans. on Audio, Speech,and Language Processing, 2003, 11(5)∶ 498-505.

[6] Tahmasbi R, Rezaei R, A soft voice activity detection using GARCH filter and variance gamma distribution[J]. IEEE Trans. on Audio, Speech, and Language Processing,2007,15(4)∶1129-1134.

[7] ITU-T Recommendation G.729, Annex B.[R], 1996.

[8] Davis A, Nordholm S, Togneri R. Statistical voice activity detection using low-variance spectrum estimation and an adaptive threshold[J]. IEEE Trans. on Audio, Speech, and Language Processing, 2006, 14(2)∶ 412-424.

[9] 李宇,陈建铭,谭洪舟,等.基于Rayleigh噪声统计分布的有音区检测[J].信号处理,2009,25(11)∶1809-1813.

[10] 李宇,郭雷勇,谭洪舟.基于噪声倒谱阈值频谱估计的语音活动检测[J].计算机工程,2011,37(14)∶140-142.

[11] Stoica P, Sandgren N. Total-variance reduction via thresholding∶ application to cepstral analysis[J]. IEEE Transactions on Signal Processing, 2007, 55(1)∶ 66-72.

猜你喜欢

瑞利信噪比频谱
两种64排GE CT冠脉成像信噪比与剂量对比分析研究
一种用于深空探测的Chirp变换频谱分析仪设计与实现
基于深度学习的无人机数据链信噪比估计算法
低信噪比下基于Hough变换的前视阵列SAR稀疏三维成像
逻辑不逻辑
动态频谱共享简述
马瑞利推出多项汽车零部件技术
不同信噪比下的被动相控阵雷达比幅测角方法研究
遥感卫星动力学频谱规划
认知无线电中一种新的频谱接入方法