基于频域逐级回归的声学回声控制

2014-06-02姜开宇国雁萌颜永红

电子与信息学报 2014年12期

姜开宇吴超国雁萌付强颜永红

基于频域逐级回归的声学回声控制

姜开宇*吴超国雁萌付强颜永红

(中国科学院声学研究所北京 100190)(中科院语言声学与内容理解重点实验室北京 100190)

传统声学回声控制算法一般采用基于随机梯度法更新的频域分块自适应滤波(PBFDAF)方法，但在以语音为主要回声信号的室内混响环境中，由于回声路径不稳定，往往收敛速度较慢，难以实现足够的回声抑制。该文提出一种基于频域逐级回归的声学回声控制算法。通过逐级回归分析远端信号和麦克风信号之间的线性关系，可以在保持较小的偏差的同时实现收敛较快的系统估计。同时，由于逐级分析了两通道间的短时相干性，因而该算法无需像常见方法一样，额外进行基于通道间相干函数的残余回声抑制或双讲检测，从而保持系统的紧凑性。若进一步假定近端背景噪声准平稳，则可利用基于近端信号非平稳程度的自适应平滑因子，在实现系统估计快速收敛的同时确保其稳定性。实验表明，该方法在常见的近端环境噪声水平下，在收敛速度和稳态误差上相对传统方法有显著优势，非常适合应用在室内远讲模式下的声学回声控制中。

语音信号处理；声学回声控制；逐级回归；声学回声抵消；声学回声抑制

1 引言

在语音通信和交互系统中，由于近端存在语音和背景噪声，远端扬声器信号和近端麦克风信号之间的线性关系会受到干扰，这通常被称作“双讲”问题。而且，由于室内混响的影响，经常需要较多参数才能较精确地建模回声路径。更重要的是，回声路径可能时变，甚至因环境扰动而出现突变，因此只能基于有限时长内的观测数据进行无偏估计，这将导致估计方差较大。另外由于远端信号是语音，在时频分布上比较稀疏，能量较弱的频带因为淹没在近端噪声中而无法被有效辨识，因而回声路径的估计相对于真实值经常是有差异的。因此，在实际环境下，要保持以较小的方差获得回声路径的无偏估计，往往不太可能。相对而言，一个偏差不大，但收敛快速的系统估计，对于确保算法在各种情况下都有足够的回声消除量，从而保证系统的稳定性尤为重要。

基于以上考虑，本文提出在复频域的逐级回归方法，将两通道之间的线性关系建模为逐级回归模型，并利用逐级的短时谱估计实现长系统的辨识，在保持偏差较小的同时，不仅能够实现系统估计的快速收敛，而且具有抗瞬态干扰(近端语音)的能力。在本文的逐级回归中，每级只进行一个单参数的简单回归，所以不必进行矩阵求逆就能求得逐级的最小二乘估计，能够达到较快的收敛速度。此外，如果估计时使用了足够多的独立样本，则该估计对于非持续的干扰(近端语音)将保持鲁棒。这是因为，如果用恒定方差的白噪声序列对近端信号(包括近端语音和背景噪声)建模，即使其分布不是高斯的，根据Gauss-Markov定理，最优的线性无偏估计子为最小二乘估计。尽管逐级回归相对于多元线性回归通常有一定偏差[17]，但它具有更快的收敛速度和对双讲的鲁棒性。同时，通过对回声路径衰减形状的合理假设，可以预先合理确定逐级回归中引入回归变量的次序，并对估计得到的回归系数做出合理约束，从而将系统估计的偏差和均方误差控制在一个较低的范围内，因而它非常适合于以语音为主要回声信号的非平稳混响环境。为防止因快速收敛特性而可能导致的快速发散，本文还提出利用基于近端信号非平稳程度的自适应平滑因子，从而保证了算法的稳定性。

本文后续部分安排如下：首先介绍用于声学回声控制的模型近似及频域逐级回归算法，同时提出一个时频依赖的平滑因子及随机幅度谱最小值约束，从而实现一个完整的声学回声控制算法。然后，对该方法和一个分块频域自适应滤波器(PartitionedBlock Frequency Domain Adaptive Filter, PBFDAF)结合自适应控制的实现[2,3,18]进行了多种条件下的性能对比测试，最后给出结论。

2 问题分析及逐级回归介绍

2.1 模型近似

设麦克风信号表示为

2.2 逐级回归

相应的残差为

2.3 由非平稳程度控制的自适应平滑

2.4 信号重建和过减

由于本文的方法具有快速收敛的特性，可以不必采用基于相干函数估计的后处理。但是在混响环境中，实际回声路径的模型阶数较高，所以可能存在建模不足问题。而且，第2.1节中的模型近似会带来一定偏差，可能导致一定残余回声。为进一步抑制回声，可以考虑采用幅度谱过减，并通过在时间维度上加入平滑处理来消除过减带来的音乐噪声。然而，这种处理会在近端语音的起始时刻引入失真。为此，本文不采用时间维度上的平滑，而利用随机的幅度谱最小值约束，不仅避免了音乐噪声，而且保持了语音起始端的音质。随机幅度谱最小值约束不需引入额外的随机噪声添加模块，并能获得更自然的背景噪声。在此约束下，近端语音的过减估计为

采用上述构架，可以在需要时方便的加入背景噪声抑制处理，本文在此不作进一步讨论。

3 实验和分析

根据引言分析，相对于传统方法，本文提出的估计子具有更快的收敛速度以及对双讲和回声路径突变的相对鲁棒性。并且，由于近端持续存在的背景噪声对系统辨识的方差下界的制约，可以预期模型近似和逐级回归的偏差在近端存在一定水平噪声时表现不明显。实验中，对本文提出的方法和PBFDAF结合自适应控制方法的一个公开实现Speex[2,3,18]，在不同的回声和本地平稳噪声比值的条件下进行了对比测试。

算法的瞬态特性通过短时上的ERLE和LSD来考察。回声和本地平稳噪声比(Echo-to-Noise-Ratio, ENR)为10 dB和20 dB时的情形分别如图1，图2所示。为更清晰地进行对比，图中纵轴表示本文算法相对Speex的ERLE提高量。在两种情况下，本文方法的收敛速度都更快，并在0~4 s和10~14 s的时间段上取得了更高的ERLE。当ENR=20 dB，即近端背景噪声相对回声较弱时，Speex在部分时段取得相对本文算法稍高的ERLE。但是，当近端信号中包含一定程度的背景噪声时，如ENR=10 dB时，本文算法在几乎整个20 s的时间上都取得了更高的ERLE。由此可见，本文算法非常适合于以语音为主要回声信号的室内混响环境。另外，本文算法50%和25%帧移的表现较为接近，但25%帧移的表现相对更好。

表1~表4显示的结果由10次随机抽取音频后的测试指标平均得到，以综合考察非平稳的近端语音和回声信号在不同的时频重叠情况下的算法表现。ERLE在整个时间段上计算。从表1，表2中可以看出，本文的方法在各种情况下均取得了更大的回声衰减量，而表3和表4显示近端语音损伤没有增大，可懂度并没有受到太大影响。同时，25%帧移的情况性能表现总体更好，但计算量更大。

图1 10 dB回声噪声比时，单讲情况下的短时ERLE对比测试

图2 20 dB回声噪声比时，单讲情况下的短时ERLE对比测试

由于常见的室内远讲或免提语音通信和人机交互应用环境中，通常存在一定程度的背景噪声以及不可避免的电路噪声，且声学环境可能存在各种因素引起的扰动或者突变，本文方法相对于传统方法会在总体回声抑制量上表现出显著优势。另外在非正式的主观测听中，本文注意到由于本文方法较快的收敛速度和自适应的随机幅度谱最小值约束，残余回声通常较白，因而也相对不容易被听觉感知。

表2 “双讲”时的ERLE(dB)

表3 “双讲”时的LSD(dB)

表4 “双讲”时的STOI

4 结束语

针对声学回声控制应用中，作为回声的语音信号非白，以及实际声学环境中常见的回声路径较长且往往不能确保持续稳定的特点，本文提出了一种将逐级回归分析方法在频域处理框架下应用于声学回声控制问题的算法。分级的加权最小二乘估计确保了算法的快速收敛和抗近端非平稳干扰的稳健特性。同时在不同近端噪声水平下的实验表明，本文的算法在常见噪声水平下的语音应用中，能够获得很好的模型近似，估计偏差较小。与一个公开的PBFDAF结合自适应控制的算法实现的对比实验显示，在存在系统突变的环境下，本文方法在总体回声抑制量上显示出明显的优势，同时在双讲时很好地保持了近端语音质量。进一步的研究可以考虑针对具体应用场景的特点，在建模误差和估计偏差以及方差之间取得更适当的平衡。

[1] Sondhi M. An adaptive echo canceller[J]., 1967, 46(3): 497-511.

[2] Soo J S and Pang K K. Multidelay block frequency domain adaptive filter[J].,, 1990, 38(2): 373-376.

[3] Valin J M. On adjusting the learning rate in frequency domain echo cancellation with double-talk[J]., 2007, 15(3): 1030-1034.

[4] Gupta V K, Chandra M, and Sharan S N. Acoustic echo and noise cancellation system for hand-free telecommunication using variable step size algorithms[J]., 2013, 22(1): 200-207.

[5] Mayyas K. A variable step-size selective partial update LMS algorithm[J]., 2012, 23(1): 75-85.

[6] 张琦, 王霞, 王磊, 等. 自适应回波抵消中变步长 NLMS 算法[J]. 数据采集与处理, 2013, 28(1): 64-68.

Zhang Qi, Wang Xia, Wang Lei,..Variable step-size NLMS algorithm in echo cancellation[J].&, 2013, 28(1): 64-68.

[7] Gansler T, Hansson M, Ivarsson C J. A double-talk detector based on coherence[J]., 1996, 44(11): 1421-1427.

[8] Tashev I J. Coherence based double talk detector with soft decision[C]. IEEE International Conference on Acoustics, Speech and Signal Processing, Kyoto, Japan, 2012: 165-168.

[9] Benesty J, Morgan D, and Cho J H. A new class of doubletalk detectors based on cross-correlation[J]., 2000, 8(2): 168-172.

[10] Schuldt C, Lindstrom F, and Claesson I. A delay-based double-talk detector[J]., 2012, 20(6): 1725-1733.

[11] Avendano C. Acoustic echo suppression in the STFT domain[C]. 2001 IEEE Workshop on the Applications of Signal Processing to Audio and Acoustics,New Platz, NY, USA,2001: 175-178.

[12] Faller C and Chen Jing-dong. Suppressing acoustic echo in a spectral envelope space[J]., 2005, 13(5): 1048-1062.

[13] Wada T S and Juang B H. Enhancement of residual echo for robust acoustic echo cancellation[J]., 2012, 20(1): 175-189.

[14] Shrawankar U and Thakare V M. Acoustic echo cancellation postfilter design issues for speech recognition system[J]., 2011, 1(5): 38-43.

[15] Gustafsson S, Martin R, and Vary P. Combined acoustic echo control and noise reduction for hands-free telephony[J]., 1998, 64(1): 21-32.

[16] Enzner G, Martin R, and Vary P. Partitioned residual echo power estimation for frequency-domain acoustic echo cancellation and postfiltering[J]., 2002, 13(2): 103-114.

[17] Draper N R and Smith H. Applied Regression Analysis[M]. New York: Wiley Series in Probability and Mathematical Statistics, 1981: 337-341.

[18] Jonathan Rouach：Ported Speex AEC mdf algorithm from C to Matlab[OL]. https://github.com/wavesaudio/Speex-AEC- matlab. 2014.01.

[19] Doblinger G. Computationally efficient speech enhancement by spectral minima tracking in subbands[C]. Proceedings of EUROSPEECH, Madrid, Spain, 1995: 1513-1516.

[20] Cohen I. Analysis of two-channel generalized sidelobe canceller (GSC) with post-filtering[J]., 2003, 11(6): 684-699.

姜开宇：男，1986年生，博士生，研究方向为语音信号处理、阵列信号处理.

吴超：男，1988年生，博士生，研究方向为语音信号处理.

国雁萌：女，1976年生，副研究员，研究方向为语音信号处理、传声器阵列、语音识别.

付强：男，1972年生，研究员，研究方向为语音信号处理、传声器阵列.

颜永红：男，1967年生，研究员，研究方向为语音识别、语音搜索、机器学习、模式识别.

Acoustic Echo Control Based on Frequency-domain Stage-wise Regression

Jiang Kai-yu Wu Chao Guo Yan-meng Fu Qiang Yan Yong-hong

(,,100190,)(,,100190,)

Traditional echo control techniques as Partitioned Block Frequency Domain Adaptive Filter (PBFDAF) with stochastic gradient adaptive method usually endure slow convergence and insufficient echo suppression in reverberant room when the echo is speech and the echo path is unstable. An algorithm based on frequency domain stage-wise regression is proposed for acoustic echo control to achieve faster convergence of the system estimation with insignificant bias. Commonly used additional double-talk detector and inter-channel coherence based residual echo suppressor are not needed since short-time coherence analysis is performed in each stage. By further making mild assumptions on the quasi-stationarity of the near-end background noise, both fast convergence and stability of the estimation can be achieved simultaneously with a non-stationarity controlled smoothing factor. Experiments are carried out to show the superiority of the proposed approach in terms of convergence speed and steady state error in distant talking mode in ordinary room environment with various common levels of background noise.

Speech signal processing; Acoustic echo control; Stage-wise regression; Acoustic echo cancellation; Acoustic echo suppression

TN912.3

1009-5896(2014)12-2896-06

10.3724/SP.J.1146.2014.00131

姜开宇 jiangkaiyu@hccl.ioa.ac.cn

2014-01-20收到，2014-04-18改回

国家自然科学基金(10925419, 90920302, 61072124, 11074275, 11161140319)和中国科学院战略性先导科技专项(XDA06030100)资助课题