APP下载

分布式无线声传感网加权预测误差语声去混响方法∗

2022-03-05郑成诗柯雨璇李晓东

应用声学 2022年1期
关键词:传声器集中式分布式

韩 哲 郑成诗 柯雨璇 李晓东

(1 中国科学院噪声与振动重点实验室(声学研究所)北京 100190)

(2 中国科学院大学 北京 100049)

0 引言

随着现代微电子技术(Micro-electro-mechanical systems, MEMS)与无线通信传输技术的发展,低功耗、模块化的无线传感网络(Wireless sensor network, WSNs)开始普及[1]。本文主要讨论的分布式无线声传感网络(Wireless acoustic sensor networks, WASNs)具有多个节点,每个节点由一个或多个传声器以及数据处理模块与通信模块构成,分别实现信号拾取、运算和与其他节点通讯的功能。由于靠近声源可以采集到更高信噪比(Signal-to-noise ratio, SNR)或者信混比(Signalto-reverberant ratio, SRR)的信号,相较于传统固定位置的集中式传声器阵列,WASNs 可实现更大空间内的声源语声拾取。此外,通过各节点的数据处理模块进行去中心化运算,可增强系统的扩展性与鲁棒性。

在WASNs 中,如果存在数据中心可以接收所有传声器拾取的信号并进行运算,就可以采用集中式算法,理论上可获得最优解,但传输与运算能耗较大;若每个节点仅使用局部信号,则对应单节点算法,性能会有不同程度的降低。在WASNs中通过节点分布式计算,以尽可能少通道数的信号传输,达到集中式算法最优性能的分布式语声增强算法的开发,变得越来越重要[2−8]。

截止至今,已有多种应用于WASNs 的分布式语声增强算法。文献[3]在双耳无线助听器系统中,基于多通道维纳滤波(Multi-channel wiener filter,MWF)提出了降低传输带宽的分布式多通道维纳(Distributed MWF, DB-MWF)语声增强算法,该算法在单个声源被稳态噪声干扰的情况下,将两节点间传输通道降为1,并被验证了其性能随迭代收敛于集中式算法。文献[4]中考虑了更一般的更多节点情况,提出了分布式自适应节点特定信号估计(Distributed adaptive node-specific signal estimation, DANSE)算法,该算法通过控制约束,实现各节点彼此不同的特定输出。文献[5]介绍了通过在DANSE 算法中引入广义特征值分解MWF(Generalized eigenvalue decomposition MWF,GEVD-MWF)得到的GEVD-DANSE算法,并利用WASNs 中节点的先验信息,提升了GEVDDANSE算法的收敛速度。文献[6]中基于广义旁瓣消除(Generalized sidelobe canceler, GSC)算法提出了分布式GSC(Distributed multiple constraints GSC, DGSC)算法,该文献在WASNs 中所有节点保持同约束、同输出的假设下,基于一种特殊变换,证明了集中式GSC 算法可以等效为多个节点GSC输出之和。文献[7]在WASNs中对节点间传输数据的码率而非通道数进行限制,提出了码率分配分布式线性约束最小方差(Rate-distributed linearly constrained minimum variance, RD-LCMV)算法,达到了降低传输成本的目的。文献[8]同样基于LCMV 算法,通过随机排列交替方向乘子法(Randomly permuted alternating direction method of multiplier, RP-ADMM)对LCMV 进行逐块优化,从而实现了分布式LCMV算法的构造。

除了噪声,混响也会造成声源定位误差以及语声质量下降[9−10]。在室内应用场景,例如智能家居的语声控制、电话会议等远场应用,传声器除了直达声,往往也会拾取到被称为混响的墙壁与其他物体的反射声波,混响可以营造空间感[11],但也会造成语声质量下降,降低语声识别准确性和语声听感。为了抑制混响,许多去混响的算法及其改进算法被提出[12−16]。文献[17]中提出的加权预测误差(Weighted prediction error, WPE)算法是一种基于自适应多通道线性预测模型的盲去混响算法,通常使用递归最小二乘(Recursive least squares, RLS)算法进行滤波器系数的自适应更新,该算法性能稳定,通常可作为波束形成或者单通道降噪的预处理,因而得到了广泛使用。文献[18] 便利用了WPE算法与基于神经网络的波束形成器结合,在低信噪比下获得了更好的语声增强效果。文献[19]对去混响算法的更新方式进行了讨论,引入了豪斯霍尔德RLS(Householder RLS, HRLS)与豪斯霍尔德最小二乘格型(Householder least squares lattice, HLSL)算法来代替RLS,在保持系统快速收敛能力的同时增强了稳定性。

在WASNs 中,去混响算法也同样被关注。文献[20–21]中提出了应用于自组织无线声传感网络中的多通道去混响算法,通过在网络中选择拾取信号混响程度低的传声器子集来实现混响抑制,但这两种算法均未考虑分布式运算以及传输与能量限制。为解决以上问题,本文提出一种应用于WASNs的分布式WPE(Distributed WPE, DWPE)算法。考虑在高混响空间内单个声源的情况,通过调整各节点内滤波器系数的更新流程,可在显著降低节点传输信号通道数与节点内运算复杂度的同时,实现与集中式算法相同的去混响性能。本文提出的分布式算法无需预先已知房间的声学传递函数(Acoustic transfer function, ATF)、声源信号统计特性等信息,延续了集中式WPE算法的优点。

本文将按如下结构展开。第1节中介绍WASNs中的信号模型。WPE 算法的简介以及DWPE算法的具体介绍将会在第2节中给出,包括WASNs中信号的发送与接收、各节点RLS 更新流程等。第3 节通过仿真与主客观实验验证了DWPE 算法对于集中式算法性能的收敛性,并对比了分布式算法与集中式算法在扩散噪声场景下的稳定性。

1 信号模型

如图1所示,一个WASN包含若干个任意分布节点,每个节点中含有不同数目的传声器,在全连接模型中每个节点都可以与其余所有节点使用无线传输的方式交换信息,每个节点均具有属于自己的处理器,可以处理本地与从其他节点接收的数据。

图1 分布式无线声传感网络示例Fig.1 Example of an WASN

本节中考虑一个由M个传声器组成的J个节点的WASN(M≥J),每个节点中的传声器个数为Mj,j ∈{1,···,J},则。设s(k,n)为纯净语声的短时傅里叶变换(Short-time Fourier transform, STFT)域表示,n表示帧索引,k ∈{1,···,K}表示频带索引,共有K个频带,可得第m个传声器拾取的带混响信号在时频域可被建模为

其中,hm(k,l)为声源到第m个传声器的ATF,Lh由混响时间、STFT 窗长及帧移决定,该模型对语声逐频带运算,为了表达简洁,下文中将省略频带索引(k)。由式(1)模型,可证明混响信号可被表示为多通道自回归(Multi-channel autoregressive,MCAR)系统的输出,这是自适应去混响算法的理论基础[22−23]。由MCAR 系统可知,各通道信号可被写成多通道线性预测(Multi-channel linear prediction, MCLP)的形式:

其中,[·]H表示共轭转置,[·]ref代表从所有传声器中任意选取的参考信号;gm(l)为声源到第m个传声器的空间回归系数(Room regression coefficient),在特定房间静态声源场景下不随时间改变,其长度Lg与Lh有关;为直达声与早期混响的和,表示目标信号;τ为预测时延,它的存在可避免语声处理中的过白化[23]。为了表达方便,式(2)可转化为矩阵形式:

其中,g=[g1(0),···,g1(Lg −1),···,gM(0),···,gM(Lg −1)]T∈CMLg×1与q(n)=[x1(n−τ),···,x1(n−τ −Lg+1),···,xM(n−τ),···,xM(n−τ −Lg+1)]∈CMLg×1表示空间回归系数gm(l)与存储延时信号xm(n)按照时间与传声器顺序构成的数据矢量。同时由上可得,在MCLP模型中,对传声器拾取信号进行去混响的过程即为对空间回归系数g自适应估计的过程,去混响后的输出的目标信号估计为

在WASNs 中拾取到的信号可按照节点为单位被表示为

其中,[·]T表示转置,(n)代表第j个节点的全部Mj个传声器所拾取到的信号,xji(n)代表第j个节点的第i个传声器所拾取到的信号。类似的,式(3)和式(4)中的矢量被表示为

其中,gji= [gji(0),···,gji(Lg −1)]T与qji(n)=[xji(n −τ),···,xji(n −τ −(Lg −1))]T分别代表对应于第j个节点的第i个传声器的空间回归系数与所存储的延时信号。

2 分布式算法介绍

2.1 集中式WPE算法介绍

WPE 算法是一种基于MCLP 的算法,估计位置参数g时,对目标语声STFT 域信号采用时变高斯模型(Time-varying Gaussian, TVG)进行建模[24]。假设目标语声信号d(n)可被建模为零均值的复高斯模型,则期望信号的概率密度函数可被表示为

其中,λ(n)表示期望信号在n时刻概率密度函数的方差,是一个未知量。由概率密度函数可以写出一段时间内的似然函数:

其中,参数g和λ(n)的估计可以通过最大化式(6)中的似然函数得到,对其取负对数,可得到优化目标函数[23]:

g和λ(n)的联合优化是困难的,在离线算法中采用两个参数交替优化的方法,两个参数在每个时频点交替优化直到收敛或达到最大迭代次数,得到参数g的估计后使用式(4)得到目标信号估计。由于计算量较大,这种算法较难在线使用,实时算法中通常选取参考信号直接估计λ(n)[25−27],λ(n)的估计可写作:

在线算法中当λ(n)已经估计得到,则式(7)中的优化目标转化为

使用形如式(9)的优化目标对参数进行估计的算法即为WPE算法,通常使用RLS对其求解,具体过程见表1[26,28]。

表1 在线WPE 算法实现细节Table 1 The details of the online WPE method

表1中,k(n)被称为增益向量,P(n)为输入信号q(n)的协方差矩阵的逆,α为平滑因子,用于保持算法的自适应性。在稳定环境中,经过迭代g会收敛到一个稳定值,通过式(4)输出增强后信号。在RLS 滤波器中有先验估计误差与后验估计误差的概念,其中先验误差为即为式(11)中得到的估计值(n)。设后验误差为(n),可表达为

进一步定义后验估计误差(n)与先验估计误差(n)的比值称为收敛因子γ(n),可得

其值由各通道的延时信号q(n)以及其协方差矩阵的逆P唯一确定。需要注意在RLS 算法中是以优化后验误差的均方和为目的[28]。显然αλ(n)>0,且由于P为正定矩阵,则qH(n)P(n −1)q(n)>0,γ(t)期望值小于1,这表明了RLS算法是收敛的。下文中将依此分析DWPE算法的收敛性。

2.2 分布式算法

WPE算法在估计空间回归系数与目标信号时,一定范围内增加所获取的传声器信号通道数会提升去混响效果[27,29]。在分布式系统中若各节点使用第2.1 节介绍的集中式算法,可以获得最优的结果,但传输与运算能耗会相当可观,失去分布式系统的意义。本节将会介绍应用于WASNs中的DWPE算法,并给出其收敛性证明。第3 节中的仿真测试表明,通过分布式运算,DWPE 可在传声器节点之间传输更少通道的信号的同时,达到与集中式算法相当的去混响性能。

2.2.1 分布式算法构造

由于考虑单个说话人的情况,因此在分布式算法中,WASNs 每个节点采用相同的参考信号xref,该参考信号从M个传声器通道中选择,该传声器被称为“参考传声器”,其所在的节点被称为“参考节点”,参考信号由此节点分发给其他节点。参考信号的选择可以使用文献[6]中的方法,选择信噪比或信混比最高的通道;各节点输出分发给其他所有节点,求和之后得到(n)作为输出的同时,也用于各节点滤波器系数的更新。分布式系统中各节点之间的传输关系由图2表示,算法具体过程见表2。

表2 在线DWPE 算法实现细节Table 2 The details of the proposed online DWPE method

图2 分布式WPE 算法框架Fig.2 Framework of DWPE

表3总结了单节点WPE(SN-WPE)、集中式WPE(Cen-WPE)和本文中提出的DWPE 三种方式的传输通道数和节点内滤波器维度。表4中展示了3 种方法的计算复杂度,其中一次复数加法或一次复数乘法都被算作一次浮点运算(Floating point operation, FLOP)[30]。

从表3可以看出,与集中式WPE 相比,DWPE需要的传输数据和滤波器维度数明显减小。由表4可以看出,由于滤波器维数的减少,DWPE 算法复杂度相较集中式算法明显降低,以一个M= 9、Mj= 3、Lg= 4、J= 3 的WASN 为例,单节点、集中式与分布式算法各节点每运算100个时频点所需计算FLOPs次数分别约为4.315×105、1.006×107与4.319×105,且易得运算次数降低幅度会随着网络规模以及Lg的增大而进一步扩大。

表3 节点j 滤波器系数维度与每时频点收发通道数Table 3 Filter dimensions and the numbers of channels transmitted per TF-bin of the three methods at the j-th node

表4 第j 个节点每个时频点运算复杂度Table 4 Computational complexity of the three methods per TF-bin at the j-th node

2.2.2 收敛性证明

本节将通过分析DWPE 算法中先验误差与后验误差之间的关系,证明DWPE算法可以利用所有通道数据的信息,具有与集中式算法相同的收敛性。本节中为了区分集中式算法和分布式算法,对部分参数添加下标,如(n)代表集中式算法输出的去混响信号,(n)代表分布式算法中输出的去混响信号。

使用(n)和(n)替换式(16)中的(n)和(n),则式(16)可重新写作:

由文献[28]可知,在RLS 算法中使代价函数降低时,后验误差相较于先验误差具有更大的意义。在2.2.1 节,由表2中DWPE 算法具体过程中可以看出,分布式各节点输出的去混响语声信号为

节点j滤波器系数(n)的更新过程为

将式(25)代入式(26)可得

可得节点1更新时分布式算法的收敛因子为

由(28)可见,虽然在节点1 更新时只使用了本节点数据构造增益向量(n),但得益于使用了所有节点输出之和(n)作为更新参数,单个节点参数更新产生的影响使得整个分布式系统后验输出与先验输出之间存在着与集中式算法相似的关系,收敛因子由(n)与(n)唯一确定,保持了稳定性。当所有节点同步更新时收敛因子表示为

在γdis(n)中同样为正定矩阵,类似于对式(16)的分析,DWPE算法在时间平均意义上同样是收敛的,同时从式(29)中求和项可知,在DWPE算法对滤波器系数进行更新时可以如集中式算法一样利用全局信息。在第3 节的仿真实验测试中,将进一步证明DWPE 算法可使系统达到与集中式算法相当的性能。

3 仿真与分析

本节对DWPE进行仿真测试,并使用其输出进行主客观实验,验证了所提出的分布式算法对于集中式算法性能的收敛性。首先在3.1 小节对仿真设置进行介绍;3.2小节将会在仿真环境中对比集中式算法与分布式算法的性能和运算复杂度;3.3小节将会在环境噪声较高时对比集中式算法与分布式算法的稳定性,3.4 小节将会进行主观性测听实验。本节内若不做特殊说明,为便于比较算法性能,均默认选择参考节点进行单节点算法测试。

3.1 仿真设置

如图3所示,共设置两种房间大小。图3(a)房间尺寸为5 m×5 m×3 m,对应两种混响时间,分别为T60= 450 ms与T60= 650 ms,共有3 个节点,设置2 个说话人位置,Position 1 模拟说话人在房间内的一般状况,Position 2 模拟说话人在角落的情况;图3(b)房间尺寸为7.5 m×7.5 m×3 m,对应T60= 900 ms 与T60= 1100 ms 两种较高的混响时间,共有4 个节点,设置2 个说话人位置,Position 3模拟说话人在房间内的一般状况,Position 4 模拟说话人距离所有节点距离相似的状况。每个节点是一个具有3 个传声器的均匀线阵,传声器之间距离为5 cm。以上设置可验证在房间大小、混响时间、节点数量与说话人位置等参数发生变化时,所提出的分布式算法的普适性。声源语声信号从TIMIT 数据库中取得,抽取30 名男性与30 名女性,共计60人语声,每人25 s。各传声器拾取到的信号为纯净语声与说话人位置到传声器的房间冲激响应函数(Room impulse response,RIR)卷积得到,RIR通过镜像法[31]计算获得。

图3 测试仿真房间设置Fig.3 Room setup for evaluation

每个传声器设置固定的30 dB 的本底噪声,信号STFT长度为512,帧叠为50%,Lg=8,τ=1。性能测试指标为客观语声质量评价(Perceptual evaluation of speech quality, PESQ)[32]、短时客观可懂度(Short-time objective intelligibility, STOI)[33]、语声混响调制能量比(Speech-to-reverberation modulation energy ratio, SRMR)[34]。运行算法的计算机处理器为i7-8750H,内存为16 GB。

3.2 分布式算法性能与收敛性

在算法的运算复杂度与收敛性测试中,选取两种设置。分别为说话人位于位置1、T60= 650 ms以及说话人位于位置3、T60= 900 ms 两种情况。使用已有语声进行60 次测试。表5展示了仿真实验中单个节点在运行单节点(SN-WPE)、集中式(Cen-WPE)与分布式(DWPE)算法处理25 s 混响语声所需的平均时间,测试中保持节点算力一致,且忽略数据传输时间。

图4展示了单节点WPE 算法(Single Node1-WPE、Single Node2-WPE 与Single Node3-WPE)、集中式(Cen-WPE)与分布式(DWPE)算法输出语声在PESQ分数的提升幅度随时间变化的趋势。由于收敛速度会受到空间相对位置影响,所以在图4中对所有节点的单节点算法收敛性均进行了展示。由表5耗时情况可知,分布式算法处理时间与单节点算法相似并低于集中式算法,且WASN 规模越大,耗时降低幅度会越明显,这一结果与2.2 小节中运算复杂度分析相吻合。由图4可知单节点WPE算法最快收敛至稳定,但语声质量提升性能不及集中式算法与分布式算法;由于分布式算法中每节点的滤波器系数维度小于集中式,因此在更新初期性能与收敛速度上均优于集中式算法,分布式算法于3 s 左右达到稳定,集中式算法于6 s 左右达到稳定,两者稳定后客观指标性能处于同一水平。

图4 各算法随时间的收敛性Fig.4 Convergence of the tested methods over time

表5 各算法在不同设置下处理时间Table 5 Processing time of the tested methods in different settings

图5展示了声源分别布置在位置1、位置2 与位置3、位置4 时在不同混响情况下单节点(SNWPE)、集中式(Cen-WPE)及分布式(DWPE)算法结果各项指标相对于原始信号(Ref)的提升值。每个位置、每种混响时间同样进行60 次实验。由图5可知,分布式算法能够达到集中式算法的性能,且明显优于使用通道数较少的单节点WPE算法。

图5 随混响时间增加各算法在不同位置下的性能对比测试Fig.5 Performance comparison of the three methods along increasing reverberation times at different positions

3.3 分布式WPE算法对噪声鲁棒性测试

假设环境为球各向同性噪声声场(Spherically isotropic noise filed),除30 dB 本底噪声外,给传声器注入不同程度的扩散噪声[35]。图6展示了分别注入10 dB、15 dB、20 dB、25 dB、30 dB 扩散噪声时,说话人位于位置1、T60= 650 ms 以及说话人位于位置3、T60= 900 ms 两种情况下,集中式(Cen-WPE)、分布式(DWPE)及单节点(SN-WPE)算法结果的各项评价指标。大部分情况下,分布式算法与集中式算法依旧好于单节点算法输出,但由于WPE 算法无降噪能力,随着噪声量的增加,λ的估计准确度下降、各算法输出结果在混响部分的差异降低,3 种算法的性能逐渐接近;此外,从所有测试指标均可看出,随噪声量增加,分布式算法的稳定性优于集中式算法。

图6 不同噪声情况下各算法性能对比测试Fig.6 Performance comparison of the three methods with different levels of noise

3.4 主观测听测试

为了进一步测试DWPE 算法性能,借鉴文献[36]的方法,采用主观测听的方法进行了DWPE算法与集中式算法以及DWPE 算法与单节点算法对混响语声处理性能的对比测试。从TIMIT 数据库中选取6 名女性、6 名男性,共12 名说话人语声,生成650 ms、900 ms 或1100 ms 三种程度的混响信号,使用3 种算法进行去混响处理,从处理结果中抽取生成测试材料。实验共16 名被试,每人的听力材料由12组对比测试组成,其中有4组为DWPE与单节点算法(SN-WPE)的对比,其余8 组为DWPE与集中式算法(Cen-WPE)的对比。每组测试需要先听一遍未处理混响语声,再测听两种算法处理结果,选择主观感受混响更低的进行记录,如果不能听出差异,选择“无差异”。所有测试数据均是被打乱过的,测试结果以百分比的形式在表6与表7中展示,“Equal”表示无差异。从测试结果可见,DWPE效果显然优于单节点算法,且大多数结果都指向了DWPE 算法与集中式算法的等效性。这证明了DWPE算法充分利用整合了多节点的数据,并且性能收敛于集中式算法。

表6 DWPE 与SN-WPE 处理结果主观测听实验偏好度对比Table 6 Comparison of preferences for the subjective listening test between DWPE and SN-WPE results

表7 DWPE 与Cen-WPE 处理结果主观测听实验偏好度对比Table 7 Comparison of preferences for the subjective listening test between DWPE and Cen-WPE results

4 结论

本文将WPE算法应用到WASNs上,提出了一种实时分布式运算的自适应去混响DWPE 算法。在该方法中,所有节点共享相同的参考信号,并交换本地输出,进行并行分布式计算。文中以理论推导的方式证明了DWPE算法的收敛性,在第3 节通过仿真以及主客观实验,证明了DWPE算法在显著降低计算和传输成本的同时,能够达到与集中式算法相当的去混响性能。此外,收敛速度与噪声测试实验结果表明,提出的方法比集中式方法具有更快的收敛速度和更高的稳定性。

猜你喜欢

传声器集中式分布式
多能互补分布式能源系统在数据中心的应用
分布式空战仿真系统设计
交响音乐会大声压级乐器拾音的串音控制方法
中型编制民族乐团户外音乐会的拾音
——以二沙岛户外音乐季广东民族乐团专场音乐会为例
基于深度学习的分布式安全日志分析方法
浅析分布式发电对电力系统的影响
AKG CMS380新一代UHF无线传声器系统
全新Mentor DRS360 平台借助集中式原始数据融合及直接实时传感技术实现5 级自动驾驶
国有企业的集中式财务管理模式分析
浅谈基于现场扩声环境下传声器基本参数的作用