“B-格式”声信号实值MUSIC算法的DOA估计

2020-06-18石超宇阮振裔

电声技术 2020年3期

石超宇，王涛，阮振裔

(上海大学通信与信息工程学院，上海 200444)

1 引言

近年来，环境立体声(ambisonic)被广泛地研究和应用，它使用以一定方式组合的麦克风阵列来记录多通道声音信号，最终通过若干个声道的信息运算去生成三维的全景声场。其中估计到达方向(DOA)对于分析声学场景至关重要。其主要应用包括声源定位、波束成形、定向音频编码等。声音由于其非窄带性和非平稳性，其分析一般建立在短时傅立叶变换(STFT)域中，并认为每个时频点上均包含多个DOA信息。因此，准确地估计DOA至关重要。

由于非平稳语音和混响环境，对DoA估计非常困难。消费类电子产品中使用的小型麦克风阵列将进一步降低其性能。标量传感器阵列的DOA估计方法目前已较为成熟，并逐渐扩展到矢量阵列，例如Capon方法[1-2]、MUSIC算法[3]和ESPRIT算法[4]等。其中，MUSIC和ESPRIT在分辨率和估计精度方面明显优于Capon和TDOA等方法。在文献[5]-[8]中，提出了一种DOA估计器和该种估计器的改进，该估计器可以从“B-格式”麦克风信号确定每个时间和频率上两个平面波的DOA，但估计器受噪声和混响干扰较大；文献[9]在“B-格式”麦克风信号中使用声密度矢量分离直达声和漫射声，并估计直达声方向，但该方式只能针对单声源场景，无法区分多个声源的位置；文献[10]、[11]提出了EB-ESPRIT算法，有效地解决了含混含噪环境下的多声源DOA估计，但其使用了价格昂贵且体积较大的球麦克风阵列，这将不利于日渐小型化、微型化的应用。

对实值子空间算法的应用近年来已经在某些阵列中有所突破，时胜国等[12]对矢量传感器圆阵列的实值算法，利用声压与粒子速度的空间相关特性构造一个实值互协方差矩阵来消除各向同性噪声；柳艾飞等[13]提出了针对单组矢量信号的增强子空间MUSIC算法，考虑并抑制了由各通道功率不一致造成的伪像；Byeongho JO等[14]提出了实值化的EB-ESPRIT方法，通过球面谐波的半实值处理和额外的约束来克服回波数量不足和抑制噪声干扰。但上述实数化的方法主要是根据阵列的中心对称特性将复数阵列转化为实数阵列，主要目标是降低计算过程中的复杂程度。在含噪和含混响的环境中，空间谱算法的性能将显著降低。本文提出了一种更高效的MUSIC估计算法，针对“B-格式”信号，对MUSIC算法进行实值化处理，将复数信号张成实数信号操作，提升其在含混含噪的多声源DOA估计中的性能。结果表明，该方法可以有效减小DOA估计误差。

全文结构如下，第2节介绍“B-格式”麦克风及声信号模型；第3节介绍实值MUSIC算法；第4节对多种DOA方法进行性能评估和对比；第5节全文总结。

2 “B-格式”

2.1 “B-格式”信号

环境立体声采集最常使用的是四通道的“一阶环境立体声(FOA)”，是许多系统中用于高质量环绕声分析和声场重建的首选录音设备(例如Ambisonics[15-16]和DirAC[17])。它有两种存储格式，分别称为“A-格式”和“B-格式”。四通道的“B-格式”麦克风包含1个全向通道和个相互正交的“8字形”偶极子通道，可以同时记录某处的声压和粒子速度。W通道表示该处声压，X、Y、Z通道表示该处三个相互正交轴向的粒子速度分量。图1为“B-格式”声信号通道的极化示意图。

2.2 信号模型

xdir(t)=A·s(t)

(1)

(2)

对接收信号进行STFT操作变换到时频域，麦克风阵列接收到信号X(k,n)由直达声Xdir(k,n)、漫射声Xdiff(k,n)和麦克风自噪声Xr(k,n)构成：

k、n分别表示时频域中频率和帧的索引，XW(k,n)为全向通道声信号，XX(k,n)、XY(k,n)、XZ(k,n)分别为X轴向、Y轴向和Z轴向的极化通道声信号。假设Xdir(k,n)、Xdiff(k,n)和Xr(k,n)互不相关,Xdiff(k,n)与Xr(k,n)的和统称为信号噪声Xn(k,n)。Xdiff(k,n)与Xr(k,n)的划分有助于在实验中分别考虑性能在不同混响和麦克风自噪声条件下的差异。后续小节为简化公式，将略去频率和帧的索引。

3 MUSIC算法

3.1 复数MUSIC算法

MUSIC算法是一种被广泛使用的特征空间方法。其对阵列自相关矩阵特征向量的展开空间进行分解，构建相互正交的信号子空间和噪声子空间。

信号的功率谱密度Φx为：

Φx=E{XXH}

(4)

(·)H表示共轭转置，E{·}表示统计期望。假设M小于通道数，且信号自相关矩阵ΦS=E{SSH}非奇异。

Φx=AE{SSH}A+σ2I=AΦSA+σ2I=SΛSSH+GΛGGH

G为噪声子空间，S为信号子空间。信号子空间可以通过对Φx进行特征分解，其特征值为：

(5)

U=[SG]

(φ,θ)MUSIC=argmina(φ,θ)HGHGa(φ,θ)

(6)

则MUSIC算法的空间谱为：

(7)

或

(8)

以导向矢量a(φ,θ)为自变量进行谱峰搜索，所有极大值点对应的角度即为入射方向。

3.2 实值MUSIC算法

使用Ylm(φ,θ)表示复值球谐函数:

(9)

m和l分别表示阶数和模，Plm(·)为阶数和模分别为m和l的勒让德函数，则实值球谐函数Rlm(φ,θ)可以如下表示：

(10)

零阶球谐函数幅值|Y00(φ,θ)|与“B-格式”全向声压通道幅值响应一致，一阶球谐函数幅值|Y10(φ,θ)|与粒子速度通道的幅值响应一致，即R00(φ,θ)=Y00(φ,θ)，R10(φ,θ)=Y10(φ,θ)，针对球谐信号的特征也适用于“B-格式”信号。

对于每个时频点的“B-格式”信号，每个通道均包含实部和虚部。当X为接收到包含两个声源的复数信号时，其可以分解为：

(11)

XR=[R{X},I{X}]

(12)

(13)

(14)

实值MUSIC算法的空间谱为：

(15)

4 性能分析

4.1 实验设置

本文使用FOA的“B-格式”麦克风在三维空间内采集两个与麦克风高度相同的声源，即麦克风通道为[XWXXXY0],并在仿真环境中加入混响和稳态噪声。两个平面波信号分别为时长10 s、采样率为16 kHz的声源1(男声)和声源2(女声)，语料数据来自于TIMIT数据集。房间是7 m×6 m×4 m的长方体，声源DOA将按照10组位置集设置于麦克风周围2～3m的位置，且声源与麦克风于同一水平面上，计算结果将取10组数据的平均值。混响时长(T60)分别设置为0、0.3 s和0.6 s，麦克风稳态自噪声Xr分别设置为5、15 dB。本文实验依据室内麦克风冲激响应生成器(Room impulse response generator[19])进行仿真。麦克风采集到的信号将被转换到STFT域，选取帧长为1 024点(64ms)、50%重叠的Hamming窗，FFT长度为1024。

在每个时频点上进行DOA估计有助于对音频信号分块处理[7-8，18],实值MUSIC算法在每个时频点上都进行DOA估计，我们选取800 Hz频点作为实值MUSIC算法的估计值。

4.2 单声源场景

首先我们在单声源对比了复值MUSIC算法和实值MUSIC算法在“B-格式”麦克风阵列中的性能。实验数据来自5组声源1和5组声源2数据的平均值，平均角度误差展示在图3中。从实验结果可以看出，相比于复数MUSIC算法，对于高信噪比和低混响条件下的性能差异不大，但随着环境条件逐渐变差，实值MUSIC算法提升效果更加明显，特别在高混响条件和低信噪比条件下，在精度上有10%～20%的提升。

4.3 双声源场景

平均角度误差展示在表1和图4中，取10组数据的平均值。与单声源情况类似，实值MUSIC算法相比于复值MUSIC算法具有更低的估计误差。尽管在低混响条件下出现了实值MUSIC算法性能劣于复值MUSIC算法，但在高信噪比和高混响时长条件下相比于低信噪比有显著的角度估计误差降低，总体上实值MUSIC算法具有更低的估计误差。在高信噪比环境中，T60的增加对实值MUSIC算法影响不明显，实值MUSIC算法鲁棒性更强。

表1 DOA算法平均估计误差(°)

SNR/dBT60=0 msT60=300msT60=600ms源1515复值MUSIC算法8.018.927.3实值MUSIC算法4.512.219.1复值MUSIC算法3.213.119.5实值MUSIC算法3.99.314.2源2515复值MUSIC算法3.910.217.0实值MUSIC算法7.19.011.7复值MUSIC算法3.88.311.3实值MUSIC算法4.44.68.6

另外，我们对[8]中使用的实数空间声强方法进行了同样的DOA估计实验。图5是本文提出的实数MUSIC算法的空间谱示意图，图5由实数空间的声强法求解的概率密度分布图(PDF)。以一组实验为例(φ1=44°，φ2=127°)，在含噪、低混响(T60=0 ms、300ms)情况下，声强法与实值MUSIC算法的分辨能力尚为接近，但声强法的估计偏差依旧大于实值MUSIC算法；但在强混响条件下(T60=600ms)，其性能显著降低，角度估计误差明显增加。由图6可以看出，声强法对多个声源的分辨能力显著降低，对于此场景中的源2来说，在较为恶劣的场景下已经无法分辨出其方位，漫射情况明显。另一方面，如图5所示，不同于传统空间谱算法在性能上以空间谱值大小区分性能，实值MUSIC算法的性能以极值点相对于真实值的偏移进行衡量。

此外，我们还对三声源场景进行性能分析，但结果显示该方法将导致空间谱估计的较大偏差，并不能很好地适用于三声源场景。

5 结语

本文提出了一种基于“B-格式”声信号的实值空间MUSIC算法。“B-格式”信号由于其特殊的构成，可以降低对宽带信号分频处理的要求。实验结果表明，相比于传统的复数空间MUSIC算法，它对DOA估计的性能有一定的提升，使用子空间算法也在多分离声源的DOA估计中明显优于通过阵列属性进行声强角度估计方法。同时，该种方法在每个时频点进行计算，后续还可以根据能量统计、角度分布进行后处理，用以提升音频本身或者声场重建的性能。