APP下载

面向船载远程会议的麦克风阵列高精度DOA 估计*

2022-04-19刘雨佶陈东升卢荣富冯万健

电子技术应用 2022年3期
关键词:混响舱室信噪比

刘雨佶 ,童 峰 ,陈东升 ,卢荣富 ,冯万健

(1.厦门大学 水声通信与海洋信息技术教育部重点实验室,福建 厦门 361002;2.厦门大学 海洋与地球学院,福建 厦门 361002;3.厦门大学深圳研究院,广东 深圳 518000;4.厦门亿联网络技术股份有限公司,福建 厦门 361000)

0 引言

船载远程会议系统在船舶智能化方面发挥着显著作用,特别是可提高应急处理能力,推进船岸一体化网络建设。近些年来,船载远程会议监测系统发展迅速[1-3]。麦克风阵列通过提供准确波达方向(Direction Of Arrival,DOA)估计可实现语音增强处理,同时还可以为远程会议系统摄像机提供说话人方位信息,实现多模态交互,已成为远程会议系统的重要语音前端[4-5]。

一般远程会议场所较为理想,因此往往采用较大的麦克风阵列以保证DOA 估计,提高语音增强性能和多模态交互效果。但是,船载远程会议所在船舶舱室属于非常典型复杂声学场景。一方面,舱室尺寸狭小,既造成严重混响,也导致无法方便容纳尺寸较大的远程会议麦克风阵列;另一方面,受严重船舶舱室噪声干扰[6],包括由各个舱室有限的空间里集中了非常多的电气设备与发动机等设备造成严重的内部噪声,以及其他舰船噪声、海浪等导致的外部噪声。这些都将使得船舶舱室声学特性变得复杂,对麦阵DOA 估计提出了更高的挑战。

近些年,随着人工智能的发展,Xiao 等人提出利用多层感知机(Multilayer Perceptron,MLP)来进行DOA 估计[7],利用深层网络与大数据来提高DOA 估计准确率,远远超过传统DOA 估计算法。Diaz-Guerra 等人利用带相位变换导向响应功率特征作为特征,建立神经网络模将DOA 估计任务转化为回归问题[8]。Nguyen 等人使用具有多任务学习功能的2D 卷积神经网络从短时空间伪谱鲁棒地估计声源的数量和到达方法[9],这种方法减少了神经网络学习声音类别和方向信息之间不必要的关联,加速模型的收敛。

Varzandeh 等人使用GCC-PHAT 和听觉启发特征周期度(Periodicity Degree,PD)作为特征,使用多输入单输出的卷积神经网络(CNN)进行训练,利用PD 功能,CNN能够进行语音活动检测(Voice Activity Detection,VAD),从而大大降低混响与噪声对DOA 估计的影响[10]。这些智能算法更多地利用了复杂网络的强大非线性能力与输入特征信息的冗余来提高DOA 估计的准确率,且对于阵列的尺寸也没有严格的限制。因此,通常特征维度大,网络结构复杂,计算量大,虽然DOA 效果好,但受限于计算量无法真正在移动端实现。

基于上述考虑,本文提出一种轻量级Mask-DOA 估计神经网络模型,该方法在DOA 估计神经网络的基础上引入Mask 算法降低噪声和混响的干扰,提取增强后的GCC-PHAT 作为网络特征,从而在小尺寸阵列上实现高精度DOA 估计。该方法不仅对环境的鲁棒性更高,且计算复杂度较低,适合在船舶舱室内实用。轻量级Mask-DOA 估计神经网络模型分为3 个步骤,如图1 所示,分别是Mask 网络降噪、DOA 特征提取以及DOA 估计网络。

图1 轻量级Mask-DOA 估计神经网络

1 轻量级Mask-DOA 估计神经网络模型

1.1 浅层Mask-NN

理想二值掩蔽(Ideal Binary Mask,IBM)[11-12]可以充分利用语音在时频域中的稀疏性。对于每一个时频单元,语音与噪声能量差异性一般很大,即大部分的时频单元上信噪比是极大或极小的。IBM 将所有的时频点分为两种极端情况,即将连续的时频单元信噪比离散化为1 和0 两种状态:若该时频单元信噪比大(语音占主导),则标记为1;若信噪比低(噪声占主导),则标记为0。如此,计算每一个时频单元得到Mask 谱。通过式(1)得到降噪信号的时频域。

每一个时频单元上信噪比计算公式为:

其中,S(t,f)为信号,N(t,f)为噪声。

Mask 谱是通过每一个时频单元的信噪比与所设置的阈值决定的,公式如下:

其中,LC 是信噪比判断阈值,通常情况下取0。

Mask-NN 降噪部分目标是以IBM 准则来训练神经网络使得其拥有生成Mask 谱的能力。由于语音具有短时相关性,通常采用扩帧技术来使神经网络学习语音帧之间的相关性,一定程度上也有抑制混响的作用。取阵列接收信号时频域的第i 帧和前后k 帧作为神经网络的输入特征,取求到的Mask 谱第i 帧作为训练目标。由于采用了扩帧处理,最终降噪后信号帧数会减少2k。若对信号短时傅里叶变换的点数为NFFT,则Mask-NN 输入特征大小为(2k+1,NFFT+1),其输出大小为(1,NFFT+1)。

TF-Mask 的方法将语音降噪问题转化为每一个时频点的二分类问题,因此搭建的Mask-NN 实际是一个多目标二分类的模型。神经网络隐藏层的层数、每层的个数应该根据NFFT 值、扩帧的k 值而选择。隐藏层每一层激活函数推荐使用ReLU:

其中,x 是输入。由于ReLU 计算简单,收敛速度快,有效避免梯度消失,对于小于0 的值直接清0,大于0 的值直接输出本身,与IBM 形成Mask 的方法是类似的。

Mask-NN 的输出层的神经元个数与空间分类的个数相同,激活函数采用sigmoid 函数:

1.2 GCC-PHAT 特征提取

广义互相关函数时延估计算法根据两个麦克风信号的互相关函数峰值来估计时延值。在声源定位系统中,麦克风阵列的每个阵元接收到的目标信号都来自于同一个声源。因此,各通道信号之间具有较强的相关性。理想情况下,通过计算每两路信号之间的相关函数,就可以确定两个麦克风观测信号之间的时延。

互相关函数可以表示为:

式中,x1和x2分别是两个通道接收信号。根据维纳辛钦定理可得:

其中,φ12(ω)表示频域加权函数。本文采用的是PHAT 加权,其形式如下:

相位变换加权函数实质上是一个白化滤波器,使得信号间的互功率谱更加平滑,从而锐化广义互相关函数。经过PHAT 加权的互功率谱近似于单位冲激响应,突出了时延的峰值,能够有效抑制混响噪声,提高时延估计的精度和准确度。特别是针对舰船噪声,通过PHAT加权的GCC 特征抗噪抗混响能力更强。

1.3 浅层DOA-NN

使用神经网络来进行DOA 估计其实就是将空间进行等间隔划分成N 份,将DOA 估计问题转换成一个N任务的二分类问题。因此,DOA 估计的精度与划分的空间数量直接相关,将空间划分越细,精度越高,但分类的难度也就越大,对DOA 估计的准确性提出了挑战;反之,精度越低,但是DOA 估计的准确率越高。

由于本文提取的GCC-PHAT 特征在不同入射角度阵列接收信号上体现出较大的差异性,这是使用神经网络模型进行DOA 估计的关键所在。由于前期有Mask 网络进行降噪处理,以及GCC-PHAT 本身对混响噪声抑制性,使得利用浅层神经网络实现DOA 估计成为可能,仅需少量的非线性神经元即可实现特征到角度的映射关系。在DOA-NN 网络结构中推荐使用单隐藏层的全连接神经网络。唯一需要注意的是DOA-NN 的输出层神经元的数量应该等于空间分割数,输出层的激活函数应该使用sigmoid 函数。

2 仿真和分析

2.1 仿真环境设置

本文采用IMAGE 算法对船舶舱室声学特性进行建模,为了更加真实地模拟船舶舱室,仿真中建立一个空间大小合适的舱室模型,规格为6.5 m×6.5 m×2.7 m。由于船舶舱室内的布局是无法确定的,仿真在同一房间内通过调整墙壁的反射系数来得到不同混响程度以适配更广泛多样的真实多样的舱室模型。本文设置了混响时间分别为0.2 s、0.4 s、0.6 s、0.8 s 的4 种不同混响环境,信噪比分别为10 dB、5 dB、0 dB、-5 dB 的4 种信噪比环境。

在仿真中设置的DOA 估计的精度为5°,因此需要将空间划分为72 等份。将一个直径为7 cm 的6 麦均匀圆阵置于房间中间,周围等间隔72 个角度放置扬声器,扬声器到麦克风阵列圆心距离为0~3 m 均匀分布,来模拟不同角度人声的入射。语音采用THCHS-30 数据集,添加的噪声信号采用实测的舰船各种噪声,包括船舶沉闷轰鸣声、船舶发电机引擎噪声、船舶鸣喇叭声。每一种不同混响不同信噪比的船舶舱室中对每一个角度不同距离进行30 次入射实验。每一个不同混响的船舶舱室内样本数为8 640 条,最终样本总数为34 560 条。

2.2 仿真设计与结果

基于上文对轻量级Mask-DOA 估计神经网络模型的描述,在仿真中实例化该网络,网络结构以及具体流程如图2 所示。

图2 Mask-DOA 具体网络结构与流程图

面对船舶舱室复杂的声学环境,本文使用麦克风阵列DOA 估计的常规波束形成法(CBF)作为基线,主要对比目前主流的MLP 算法[2]。DOA 估计效果用准确率和均方误差(RMSE)来衡量,公式如式(9)和式(10)所示:

式中,Lacc为正确的样本数,Lall为所有样本数表示第i 个实验正确方向,表示第i 个实验预测方向。表1 是CBF 算法在不同混响等级下多个信噪比的平均结果。

表1 CBF 作为基线的船舶舱室内DOA 估计效果

为了对比本文算法与MLP 算法的准确率、均方误差以及鲁棒性,本文采用了相同的数据集进行对照实验。采用单个混响程度船舶舱室的80%进行模型的训练,剩余20%的数据进行该舱室的测试,用其余各个房间所有的数据对训练好的模型进行测试,准确率对比结果如图3和图4 所示,均方误差的对比结果如图5 和图6 所示。

图3 Mask-DOA 训练模型准确率

图4 MLP 训练模型准确率

对比图3 和图4 以及图5 和图6,无论是从准确率还是均方误差的角度来看,本文提出的Mask-DOA 算法的效果要明显优于MLP 算法,更是远远超过基线算法。具体表现在,Mask-DOA 算法训练的模型无论在环境是否与训练集匹配的条件下都有较高的DOA 估计效果,即模型的泛化能力强。而MLP 算法在环境匹配的条件下可以达到较高的准确率,但是一旦环境失配,其准确率下降明显,模型泛化能力较差,抗混响能力较差。

图5 Mask-DOA 训练模型均方误差

图6 MLP 训练模型均方误差

3 实验和分析

3.1 实验环境设置

实验场地选择某公司的可调混响室作为舰船模拟的场景,其混响室尺寸为6.5 m×5.7 m×2.7 m,其混响可调范围为0.2~0.6 s。将一个直径为7 cm 的六麦圆形阵列放置在旋转台上,将一个扬声器与麦阵等高放置,播放THCHS-30 语音,将其他多个扬声器放置在房间的任意位置并播放舰船噪声来模拟船舶环境。通过不断地调节室内的混响环境,每一个方向不同距离进行10 次,对72 个方向进行实验。

3.2 实验结果与分析

挑选0.2 s 混响调节下采集到的数据作为训练集,对0.4 s 采集到的数据进行测试。分别采用所提Mask-DOA 方法和MLP 算法与CBF 算法进行对比实验,结果如表2 所示。通过表2 中3 种算法的对比,传统的CBF算法在小信噪比、混响复杂的情况下效果非常差,因此在真实的船舶舱室调节下效果只会更差。Mask-DOA算法的效果要优于MLP 算法,体现出其较强的泛化能力,比较适用于低信噪比、声学特性复杂的舰船舱室场景。

表2 3 种算法实验结果对比

4 结论

面向船载远程会议系统语音前端需求,本文提出一种适用于船舶舱室环境的小阵列高精度DOA 估计算法,该方法在DOA 估计神经网络的基础上引入Mask 算法降低噪声和混响干扰,从而用较为纯净的语音信号提高DOA估计性能。在直径为7 cm 的六元圆阵上进行的仿真与实验表明,DOA 估计精度达到5°,且算法模型有着较强的泛化能力,证明了本文算法在船舶舱室内使用的有效性。

同时,需要指出:本文采用深度学习方式构建了信号预处理与DOA 估计模型系统,虽通过模拟舱室环境实验验证了性能改善,但是考虑到深度学习类算法的效果与鲁棒性受到数据集大小与数据类型适配的影响,算法的评估验证尚不够充分。特别是,由于船舶舱室属于带行业背景的特殊类型场景,噪声及混响特性复杂、差异性大,无法直接利用通用语音领域的丰富开源数据集、混响特性资源,本文方法训练出的模型不可避免存在数据失配条件下性能下降的不足。

因此,面向智能船舶、智慧海洋发展的大趋势,下一步计划结合实际场景下多样化的船舶舱室特性、背景噪声进一步开展所提方法的性能评估、验证。

猜你喜欢

混响舱室信噪比
船舶舱室通风控制策略研究
两种64排GE CT冠脉成像信噪比与剂量对比分析研究
浅谈在混音中混响插件的组合使用
基于深度学习的无人机数据链信噪比估计算法
海洋混响特性分析与建模仿真研究∗
浅谈音响效果器的应用
低信噪比下基于Hough变换的前视阵列SAR稀疏三维成像
不同信噪比下的被动相控阵雷达比幅测角方法研究
舰载导弹意外点火时舱室内喷洒抑制的影响研究
鱼雷浅海海底混响建模与仿真