APP下载

复合深度神经网络在直升机声目标识别中的研究

2019-04-02管鲁阳鲍

应用声学 2019年1期
关键词:线谱正确率直升机

郭 洋 周 翊 管鲁阳鲍 明

(1中国科学院噪声与振动重点实验室(声学研究所) 北京 100190)

(2重庆邮电大学 重庆 400065)

0 引言

声学探测根据目标自身噪声进行目标探测识别,具有全向探测无盲区、被动探测隐蔽性好等优势,是目标识别的重要手段之一,可成为雷达、光学等传统目标探测方式的补充,提供更丰富的信息和更好的环境适应能力[1−2]。为了尽早发现目标,并考虑到目标声信号的短时平稳性,现有的声目标识别通常采用声信号分帧处理的方法。借鉴声信号处理技术,人工设计特征提取方法获得每帧信号的特征并进行识别,从而快速更新识别结果。特征提取主要有以下两种思路:第一种是直接检测目标的物理参数作为判别依据,如文献[3]检测直升机声信号的基频及谐频的频率。该方法物理意义明确,但在低信噪比条件下难以准确估计上述参数,不能适应复杂的实际应用环境。第二种,也是主流的方法,通常是以各种信号处理或数据处理技术从直升机声信号中抽象出特征再由分类器进行识别[4]。其与第一种方法的主要区别在于信号特征与直升机型号参数之间的物理关系不明确,需要通过分类器的训练建立信号特征与直升机型号之间的映射。传统的声信号特征提取在声信号分析处理基础上进行优化,寻找能有效识别目标且维数尽量低的特征表征方法。典型的声信号特征包括短时傅里叶频谱特征、小波特征、线性预测倒谱系数等信号处理参数特征,以及Mel频率倒谱系数(Mel-frequency ceptral coefficients,MFCC)等反映人类听觉特性的声学特征等。

近年来随着深度学习技术的快速发展,越来越多的研究人员开始采用深度学习进行声目标识别研究,并借助深度神经网络实现特征优化和目标识别[5−6]。如文献[6]利用稀疏自编码器从声信号短时傅里叶谱中提取浅层目标特征,再结合堆叠自编码器从浅层目标特征中进一步提取更抽象的目标特征用于水下目标识别,由此得到的识别正确率相较于传统方法有显著提升。但这种利用深度学习的方法与传统方法类似,仅利用了当前数据帧的特征进行识别得到当前识别结果,实际使用中通常需要后处理环节以利用时间历程信息减少虚警和漏警。

本文在对直升机飞行噪声分析的基础上,利用深度学习技术从直升机声信号短时谱图中自动进行特征提取和分类识别,优化信号的局部时频信息和时序相关信息的表征,以提高直升机飞行过程中声信号连续识别的鲁棒性和正确率。

1 直升机声信号分析

直升机飞行噪声主要来自旋翼、发动机等部件的周期性运动及带动气流产生的气动噪声,其中旋翼是主要的噪声来源[7]。直升机从远处直线飞行经过测点再飞离这一完整飞行事件的声信号短时谱图如图1所示,线谱噪声主要分布在1.5 kHz以下,是主旋翼周期性运动产生的一系列谐频信号。

基于声信号的直升机远距离连续探测识别中存在不利因素:直升机在测点附近时,宽带气动噪声增强,导致直升机谐频信号的信噪比明显下降;直升机高速运动导致的多普勒效应使声信号发生频移,如图1所示短时谱图上第35 s直升机经过测点上空时谐频信号的频率出现整体下降;同时,在近场情况下多径传播导致直达声与反射声之间的相位差变化明显,信号在某些频率上相互抵消或增强,短时谱图中产生多个波谷、波峰[8]。这些波谷、波峰改变了部分线谱信号的信噪比,使声信号特征频率表征的连续性、稳定性受到干扰。

这些干扰,加上实际应用中风噪声等环境噪声的影响,使得直升机飞过测点的过程中目标连续识别鲁棒性受到影响,往往不能连续正确识别。

图1 直升机飞行经过测点过程的噪声短时谱图Fig.1 Noise spectrogram of helicopter passing by the detector

2 复合深度神经网络模型

深度学习技术具有强大的学习能力,能够描述输入数据与输出目标之间的高度非线性关系,已在多类应用中取得了突破性的进展[9]。深度学习模拟人脑的分层工作机制,构建层次化的深度神经网络,对输入数据逐层进行特征提取,得到分层的特征表示。深度神经网络通过监督或无监督学习优化数据的特征表征,有效地简化了特征提取的设计。本文所用于优化直升机声信号特征提取的卷积神经网络(Convolutional neural network,CNN)和长短时记忆神经网络(Long short-term memory,LSTM)是深度学习中的经典模型,已被广泛应用语音识别[10]、声学场景分析[11]等众多研究和应用领域。

2.1 总体框架

本文采用一种并行结合CNN和LSTM的复合深度神经网络模型,如图2所示,利用CNN和LSTM并行地从声信号短时谱图中进一步提取局部时频信息和时序相关信息构造新的信号特征进行分类。

图2 复合深度神经网络模型Fig.2 Structure of combined deep neural network

2.2 卷积神经网络

卷积神经网络是由多层卷积层和池化层交替连接组成的深度神经网络,具有局部连接、权值共享和池化操作三大特点[12]。卷积层从底层到高层逐步抽取输入数据的抽象特征。池化层将相似特征融合,大大减少了模型参数,同时具有二次提取特征表示的功能,使特征对噪声和变形具有鲁棒性,保证特征的平移不变性。

每个卷积层都包含多个特征图,特征图是由多个神经元构成的二维矩阵,每一个神经元通过可训练的卷积核与上一层特征图的局部区域连接,卷积核是一个二维权值矩阵。特征图和卷积核维度可视为频率F和时间T。对于卷积层l,输出特征图Xl表示为[13]

其中,运算符号“∗”表示卷积操作;A为激活函数;Wl为卷积核;bl为加性偏置向量。

池化层通常跟随在卷积层之后,依据一定的下采样规则对特征图进行下采样。对于池化层l,输出特征图Xl表示为[13]

其中,S为下采样规则,本文采用最大池化的下采样规则。

线谱在短时谱图的相邻时频单元中通常表现为局部最大值。最大池化操作选取特征的局部最大值,可得到在该局部的线谱特征。为了更好地追踪线谱的变化,结合目标声信号频谱特点,对卷积神经网络的卷积、池化进行改进,使其只沿输入特征的频率轴方向进行,各卷积核、池化核在时间轴上的维度等于对应输入特征在时间轴上的维度,记为CNN-1D,而通常对输入特征所使用的二维操作记为CNN-2D。局部连接机制使卷积神经网络可以按照参数所设定的尺度分析、挖掘声信号短时谱的局部时频信息,进而表达声信号时频两个维度的内在联系。

卷积神经网络模型参数依据声信号特点设置。卷积核尺度大于线谱频率之间的间隔,以分析相邻线谱之间频带范围内的线谱特征。池化核尺度小于线谱频率之间的间隔,以避免池化核在频率轴上滑动时可能混淆相邻线谱特征。

2.3 长短时记忆神经网络

长短时记忆神经网络是一种擅长处理序列数据的深度神经网络[14],能够从序列中学习到数据特征和建模数据之间的长短时依赖性。其循环连接的结构使得长短时记忆神经网络可对历史信息进行记忆并应用于当前输出的计算中。区别于其他神经网络,其同一隐藏层之间的节点是有连接的且节点间参数共享,并且隐藏层的输入不仅包括当前时间步上一隐藏层的输出还包括上一时间步同一隐藏层的输出。同时,在隐藏层中引入由记忆单元、输入门、输出门和遗忘门组成的存储块,存储块中的三个门能对记忆单元进行读、写和复位操作,通过三个门控制信息在不同记忆单元之间的流动。本文采用文献[15]所提出的LSTM存储块结构,如图3所示,计算关系如下。

图3 LSTM存储块结构Fig.3 Structure of LSTM cell

直升机飞行是一个连续过程,因此其声信号特征具有时间上的连续性,这一特性有助于提升声目标识别效果。特别是在直升机声信号特征变化时,历史信息有助于目标探测系统快速适应改变,及时捕捉目标声信号特征。因此可考虑利用长短时记忆神经网络学习声信号特征的长短时依赖性,改善连续识别过程中识别的正确率和鲁棒性。

3 直升机识别实验

3.1 实验数据

本文使用的数据是来自不同地点的多次外场实验中采集的四种型号(分别以A、B、C、D表示)的直升机声信号。根据直升机声信号特点,信号采样率为3 kHz,兼顾特征提取与计算量控制。实验数据包含多种典型飞行状态,如不同高度的直线飞行和沿不同半径的盘旋飞行以及少量的不同距离和高度上的悬停等,通常实验中直线飞行与盘旋飞行次数比例约为2:1。

将实验数据根据实验环境分为训练集和测试集,训练集数据大多采集自训练场、靶场等场所,测试集数据来自更接近实际使用条件的野外环境。以直升机从声学探测距离之外飞向测点,经过测点后继续飞出探测距离为止作为一个完整的飞行事件,表1列出了训练集和测试集中各类飞行事件的分布情况。训练集中各类目标的声信号时长约1 h,大体均衡;测试集中各类目标的声信号时长则各不相同。

通过交叉校验方法使用训练集数据训练神经网络,测试集用于检验其识别性能和泛化能力。训练集和测试集中的各类数据都是在多个时间、多个地点,利用同一型号不同架次直升机分批次采集得到的。

表1 飞行事件数Tabel 1 Number of f l ight events

本工作比较了3组不同类型的特征(表2):短时谱图、幅度谱和改进Mel频率倒谱系数(Modif i ed MFCC,MMFCC)特征[16]。其中MMFCC特征是在MFCC基础上针对车辆、飞行器等低频声目标远距离识别而改进的特征提取方法。

短时谱图:计算声信号每一秒的短时谱图作为一个特征样本,帧间重叠50%。在计算短时谱时,做512点快速傅里叶变换(重叠为50%)并取幅度值。为了避免风噪声等干扰,去掉50 Hz以下的低频部分,得到247×12的二维特征矩阵。

幅度谱:以256 ms为一帧,每帧数据使用Welch方法采用256点快速傅里叶变换计算归一化的平均幅度谱,去掉50 Hz以下的低频部分,得到124维的特征样本。计算频谱的能量、标准差、斜度和峭度等统计量,将124维幅度谱和4个统计量组合为128维特征向量。

MMFCC:声信号降采样到1 kHz,按照文献[16]所述,以256 ms为一帧,提取25维特征向量。与传统MFCC相比,该特征主要依据目标声信号特点改进了滤波器组的设计。

表2 特征样本数Table 2 Number of feature samples

3.2 参数配置

复合深度神经网络的CNN模块由两层卷积层和两层最大池化层组成。第一层卷积层卷积核个数为64,第二层卷积层卷积核个数为128,使用ReLU非线性激活函数。为进一步提升识别效果,卷积层和池化层之间连接使用批归一化(Batch normalization,BN)[17]。

依据直升机声信号基频及谐频频率分布特点和快速傅里叶变换定义的频率分辨率设置卷积核和池化核尺寸。在CNN-2D中,卷积核维度均为3×3,步长均为1×1,池化核维度均为2×2,步长均为2×2。在CNN-1D中,卷积核在频率轴上维度均为3,步长均为1,池化核在频率轴上维度均为2,步长均为2。

复合深度神经网络的LSTM模块由两层隐藏层组成,隐藏层有12个存储块,存储块维度是512,在隐藏层之间使用层归一化(Layer normalization,LN)[18]。全连接层神经元个数为1024,由CNN-1D组成的复合深度神经网络记为CNN-1D+LSTM,输出层为4个神经元的Softmax层。

复合深度神经网络选用Nesterov Momentum优化算法[19],动量因子为0.9。前10次迭代初始学习率为0.01,之后每次迭代学习率递减10%,连续3次迭代交叉校验的结果无进一步改善则停止迭代训练。

3.3 识别结果分析

为了验证复合深度神经网络的有效性,本文将其与CNN、LSTM两种深度神经网络和以支持向量机(Support vector machine,SVM)为代表的浅层神经网络,使用三种典型特征通过分类实验进行识别性能比较。深度神经网络使用短时谱图特征;SVM分类器使用幅度谱特征及针对目标远距离探测设计的MMFCC特征。其中,使用幅度谱特征的SVM记为SVM1,使用幅度谱和MMFCC组合特征的SVM记为SVM2。

表3是CNN、LSTM两种深度神经网络与以SVM为代表的浅层神经网络的识别结果。深度神经网络的总体识别结果均好于SVM的总体识别结果,主要原因是目标声信号频域信息及其随时间的变化规律是目标声信号特性的重要体现,深度神经网络采用的二维短时谱图包含了连续数帧数据的连续时频变化信息,利用其多层网络结构的信息抽象表征能力,能够在学习中逐步优化目标声信号特征表征提高目标识别性能。而SVM由于受限于浅层神经网络的信息处理能力,只能采用幅度谱、MMFCC等低维特征,这些特征局限于信号的短时频域信息,不能扩展到连续数帧数据来获取声信号的时频相关信息。此外,SVM识别结果中各类目标识别正确率之间的不均衡程度明显大于深度神经网络的识别结果,在实际应用中这种不均衡将导致识别系统对某类目标存在严重的性能短板。

表3 SVM和深度神经网络的识别结果Table 3 Recognition results of SVM,LSTM and CNN

表4比较了CNN-1D、CNN-2D和复合深度神经网络的识别结果。CNN-1D较CNN-2D提高了声目标识别的总体正确率,各类均有不同程度的提高。这是因为当线谱发生频移时,沿时间轴的一维操作筛选掉短时谱图中每个频带上的局部较小值,能更好地选取每个频带上局部最大值,有效地追踪到线谱的频率变化。CNN-1D+LSTM复合深度神经网络的整体识别正确率最高。可见LSTM网络所侧重的直升机信号随时间变化的特征信息,可辅助CNN优化目标声信号频域信息的表征,从而进一步提高识别性能。图4是以一个典型直升机声信号对比复合深度神经网络和CNN-1D的连续识别结果,可见复合深度神经网络能有效减少信号频谱的短时变化引起的错误判决。

表4 三种深度神经网络的识别结果Table 4 Recognition results of the three deep neural networks

图4 CNN-1D+LSTM和CNN-1D的连续识别结果对比Fig.4 Compare of continuous recognition results of CNN-1D+LSTM and CNN-1D

以直升机从远处直线飞入探测范围,经过测点然后直线飞离探测范围为一个飞行事件,计算多个飞行事件中各时刻的平均识别正确率,得到平均识别正确率随时间的变化曲线。无论目标运动速度如何,在直线飞行事件中目标与测点之间的距离与时间成正比。因此该曲线能够在统计意义上展示直升机飞行过程中声信号的连续识别性能。

以47个完整的直升机直线飞行事件为样本,统计CNN-1D+LSTM和SVM2的平均识别正确率随时间变化曲线。将直升机经过测点,信号短时能量最大的时刻作为时间轴原点,绘制曲线如图5所示。总体上,直升机在测点附近时,由于信噪比较好,平均识别正确率总体相对较高。随着目标与测点之间距离增大,信噪比变差,平均识别正确率随之下降,直到无法有效探测。

图5 飞行事件的平均识别正确率随时间变化曲线Fig.5 Average accuracy rate in a target event changing over time

直升机经过测点上方时,目标特征线谱不但由于多普勒效应产生频移,并且往往被宽带气动噪声所淹没,导致目标最接近测点时反而容易产生误判。如SVM2在测点上方附近平均识别正确率有较大波动。这就是前文所述传统分类方法对目标信号连续识别的鲁棒性较差的问题。如图5所示,本文所提方法有效改善了完整飞行事件中目标识别正确率和正确识别的连续性,其性能明显优于SVM方法。

4 结论

本文提出了一种基于复合深度神经网络的直升机声目标特征提取和分类识别框架,该框架使用CNN和LSTM两个并行的深度神经网络模块提取一段时间内声信号频谱特征和频谱随时间变化特征,弥补了传统声目标识别方法对信号时间历程信息利用不足的缺陷。同时结合声信号处理方法,改进了卷积神经网络卷积层与池化层的计算方式,以更好地适应声信号特征频率的变化。真实外场实验数据测试结果表明,与传统方法相比,该方法明显提升了对直升机完整飞行事件连续识别的鲁棒性,同时提高了整体识别正确率。

猜你喜欢

线谱正确率直升机
直升机?
UUV惯导系统多线谱振动抑制研究
直升机
门诊分诊服务态度与正确率对护患关系的影响
基于矢量线阵的目标低频线谱提取方法
生意
品管圈活动在提高介入手术安全核查正确率中的应用
生意
“”维谱在舰船辐射噪声线谱提取中的应用
直升机取票