APP下载

基于语谱图与改进DenseNet的野外车辆识别

2020-05-09周鹏李成娟赵沁王艳唐洪莹李宝清袁晓兵

声学技术 2020年2期
关键词:网络结构识别率波束

周鹏,李成娟,赵沁,王艳,唐洪莹,李宝清,袁晓兵

基于语谱图与改进DenseNet的野外车辆识别

周鹏1,2,3,李成娟1,3,赵沁1,3,王艳1,唐洪莹1,李宝清1,袁晓兵1

(1. 中国科学院上海微系统与信息技术研究所微系统技术重点实验室,上海 201800;2. 上海科技大学信息学院,上海 201210;3. 中国科学院大学,北京 100049

针对在野外运动车辆分类过程中,传统梅尔倒谱系数与高斯混合模型分类方法对干扰噪声较为敏感的情况,提出了改进的密集卷积网络结构(DenseNet)方法。首先是将声音信号转换为语谱图,然后送入到改进的DenseNet网络结构中进行识别。其中,改进的DenseNet网络结构是在全连接层加入了中心损失(center loss)函数,使得同类特征聚合程度较高,这样就能够提取出声音信号的深度特征,有利于分类。实验结果表明,在相同的样本集下,改进DenseNet方法的识别率得到了明显的提升,达到97.70%。

野外运动车辆分类;深度特征;密集卷积网络;语谱图;中心损失

0 引言

在野外环境中,无人值守地面传感器系统是用来获得入侵目标军事情报的有效手段[1]。常用的传感器有:图像传感器、声音传感器、震动传感器和红外传感器[2]等。相对于其他传感器来说,声音传感器比较小巧,容易布置,隐蔽性较好,更为安全[3]。

利用声音传感器对野外的运动车辆进行识别,识别的步骤主要是先对声音信号进行特征提取,然后根据提取的特征进行分类。常用的特征提取方法有:提取梅尔倒谱系数(Mel-Frequency Cepstum Coefficients, MFCC)[4],提取快速傅里叶变换频谱信息(Fast Fourier Transform, FFT)[5],提取基于经验模式分解(Empirical Mode Decomposition, EMD)的相关特征[6],提取关于信号的自回归模型(Autoregressive Model)、离散小波变换(Discrete Wavelet Transform, DWT)、小波包变换(Wavelet Packet Transform, WPT)与信息熵(Sample Entropy)的混合特征[7]等。常见的分类方法主要有高斯混合模型方法(Gaussian Mixed Model, GMM)[8]、支持向量机(Support Vector Machine, SVM)[9]、稀疏表示分类(Sparse Representation Classification, SRC)[10]和朴素贝叶斯分类器(Naive Bayesian Classifier, NBC)[11]。

本文首先使用传统分类方法中的MFCC特征提取方法对声音信号进行特征提取,然后使用GMM模型进行分类。然而在识别的过程中发现,MFCC特征提取方法对噪声比较敏感[12],而噪声中风噪声占绝大部分,所以在风噪声较大的情况下,提取的特征中会包含大量的风噪声信息,从而影响识别结果。为了提取出声音信号中更深度层次的特征,本文借鉴图像处理中目标识别的方法。根据文献[13]提出的密集卷积网络(Dense Convolutional Network, DenseNet)结构具有加强特征的传递,能够有效地重复利用之前提取的特征等优点,本文在原有的DenseNet的基础上加入了中心损失(center loss)函数的改进,使得同类特征之间较为紧凑,不同类之间的特征较为分散,从而达到更好的识别目的。本文首先将采集到的声音信号转换为语谱图,然后利用改进的DenseNet网络结构进行特征提取并生成深度层次的特征,最终得到识别结果。

1 声音信号模型

本文中的声音信号是由微孔径均匀圆阵(Uniform Circular Array, UCA)来采集的,圆阵为四元十字形状,半径为4cm,该设备采集的信号具有如下特点[8]:

(1) 虽然传声器阵列紧密排列,但各阵元传声器接收的信号相位不同,依然有相位偏差。

(2) 野外环境中,各传声器阵元采集到的噪声信号主要是风噪声和电路噪声,无论是风噪声还是电路噪声,在各阵元间都是不相关的。

车辆声音信号主要是由发动机、轮胎、排气系统、传动系统以及机械碰撞等5种发声部件产生,当一辆状态良好的车辆以恒定的速度运动时,其信号的主要噪声是由发动机、推进系统和排气系统决定的。传声器阵列各个阵元采集得到的声音信号模型可表示为

2 基本原理

2.1 传统分类方法

传统分类方法中,对声音信号进行目标识别的常见算法是使用MFCC特征,以GMM作为分类器。具体的识别流程如图1所示。其中,在该处的特征提取算法框图如图2所示,其中FFT表示快速傅里叶变换,DCT表示离散余弦变换。

文献[8]中已经描述了具体的MFCC特征提取流程和GMM分类算法的设计,本文不再赘述。

图1 目标识别流程图

图2 MFCC流程图

2.2 改进的DenseNet网络结构

为了提取出声音信号的深度特征,本文借鉴了目前图像处理中目标识别的方法,将声音信号转换为语谱图,这样就可以运用文献[13]中提出的DenseNet方法进行图像层次的目标识别。由于DenseNet网络结构在网络层加强了对特征的传递,能够更为有效地重复利用之前的特征,从而得到声音信号的深度特征,所以本文将对DenseNet改进的网络结构用于本文的野外运动车辆识别。改进的DenseNet网络结构整体识别过程如下:首先将声音信号转换为语谱图,然后使用对DenseNet改进的网络结构进行识别,得到识别结果。本文对该网络结构的改进点是在其全连接层加入了center loss函数。这样做可以使同类特征之间的间距变小,不同类之间的间距变大[14]。

2.2.1 语谱图

与上述MFCC特征提取过程类似,声音信号在送到Mel滤波器组之前的处理过程中就已经得到了语谱图。语谱图是语音能量时频分布的二维平面图,横坐标是时间,纵坐标是频率,具有连通时、频两域的特点。

本文中语谱图的生成过程如图3所示。其中值得注意的是,需要将流程图中的功率谱矩阵进行伪彩色映射函数处理。

图3 语谱图的生成过程

2.2.2 改进的DenseNet网络结构形式

2.2.3 改进的DenseNet识别算法

池化层(Pooling layers):在进行式(2)的级联(concatenation)操作中,需要保持特征图的尺寸大小相同,池化操作的目的就是使得特征图的尺寸保持一致。为了改进的DenseNet网络结构中池化操作更为方便,将改进的DenseNet网络结构分成了如图5所示的多个密集连接块(dense blocks)。各个密集连接块之间的是过渡层(transition layers),主要包含卷积和池化操作,处理过程如图5所示。

图4 5层密集连接块结构示意图

瓶颈层(bottleneck layers):虽然每一层只输出个特征图,但是它依然有许多输入。为了减少输入的特征图数量,提高计算效率,每个密集连接块的3×3卷积操作前都包含了一个1×1的卷积操作。

在将语谱图送到第一个密集连接块之前,对该语谱图进行卷积,卷积层每个卷积核尺寸为3×3。为了使得特征图尺寸保持一致,需要在输入的每层特征图中加入全0填充(padding)。在两个密集连接块之间,使用1×1的卷积层和2×2的平均池化层作为过渡层。在最后一个密集连接块之后,本文使用交叉熵损失函数(softmax loss)和中心损失(center loss)函数。具体的改进DenseNet网络结构如图6所示。

softmax loss函数如式(3)所示:

图5 带有4个密集连接块的改进DenseNet网络结构

图6 改进的DenseNet结构图

center loss函数如式(4)所示:

式(6)中:

本文为了得到区别性比较明显的特征,采用softmax loss与center loss函数去训练DenseNet网络,表达式为

3 实验与结果分析

在实验中,本文使用传统分类方法进行算法对比。为了突出传声器阵列信号的空时特性,特地选取了第一通道信号作对比实验。其中MFCC+GMM分类方法是在Windows 10环境下,使用的是MATLAB R2017a软件平台,硬件配置参数如下:Intel i7 CPU,主频率为2.80 GHz,8G内存;改进的DenseNet网络结构方法是在Windows 10环境下,使用的是Pytorch软件平台,硬件配置参数如下:Titanx GPU,32G内存,12 G显存。

3.1 数据集

本次实验的数据集使用的是在外场采集的信号,数据库为Vehicle_SIMIT。实验场景示意图如图7所示,道路全长约1 000 m,声音采集设备位于道路中心点,距离路面中心约15 m,每次运动车辆从图7的起点处驶向终点处,该过程称作一次运行。声音采集设备是由4个ICS40720传声器组成的均匀圆阵,采样率为8 192 Hz,圆阵直径为8 cm,采集设备如图8所示。本实验一共采集了草地、砂石路、水泥路以及硬土路4种车辆目标的声音信号。车辆的运行速度分别为10 km·h-1、20 km·h-1、30~60 km·h-1不等。针对小型车,速度在30~60 km·h-1范围内;对于重型车,车速为10、20 km·h-1。本文所做的实验均是基于传声器阵列距离路面中心15 m的场景,不适用于其他应用场景。4种类型的车辆分别是三种轮式车和一种履带车,记作Smallwheel(SW)、Truckwheel(TW)、Largewheel(LW)、Tracked vehicle(TV)。

图7 实验场景图

图8 声音采集设备实物图

本文的实验进行了4种野外车辆的识别准确率研究。每条样本信号按照12.5 ms时长进行分帧,按照帧数计算,样本集中训练集占66%,测试集为34%。各个车型帧数如表1和表2所示。

同时对该样本集进行了语谱图的转换操作,此时语谱图的训练集占比为66%,测试集占比为34%,各个车型的语谱图张数如表3和表4所示。

表1 训练集中各车型的样本数

表2 测试集中各车型的样本数

表3 语谱图训练集中各车型的样本数

表4 语谱图测试集中各车型的样本数

3.2 结果分析

3.2.1 参数设计

3.2.2 实验分析

在进行特征提取之前,本文分别对传声器阵列信号进行了不同的波束形成处理,然后使用GMM分类器进行分类实验验证。

为了突出传声器阵列信号的空时特性,本文选取了单通道信号进行对比。第一种方法是直接选取传声器阵列的第一通道声信号(记作Sig1)进行MFCC特征提取,其他的方法是使用一些常见的波束形成方法对四通道传声器阵列信号进行处理,例如对四通道信号进行叠加加权波束形成(Overlay Weighting BeamForming, OWBF)、最佳加权矢量波束形成,又称最小方差无畸变响应波束形成(Minimum Variance Distortionless Response, MVDR)[15]、常规波束形成(Conventional Beamforming, CBF)[15]、延迟求和波束形成(Delay and Sum, DS)[16]来进行信号增强,然后执行后续的步骤。这些方法的训练误差如图9所示。

图9 不同波束形成方式的特征提取训练误差

由图9中可知,随着迭代次数的增加,不同波束形成方式的特征提取训练误差逐渐趋于平缓。这说明随着训练次数的增加,训练误差趋于收敛。在众多波束形成方式中,MFCC+OWBF的训练误差初始值最小,为0.06左右,MFCC+MVDR的训练误差初始值最大,为0.21左右。

在分类过程中,每一条样本的识别错误率如图10所示,由图中可以看出,由于第8条信号包含一些干扰噪声,所以传统方法MFCC+GMM对该条声音样本识别误差较大。第8条的原始信号以及其分类结果如图11所示。图11(a)表示SW车第一通道的原始信号图,从图中可以看出其包含很多干扰噪声。图11(b)表示的是其分类结果,纵坐标的1、2、3、4分别代表的是该条样本中每一帧被预测为SW、TW、LW、TV结果的情况。

图10 不同波束形成方式下的测试集识别错误率

图11 包含干扰噪声较多的SW车原始信号图和识别结果图

由于MFCC+GMM对包含干扰噪声的信号识别效果不佳,所以本文借鉴图像目标识别的方法,将声音信号转换为语谱图图像信号,并且使用能够提取出声音信号深度层次特征的改进DenseNet来进行野外车辆的分类识别。

本文使用图3所示的方法得到的语谱图结果如图12所示。每一条样本的完整语谱图会被切割成10多张256×256的小尺寸语谱图。语谱图的横轴是时间轴(时间/s),纵轴是频率轴(频率/Hz),这些语谱图包含了原始信号的完整运动过程,反映了相对于传声器阵列,目标车辆在由远及近和远离的运动过程中其声音信号中所有频率的变化。由于同一地理环境中空气介质的相对均匀性,传声器阵列在不同的布设位置,对于同一车型所采集的目标声信号频谱成分基本不变,仅整体幅度有所不同。4种野外车辆的大语谱图如图13所示。可以看出,4种车型的主要频率成分都在4 000 Hz以内,但不同车型的语谱图差距较大。

图12 256×256小语谱图示意图

图13 四种野外车辆的语谱图

由图9可知,MFCC+OWBF与MFCC+CBF的特征提取训练误差与识别的测试误差较小,因此,在将语谱图输入到改进DenseNet网络结构之前,本文对传声器阵列信号也同样选取了第一通道信号、OWBF、CBF,同时使用原有DenseNet网络结构加上CBF波束形成方法做对比,本文将这些操作记作DenseNet+CBF,改进DenseNet+ Sig1,改进DenseNet+OWBF,改进DenseNet+ CBF。识别曲线如图14所示。

图14 改进DenseNet结构下的野外车辆识别率

由图14可知,改进DenseNet+CBF的初始值要比改进DenseNet+Sig1和改进DenseNet+OWBF高,说明使用CBF进行传声器阵列信号的预处理波束形成效果要比单通道信号与OWBF好,同时改进DenseNet+CBF方法的识别率比DenseNet+CBF的识别率高2%,为97.70%,说明加入了center loss函数之后的DenseNet网络结构提取出了声音信号语谱图的深度特征,有利于分类。结合传统方法分类实验,本文所用方法得到的识别率如表5所示。

由表5可知,无论是传统MFCC+GMM分类方法还是神经网络方法,使用波束形成对传声器阵列信号进行操作之后,其识别率明显要高于Sig1方式。这说明对传声器阵列信号进行波束形成能够实现信号增强,有效地利用了传声器阵列信号的空时特性;对于同一数据集,使用的DenseNet方法与改进DenseNet方法均明显优于传统方法,DenseNet方法的识别率为95.133%,改进DenseNet方法的识别率平均为97%左右,传统方法为90%左右。这说明相对于传统方法,DenseNet方法能够更好地提取出包含干扰噪声的声音信号特征,减少干扰噪声对识别结果的影响;同时,相对于原有的DenseNet网络结构,加入center loss的DenseNet识别准确率也有所提高,平均提高了2%。这说明加入center loss使得同类特征之间较为紧凑,得到了较好的识别结果。其中在改进的DenseNet方法中,改进DenseNet+CBF方法的识别率最高,为97.70%。不同方法的运行时间如表6所示。

表5 传统分类方法与改进DenseNet方法下的野外车辆识别率

表6 各实验运行时间

4 结论

针对MFCC+GMM方法易受干扰噪声的影响,进而影响目标识别的特征提取过程,最终导致野外运动目标识别率变差的问题,本文尝试引入图像目标识别的方法,并在原有的DenseNet网络结构上进行了改进。改进点主要是在该网络结构的softmax处加入了center loss,以使得同类之间的特征较为紧凑,不同类之间的特征差别变大。实验结果表明,改进的DenseNet网络结构的识别率相较于传统方法平均提高了7%左右,效果较好的改进DenseNet+ CBF方法识别率为97.70%。因实际项目需要,今后计划对该网络结构进行优化,从而可以移植到本课题的外场试验中,达到提高野外监控传感网中运动车辆的识别准确率的目的。

[1] HUANG J C, ZHOU Q W, ZHANG X, et al. Seismic target classification using a wavelet packet manifold in unattended ground sensors systems[J]. Sensors, 2013, 13(7): 8534-8550.

[2] WILLIAM P E, HOFFMAN M W. Classification of military ground vehicles using time domain harmonics' amplitudes[J]. IEEE Transactions on Instrumentation & Measurement, 2011, 60(11): 3720-3731.

[3] SUNU J, PERCUS A G. Dimensionality reduction for acoustic vehicle classification with spectral embedding[C]//2018 IEEE 15th International Conference on Networking, Sensing and Control (ICNSC), 2018: 1-5.

[4] ZHOU Q W, TONG G J, XIE D F, et al. A seismic-based feature extraction algorithm for robust ground target classification[J]. IEEE Signal Processing Letters, 2012, 19(10): 639-642.

[5] NTALAMPIRAS S. Moving vehicle classification using wireless acoustic sensor networks[J]. IEEE Transactions on Emerging Topics in Computational Intelligence, 2018, 2(2): 129-138.

[6] 赵天青, 梁旭斌, 许学忠, 等. EMD在目标声信号特征提取中的应用研究[J]. 南京大学学报(自然科学版), 2015(S1): 102-106.

ZHAO Tianqing, LIANG Xubin, XU Xuezhong, et al. A feature extraction algorithm of acoustic target based on empirical mode decomposition[J]. Journal of Nanjing University(Natural Sciences), 2015(S1): 102-106.

[7] REN W J, HAN M, WANG J, et al. Efficient feature extraction framework for EEG signals classification[C]//Seventh International Conference on Intelligent Control and Information Processing. IEEE, 2017: 167-172.

[8] HUANG J C, ZHANG X, GUO F, et al. Design of an acoustic target classification system based on small-aperture microphone array[J]. IEEE Transactions on Instrumentation & Measurement, 2015, 64(7): 2035-2043.

[9] KÜÇÜKBAY S E, SERT M, YAZICI A. Use of acoustic and vibration sensor data to detect objects in surveillance wireless sensor networks[C]//International Conference on Control Systems and Computer Science, IEEE, 2017: 207-212.

[10] WANG K Y, WANG R, FENG Y T, et al. Vehicle recognition in acoustic sensor networks via sparse representation[C]//IEEE International Conference on Multimedia and Expo Workshops, IEEE, 2014: 1-4.

[11] ASTAPOV S, RIID A, PREDEN J S. Military vehicle acoustic pattern identification by distributed Ground Sensors[C]//Electronics Conference, IEEE, 2016: 167-170.

[12] ZHAO Q, GUO F, ZU X S, et al. An acoustic signal enhancement method based on independent vector analysis for moving target classification in the wild[J]. Sensors, 2017, 17(10): 2224.

[13] HUANG G, LIU Z, MAATEN L V D, et al. Densely connected convolutional networks[C]//IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2017: 2261- 2269.

[14] WEN Y D, ZHANG K P, LI Z F, et al. A discriminative feature learning approach for deep face recognition[J]. 2016, 47(9): 499-515.

[15] 张小飞, 陈华伟, 仇小锋. 阵列信号处理及MATLAB实现[M]. 北京: 电子工业出版社, 2015.

[16] GUO F, HUANG J C, ZHANG X, et al. A classification method for moving targets in the wild based on microphone array and linear sparse auto-encoder[J]. Neurocomputing, 2017, 241: 28-37.

Field vehicle identification based on spectrogram and improved DenseNet

ZHOU Peng1,2,3, LI Chengjuan1,3, ZHAO Qin1,3, WANG Yan1, TANG Hongying1, LI Baoqing1, YUAN Xiaobing1

(1. Science and Technology on Microsystem Laboratory, Shanghai Institute of Microsystem and Information Technology, Chinese Academy of Sciences, Shanghai 201800, China; 2. School of Information Science and Technology, ShanghaiTech University, Shanghai 201210, China; 3. University of Chinese Academy of Sciences, Beijing 100049, China)

The traditional classification method based on Mel cepstrum coefficient and Gaussian mixture model is sensitive to interference noise in the classification process of field vehicles. To address the issue, an improved method based on dense convolution network structure (DenseNet) is proposed in this paper. First, the acoustic signal is converted to the spectrogram and then inputs to the improved DenseNet network structure for identification. The improved DenseNet network structure adds the function ‘center loss’ at the full connection layer to make the similar features more highly aggregated, so that the depth features of the acoustic signal can be extracted, which is beneficial to classification. The experimental results show that under the same sample set, the recognition rate of the improved DenseNet method can reach 97.70%, which outperforms the existing method.

field vehicle identification; deep features; Dense convolution network structure; spectrogram; center loss

O422.8

A

1000-3630(2020)-02-0235-08

10.16300/j.cnki.1000-3630.2020.02.019

2018-12-10;

2019-02-05

微系统技术重点实验室基金项目(614280401020617)

周鹏(1994-), 男, 安徽宿州人, 硕士研究生, 研究方向为声音信号处理、车辆声音信号的分类、模式识别。

袁晓兵,E-mail: sinowsn@mail.sim.ac.cn

猜你喜欢

网络结构识别率波束
基于共形超表面的波束聚焦研究
超波束技术在岸基光纤阵中的应用
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
毫米波大规模阵列天线波束扫描研究*
听力正常青年人的低通滤波言语测试研究*
提升高速公路MTC二次抓拍车牌识别率方案研究
基于时效网络的空间信息网络结构脆弱性分析方法研究
高速公路机电日常维护中车牌识别率分析系统的应用
基于互信息的贝叶斯网络结构学习
复杂网络结构比对算法研究进展