APP下载

一种基于声谱图的冲击声特征提取方法

2015-07-09宋坤等

现代电子技术 2015年8期
关键词:特征提取

宋坤等

摘 要: 提出一种基于声谱图的特征提取方法,获取冲击声的声谱图,预处理后将其转换为伪彩色图,提高声谱图细节表现力,进而提取局部区域k阶矩作为特征;将该特征的识别效果与MFCC等传统特征进行了对比和分析。实验结果表明,该方法对相似板材冲击声有较好的识别效果,并且具有较好的噪声鲁棒性。

关键词: 冲击声; 声谱图; 伪彩色映射; 特征提取

中图分类号: TN964?34 文献标识码: A 文章编号: 1004?373X(2015)08?0008?04

Method of impact sound feature extraction based on spectrogram

SONG Kun1, YIN Xue?fei1, CHEN Ke?an2

(1. School of Electronics and Information, Northwestern Polytechnical University, Xian 710129, China;

2. School of Marine Science and Technology, Northwestern Polytechnical University, Xian 710072, China)

Abstract: A new method of feature extraction based on spectrogram is proposed. With the method, the spectrogram of impact sound can be obtained, and converted into pseudo?color image after preprocessing to improve the expressive force spectrogram details and realize extraction of k?th moment in partial region as the feature. The recognition result of the proposed features, MFCCs and other traditional features are compared and analyzed. The experimental results show that the proposed method can accurately distinguish impact sound of similar sheet material and has nice noise robustness.

Keyword: impact sound; spectrogram; pseudo color Mapping; feature extraction

0 引 言

冲击声是瞬态声的一种,是物体受到冲击作用发出的声音,与冲击响应类似,物体的冲击声包含着许多声源信息,如物体的结构、材质属性等,其在设备故障的无损检测、公共安全事件监测、军事斗争领域具有重要意义,因此针对冲击声的自动识别技术收到人们广泛重视[1]。冲击声识别不同于以往的语音识别技术,例如,考虑到背景声音的复杂性,识别系统需要更高的噪声鲁棒性,另外冲击声具有强烈的非稳态性,以往针对语音识别的方法不再合适。声谱图是一类表示声音时频结构的灰度图,其横纵坐标代表时间和频率,灰度代表声信号的幅值,自1 940 s出现以来,声谱图作为水下声目标探测的重要手段吸引着来自各领域的人们的兴趣,但主要集中在如何从背景声中区别出可疑目标声(低水平特征检测)[2]。随着图像处理技术的发展和新的声目标识别任务的出现,人们尝试从声谱图中提取更多的声信息。如梁泽等将PCNN应用语音信号的情感识别中,通过实验发现同一说话人的同一句话在不同的情感下有不同的语谱图,提取的特征序列存在差异并且具有某种规律性[3];曾向阳等人采用脉冲耦合网络提取语音和多种噪声的特征[4]取得了较好的识别率,并发现可以该特征可以对说话人进行识别;Souli Sameh等人使用log?gabor滤波器提取声谱图特征,采用10种环境噪声数据库,证明了其方法的有效性[5]。

本文利用声谱图提出一种冲击声特征提取方法。以板材冲击声为对象,提取多种声谱图特征进行目标识别,并对结果进行比较分析。特征提取流程如图1所示,首先对取冲击声信号的进行降噪和端点检测,然后获取灰度声谱图,利用伪彩色映射将其转换为彩色声谱图,增加声谱图细节表现力,然后对其分块,最后计算各块局部图像的k阶中心矩作为声谱图特征。并将这种特征与MFCC等传统特征进行比较,评价特征性能。

1 声谱图的生成

1.1 冲击声的预处理

在利用声谱图提取声音特征,信号的无声段和噪声都会影响特征的性能,无声段会影响声信号在声谱图中的位置,而噪声将会湮没信号的部分信息,因此在产生声谱图之前需要进行降噪和无声段检测。本文着重从噪声对识别精度方面来分析特征的性能,因此这里只对端点检测技术进行叙述。如图2所示,冲击声在起始点附近会有一个极大的峰值,然后迅速衰减为0,本文利用冲击声的这个性质进行端点检测。取每30 ms为一帧(这个长度包含从无声段到最大值的变化的时间范围),计算每帧的能量,求这些帧的能量与最开始的一帧的平均能量的比值,当比值大于设定的阈值[c0]时,即认为该帧包含冲击声的起始点,当比值小于设定阈值[c1]时认为该帧包含生信号的结束点。

1.2 声谱图的生成

声谱图是一类按照频率和时间对声音进行二维可视化得到的图像。按照频率的种类,有如下几类声谱图:短时傅里叶变换时频图、gammatone滤波器组声谱图、梅尔频率声谱图、小波变换尺度图。

本文以短时傅里叶变换时频图为对象提取特征,其生成过程如下。

设冲击声的离散时域采样信号为[x(n)],采样频率为[fs],n为时域采样点序列,[n=0,1,2,…,N-1],N为信号长度。对信号分帧处理得[xn(m),m=0,1,…,M-1],其中n是帧序号;m是帧同步时间序号;M为帧长(1帧内的采样点数);于是信号的短时离散傅里叶变换定义

[X(n,k)=m=0M-1xn(m)w(m)e-j2πkm] (1)

式中:[0≤k≤N-1];[wm,m=1,2,…,][M-1]为窗函数。[X(n,k)]为[x(n)]的短时幅度谱估计,取[f=k?fs],[t=n?Ts],有[Slin(f,t)=X(n,k)],将其以灰度图像表现出来即得到声谱图,这种声谱图也叫幅度谱图,当取[Slin(f,t)=X(n,k)2]时,得到能量谱图,如图3所示,为玻璃板冲击声的声谱图。

1.3 声谱图的预处理

使用声谱图提取特征时,通常要根据使用的方法需求对声谱图进行预处理,将声谱图映射到[0,1]区间时,声谱图中的某些异常大的点将会将其他的点的灰度值往0附近挤压,这样会造成伪彩色变换时对比度的下降。因此本文设计了一种对数映射方法,式(2),对声谱图进行预处理,降低异常点对对比度的影响。图3是对声谱图进行预处理前后的效果图,可以看出预处理后的能量谱变得更加清晰。

[S(f,t)=log(Slin(f,t)+e)-1] (2)

2 基于伪彩色映射的声谱图特征提取

2.1 伪彩色处理

伪彩色处理是将灰度图像线性或非线性映射到一定的调色板上,以达到彩色显示效果的处理方式。由于人眼对彩色的分辨率远远高于对灰度的分辨率,所以可用于识别灰度较小的像素。伪彩色处理的关键在于调色板的编码方式,常用的RGB空间的编码方式有两种:灰度分割法和空间域?彩色变换法。灰度分割法其将图像灰度值划分若干段,每一段对应一种颜色,其形成的色彩是不连续的,这将丢失声谱图上很多细节信息。空间域?彩色变换法,通过红、绿、蓝(RGB)三个颜色映射[qc(x),c∈(red,blue,green)]将每个像素灰度值对应到红、绿、蓝(RGB)色彩空间三个分量,从而只要保证映射函数的连续性,彩色编码就是连续的[6]。如图4所示本文采用JET映射进行伪彩色处理。

首先,将声谱图[S(f,t)]按照式(3)进行归一化,使其灰度变化范围为[0,1],得到归一化后的图像[I(x,y)]。

[I(x=f,y=t)=S(f,t)-min(S(f,t))max(S(f,t))-min(S(f,t))] (3)

然后将用使用三元色映射[qc(x)]将[I(x,y)]映射

到RGB多色空间,得到[mc(x,y)]。

[mc(x,y)=qc(I(x,y)),?c∈(r,g,b)] (4)

[qc(I(x,y))=I(x,y)-l1l2-l1, l1

这里[l1,l2,u1,u2]的取值不同将得到不同的伪彩色映射,当取[r=38,58,78,98],[g=18,38,58,78],[b=-18,18,38,58]为JET映射,其函数如图4所示。

2.2 基于伪彩色声谱图的特征提取的方法

首先将声谱图进行分块,如图5所示,沿着图像的x轴化分为[Dx]份,y轴分为[Dy]份,整幅图像可以得到[Dx×Dy]个局部块,每一个小块表示为[Lij]。将每个局部区域[Lij]看为一个随机变量,则其中的每个像素可以看做随机变量的一个样本,这样就可以用[Lij]的统计参数来描述声谱图的局部区域,这里采用多个k阶中心矩来描述[Lij],如式(6)所示。

[xki,j=E[Li,j], k=1E[(Li,j-E[Li,j])k], k=2,3,...] (6)

当是彩色图像时,分别对三个颜色分量做同样的处理,计算同样的局部k阶矩,然后将所有的结果依次排列成向量,即得到彩色声谱图的特征向量。如图5所示的分块,当选择[k=1,k=2],得到特征向量的维数为[3*Dx*Dy*2=54]。在完成所有样本的特征变量的计算后,使用主成份分析(PCA)进行降维。

3 实验结果与分析

3.1 冲击声样本的获取

本文以板材冲击声为对象进行实验,为了更好地评价彩色声谱图特征对冲击声的识别效果,这里使用两种不同的声样本进行实验:虚拟板材冲击声与真实板材冲击声。使用虚拟冲击声有两个好处:

(1) 可以得到任意参数的板材冲击声样本,这样可以得到非常相似的声样本;

(2) 可以控制单一变量进行设计实验,可以验证特征对材料的哪些属性有效。由于虚拟冲击声忽略了一些谐波,最后需要通过真实材料冲击声对实验结果进行验证。

虚拟冲击声:随机选择3个阻尼系数,分为3类,A类0.795区性2,B类0.765 2,C类0.823 4,采样频率为10 kHz,每类板材样本30个。

实验录取冲击声:选择玻璃板、木板、铝板三种材料,获取消声室、混响室、教室三种条件下的声样本,采样率为65.536 kHz,每类板材样本30个。

3.2 实验参数设置

图像分块的数目和k阶矩与个数的选择,都会影响实验的结果,通过实验选择最优的参数,取[Dx=9,Dy=9,k=1,k=2],PCA阈值设置为0.99。

本文以支持向量机作为分类器,采用10次十字交叉验证法和100次蒙特卡罗方法获得平均识别率,训练样本和测试样本数如表1所示。

3.3 实验结果对比及分析

为了充分评价特征的性能,以幅度声谱图和能量声谱图为原始声谱图,分别将预处理前后彩色特征和灰度特征的分类性能相比较,再将彩色特征与MFCC等传统声学特征进行比较。

由表2和表3可以看出,无论是幅度谱图和能量谱图,基于伪彩色映射的声谱图特征在各个噪声环境下识别率均优于灰度图特征,证明伪彩色变换显著地提高了灰度声谱图的表现力。经过log映射处理后的声谱图的在搞信噪比(大于20 dB)情况下优于未经过预处理的声谱图,这是因为log映射处理后的声谱图相对于未处理的情况,增加了声谱图的对比度[7],如图6所示,(b)中的各个灰度级的频率比(a)中的要更均衡,因此在高信噪比下,均优于未处理的情况。而当在低信噪比(0 dB)时,由于噪声的污染,声谱图中信息体现在高亮度点上,而log映射降低了高亮度的点在声谱图中的表现力,因此log声谱图的性能低于未处理的声谱图。

4 结 语

本文在分析冲击声信号的时频特性的基础上,提出一种基于声谱图的特征提取方法。该方法采用伪彩色映射将声谱图映射为伪彩色图,提高声谱图细节分辨率,然后对声谱图分块计算局部k阶矩作为特征。实验中采用三种虚拟材料和真实材料的冲击声作为目标对象,验证了基于声谱图特征的对于冲击声的有效性,结果表明该特征对板材冲击声具有较好的识别效果,尤其在低信噪比下,该方法具有较好的噪声稳健性。

参考文献

[1] 张冰瑞.冲击声的特征提取及其在声源材料识别中的应用[J].噪声与震动控制,2012(S1):152?156.

[2] LAMPERT T A. On the detection of tracks in spectrogram images [J]. Pattern Recognition, 2013, 46: 1396?1408.

[3] 梁泽.一种基于脉冲耦合神经网络的语音情感识别新方法[J].计算机应用,2008,28(3):710?713.

[4] 何佳若,曾向阳.声信号的可视化特征提取方法[J].数字信号处理,2011,35(7):61?74.

[5] SAMEH Souli, LACHIRI Zied. Multiclass wupport vector machines for environmental sounds classification in visual domain based on log?gabor filters [J]. International Journal of Speech Technol, 2013, 16: 203?213.

[6] 李全越,王芳.伪彩色图像在医学上的应用[J].微计算机信息,2008(3):299?300.

[7] RAFAEL C. Gonzalez digital image processing second edition [M].北京:电子工业出版社,2009.

猜你喜欢

特征提取
基于Gazebo仿真环境的ORB特征提取与比对的研究
基于Daubechies(dbN)的飞行器音频特征提取
Bagging RCSP脑电特征提取算法
一种基于LBP 特征提取和稀疏表示的肝病识别算法
基于DSP的直线特征提取算法
基于改进WLD的纹理特征提取方法
噪声环境下滚动轴承故障特征提取
浅析零件图像的特征提取和识别方法
基于CATIA的橡皮囊成形零件的特征提取
基于MED和循环域解调的多故障特征提取