APP下载

基于麦克风阵列的声源定位算法研究

2016-09-26王鸿鹏

计算机应用与软件 2016年3期
关键词:插值法麦克风方位角

李 扬 王鸿鹏

(哈尔滨工业大学深圳研究生院计算机科学与技术学院 广东 深圳 518055) (深圳物联网关键技术及应用系统集成工程实验室 广东 深圳 518055)



基于麦克风阵列的声源定位算法研究

李扬王鸿鹏

(哈尔滨工业大学深圳研究生院计算机科学与技术学院广东 深圳 518055) (深圳物联网关键技术及应用系统集成工程实验室广东 深圳 518055)

在基于时延估计的声源定位系统中,由于定位算法分为两个阶段:时延估计和定位,时延估计阶段的误差会在定位阶段被放大,导致声源定位的成功率和精度较低。从原始信号去噪,时延值插值和定位算法三方面入手,提高声源定位的精度。结合自行设计的四元十字麦克风阵列,给出一种新的时延值筛选算法,实现了一个室内声源定位系统。实验结果表明,在二维定位场景中,该系统对声源方位角的估计成功率超过70%,平均误差小于5°;该系统对声源距离估计的成功率和精度与声源方位角有关,当声源方位与X、Y轴的夹角不超过15°且声源距离不超过2.5m时,声源距离估计的成功率能达到50%以上。

声源定位时延值筛选时延值冗余自适应特征值分解小波去噪

0 引 言

基于麦克风阵列的声源定位系统通过多个麦克风拾取声源信号,对接收到的多路信号进行分析和处理,最终得到声源的位置。声源定位系统无论在民用[1,2]还是军用[3,4]领域都扮演着重要的角色。基于麦克风阵列的声源定位技术大致可分为三种:基于最大输出功率的可控波束形成技术[5]、基于高分辨率谱估计技术[6]和基于时延估计的技术[7]。

其中,基于时延估计的声源定位技术由于原理简单、运算量小和易于实现而被广泛应用。在基于时延估计的声源定位系统中,定位过程分为两个阶段[8]:时延估计阶段和定位阶段。由于双曲面的几何特性,时延值估计的误差在定位阶段被放大[9],造成定位阶段的成功率不高,定位结果误差较大。因此如何提高时延估计的成功率和精度便成了声源定位系统的关键问题。本文通过对原始语音信号进行小波去噪,采用抗混响能力强的自适应特征值分解算法,同时对时延估计值进行插值,提高时延估计的精度。在进行时延估计之后,为了避免无谓的计算,需要剔除错误的时延值。但是声源位置未知的情况下,时延值的实际值无从得知,因此无法通过与实际值比较的方法对时延估计值进行筛选。本文根据时延值之间的相关性,给出了一种时延值筛选算法。在定位阶段,为了充分利用时延值的冗余信息,给出了一种基于时延值冗余的定位算法。最终实现了一个基于四元十字阵的室内声源定位系统。该系统在一般室内环境中,方位角估计能达到70%以上的成功率,平均误差小于4.5°;当声源方位与XY轴的夹角不超过15°且声源距离不超过2.5m时,声源距离估计的成功率能达到50%以上。

1 时延估计

1.1小波去噪

对原始语音信号进行小波去噪的基本原理[10]为:语音信号和噪声信号分别进行小波变换之后,其小波系数具有不同的布特征。噪声信号频谱比较分散,小波系数较小,语音信号频谱分布比较集中,小波系数较大。利用这一特性可先对带噪语音信号进行小波变换,然后在每一层尺度上对小波系数进行处理。

本文小波变换的实现方法如下:首先对原始语音信号进行三阶小波变换,得到小波系数,按照一定阈值抑制高频系数,再进行小波逆变换,得到经过去噪的语音信号。图1为小波去噪前后的音频信号对比。

图1 小波去噪前后的音频信号对比

1.2自适应特征值分解算法

传统的时延估计算法如广义互相关法(GCC)基于一种理想的声音传播模型:单路径模型。在这种模型中,不考虑障碍物对声源信号的反射作用。然而在实际的室内环境中不可避免的存在混响,这种理想的单路径模型是不成立的。自适应特征值分解算法(AED)在建立声音传播模型时考虑了混响这个干扰因素,因此能获得更好的时延估计效果[11]。自适应特征值分解算法的迭代公式[12]为:

e(n)=uT(n)x(n)

(1)

(2)

其中:

(3)

xi(n)=[xi(n)xi(n-1)…xi(n-M+1)]Ti=1,2

(4)

(5)

(6)

其中,u为收敛步长,e(n)为预估误差,u(n)和u(n+1)分别为更新之前和之后的特征向量。在迭代开始之前,g2初始化为单位冲激函数,g1初始化为0。迭代结束之后,分别对g1和g2进行峰值检测,其峰值位置之差即为麦克风对的时延估计。

1.3时延值筛选

经过时延估计后可得到时延值的整数部分,在进行后续计算之前,需要剔除错误的时延值。本文给出了一种时延值筛选算法,它利用时延值之间的相关性,判断时延估计值是否正确。

以四元麦克风阵列为例,每一次时延估计产生6个时延值,分别是:

(7)

其中τi,j=τi-τj,τi,j是麦克风i相对于麦克风j的时间延迟,τi,τj为声源信号到达麦克风i和j的时间。

理想情况下,时延值之间的关系可用式(8)和式(9)表示:

τi,k=ti-tk=(ti-tj)+(tj-tk)=τi,j+τj,k

(8)

τi,j=ti-tj=-(tj-ti)=-τj,i

(9)

其中ti表示声源到达麦克风i的时间。

由于存在时延估计误差,式(8)左右两边只是近似相等,即二者存在一个小的差值。因此可以利用这一特性对时延值进行筛选,剔除错误的时延值。具体步骤如下所示:

1) 根据自适应特征值分解算法得到时延值的整数部分;

2) 对于所有麦克风组合Mi、Mj和Mk,其中i,j、k互不相等,计算:

(10)

3) 设定合理的时延值误差阈值,如果对于所有麦克风组合,式(10)都小于该阈值,那么式(7)通过时延值筛选;否则抛弃这组时延值。

1.4时延值插值

经过时延值筛选后,只能获得时延估计值的整数部分。为了提高时延估计的精度,需要对自适应特征值分解法中的g2向量进行插值,得到时延估计值的小数部分。

目前比较常用的插值算法有抛物线插值法[13],抛物线插值法计算量小,原理简单。抛物线插值法得到的峰值点位置为:

(11)

其中(xpeak,ypeak)为插值之前的峰值点坐标,(xleft,yleft)和(xright,yright)分别是峰值点的左相邻点和右相邻点,τ为经过抛物线插值之后的峰值位置。

由于抛物线插值法只利用了峰值点的左右相邻点的信息,因此插值得到的时延值误差较大。本文对抛物线插值法进行了改进,给出了基于四阶多项式的插值法。该算法的步骤如下所示:

1) 分别取峰值点(xpeak,ypeak)的左边和右边两个相邻点,如图2所示。将这四个点和峰值点带入式(12)中:

(12)

求得高阶多项式的系数,并得到极大值点。此极大值点的横坐标即为经过插值的时延值。

2) 对经过插值得到的时延值进行二次筛选,如1.3节所示。

图2中的实线为g2对应的曲线,虚线为式(12)对应的曲线,三角形标注点为1)中选取的点,圆形标注点为插值之前的峰值点,正方形标注点为插值之后的峰值点。在插值之前,峰值点位于x=206;经过四阶多项式插值之后,峰值点的位置位于x=206.37。

图2 基于四阶多项式的插值法示意图

2 基于时延值冗余的定位算法

实际上,对于四元麦克风阵列来说,一组时延值是存在很多冗余信息的。为了利用这种冗余,得到更加精确的声源位置,一般的做法[14]是:

1) 分别以每一个麦克风为参考麦克风,得到其他麦克风相对参考麦克风的时延值。

2) 在1)中的时延值的基础上,推导得到其他时延值。例如,已知τ1,4、τ2,4、τ3,4,利用麦克风之间的几何关系可得:

(13)

(14)

(15)

因此完整的一组时延值为:

(16)

3) 利用几何位置定位算法,估计声源位置。剔除其中不合理的值并求平均值,得到最终的声源位置。

在上述方法的基础上,为了更加有效地利用时延值的冗余信息,我们对其进行了两点改进:

1) 在上述方法中,声源估计位置是基于最多四组样本的平均值。由于样本数太少,估计位置易受异常样本的干扰。为了获得更多的声源位置样本,每次从一组时延值中取出三个不相关的时延值。根据组合原理,共有16种符合条件的时延值组合。分别对每一种组合进行声源位置估计,从中剔除错误值并求平均值。

2) 几何位置定位法是基于远场的一种定位算法,在计算声源位置的过程中采取了某种近似,而这种近似条件在声源距离较近时是不成立的[15]。因此在本文中不采用带近似条件的几何位置定位法,直接对式(17)-式(19)构成的方程组求解。假设1)中某一组时延值组合为(τi1,j1,τi2,j2,τi3,j3)

(17)

(18)

(19)

其中Ts为对麦克风信号的采样周期,r是声源位置,c是声速,rmi是麦克风mi的位置。

3 系统实现

本实验在一个7m×8m×3.5m的空间内进行,存在一定的噪声和混响。麦克风阵列采用四元十字阵,四个麦克风处在同一个平面上,每一个麦克风距离十字阵中心点的距离为25cm,对麦克风信号的采样频率为40kHz。

在预处理阶段,使用矩形窗进行加窗,每一帧长度为1024个采样点,帧与帧之间的重叠率为75%;端点检测采用短时平均能量作为检测标准。采用自适应特征值分解法进行时延估计,使用基于时延值冗余的定位算法求得声源位置。

3.1声源位置对定位结果的影响

分别以四元十字阵的对角线为X轴和Y轴,十字阵中心为原点,建立直角坐标。本实验声源位置位于第三象限内,方位角分别为180°, 195°, 210°, 225°, 240°, 255°, 270°。对于每一个方位角,声源分别在距离麦克风阵列中心0.5、1.0、1.5、2.0、2.5、3.0、3.5、4.0、4.5、5.0、5.5、6.0m的位置,如图3所示,其中空心点教是麦克风阵列的中心,实心点为声源摆放的各个位置。

依次将声源按照图3中的位置摆放,在每个位置进行30~50次实验,每次实验都对声源的音频信号进行采集,并使用上述算法得到声源位置的估计,因此每一个声源位置对应一组声源位置的估计。以10°和0.5m作为声源方位角估计值和距离估计值的最大误差阈值,剔除误差超出阈值的数据,然后分别计算这个位置的方位角估计和距离估计的成功率和平均误差。图4到图7为是时延估计通过筛选的情况下,对声源方位角估计和距离值估计的统计,统计数据包括估计成功率和估计平均误差。

图3 麦克风中心位置和声源位置示意图

从图4和图5可以看到,方位角估计成功率最低为70%, 最高为100%。方位角的平均误差最低0°,最高为4.4°。在同一方位角下,随着声源距离的增加,方位角估计的平均误差有逐渐减小的趋势。

图4 方位角估计成功率与声源距离、方位角的关系

图5 估计方位角平均误差与声源距离、方位角的关系

从图6和图7中可看到,声源距离估计的成功率与声源的方位角和距离有关。在同一方位角下,其成功率随着距离增加呈现迅速衰减的趋势;在同一距离下,声源方位角越偏离X或Y坐标轴,即方位角越靠近X轴和Y轴的角平分线,距离估计的成功率越低。声源距离估计的平均误差最小为0.03m,最大为0.45m。从图中可以看到,当声源方位角与坐标轴(X轴或Y轴)的夹角不超过15°,且声源距离不超过2.5m时,声源距离估计能获得50%以上的成功率。

图6 声源距离估计的成功率与声源距离、方位角的关系

图7 距离估计平均误差与声源距离、方位角的关系

3.2对声源距离估计结果的分析

在二维定位场景中,麦克风i和j的理想时延与声源位置的关系如下:

(20)

(21)

其中M=xjDi-xiDj,N=yjDi-yiDj。计算r关于τi,j(i≠j,i,j∈{1,2,3,4})的拉氏算子:

(22)

给定r值,▽2r与θ的关系如图8所示。从中看到,当声源的方位角趋近于45°、135°、225°和315°时,▽2r趋近于无穷大。简而言之,当声源的方位角靠近上述角度时,极小的时延估计误差会造成极大的声源距离估计偏差,导致声源距离估计的成功率和精度下降。

图8 ▽2r与θ的关系

3.3时延值插值算法的对比实验

根据1.3节,时延估计值越精确,式(10)的值越小;同样的,在麦克风个数为4时,时延估计值越精确,式(23)越小:

(23)

其中:

(24)

1) 采集声源信号,对多路信号进行去噪,加窗分帧和时延估计,得到时延估计的整数值;

2) 分别使用四阶多项式插值法和抛物线插值法对时延估计值进行插值,得到插值之后的时延估计值;

表1 两种插值法的对比结果

从表1中可以看到,四阶多项式插值法的时延估计平均误差小于抛物线插值法,时延估计的平均误差减小了8.7%,该实验说明四阶多项式插值法的效果好于抛物线插值法。

3.4定位算法的对比实验

为了比较第2节中几何位置定位法和本文给出的定位方法(以下分别简称为算法1和算法2)的效果,进行以下实验:将声源放置在方位角为270°,距离为3m的位置,进行38次实验。在每一次实验中,首先采集声源信号,再进行小波去噪,加窗分帧,时延估计等操作,最后分别使用算法1和算法2得到各自的声源位置估计。分别统计采用算法1和算法2的情况下,方位角估计和距离估计的成功率、平均值和平均误差,实验结果如表2所示。

表2 算法1和算法2的对比结果

从表2中可看出,使用算法1进行声源定位的成功率和精度明显优于算法2,声源距离估计的平均误差减小了52.9%。

4 结 语

本文实现了一个基于四元十字阵的声源定位系统。在实现过程中,首先使用小波去噪算法对语音信号进行预处理,再使用抗干扰能力较强的自适应特征值分解算法进行时延估计,并给出了时延值筛选算法,用于剔除错误的时延值。在抛物线插值的基础上,给出了四阶多项式插值法,最后给出了基于时延值冗余的声源定位算法,估计声源的方位角和距离。

实验结果表明,本定位系统对声源方位角的估计能达到超过70%的成功率,平均误差小于5°;当声源在45°、135°、225°和315°方向时,声源距离估计存在奇点,当声源方位角与X、Y轴的夹角不超过15°且声源距离不超过2.5m时,声源距离估计的成功率达到50%以上。

在时延值插值的对比实验中,通过四阶多项式插值法得到的时延估计平均误差比抛物线插值法小8.9%;在定位算法的对比实验中,通过本文给出的定位算法得到的距离估计平均误差比几何位置定位法小52.9%。在后续的研究中将致力于提高声源距离估计的精度,减小声源实际距离和方位角对距离估计的影响。

[1]KotusJ,LopatkaK,CzyzewskiA.Detectionandlocalizationofselectedacousticeventsinacousticfieldforsmartsurveillanceapplications[J].MultimediaToolsandApplications,2014,68(1):5-21.

[2]ZhongX,WangS,DormanM,etal.Soundsourcelocalizationfromtactileaidsforunilateralcochlearimplantusers[J].TheJournaloftheAcousticalSocietyofAmerica,2013,134(5):4062.

[3] 裴少雄.基于DSP的声响枪袭定位系统研究[D].南京理工大学,2014.

[4] 张西爽.超音速子弹声源定位算法的研究与设计[D].北京交通大学,2013.

[5]HahnW,TretterS.Optimumprocessingfordelay-vectorestimationinpassivesignalarrays[J].IEEETransactionsonInformationTheory,1973,19(5):608-614.

[6]KnappC,CarterGC.Thegeneralizedcorrelationmethodforestimationoftimedelay[J].IEEETransactionsonAcoustics,SpeechandSignalProcessing,1976,24(4):320-327.

[7]WangH,KavehM.Coherentsignal-subspaceprocessingforthedetectionandestimationofanglesofarrivalofmultiplewide-bandsource[J].IEEETransactionsonAcoustics,SpeechandSignalProcessing,1985,33(4):823-831.

[8]PourmohammadA,AhadiSM.Realtimehighaccuracy3-DPHAT-basedsoundsourcelocalizationusingasimple4-microphonearrangement[J].SystemsJournal,IEEE,2012,6(3):455-468.

[9]PertiläP.Acousticsourcelocalizationinaroomenvironmentandatmoderatedistances[D].TampereUniversityofTechnology,2009.

[10]YanH,ZhangY,YangQ.Time-DelayEstimationBasedonCross-CorrelationandWaveletDenoising[C]//Proceedingsof2013ChineseIntelligentAutomationConference.SpringerBerlinHeidelberg,2013:841-848.

[11]ChenJ,BenestyJ,HuangYA.Timedelayestimationinroomacousticenvironments:anoverview[J].EURASIPJournalonAdvancesinSignalProcessing,2006:1-19.

[12]BenestyJ.Adaptiveeigenvaluedecompositionalgorithmforpassiveacousticsourcelocalization[J].TheJournaloftheAcousticalSocietyofAmerica,2000,107(1):384-391.

[13] 赵圣,崔牧凡,尤磊,等.基于小型麦克风阵列的声源定位技术[J].华中科技大学学报:自然科学版,2013,41(S1):188-191.

[14] 周峰.室内麦克风阵列声源定位算法研究和实现[D].复旦大学,2009.

[15]LinanZ,PengY,HaoS,etal.Soundsourcetargetlocalizationsystemofmobilerobot[C]//Singapore:11thIEEEInternationalConferenceonControlAutomationRobotics&Vision,2010:2289-2294.

RESEARCHONSOUNDSOURCELOCALISATIONALGORITHMBASEDONMICROPHONEARRAY

LiYangWangHongpeng

(School of Computer Science and Technology,Shenzhen Graduate School,Harbin Institute of Technology,Shenzhen 518055,Guangdong,China) (Shenzhen IOT Key Technology and Application Systems Integration engineering laboratory,Shenzhen 518055,Guangdong,China)

Insoundsourcelocalisation(SSL)systemsbasedontimedelayestimation(TDE),thelocalisationalgorithmisdividedintotwostages:thetimedelayestimationandthesoundsourcelocalisation.ThesuccessrateandprecisionofSSLcouldbeverylowbecausetheestimationerrorinTDEstagewouldbemagnifiedinSSLstage.Proceedingfrom3aspects:rawsignaldenoising,timedelayvalueinterpolationandSLLalgorithm,weimprovedtheprecisionofSSL.Combinedwithaself-designedfour-elementcrossmicrophonearraywepresentedanewtimedelayvaluescreeningalgorithm,andrealisedanindoorSSLsystem.Experimentalresultsshowedthatinscenarioof2-DSSL,thesuccessrateofsoundsourceazimuthestimationinthesystemwasatleast70%,itsmeanerrorwaslessthan5°.Thesuccessrateandprecisionofsoundsourcedistanceestimationwererelatedtorealsoundsourceazimuthanddistance.Whenrealsoundsourcedistancewaslessthan2.5m,andtheincludedanglebetweensoundsourceazimuthandX-Yaxiswasnomorethan15°,thesuccessrateofsoundsourcelocalisationcouldreach50%orhigher.

SoundsourcelocalisationTimedelayscreeningTimedelayredundancyAdaptiveeigenvaluedecompositionWaveletdenoising

2014-10-08。深圳市战略性新兴产业发展专项资金项目(深发改[2013]716号)。李扬,硕士生,主研领域:声源定位。王鸿鹏,教授。

TP391.4

ADOI:10.3969/j.issn.1000-386x.2016.03.038

猜你喜欢

插值法麦克风方位角
GRAS发布新12Bx系列、支持TEDS的测量麦克风电源模块
近地磁尾方位角流期间的场向电流增强
《计算方法》关于插值法的教学方法研讨
《计算方法》关于插值法的教学方法研讨
Binaural Rendering based on Linear Differential Microphone Array and Ambisonic Reproduction
无处不在的方位角
麦克风的艺术
顾及局部特性的自适应3D矢量场反距离权重插值法
向量内外积在直线坐标方位角反算中的应用研究
麦克风