头部相关传递函数获取关键技术研究

2019-06-07杨立东焦慧媛

软件导刊 2019年1期

杨立东焦慧媛

摘要：虚拟现实技术（VR）的飞速发展使双耳听觉研究越来越深入，如何快速准确地获取个性化头部相关传递函数HRTF成为研究热点。介绍了HRTF获取关键技术研究现状，总结出HRTF的4种获取方式：实验测量法、数学建模法、数据库匹配法和主观选择法，并阐述各方法的基本原理。将各方法进行对比，指出HRTF获取工作中需解决的问题和未来研究方向。

关键词：虚拟现实技术（VR）;HRTF;实验测量法;数学建模法;数据库匹配法;主观选择法

DOI：10. 11907/rjdk. 181758

中图分类号：TP3-05文献标识码：A文章编号：1672-7800（2019）001-0034-06

Abstract：The rapid development of virtual reality technology makes the study of binaural hearing deeper and deeper. How to quickly and accurately obtain a personalized head-related transfer function （HRTF） has become a hot spot for scholars in various countries. This article gives a detailed introduction to the research status of HRTF access to key technologies， and summarizes four main acquisition methods of HRTF based on the current development trends： experimental measurement method， mathematical modeling method， database matching method and subjective selection method. The basic principle of the method is described. The advantages and disadvantages of the current methods are compared. Finally， the issues that need to be resolved in the HRTF acquisition work and future research directions are pointed out.

0 引言

虚拟现实（Virtual Reality，VR）的不断发展掀起了VR技术应用浪潮，越来越多的人希望通过VR设备获得更加逼真的现实感受。2018年1月的国际消费类电子产品展览会（International Consumer Electronics Show，簡称CES）上，HTC公司推出了一款新的VR（Virtual Reality）设备——VIVE Pro虚拟现实系统。在4月份的新品发布会上，HTC公司又推出与之对应的操控手柄，配置了两个支持Steam VR的追踪器2.0，这一改进的VIVE Pro设备已正式投入商业生产与线下销售中。2018年5月，上海位视达信息科技有限公司率先启动了朗文WTE英语VR教室项目，通过VR眼镜给孩子们营造一个立体的虚拟动画世界，引导孩子进行角色扮演，生动活泼地完成课堂学习，对教学方法改革进行了探索和创新。VR技术是通过计算机仿真，给用户提供虚拟视觉、听觉、触觉等多种感知，用户通过感官感知虚拟环境中的物体以获得如同现实中真实感的一门热门技术。其中，虚拟视觉和虚拟听觉可为用户提供超过80%的空间感知，是目前虚拟技术研究的重点。虚拟听觉空间技术（Virtual Auditory Space， VAS）就是根据人类听觉特征，通过双声道播放系统再现声源空间信息的技术，它与决定人耳空间听觉能力的头部相关传递函数（Head-Related Transfer Function， HRTF）密切相关。因此，研究HRTF获取关键技术是合成虚拟空间声音的重要组成内容，也是推动未来VR工作深入发展的关键。

1 HRTF简介

HRTF是自由声场中从声源到双耳的频域传输函数，它的时域表示为头相关脉冲响应（ Head Related Impulse Response，HRIR），两者都表达了人体生理结构对声波的综合滤波效果[1]，HRTF和HRIR是进行双耳定位研究的重要内容。HRTF的函数表达式为：

其中，[PL]、[PR]分别表示人双耳获取的频域复数声压，[P0]为在头部不存在情况下，声源到达近似头部中心处的频域复数声压，[P0]满足空间点声源的格林函数：

对不同被试者进行HRTF获取时，[PL]和[PR]测量点的选取位置可以不同。可定义[PL]和[PR]是到达双耳鼓膜处的声压，也可定义为到达耳道口与鼓膜间任意截面处的声压，甚至还可定义为将耳道入口封闭时封口处的声压。但由于耳道口和鼓膜之间的传输是一维的，因而对于不同测量点，[PL]和[PR]计算得到的 HRTF 可以相互转换。

HRTF是声源到头部中心距离[r]（当[r]>1.2m 时，一般认为是远场测量，这时[r]对HRTF的影响可忽略不计）、声源位置与头部中心之间的仰角[θ]、方位角[φ]和声源频率[f]的函数，可以表示为[H（r，θ，φ，f）]。同时，HRTF是一个个性化函数，它与测试者的生理结构和尺寸密切相关，对不同的测试者进行测量会得到不同的HRTF值。

2 HRTF获取方式

国内外学者对HRTF的获取进行了深入研究，主要获取方式有实验测量法、数学建模法、数据库匹配法和主观选择法4种。

2.1 实验法测量HRTF

2.1.1 实验法回顾

HRTF的测量工作最早可追溯到1947年，Wiener[2]基于球头模型测量了相应的HRTF。1983年，Kuhn & Guernsey[3]根据KEMAR人工头模型测量得出HRTF数据。那时测量的HRTF数据较少，并且是基于头部模型测得，所测数据准确意义上并未称为“头部相关传递函数”。直到1989年，Wightman和Kistler[4]测量得到10名真人（6女4男）的HRTF数据，并构建出HRTF估计模型，“头部相关传递函数”概念被广泛应用，HRTF的测量工作开始逐渐展开。

1994年，美国MIT实验室将KEMER人工头作为实验对象，左耳使用DB-61小型耳廓，右耳使用DB-65大型耳廓，MLS序列作为测量信号，测量得到空间710个方向的双耳数据[5]。这是一个被公开的HRTF数据库，此后被广泛应用于声学研究中。密歇根大学在1999年测量23名男性、22名女性HRTF数据，包括33项人体测量数据，但此数据库在当时未公开[6]。2000年以后，通过实验法获取HRTF的工作更加深入，美国加利福尼亚大学在2001年率先公开了基于真人受试者的CIPIC数据库，被试者由27个男性、16个女性以及2个平均人工头组成，此数据库除测量得到空间25个水平角、50个高度角共1 250个数据外，还记录了真人被试头部、耳部、躯干共27个人体测量参数[7]。此数据库是目前为止应用最广泛的公开数据库，各国HRTF的研究都是在此数据库上展开。日本东北大学在2002年利用封闭耳道法测量得到3名被试者头部上半部分区域的共454个位置的HRTF[8]。2006年，法国IRCAM室内声学小组测量得到51名被试在水平角0°～360°，仰角-45°～90°范围内共187个位置的HRTF[9]。

20世纪初，我国东南大学开始HRTF的研究工作，但其主要是在美国Wisconsin大学测量的数据上进行研究[10]。由于中国人与国外被试在身体外形、生理参数上存在一定差异，基于国外HRTF数据库的研究结果在实际应用中往往会出现一定误差，因此基于我国被试的HRTF测量成为当时研究的重点。2002年清华大学的赵自立[11]提出在普通室内环境下测量HRTF的总体设计方案。真正开展中国人头HRTF测量工作的是华南理工大学谢菠荪教授[12]负责的声学研究小组，其在2006年对52名中国被试（26名男性、26名女性）进行测量，以MLS序列为测试信号，得到中国人样本的空间493个方向的HRTF数据，这是中国第一个统计意义上的HRTF数据库。2007年，中科院声学所与北京大学视觉与听觉信息处理国家重点实验室合作，设计出测量距离可调整的HRTF测量系统，实验在中科院全消声室中进行，以BDMS1-040528便捷式脉冲发生器为发声源，KEMER人工头为被试对象，测量了声源距离人工头8个距离（20cm、30cm、40cm、50cm、75cm、100cm、130cm、160cm）下的HRTF数据[13]。2014年3月北京大学言语听觉研究中心对KEMER人工头进行头部、耳廓、躯干的分离实验，测量了6个距离（20、30、40、50、75、100cm），以每个距离为半径的球面上的793个点的3种结构化函数，得出头相关传递函数是头、躯干、耳廓分别作用结果的叠加[14]。上述对HRTF的测量都是在一个测试信号和预先设定好的空间方位角上进行的，测量过程十分耗时，对于未测量空间角的HRTF值仍需要进行插值计算。据此，东南大学杨飞然[15]在2014年提出了动态测试HRTF的构想：声源不断发送信号，被试者以均匀角速度旋转，从而获取整个水平面方位角的HRTF。2017年华南理工大学声学研究所设计了近场头相关传递函数多声源快速测量系统，将多个声源利用支撑杆固定在半径1.25m圆环的不同仰角处，通过上下移动和转动座椅，改变被试者位置，通过伸缩支撑杆改变声源空间距离，使测量单个距离下的HRTF数据时间缩短至20min左右，在一定误差范围内保证其测量精度。这是目前为止HRTF测量效率最高的系统，为今后HRTF的获取提供了便利[16]。

2.1.2 实验法测量HRTF原理

HRTF测量过程是一个线性时不变系统，如果把发声端信号看作输入信号[x（t）]，无干扰下双耳接收信号看作[y（t）]，实际双耳接收端信号看作[z（t）]，传输过程中的干扰信号为[n（t）]，那么求解HRTF即是求解[x（t）]与[y（t）]之间的传递函数[h（t）]。整个测量过程原理如图1所示。

2.2 数值计算法获得HRTF

2.2.1 数值计算法

由于实验测量获取HRTF的方法对实验环境和实验器材要求较高，近20年来，逐渐出现了通过数值计算获取HRTF的方法。数值计算法一般分为两步：首先构造合适的计算模型，然后根据一定的数学方法计算获得需要的HRTF。1998年，Martens[18]构造出钢球模型用于计算HRTF，2002年加州大学戴维斯分校使用头部和躯干的“雪人模型”获得近似HRTF[19]。这两种模型是前期对人体形态的简单模拟，均可通过求解波动方程或亥姆霍兹方程的方法获得HRTF。另外还可通过扫描人工头计算获取HRTF。2001年，Katz[20]扫描获得B&K4128C人工头模型，通过边界元法计算获取HRTF，其计算频率达到6kHz。2003年，Otani在Katz[21]研究的基礎上，得出快速边界元法计算HRTF的方法。Kahana[22]在2007年扫描得到KEMAR人工头和6个耳廓的尺寸模型，同样利用边界元法计算得到HRTF，此时其计算频率提升到14kHz。2003 年杜克大学的TIAN Xiao等[23]提出使用时域有限差分法结合完全匹配层方法计算球模型和KEMAR人工头的HRTF，上述两种方法主要是基于近似模型的计算，后来逐渐出现了对真人头部进行扫描获取计算头模型的方法。2004年，Fels[24]等研究了儿童生长变化与HRTF之间的关系，用相机拍下儿童（4～6岁）头部模型，提取其头部三维信息后用边界元方法计算得出儿童的HRTF。2014年，Meshram等[25]研究出自适应矩形分解方法模拟声波的传输过程，使HRTF的计算在8核台式机上的时间缩短至20多分钟。

我国在HRTF建模计算上的研究有：2010年，西北工业大学根据GB/2428-1998标准构造出一个椭球模型用于计算HRTF[26]。2012年，华南理工大学芮元庆[27]设计出简化的椭球头部-耳廓计算模型，分别得到KEMER人工头和6名真人的计算模型，利用快速边界元法计算其HRTF。2014年，陈嘉衍[28]提出用声学互易原理加快边界元法计算速度。同年，西北工业大学唐玲[29]通过光扫描获取了中国人BHead210标准头模三维模型，并计算得到其HRTF。数值计算法对于构造模型的准确性要求较高。2016年中国声学会议上提出了一种更为准确的耳廓测量方法，此方法利用计算机软件处理，其中使用了法兰福参考平面，使头部建模更加准确[30]。

实际计算HRTF时，根据式（16）先求出边界上的声压值，然后将其带入式（15）求出空间任意位置处的声压[P（r，r0，f）]，最后将其带入格林函数式（2）中，即可求得任意空间位置处的HRTF。其后，对于HRTF的计算方法大多是在传统边界元法的基础上进行改进，添加其它算法，如多级算法、球谐函数多级展开法等，快速降低边界元算法的计算复杂度。

2.3 数据库匹配与主观选择获得HRTF

2.3.1 数据库匹配与主观选择方法回顾

实验测量和数值计算获得HRTF的方法在时间和成本上消耗很大，不同人HRTF的频谱特征不同，要想实际利用HRTF生产声学产品并保证其可行性，需要测量或计算不同人的HRTF，这显然非常耗时且不切实际。因此，快速准确地寻找和获取个性化HRTF的方法是研究的重点和热点。

数据库匹配法和主观选择法目前研究的结果主要是获得近似化HRTF，这与实验法和数值计算法获取准确的HRTF不同。数据库匹配法是快速获取HRTF的主流方法，其原理是使用统计分析的方法建立人体生理参数与HRTF模型之间的匹配关系。1998年，Brown[31]提出HRTF结构模型，将人体对声源的滤波过程划分为头部、躯干、耳廓3部分综合滤波，分别定制各部分滤波器，调整滤波器参数以获得个性化HRTF。Jin[32]在2000年使用主成分分析法对HRTF数据进行降维，将HRTF分解为7个基函数和权重系数的线性组合，此方法获得的HRTF有较好的定位效果。Zotkin[33]在2003年通过比较被试者与已知数据库对象的耳部7个生理参数，选择已知数据库中合适的HRTF作为被试者中高频段的HRTF。CS Fahn[34]同年提出了一种空间聚类方法，将HRTF幅度谱进行分类，获取每一类下的代表HRTF，则空间任意方向的HRTF值都可由这些代表HRTF值合成。印度尼西亚大学的Hugeng[35]、Wahab[36]分别在2010年和2015年使用主成分分析法对HRIR、HRTF进行重构，得出时域和频域下的重构性能最佳模型与代表性人体形态参数。华南理工大学在2013年改进了Zotkin的生理参数匹配法，利用谱失真评价和相关分析方法使7个匹配生理参数降为3个[37]。2016年大连理工大学的袁康[38]提出对水平角和垂直角进行主成分分析，获取不同测量者在不同角度下的主成分系数值，从而获取个性化HRTF。

主观选择法是获取HRTF的又一类方法。2003年，Seeber[39]提出在水平面上进行主观听觉测试实验，但只是对前半水平面的部分位置进行测量，结果仅满足少量的HRTF。Iwaya[40]在2006年使用DOMISO方法从大量非个性化HRTF中选出需要的HRTF，但其只使用了组内循环比较准则。大连理工大学汪林、殷福亮等[41]在DOMISO方法的基础上，为快速选择出被试者的个性化HRTF，提出了一种基于竞赛方式的主观选择方法。2016年袁康[38]提出对距离、水平角、高度角建模，通过调节模型参数进行主观试听实验获得HRTF。主观选择法与数据库匹配方法相比研究较少，主要原因是空间模拟声播放受环境影响较大且其空间听觉判断具有随机性，如何较好地解决这一问题是主观方法能否真正得到应用的关键。

2.3.2 主成分分析法（PCA）原理

在使用主成分分析法时，主要对HRTF频域和HRIR时域进行分析，基本原理为：将HRTF的频域或HRIR的时间域进行划分，将其看成一组随机向量[X=[x（1），x（2），？，][x（N）]T]，且[x（1）]，[x（2）]…[x（N）]之间是相关的，通过K-L变换后形成的向量[Y]的各分量间互不相关，此时向量[Y]对向量[X]的近似均方误差值最小，表明生成频谱或波形最重要的部分保留了下来。去掉次要部分，即仅需一部分基向量和对应的主元系数，即可恢复原始的HRTF或HRIR数据。

基于主成分分析法获得HRTF的过程分为标准化、主成分分析、重构3个步骤。HRTF在空间位置[（θ，φ）]处的幅值表示为[Dij]，[i]表示被试者序号，[j]为频率序号，频率为[fj]时，HRTF的幅值可表示为：

3 选择方法比较

本文对4种选择方法进行分析，并对其优缺点进行总结和比较，见表1。

4 结语

本文阐述了常用的4种个性化HRTF获取方法及关键技术，除此之外，还有频率标度法、物理模拟法等也可获得近似的HRTF值。近几年来，关于HRTF的研究获得了很大突破，但在一些方面仍然存在一些需要深入研究和探討的课题，主要表现在：

（1）传统测量法获得HRTF费时费力，基于动态测量的方法暂露头角，但是基于多声源播放时信号之间多重散射以及声源角度与间隔分布应予以研究。

（2）数值计算法的前提是建立头部-躯干模型，数据库匹配法也与人体参数有关。因此，开发更加简单准确的人体参数测量方法，是未来提升这两种方法下HRTF准确性的重点研究方向。

（3）现有对HRTF进行线性分解的方法多是分解成二阶独立矢量，而高阶矢量分解更能体现空间的离散性，是未来HRTF线性分解的发展方向之一。

（4）目前数据库匹配原理仅研究得出某些参数与HRTF之间存在密切关系，但是人体参数具体影响HRTF的哪些频段、各参数之间相互作用是否对HRTF造成影响、不同频率下参数的选择种类和数量，都是解决数据库匹配的热点问题。

（5）主观选择方法应在主观评价指标上进行深入研究，比如评价指标种类、数量、评价方法等。另外，由于被试对声源方位的判断存在随机性和不确定性，还应补充整个实验操作，比如着重研究人体心理因素和视觉因素对HRTF的影响，包括影响因子种类、数量等。

综上所述，HRTF可以通过不同的获取方式得到，每种方式具有不同的优缺点，研究HRTF新的获取方式以及解决HRTF获取工作中存在的问题，对未来HRTF在虚拟现实中的应用具有重要意义。

参考文献：

[1] MASTERSON C， KEARNEY G， GORZEL M， et al. HRIR order reduction using approximate factorization[J]. IEEE Transactions on Audio Speech & Language Processing， 2012， 20（6）：1808-1817.

[2] WIENER F M. Sound diffraction by rigid spheres and circular cylinders[J]. Journal of the Acoustical Society of America， 1947， 19（3）：444-451.

[3] KUHN G F， GUERNSEY R M. Sound pressure distribution about the human head and torso[J]. Journal of the Acoustical Society of America， 1983， 73（1）：95-96.

[4] WIGHTMAN F L，KISTLER D J. Headphone simulation of free-field listening. II： psychophysical validation[J]. Journal of the Acoustical Society of America， 1989， 85（2）：868-878.

[5] GARDNER B. HRTF measurements of a KEMAR dummy-head microphone[J]. MIT Media Lab. Perceptual Computing-Technical Report， 1994（280）：1-7.

[6] MIDDLEBROOKS J C. Virtual localization improved by scaling nonindividualized external-ear transfer functions in frequency[J]. Journal of the Acoustical Society of America， 1999， 106（1）：1493-1510.

[7] ALGAZI V R， DUDA R O， THOMPSON D M， et al. The CIPIC HRTF database[C].Applications of Signal Processing to Audio and Acoustics， 2001 IEEE Workshop on the. IEEE， 2001：99-102.

[8] TAKANE S， ARAI D， MIYAJIMA T， et al. A database of head-related transfer functions in whole directions on upper hemisphere[J]. Acoustical Science & Technology， 2002， 23（23）：160-162.

[9] ROOM ACOUSTICS TEAM OF IRCAM. HRTF database[EB/OL]. [2006-08-20]. http：//www.ircam.fr/equipes/salles/listen/index.html

[10] 吳镇扬，王卫斌. 基于小波变换奇异性检测的HRTF（与头部关联的传递函数）消噪处理[J]. 生物物理学报， 1997， 13（3）：473-478.

[11] 赵自力. 虚拟三维声音合成的实验研究[D]. 北京：清华大学， 2002.

[12] 谢菠荪，钟小丽，饶丹，等. 头相关传输函数数据库及其特性分析[J]. 中国科学：物理学力学天文学， 2006， 36（5）：464-479.

[13] 龚玫，肖峥，曲天书，等. 近场头相关传输函数的测量与分析[J]. 应用声学， 2007， 26（6）：326-334.

[14] 吴玺宏，吕振洋，高源，等. 近场结构化头相关传输函数的测量与分析[J]. 数据采集与处理， 2014， 29（2）：180-185.

[15] 杨飞然. 头相关传递函数测试新方法[J]. 应用声学， 2014（3）：263-264.

[16] 余光正，刘昱，谢菠荪. 近场头相关传输函数的多声源快速测量系统设计与验证[J]. 声学学报， 2017（3）：348-360.

[17] 李平友. 用最长序列测量扬声器的脉冲响应[J]. 应用声学， 1993（1）：11-16.

[18] DUDA R O， MARTENS W L. Range dependence of the response of a spherical head model[J]. Journal of Acoustical Society of America， 1998， 104（5）：3048-3058.

[19] ALGAZI V R， DUDA R O， DURALSWAMI R， et al. Approximating the head-related transfer function using simple geometric models of the head and torso[J]. Journal of the Acoustical Society of America， 2002， 112（1）：2053-2064.

[20] KATZ B F G. Boundary element method calculation of individual head-related transfer function， rigid model calculation[J]. Journal of the Acoustical Society of America， 2001， 110（5 Pt 1）：2440-2441.

[21] OTANI M， ISE S. A fast calculation method of the head-related transfer functions for multiple source points based on the boundary element method[J]. Acoustical Science & Technology， 2003， 24（5）：259-266.

[22] KAHANA Y， NELSON P. Boundary element simulations of the transfer function of human heads and baffled pinnae using accurate geometric models[J]. Journal of Sound & Vibration， 2007， 300（3）：552-579.

[23] XIAO T， LIU Q H. Finite difference computation of head-related transfer function for human hearing[J]. Journal of the Acoustical Society of America， 2003， 113（5）：2434-2435.

[24] FELS J， BUTHMANN P， VORL？NDER M. Head-related transfer functions of children[J]. Acta Acustica United with Acustica， 2004， 90（5）：918-927.

[25] MESHRAM A， MEHRA R， YANG H， et al. P-HRTF： efficient personalized HRTF computation for high-fidelity spatial sound[C].IEEE International Symposium on Mixed and Augmented Reality. IEEE， 2014：53-61.

[26] 汪远东，曾向阳，陈幸幸. 近场头相关传递函数的数值计算与特性分析[J]. 应用声学， 2010， 29（3）：189-195.

[27] 芮元庆. 个性化近场头相关传输函数的计算与分析[D]. 广州：华南理工大学， 2013.

[28] 陈嘉衍，谢菠荪，刘昱，等. 互易和边界元法计算头相关传输函数的稳定性及其改进[C]. 中国声学学会全国声学学术会议， 2014.

[29] 唐玲，付中华. 中国人标准头模BHead210的头相关传递函数数值计算[J]. 声学技术， 2014（3）：237-242.

[30] 吴锐兴，余光正. 基于3D扫描图像的耳廓生理尺寸参数测量[C].全国声学学术会议，2016.

[31] BROWN C P， DUDA R O. A structural model for binaural sound synthesis[J]. Speech & Audio Processing IEEE Transactions on， 1998， 6（5）：476-488.

[32] JIN C， LEONG P， LEUNG J， et al. Enabling individualized virtual auditory space using morphological measurments[C]. IEEE Workshop on，2000：235-238.

[33] ZOTKIN D N， HWANG J， DURAISWAINI R， et al. HRTF personalization using anthropometric measurements[C].Applications of Signal Processing To Audio and Acoustics， 2003 IEEE Workshop on. IEEE， 2003：157-160.

[34] FAHN C S， LO Y C. On the clustering of head-related transfer functions used for 3-D sound localization[J]. Journal of Information Science & Engineering， 2003， 19（1）：141-157.

[35] HUGENG， GUNAWAN D， WAHAB W. Effective preprocessing in modeling head-related impulse responses based on principal components analysis[J]. Signal Processing An International Journal， 2010， 4（4）：201-212.

[36] HUGENG， WAHAB W， GUNAWAN D. A new selection method of anthropometric parameters in individualizing HRIR[J]. Telkomnika， 2015， 13（3）：301-307.

[37] 劉雪洁，钟小丽. 改进的头相关传输函数生理参数匹配法[C]. 中国声学学会青年学术会议， 2013.

[38] 袁康. 个性化头相关传递函数研究[D]. 大连：大连理工大学， 2016.

[39] SEEBER B， FASTL H.Subjective selection of non-individual head-related transfer functions[C]. Proceedings of the 2003 International Conference on Auditory Display.Boston，MA，USA， 2003： 259-262.

[40] IWAYA Y. Individualization of head-related transfer functions with tournament-style listening test： Listening with others ears[J]. Acoustical Science & Technology， 2006， 340（6）：24-31.

[41] 汪林，殷福亮，陈喆. 3D声场合成中近似个性头相关传递函数的主观选择方法[J]. 信号处理， 2009， 25（7）：1097-1102.

（责任编辑：杜能钢）

猜你喜欢

头部相关传递函数获取关键技术研究

猜你喜欢

杂志排行

软件导刊的其它文章