APP下载

面向智能移动影院的虚拟环绕声技术研究

2020-06-15王薇娜

现代电影技术 2020年5期
关键词:环绕声时间差声源

王薇娜

(中国电影科学技术研究所,北京100086)

1 引言

专业电影声音体验随着技术革新越来越受到广泛关注。发展到今天,从5.1还音系统、7.1还音系统,直到最新的沉浸式声音系统,不断刷新着用户观影体验。DCI也已经出具了基于对象的数字电影音频技术格式规范。沉浸式音频处理主要包括以下几种方式:基于通道 (channel-based audio)、基于对象音频 (object-base audio)以及三维声场景音频 (Ambisonic scene-base audio)。不同方式的技术背后从音频制作、编解码、打包以及渲染等整套技术方案都不尽相同,但这些制式的音频文件在还音方式上基本都依赖扬声器阵列并对还音场所有较高的要求。而对于现在的移动通信设备来说,通过多声道还音设备获取环绕声效果与其移动端应用的便利性及碎片化的使用需求来说,无疑是相背离的。

随着移动互联网的飞速发展,大量用户使用移动设备,并通过耳机来体验音频内容。我们需要通过虚拟环绕声技术来产生这样的音频素材。对于耳机还音来说,最直接的沉浸式音频制作方式是利用人头录音技术直接生成音频素材。然而目前大范围的影片母版并未采取此方法制作。因此,各种多通道的影片内容,都需要通过下混的方式来转成立体声格式来适配移动端的双通道播放。特别是针对耳机的立体声格式变换,与扬声器立体声还音的自由场条件不同,耳机还音没有经过人头和耳廓的影响,为区分这种特殊的变换需要,我们称之为双耳化变换。经过双耳化变换的音频素材才能更好地形成虚拟环绕声效果。

2 虚拟环绕声理论基础

2.1 人耳空间定位原理

声音其实是有声源振动产生的一种机械波,它通过弹性介质传播,例如空气等,经过人的耳廓、耳道,引起耳膜的振动,牵动听觉神经,由大脑加工处理后,产生听觉。

人耳对声音的定位由三个维度确定:水平方位角、垂直方位角、距离。双耳效应是解决这一问题的关键,这就不得不提到两个概念,双耳时间差与双耳声级差。

双耳时间差 (Interaural time difference),指的是声音到达左右两耳的时间差,通过这个时间差大脑就能够分辨声源所在的方向。例如,声音从一侧传来,则信号到达远耳的距离要远于近耳。这种路径长度的差异导致声音到达耳朵会产生时间差,大脑通过时间差来识别声源的方向。对于低频声音,波长较长,人耳可以根据时间差引起的相位差辨别位置,当频率升高,相位差超过360°,则不能根据相位差定位。根据人耳的生理特点,由同一声源到达两耳的直达声的最大时间差为0.44~0.5ms,因此20~200 Hz的声音能够依靠相位差定位。

双耳声级差 (Interaural level difference),较高频率的声源,当声源位于一侧时,由于头部对声波的阴影效应和散射作用,在远端的耳朵感受到的声压会衰减,形成双耳声级差。较高频率的声音人耳通过声级差来判定。

图1 声音传播阴影效应

2.2 哈斯效应

早在1949年,在H.Wallach、E.Newman和M.Rosenzweig的著作 《声音定位中的优先效应》中首次讨论了 “优先效应”。两年之后,1951 年,哈斯研究了在单一连贯的声音反射下,人耳的声音感知是如何受到影响的。

因此当相邻的反射声之间的时间间隔小于50ms,人耳分不出到底有几种反射声,只觉得声音变得厚实、丰满、浑厚。通过适当的延时能够去除信号的相关性。

2.3 HRIR头脉冲响应

影响人耳定位特性的因素还有很多,当声音空间中某一点传到听者耳中时,头部、耳廓、耳道的大小和形状、头部密度、鼻腔和口腔的大小和形状都会改变声音,生成或者减弱一些频率的声音,影响人们对声音的感知。根据人的固有经验,通过这些影响变化,就能够确定声源的位置。可以通过从声源位置和到人耳鼓膜位置的脉冲响应体现这一影响。这个脉冲响应被称为头相关脉冲响应 (headrelated impulse response,HRIR)。任意声源信号与某一HRIR 的卷积会将声音转换为原始播放环境中声音所经历变化后被人耳接收到的声音。虚拟环绕声的产生正是利用这一原理,将音源信号与不同方位的HRIR 进行卷积,获得虚拟的临场感。

HRTF 头 相 关 函 数 (head-related transform function)是HRIR 的傅里叶变换。声音在传播中的变化可以看作是经过某种滤波器的响应,这个滤波器的特性函数就是HRTF。

3 耳机还音虚拟环绕声研究

3.1 多声道音源转立体声的一般方法

一个典型的5.1系统,有左声道 (L)、右声道(R)、中置声道 (C)、左环绕 (LS)、右环绕 (RS)和低频通道。低频通道的位置与中置声道位置近似重合,后文中都合并考虑。角度分别为―30°、30°、0°、―110°和110°。

图2 5.1系统扬声器位置图

典型的下混方法是通过简单的矩阵运算

其中,·为 相 乘处 理,x(t )和x(t )分 别为矩阵下混处理后的左声道和右声道音频信号,c和c为5.1声道音频映射到输出左右声道音频对应的参数。

例如ITU-R BS.775―3中详细规定了如何将多通道音频下混为立体声的方法。即:左环绕与中置声道分别衰减3dB,并于左声道相加馈给双通道立体声的左通道;右环绕与中置分别衰减3dB,与右声道相加作为双通道立体声的右通道,公式如下:

过失杀人的理由也是不存在的。苔丝在杀人后,对克莱尔坦白“我太生气了,就杀了他”。这就表明,苔丝杀人行为是故意的,并非是无故意的误杀。这点,学者吴笛已经关注到了。他在《哈代新论》中也惋惜地写道“苔丝的行为已经说明过失杀人或是防卫过当的行为都是不存在的”。

图3 5.1音频转立体声线路图

在此规范中,

杜比公司也提出了一种类似ITU 的转换方法,它提出的转换矩阵参数为:

它将后两个环绕通道信号相加再对和值衰减3dB,给输出立体声的右声道添加此信号,输出立体声的左声道减去此信号。

这几种做法有效保留了音质,然而也存在一定问题。下混后的立体声通道,左声道中完全不存在原5.1系统中右前声道的内容,右声道亦然。这与实际人耳听声的情况有差别。在5.1 还音系统中,虽然人耳接收到异侧的声音较弱,但仍然是存在的,这对空间定位、音源移动会起到积极作用。因此此种矩阵参数转换方法对空间声的渲染存在偏差,尤其是当内容有移动音源时,空间方位存在不连续现象。

3.2 基于HRTF的虚拟环绕声生成方法

利用耳机还音的过程中,有一个明显的特征就是头中效应。这是由于耳机直贴耳道,缺失了自然状态下,人头、耳廓等对声音的影响。同时,也缺失了原始听音环境下的混响特征。因此我们采用另一种更为近似的建模方法。

将5.1声道转成双耳信号,通常我们会使用头部脉冲响应HRIR。HRIR 处理后的音频为:

其中,*为卷积处理,x_(t )和x_(t )分别为HRIR处理后的左声道和右声道音频信号,x(t )为输入音频信号。

其中,x_(t)、x_(t)、x_(t)、x_s(t)以及x_rs (t)分别为左声道、右声道、中置声道、左环绕以及右环绕音频信号。

h(t)和h(t)为5.1声道对应的 HRIR 中的左耳和右耳的时域响应。

具体实现示意图,如图4所示。

图4 基于HRTF的虚拟环绕声立体声线路图

在计算机处理过程中,卷积算法通常会通过频域相乘来实现。HRIR 所代表的时域响应经过快速傅里叶变换,得到头传函数HRTF。输入音频信号也通过快速傅里叶变换,由时域转为频域。再与HRTF相乘,获得输出结果。

考虑到人耳对后方的音源定位并不敏感,为了获得更好的声音包围感,对于左右环绕的头传函数:H (Rs,L)、H (Ls,L)与 H (Rs,R)、H(Ls,R),其中每一个传递函数都表示为头传函数组,这一个头传函数组中可以由为不同仰俯角的头传函数组合。这样会使得环绕声声像被拉宽,形成更好声音包容感。

4 实现结果

我们选择了一段5.1声道的音频文件,该音频文件内容是一段单纯的5.1扬声器系统依次发声的乐声示例。这样更方便我们对比下混后的定位效果。内容依次由左前、中、右前、右环、左环整体环绕的乐声组成,其中左环是鼓点声。画面示意图如图5所示。听音者的虚拟位置应该在中间沙发处。源音频格式为:6 通道,48Khz 采样率,32bit位深度。

图5 示例音频画面

图6 (a)采用某商业DAW 软件由5.1转至立体声文件,图6 (b)为使用本文所述的基于HRTF方法进行的虚拟环绕声生成的音频波形图。对比如图6。

从时域波形图上能够直观看出,图6 (a)中圈起的地方可以看到,在下混时,输入声音只混到同侧输出,对侧完全没有。而图6 (b)中会有少量异侧分散。从图7的语谱图也能够看出 (a)的频谱能量在左前、右前、左环、右环单独发声时,输出信号能量也都集中在单侧。

图6

图7

从主观听感上,也能够明显分辨出图7 (a)的音频声像停留在正左、正右的方位,且较难区分同侧的前与后声像位置。而图7 (b)的音频声像将左前、右前的声像位置都还原得较为准确。

需要注意的是基于HRTF的虚拟环绕声算法只适应于利用耳机还音的情况,如果用扬声器重放双耳信号,可能会产生串音问题。

5 面向智能移动影院应用的几点考虑

5.1 生成虚拟环绕声算法的改进

采用HRTF算法处理后的音频,高频可能会有所损失,音频的质量可能会发生变化。如果将这种算法与矩阵运算方法相结合,设计一个混合权重值,可能会将两种算法的优势互补。基本思路为利用PCA 主成分分析法,计算多通道信号的协方差矩阵,并做特征分解。根据最大特征值的比重来判断是否是一个主成分突出的音频。如果是,则偏向使用HRTF算法处理,如果不是则偏向使用矩阵算法处理。

5.2 影片发行版压缩编码

由于智能移动影院系统在实际应用中要考虑发行、存储效率等问题,发行版中的音频需要经过压缩编码。目前使用的AAC 编码,这种编码是有损压缩的,为确保获得良好的虚拟环绕声效果,因此需要制定恰当的音频编码参数。后续工作还需通过一系列主观评价测试来确定合适的编码码率。

5.3 扬声器播放

基于HRTF运算形成的虚拟环绕声由于已经模拟了从扬声器到人耳的音频传输路径,因此只适合应用耳机还音。这也是我们项目之初考虑到移动影院应用大多数使用场景而设计的解决目标。但在应用当中,无法强制限制用户的还音方式。例如,当用户使用移动应用连接蓝牙扬声器设备时,还音体验会有所下降,因此后续在播放器应用中添加了对立体声扬声器输出适用的串音消除滤波器,来提高扬声器的还音体验,并获得较好的外置声音包容感,可供用户选择开启。

猜你喜欢

环绕声时间差声源
虚拟声源定位的等效源近场声全息算法
一种基于麦克风阵列用于分离单极子和偶极子声源的方法
室内声音导航系统
谈舞台多声道环绕声的声像设计
环绕声节目在调频广播中播出的实验
基于BP网络的GIS局部放电声电联合检测故障定位方法
幼儿用餐的时间差对区域游戏的影响
立体声音乐节目后期制作中声像定位的探讨
厘米级室内无线定位方法研究
环绕声多样的形式