APP下载

基于Ambisonics算法的3D声音创作平台

2020-06-29翁若伦

复旦学报(自然科学版) 2020年3期
关键词:声场声源解码

翁若伦

(上海音乐学院 音乐工程系,上海 200031)

1 平台开发背景、需求与解决方案

在当今电子音乐创作越来越强调延伸“沉浸感”的背景下,音乐科技工程师越来越多地参与到创作中,寻求用技术手段,与作曲家一起探索实验声音作品的体验感[1].现行的多声道电子音乐创作制作系统多是基于1个多声道工作室的,一般按照固有制式配置有环绕音箱,如更偏向音乐类的4.1、8.1声道和更偏向电影配乐5.1、7.1声道.实验性电子音乐领域也逐渐有类似IOSONO[2]和法国声学创作中心之类的公司或机构运用波场合成(Wave Field Synthesis, WFS)[3]技术进行研究创作.波场合成是1种运用“惠更斯原理”的声音回放技术.声波在空间的分布状态称为波场,波场合成使用扬声器阵列,通过WFS的3D算法,可以合成出任意时刻的波场.也就是说,通过波场合成进行声音的回放,整个声场的分布是精确真实合成出来的.也正因为此项技术对音像数量、间距等硬件要求极高和苛刻,并且并不天然支持3D声场的还原,因此该技术鲜少被广泛运用.

本研究需要1套3D全息声音频处理平台,该平台在增加艺术作品创意和呈现的艺术空间感的同时,也能最大程度保持搭建适配的灵活性,能实现包括现场音频的采集、音频流的传输处理、3D全息声场还原同耳机的再现等.

基于这样的需求,平台的搭建设计选择上海音乐学院南楼607电子音乐实验室作为模版,根据声音的类别和声源的形式,搭建1个由Ambisonics算法构成的3D多声道信号系统,将声源分配并较为准确地定位到此平台中,并且通过头部相关传输函数(Head Related Transfer Function, HRTF)技术,将之前的3D多声道系统虚拟还原在耳机平台中.

2 实验室整体情况

本平台搭建的实验室位于上海音乐学院南楼607工作室.该房间尺寸如下: 长7.4m,宽7.2m,高3.4m.整个房间分成3个部分: 1) 制作区以正六边形桌为中心,制作用设备均在此区域内;2) 听音区为听者提供3排座椅;3) 设备区在整个房间的右下角,用于放置设备.实验室平台设计效果图如图1所示.

图1 实验室平台设计的效果图Fig.1 Effect diagram of laboratory platform design

整个房间内安装了桁架,可用于安装音箱、无线设备、摄像机、投影等交互式作品所需要的设备,这些设备的位置可以根据实际要求设置在桁架上的任意位置.房间内提供了约260寸双层透声编织投影幕,共配备3台投影机.制作区也提供了4进1出HDMI切换器,方便多台电脑协同工作.房间内共设置了22只全频扬声器与1只低频扬声器.22只全频段扬声器采用SE Egg 150扬声器.这种扬声器使用了独特的单壳式结构(刚性和谐振中性),实现了接近零衍射干扰,且内部无驻波,从而提供了平滑频率响应.独特设计的低频倒相孔提供了足够的低频下潜,且瞬态响应也很好.每只扬声器提供了100W的无失真功率,满足了监听响度的要求.对于低频效果通道,使用1只Genelec 7060A作为补充.

音频系统输入方面,通过多达18组话筒进行拾音,既可以拾取整个乐队及厅堂的声音,也可以拾取乐队中每个声部的独立声音.该信号流通过多通道音频数字串行接口(Multi-channel Audio Digital Interface, MADI)及Dante等多通道数字音频传输技术送入音频处理电脑进行实时音频处理,之后在MADI DA接口进行数模转换后,提供离散模拟信号,分别接入音箱功放系统.通过这样的设计,平台可以回放定制的3D声音节目源,也可以向下无损地支持传统格式的立体声或者其他环绕声节目源.

22只扬声器并未按照某种特定的环绕声标准摆放.扬声器安装至桁架上,因此可以根据需要做位置调整.目前该房间提供了3种声音创作系统: 1) 基于Onkyo PR-SC5509解码器,最高支持9.2通道的环绕声编码和解码,兼容Dolby、DTS等格式,并支持将立体声声源上混到9.2通道;2) 基于Meyer Sound D-Mitri音频矩阵系统,基于Object的制作模式,制作与回放的扬声器摆放可不同,48轨双SSD硬盘回放系统;3) 本文论述的基于Ambisonics的全景声创作系统.多种制作系统制式的共存,不仅是兼容性的考虑,同时可以方便地比较不同声音空间化技术的差异.

基于Ambisonics算法的编码和解码的3D音箱布局设计构建了3层半球形包裹式结构: 第1层12只音箱,组成完整的1层较为平均的基础环绕音箱层;第2层为前置2只,后置3只,不作为空间音箱定位,仅作为信号过渡层;第3层顶置音箱层5只,位于顶层桁架上,4只呈方形4脚排列,1只位于正中心.总共使用的音箱为12+4+1=17只,实现声音在3D半球面层面的运动[4].实验室硬件设备的线路连接图如图2所示.

图2 实验室硬件设备的线路连接图Fig.2 Wiring diagram of laboratory hardware equipment

3 核心信号处理程序

图3 平台系统模块信号的流线图Fig.3 Streamline diagram of platform system module signal

该3D声音创作系统流线图如图3所示,包括: 音频素材获取模块,用于获得音频素材; 核心数字信号处理编码模块,用于根据所述音频素材生成通道不同的音频信号流; 解码还原模块,用于将所述音频信号流进行3D声场还原。音频素材获取模块包括声音采集单元和声源素材预处理单元,其中,声音采集单元以Ambisonics制式采集音频素材;声源素材预处理单元用于对获取的声源素材进行预处理,通过单声道或多声道输出音频素材。核心数字信号处理编码模块根据音源通道数量、Ambisonics编码阶数和声源路径设计,基于FAUST语言将音频素材编码为Ambisonics制式音频,生成通道不同的音频信号流。解码还原模块包括音箱组件和音箱解码端,音箱组件由多个音箱组成,其中,音箱解码端将音频信号流与音箱组件的位置布局进行映射,基于FAUST语言输出针对所述音箱组件的声音信号分布信息,音箱组件中每个音箱根据所述声音信号分布信息具有独立的音频信号,所述音箱组件中的音箱呈现满足Ambisonics制式的半球形音箱布局,进行3D声场还原;解码还原模块还包括耳机和耳机解码端,耳机解码端将音频信号流与虚拟音箱的位置布局进行映射,进行双耳效应的HRTF功能卷积转换,实现虚拟3D声场还原。

3.1 Ambisonics算法与FAUST音频信号处理语言

Ambisonics是1种拾取和还原声音的技术,专门用来模拟原始3D声场效果,通过从低阶到高阶的球形拾音多面体阵列和灵活多变的解码还原模式,实现3维度全覆盖的360°沉浸式全景环绕声音.与普通环绕声不同,除了水平环绕声音,还包括拾音位置或者听众上下(头顶和脚下竖直的声源方向)的声源.它是各向同性的: 来自任何方向的声音被平等地对待,而不是假设声音的主要来源是正面的,后置声道仅仅是用于环境或特殊效果.所有扬声器对任何方向的任何声音都有贡献,而不是仅使用两个相邻的扬声器产生作用.与其他大多数环绕系统相比,听觉位置再现声场的稳定性和成像度变化较小,声场甚至可以被扬声器阵列外的听众所欣赏.Ambisonics只需要3个成份通道用于基本水平环绕,4个成份通道用于全球面声场,最少只需要6个扬声器就能组成全球形重放还原(球面3D),水平2维还原(平面2D)最少需要4个扬声器.

Ambisonics信号与播放系统的扬声器放置灵活(在合理的限度内),同样的素材可以解码为不同数量的扬声器,进行相对应的Ambisonics算法阶数选择.阶数越高,意味着声场还原的效果越理想,同样对于音箱的数量和摆放要求也越高.高阶Ambisonics可以以额外地传输通道和更多的扬声器为代价来获得任何所需的空间分辨率.

FAUST(Functional Audio Stream)由GRAME(法国里昂国立音乐创作中心)开发,是1种用于声音合成和音频处理的功能性编程语言,着重于合成器、乐器、音频效果等的设计,多用于高性能信号处理应用程序和音频插件,广泛编译于各种操作平台.FAUST语言对Ambisonics技术有着很好的编译和支持,并且有丰富的资源库可以进行调用[5].

3.2 Ambisonics的数字信号处理(Digital Signal Processing, DSP)

Ambisonics的编码和解码工作全部由FAUST语言编写,再生成插件mxo.平面2D和球面3D两种模式的FAUST编写的代码中都包括定位(trajectory)、编码(encode)和为音箱解码(decode)[6].用FAUST进行Ambisonics的信号处理如图4所示.

图4 用FAUST进行Ambisonics的信号处理示意图Fig.4 Signal processing diagram of Ambisonics with Faust

平面2D设置2种音源输入模式和12个平面音箱输出通道,Ambisonics阶数为5;球面3D模式设置各自独立定位的2种音源输入模式和12+4+1=17个半球面音箱输出,Ambisonics阶数为3.

在2D编码(map)环节中,输入为音源信号,之后2个参数为定位参数: 角度(azimuth),深度(distance),采用通用的polar极坐标定位模式(ad),为了实际操作方便,在之后阐述的交互界面中,设计了与角坐标(xy)的转换.Ambisonics阶数n=5,编码后的输出为2n+1=2×5+1=11个Ambisonics成份通道.之后的解码模块使用与编码匹配的阶数5和输出匹配的12只音箱配置,默认音箱平面上均匀分布,音箱之间间隔360°/12=30°排列.

球面3D的信号走线图与2D类似,在编码(map)环节中,依旧采用极坐标编码,添加了高度(elevation)构成(aed)完整的定位模块.同样,配合Ambisonics阶数n=3编码后的输出为(n+1)2=(3+1)2=16个Ambisonics成份通道,由17只音箱进行还原.特别的地方在于,3D模式的解码模块需要根据场地的实际情况个性化配置音箱的位置、角度等参数,并且在FAUST代码中手动设定17只音箱的位置信息: 如第1层音箱间隔角度为360°/12=30°,高度为0°;第2层音箱间隔360°/4=90°,高度为45°;顶置音箱角度为0°,高度为90°.

4 交互界面设计

Max/MSP的设计界面主要包括2部分: 第1部分是声音空间运动路线定位发送模块(Patch_Trajet),主要通过OSC传输协议进行打包发送音源位置信息;第2部分是Ambisonics信号处理单元(Patch_HOA),运算包含了上文论述的DSP音频处理模块.

在运动路线定位发送模块(Patch_Trajet)中,Max/MSP主要设置了3种可以编辑声音空间位置信息的方式: 第1种方式采用绝对位置坐标(coordinate),它包含极坐标的3个参数,即角度(azimuth)、深度(distance)和高度(elevation),三者分别独立进行控制,同时开放接口,参数可以被外部例如传感器等操控信号映射(mapping),保留交互兼容性;第2种方式是函数方程式(function),基于x,y,z进行函数运算的控制,添加使用低频波形振荡器(Low Frequency Oscillator, LFO),进行不同的组合,达到较为复杂的“数学方程式可视化”路径模式;第3种方式是路径自定义手动画线(animation),方便艺术家比较个性化的路径设计、保存和回放.这种手动画线方式需要通过类似TouchOSC的多点触屏软件或者类似BCF2000等MIDI控制器进行路径坐标输入,同时设计了3D可视化的窗口,观察模拟路径的走向[7].Max/MSP路径编辑界面如图5所示.

图5 Max/MSP 的路径编辑界面窗口Fig.5 Trajectory editing interface window of Max/MSP

5 沉浸式虚拟听觉试听设计

作为本系统平台测试试听的重要设计环节,解码还原到现场多声道音箱的声场将同步虚拟还原在耳机平台中: 环境类声源这类声音包括现场环境声音以及任何具有环境烘托的声音.对于这类声音的拾取使用特定的虚拟现实(Virtual Reality, VR)4轴传声器进行拾取,拾取点位根据现场环境而定.话筒输出的4路信号先经过由Ambisonics算法构成的3D多声道信号系统解码,再通过HRTF技术可直接还原于耳机平台中.点声源这类声源主要分为固定点声源和移动点声源,这类声音既可以采用传声器进行拾取,也可以使用回放音频.此类声源需要先经过由Ambisonics算法构成的3维多声道信号系统进行编码定位,解码后再通过HRTF技术还原于耳机平台中.由此流程可见,耳机试听平台可以看作是之前3维多声道音箱播放环境的1次双耳环境下的虚拟模拟呈现[8].

同时,为配合研究VR、混合现实(Mixed Reality, MR)的声音设计试听,特别设计头显可穿戴设备的交互控制接口.头显设备的加入,则加入了听者相对位置的概念,旨在做到整体声场能够随着听者头部的位置变化而做出相应的变化.因此,在之前的音频处理系统的末端,通过HRTF技术之前,再添加了1道由Ambisonics算法构成的3维多声道信号系统处理,它区别于之前的一系列针对于声源定位使用,特别针对头显设备参数(offset)设计,头部运动的相对变化量将整体改变声场的定位,即声场方向改变与头部运动的改变反向进行[9].

6 结 语

该平台主要分为硬件改进和软件升级两部分.硬件方面,可以根据实际效果,在第2层或者第3层添加音箱进行补充,测试效果.同时考虑在其他相对较大型的室内外环境搭建系统,进行更多对比实验,形成综合成本考量的几套搭建方案样板.软件方面,可以考虑对其算法运算能力进行优化,特别是耳机虚拟还原处理模块中的头显设备运算,考虑移动设备如智能手机的编译可能性等.可以设计更多测试实验环节,对耳机的环绕声进行数据采集,对环绕扬声器系统回放声压级进行测量及校正、双耳房间脉冲响应的测量、耳机频率响应测量及校正等.另外,可以考虑尝试基于网页版本搭配耳机的试听环境,使得平台更加多样化.

猜你喜欢

声场声源解码
管道有源噪声控制中壁面分布次级声源的空间分布优化
虚拟声源定位的等效源近场声全息算法
一种基于麦克风阵列用于分离单极子和偶极子声源的方法
深海直达声区中大深度声场水平纵向相关特性
计算辐射噪声的面声源和点声源结合方法
文化解码
解码eUCP2.0
文化 解码
文明 解码
某型高速导弹气动噪声研究