APP下载

数字电影沉浸式音频元数据与声场组相关技术标准解析

2023-05-29

现代电影技术 2023年5期
关键词:影厅声道声场

王 丰

中国电影科学技术研究所(中央宣传部电影技术质量检测所),北京100086

1 引言

沉浸式音频(Immersive Audio)技术是近些年来国内外备受关注的热点之一,该技术被引入影院后,凭借其展现出的高品质声场包容感、准确的位置感和丰富的声音细节,极大地提升了观众观影感受,为电影产业带来了巨大变革,也让电影行业迎来了新一轮的发展机遇。

众多厂商对电影沉浸式音频技术的深入研发,为电影声音创作开辟了新的空间,丰富了电影艺术作品的表现形式。而种类繁多的技术工艺也对电影行业的有序发展带来了一些阻碍,主要表现为不同厂商沉浸式音频系统在实现方案和技术规范方面各有不同,在声道数量、声场布局以及制作编码格式等方面都有着较大差别,同时都使用着各自的专用制作工具与母版格式,很难用统一的方式对不同系统的功能特性及还音特性进行判断。对于影院或终混棚建设而言,也只能从众多规格中选择某一种进行设计或改造,很难搭建出能同时兼容多规格沉浸式音频系统的还音环境。对于制片方而言,为了能尽可能多地创造票房,需要制作不同音频版本的DCP,且需为此支付更多的制作费用。

电影电视工程师协会(SMPTE)从2018 年至今陆续发布或修订了多份关于沉浸式音频的技术标准、工程指南及约束文件等技术类文档,分别对沉浸式音频的元数据、码流、打包方式、声道及声场组等方面作了定义和规范,提出了沉浸式音频渲染器预期渲染还音效果和测试建议,为影院沉浸式音频系统技术要求提供了统一的框架,为制版的统一、系统间的兼容提供了规范化指导。本文将重点对涉及影院沉浸式音频“元数据”和“声场组”的相关标准内容进行阐述,并结合其对应的技术功能进行分析与解读。

2 沉浸式音频元数据(Immersive Audio Metadata)

“SMPTE ST 2098-1 Immersive Audio Metadata”(以下简称“2098-1”)主要从声道(Channel)、声床(Bed)、音频对象(Audio Object)三个方面定义了影院沉浸式音频的元数据(Metadata)信息,对音频对象所使用的坐标系与参考系(Coordinate System and Frame of Reference)的对应关系做出了说明与定义,并强调不允许出现此标准之外的任何元数据类型。该标准仅对元数据类型作出了规范,也就是说只对沉浸式音频中可体现出的各项功能作了规定,并未对各项功能的实现方式或母版格式提出规范要求。这不仅能最大程度兼容现阶段各厂商已研发完成的沉浸式音频技术方案,而且能够为渲染效果留有充足的个性化发展空间。

2.1 声道元数据(Channel Metadata)

声道元数据是指与沉浸式音频声道相关的一组内容,主要包含声道标识(Channel Identifier)、路由目标(Routing Destination)、参考波形(Waveform Reference)等元数据信息。

声道标识用于表示唯一的音频声道,任何时候都不应存在具有相同声道标识的两个音频声道。路由目标表示与声道相关联的一个扬声器或一组扬声器阵列。参考波形用于关联与声道相关且能够被明确识别的音频素材(Audio Essence)。对于数字影院沉浸式音频系统来说,音频素材在“SMPTE ST 429-18:2019 D-Cinema Packaging - Immersive Audio Track File”(以下简称“429-18”)中被明确定义为无损压缩格式。

在实际应用中,声道元数据在渲染系统的声道指向与素材关联功能如图1 所示,以声道元数据A 为例,声道标识表明该元数据为左声道,参考波形关联的音频内容为Track1,并按照路由目标指向,从CH1声道对应的扬声器中还音。

图1 声道元数据关联示意图

2.2 声床元数据(Bed Metadata)

声床元数据是沉浸声的基础元素,包含声床标识符(Bed Identifier)、声床声道列表(Bed Channel List)、重映射系数(Remap coefficients)、条件声床(Conditional Bed)等内容的元数据。

(1)声床标识符用来识别唯一的声床,如果存在多个声床(也称作同步声床),需确保任何时候的两个声床都不得具有相同的声床标识符。声床声道列表用于列出声床中的声道,声道的具体类别将在后文做出详细说明。该标准对声床的数量未做限制,但“SMPTE RDD 57:2021 SMPTE ST 2098-2 Immersive Audio Bitstream and PackagingConstraints: IAB Application Profile 1”(以下简称“RDD 57 Profile 1”)中建议现阶段沉浸式音频码流只能含有一个声床,且同时出现的声床音频素材数量和对象音频素材数量总和不超过128个。为符合现阶段的声床规范要求,各厂商的沉浸式音频制作系统使用了不同的解决方案。我们用3 个9.1OH 声床举例,有的制作系统在前期编辑和母版制作阶段仅允许支持单一声床,混音师需要将音频工作站中与声床相关的3 个声床音频内容分配给同一组声床母线中,将其在母版制作阶段合并为单一声床,由于母版中声床只占用10个声轨,剩余声轨最多支持118个音频对象(图2)。有的制作系统在前期编辑和母版制作阶段支持多个同步声床,混音师可以将音频工作站中多个音频内容分配给3 组声床母线,由于母版中声床占用了30个声轨,剩余声轨最多支持98 个音频对象,但支持同步声床的母版本身具备更多的可操作空间,母版中的3组声床在编码过程前会被缩混为单一声床(图3)。

图2 支持单一声床的母版制作流程示意图

图3 支持同步声床的母版制作流程示意图

(2)重映射系数是一组将原始声床各个声道的内容分配到不同目标声场组配置的声道增益参数,原数据中如果存在重映射系数,那么该数据中应有能够正确识别对应目标声场组类别的附加元数据信息,以及映射到目标声道的附加增益原数据信息。条件声床用来表示一个或多个用于不同声场组配置的替代声床。元数据中如果存在条件声床,应支持对应的替代声床和使用该声床的条件(声场组配置),并要求条件声床至少应支持“SMPTE ST 428-12:2013, D-Cinema Distribution Master Common Audio Channels and Soundfield Groups”(以下简称“428-12”)标准中定义的5.1 和7.1DS 声场配置。RDD 57 Profile 1 对重映射与条件声床做出了建议性限制,明确现阶段不需要支持这两项功能。

2.3 对象元数据(Object Metadata)

音频对象包含音频素材和相关元数据信息,根据元数据指示的三维空间位置和其他属性进行渲染还音。该位置可能与单个扬声器有关,也可能与多个扬声器有关,主要包含对象标识(Object Identifier)、参考波形(Waveform Reference)、对象位置(Object Position)、对象扩散(Object Spread)、对象增益(Object Gain)、去相关(Decorrelation)、定位公差(Snap Tolerance)、条件对象(Conditional Object)、区域控制(Zone Control)等内容的元数据集。

(1)对象标识用于为音频对象提供唯一标识信息,任何时候的两个音频对象都不得具有相同的对象标识符,对象标识符在音频对象的持续时间内是不变的,标识符应保证能够在播放过程中支持标记任何时间点同时出现的最大数量音频对象。本标准未定义同一时间出现的最大音频对象数量,但RDD 57 Profile 1 对音频对象数量做出了限制,明确同一时间最多可存在118 个对象。参考波形是用于引用与音频对象相关联的音频素材,该标识能够对音频素材进行明确的识别。在影院沉浸式音频系统中,音频素材在429-18标准中被明确定义为无损压缩格式。

(2)对象位置元数据用于确定音频对象在三维空间中的位置,该空间应与影厅空间关系一一对应,且位置信息不能超出该空间范围之外。在本标准中,对象位置通过笛卡尔坐标系指示,具体对应关系将在下文中予以说明。对象扩散元数据描述了音频对象在三维空间中的大小和形状。“SMPTE ST 2098-2:2019 Immersive Audio Bitstream Specification”(以下简称“2098-2”)标准中规定,沉浸式音频应支持以音频对象位置为中心向四周均匀扩散(也称1D 模式扩散),也支持以对象位置为中心向四周非均匀(自定义)扩散(也称3D 模式扩散)。在RDD 57 Profile 1 对扩散的方式做出了建议性限制,明确现阶段影院沉浸式音频仅包含1D 模式的扩散。从现阶段应用层面来看,确定位置及扩散的表达方式多种多样,有的厂商使用三维坐标方式将位置信息映射在笛卡尔坐标系中,有的厂商使用向量的方式将位置信息映射在笛卡尔坐标系中,而无论使用何种方式表达,位置和扩散两项功能都是沉浸式音频中最基础的元数据信息,也是实际应用中最核心的功能,任何厂商的影院沉浸式音频系统都应支持这些功能。

(3)去相关元数据用于表示音频对象去相关量的大小。在沉浸声还音系统中,当通过两个或多个扬声器再现音频对象时,感知到的声音对象可以是局部(小范围)的,也可以是相对扩散(大范围)的,这取决于重现音频对象的源信号是相关的还是不相关的(或者说是相同的信号还是经过处理后有所区别的信号)。用多个相同信号再现一个声音,则会产生一个相对容易确定发声位置的小范围声源;使用多个相同但经过去相关处理的信号再现一个声音,则会产生一个更宽、更分散且不太容易确定发声位置的声源。在RDD 57 Profile 1对去相关的方式做出了建议性限制,明确现阶段影院沉浸式音频仅包含最小或最大两种去相关模式。从现阶段应用层面来看,去相关通常都是跟随对象扩散而存在的,当音频对象为无扩散(点声源)状态时,去相关量也为最低(无去相关)值,从而保证多只扬声器能准确还原出明确的声源位置。当音频对象为扩散状态时,去相关量需为最大值,保证多只扬声器能还原出一定范围的声源,而非点声源。标准中没有对去相关的实现方式做出统一的要求,各厂商需根据自身技术特点研发出各具特色的去相关渲染算法。

(4)定位公差元数据,表示对象音色保留优先于对象位置保留的程度,该属性的极限值分别表示“保留对象音色具有最高优先级”和“保留对象位置具有最高优先级”。 区域控制元数据表示区域内指定的扬声器被排除在渲染之外的程度,对于每个基本区域,音频对象可能有单独的增益值。在RDD 57 Profile 1 对定位公差与区域控制功能是否必须存在没有做出明确限制,但明确要求定位公差与区域控制如果存在,那么各自都应为最大值。对于定位公差功能来说,最大值意味着该音频对象只会从某一只扬声器中还音,对于区域控制来说,最大值意味着影厅还音系统控制的区域会完全屏蔽不发声。从现阶段实际应用效果来看,当启用定位公差时,音频对象在移动过程中不会出现连续的相位变化,而是从影厅中的一个扬声器突然跳跃至另一个扬声器。启用区域控制功能时,当音频对象被定位在某个被屏蔽的区域时,该信号在主观听感上不应出现降低或消失的情况,而是通过其他相邻区域的扬声器还原出该音频对象的内容。由于现阶段未对定位公差与区域控制两项功能的有无做出明确要求,所以各厂商的沉浸式音频系统对这些功能的开发程度也参差不齐,有的系统完全支持定位公差与区域控制功能,有的系统暂不支持,也有的系统仅渲染还音端支持,而编辑制作端暂不支持。

对象增益定义了与音频对象相关联的音频素材的增益量,该功能可为同一个音频素材在不同声场组配置的还音系统设置不同的增益量。条件对象元数据表示音频对象应用的目标环境(声场组配置),混音师可能需要为一个或多个不同声场组配置分别制作不同的音频对象,该元数据应支持识别替代音频对象及其使用的特定声场组配置。在RDD 57 Profile 1 对对象增益与条件对象做出了建议性限制,明确了现阶段影院沉浸式音频不应包含对象增益与条件对象内容。

2.4 坐标系和参考系

影院沉浸式音频应使用笛卡尔坐标系指示音频对象的位置,该坐标系使用三个正交轴(x、y、z)来定位空间中相对于原点的位置点,x 轴代表左右位置,y轴代表前后位置,z轴代表上下位置,如图4所示。该坐标系为正方体参考系,能够完全映射影厅内部的空间结构。

图4 笛卡儿坐标系

对于影厅来说,音频对象在正方体坐标系内对应的位置坐标值应与影厅实际空间结构一一对应。标准定义了影厅的“前”平面是银幕的位置,影厅中心面向前方的观察者左侧、右侧、后侧及上方,分别对应影厅“左”平面、“右”平面、“后”平面及“上”方天花板位置。元数据可以支持音频对象在正方体坐标系内、上和外部的位置,但至少应支持从Z轴中点到正方体坐标系顶部的正方体上和内部位置(即应支持上半个正方体坐标系中的任意位置)。将正方体内的音频对象位置映射到影院扬声器是编解码渲染器的功能,其规范在2098-2 标准中有明确定义,但无论位置映射到的房间形状如何,正方体上的参考点都应具有明确的含义:

(1)正方体的正面应映射到电影院的前墙位置,且最前面的扬声器发声面应视为影厅的标称前墙。

(2)正方体的左表面应映射到电影院的左墙位置,且左侧的扬声器发声面应视为影厅的标称左墙。

(3)正方体的右表面应映射到影院的右墙位置,且最右边的扬声器发声面应视为影院的标称右墙。

(4)正方体的背面应映射到电影院的后墙位置,且后面的扬声器发声面应视为影厅的标称后壁。

(5)正方体的中高平面应映射到传统二维扬声器系统的高度(例如传统的5.1或7.1声场组模式下扬声器所在的高度)。

(6)正方体的顶部应映射到电影院的天花板位置,且顶部扬声器发声面应视为影厅的标称天花板。

(7)正方体的底部应映射到影厅的标称地板。

举例来看,图5 表示了坐标系位置与影厅位置的映射关系。左图绿色点代表了标准正方体空间坐标系中的一个位置,右图绿色点代表了影厅示意图中对应的映射位置。对于大多数影厅来说,影厅内部结构不会是标准正方体,而是长度要大于宽度的不规则空间,坐标系空间边缘对应扬声器发声面所形成的平面,如右图中蓝色虚线所示。对于任何一个影厅,该音频对象的位置都是处在从前至后的33%处,从左至右的25%处,与左图中正方体空间坐标系所表示的位置完全对应。

图5 坐标系位置与影厅位置映射关系

3 沉浸式音频声道和声场组(Immersive Audio Channels and Soundfield Groups)

“SMPTE ST 2098-5 D-Cinema Immersive Audio Channels and Soundfield Groups”(以下简称“2098-5”)标准是在428-12标准基础上的延伸与拓展。后者定义了基于声道的数字影院音频素材的标识符,还定义了基于声道的声场组的标识符,前者将这些定义与概念扩展到了与沉浸式音频相关的附加音频声道和声场组中,明确了影院沉浸式还音系统与传统环绕声还音系统的关系与区别,将428-12 中定义的参数与数字影院沉浸式音频声道和声场组相关联,确定了沉浸音频声道及声场组的结构类别和命名规范。下面将428-12标准中的音频声道及声场组规范与2098-5标准相结合进行梳理与解读。

3.1 音频声道

常规音频声道(沉浸声场配置中的基础层声道)是指播放同一个单声道音频资产的扬声器(或扬声器组),声道名称及标识符,如表1所示。

表1 常规(传统)音频声道标识表

沉浸式音频声道是指在沉浸式声场配置中,播放同一个单声道音频素材的高度层及顶层扬声器(或扬声器组),声道名称及标识符如表2所示。

表2 沉浸式音频声道标识表

为推动实现各厂商影院沉浸式音频系统的互操作性,RDD 57 Profile 1对现阶段声道类别给出了建议性限制,明确现阶段只允许使用L、C、R、Lss、Rss、Lrs、Rrs、Lts、Rts、LFE这10个声道。

3.2 声场组

声场组是通过给定的声场配置同时播放一个或多个音频声道的集合。表3 列出了常见的传统数字影院声场组,每个声场组由一个或多个音频声道组成,这些声道将通过给定的声场配置同时播放。

表3 常规(传统)声场组标识表

影院沉浸式音频还音系统声场组是由沉浸式音频声道和常规音频声道共同组成的。表4 列出了常见的数字影院沉浸式声场组,每个沉浸式声场组由一组常规的音频声道加上一个或多个沉浸式音频声道组成,可通过给定的沉浸式声场配置同时还音播放。

表4 沉浸式声场组标识表

由于影院沉浸式音频系统目前的发展现状难以实现对以上全部声场组配置的渲染支持,为推动实现各系统间的互操作性,RDD 57 Profile 1对现阶段声场组类别给出了建议性限制,明确现阶段只能使用7.1DS和9.1OH两种声场组配置。这种限制虽然会对部分厂商研发的渲染还音效果产生一定的负面影响,但能够有效统一影院还音系统中扬声器布局的一致性,有效降低影院升级或更换沉浸式音频系统的改造成本。

4 发展与思考

SMPTE 发布的沉浸式音频系列标准有一定的前瞻性,其目的是规范和统一沉浸式音频的元数据结构类型,让不同技术厂商使用统一的交互格式,使各自的系统具备互操作性。国外一些影院沉浸式音频厂商早在2019 年跨协会数字电影论坛(ISDCF)上已实现了基础渲染还音功能技术层面的互操作,并联合欧洲数字电影论坛(EDCF)创建了影院沉浸式音频码流约束性文档,为现阶段不同沉浸式音频系统的兼容提供了相对完整的技术指南。然而,从现阶段实际应用情况来看,各影院间暂未完全实现使用相同DCP 在任意品牌还音系统完成渲染还音的目标,一些互操作性较高的品牌,也会因渲染技术不同,出现同一个内容在不同品牌渲染系统中还音效果的差异化。基于此原因,声音制作机构和影院往往会选择市场占有率较高的厂商设备,从而保障同一部影片能够在尽可能多的影厅实现相同的渲染还音质量。

我国现阶段也有多个机构正在从事影院沉浸式音频技术的开发与应用工作,部分机构已经打通了从软件到硬件、从制作端到放映端完整技术链条,并在国内外多个影厅得以商业应用。单从技术层面来看,遵循SMPTE 系列标准而开发的沉浸式音频系统能够在现阶段实现相对良好的兼容性,但这些技术标准可能会涉及国外相关厂商的技术专利,存在着被国外核心技术壁垒“卡脖子”的风险。目前,我国部分沉浸式音频技术研发机构也在自发组建行业团体,酝酿着具有自主核心技术知识产权的沉浸式音频技术规范。

通过以上分析可以看出,形成沉浸式音频自主核心技术知识产权,完善自有技术规范,只是防止被国外技术“卡脖子”的第一步。此外,还需要充分挖掘和发挥出自有核心技术知识产权在电影产业链中的商业价值,将自主核心技术有效嵌入到沉浸式音频制作端、放映端,拓展活跃用户数量,形成良好的商业运营生态环境,才能够有力支撑电影技术的高质量发展。❖

猜你喜欢

影厅声道声场
9.7.8声道、造价250余万 James极品影院赏析
为发烧需求打造的11声道后级 Orisun(傲力声)OA-S11
基于深度学习的中尺度涡检测技术及其在声场中的应用
基于BIM的铁路车站声场仿真分析研究
探寻360°全声场发声门道
实现从7.2到11.2声道的飞跃 Onkyo(安桥)TX-RZ830
总局将组建“人民院线” 专厅播放主旋律电影
看电影,你会选座吗
看电影,你会选座吗
看电影,你会选座吗