音频定义模型简介

2020-02-23张静琦李薰春

电声技术 2020年9期

张静琦，李薰春

（1.浙江广播电视集团广播电视传输发射中心，浙江杭州 310008；2.国家广播电视总局广播电视科学研究院，北京 100866）

0 引言

广播和电影的音频正在向沉浸式和交互式体验发展，需要使用更加灵活的音频格式。基于固定声道的方法不足以涵盖这些发展，因此正在开发基于声道、对象和场景的组合格式。报告ITU-R BS.2266［1］（未来音频广播系统框架）、建议ITU-R BS.1909［2］（有/无图像的高级多声道立体声系统的性能要求）和ITU-R BS.2051［3］（高级音频系统节目制作），都强调了这些发展和生产链以适应音频技术发展的需求。

基于声道的音频是在节目制作期间将内容混入预定数量的信号声道，且每个声道与特定静态位置处的扬声器相关联的一种音频呈现方式。每个声道通过将声道路由到相关的扬声器（如果存在的话）或者路由到一个或多个可用的扬声器（如通过声道缩混）来再现，以最佳地表示在预期扬声器上的播放。制作流程、广播网络和再现系统等，均通过一系列扬声器的位置来定义。相关的示例可参见ITU-R BS.775［4］建议书《有/无图像的多声道立体声系统》定义的系统。

基于对象的音频是内容元素相互独立，并伴有描述其关系且使渲染器生成与重放系统最相适应的信号的元数据的一种音频呈现方式。元数据可能随时间有所变化，以改变内容要素的空间位置等。基于对象的方法可允许用户与音频内容进行互动。

基于场景的音频是由一组系数信号来代表内容的音频呈现方式。这些系数信号是空间正交基函数（如球形或圆形谐波函数）的线性权重。可通过将这些系数信号提供至目标扬声器或耳机，对场景进行重现。节目产生是源自重现解耦，并允许在不知晓目标扬声器的数量和位置的情况下创造混合的节目素材。高阶高保真立体声（Higher Order Ambisonics，HOA）正是基于场景的音频的一个示例。

基于对象、基于声道和基于场景的要素既可相互关联，又可以独立存在。为允许实施基于对象、基于声道或基于场景的要素的任意组合，所有信号均应伴有必要的元数据/描述符，其中包括不依赖时间（静态）与/或依赖时间（动态）的期望听觉事件的空间位置。这些信号可使用多种交付与/或映射技术，通过扬声器的配置进行再现。

允许所有不同类型的音频（文件/流）分发的核心要求是无论使用什么音频格式，元数据都应该共存，以充分描述音频。每个单独的音轨应该能够根据伴随的元数据被正确地呈现、处理或分发。为了确保所有系统的兼容性，ITU-R BS.2076［5］建议书定义了音频定义模型（Audio Definition Model，ADM），描述了音频元数据模型的结构，可以准确描述音频文件的格式和内容。

1 音频定义模型概述

音频定义模型由一组元素组成，元素用于描述音频的各个方面。每个元素由一个XML 元素表示，包含各种属性和子元素。这些元素通过引用相互连接，但音频块格式（audioBlockFormat）除外。音频定义模型的整体结构如图1 所示。

2 音频定义模型整体架构

图1 显示了内容、格式和BW64 音频文件之间的划分。内容和格式部分组成了音频定义模型元数据，通常包含在BW64 文件中的一个块（“axml”块）中。BW64 文件部分包含“chna”块，这是一个连接音频定义模型元数据和文件中音轨的查找表。内容部分描述音频的技术内容，如对话、语言以及响度等元数据。格式部分描述音轨声道类型以及它们是如何组合在一起的，如立体声中的左声道和右声道。内容部分的元素通常对音频和节目而言是唯一的，而格式部分的元素可以重用。

2.1 格式部分

音频定义模型格式部分如图2 所示。音频包格式（audioPackFormat）将一个或多个属于同一组的音频声道格式（audioChannelFormat）组合在一起。这在渲染音频时至关重要，因为组内的声道可能需要相互交互。允许音频声道格式描述动态声道，即随时间以某种方式变化的声道。它使用音频块格式沿时间轴划分声道。音频块格式元素包含开始时间和持续时间。音频块格式中有描述声道的时间相关参数，而这些参数取决于音频声道格式类型。例如，基于对象类型的声道有子元素“方位角”“仰角”和“距离”来描述声音的位置。音频块格式的数量和持续时间不受限制，如果某样东西移动很快，每个样本可能会有一个音频块格式；而静态声道将只有一个包含声道参数的音频块格式。音频声道格式是对单个音频波形的描述。在音频声道格式中，有一个类型定义属性，用于定义声道的类型。类型定义属性可以设置为直接扬声器、HOA、矩阵、对象或双耳。这些类型中的每一种都有一组不同的子元素来指定与音频声道格式类型相关联的静态参数。例如，直接扬声器类型的声道具有子元素扬声器标签，用于为声道分配扬声器。

音频流格式（audioStreamFormat）由一个或多个音频轨道格式（audioTrackFormat）组成。在音频流格式中，会有一个描述音频流的音频声道格式或音频包格式的引用。音频轨道格式包含音频流格式标识，用于识别音频轨道格式和音频流格式。

2.2 内容部分

音频定义模型内容部分，如图3 所示。音频对象（AudioObject）用于确定音频轨道的组合和它们在文件中的位置。它将实际的音频数据与格式联系起来，是音频轨道唯一标识（audioTrackUID）的来源。

对于立体声，音频对象格式将包含两个音频轨道唯一标识，因此这两个轨道将包含立体声音频。它包含对音频包格式的引用。音频包格式将这两个音频轨道格式定义为立体声对。

音频对象格式元素还包含开始和持续时间属性。该开始时间是对象的信号在文件或记录中开始的时间，因此如果开始是“00：00：10.00000”，那么对象的信号将在10 s 的位置进入音频文件的轨道。

由于音频包格式可以嵌套，因此音频对象也可以嵌套。音频对象格式由音频内容（audioContent）引用，给出了音频内容的描述。它有诸如语言（如果有对话）和响度参数等参数。这些参数的一些值只能在音频生成后计算，是它们不在格式部分的原因。

音频节目（audioProgramme）将所有音频内容汇集在一起，形成完整的组合。

一个音频定义模型XML 树中可以定义多个音频节目元素。每个音频节目元素可能只引用音频定义模型XML 树的音频内容元素的子集，使得音频定义模型能够描述个性化音频。例如，描述体育节目的XML 树可以包含主队和客场的音频节目元素。主队音频节目可能包含“偏向主队评论”的音频内容元素和另一个“氛围”元素。客队音频节目可能包含“偏向客队评论”和相同“氛围”的音频内容。

2.3 通用定义

对于许多情况，特别是在基于声道和场景的工作中，许多所需的格式将是通用的。例如，单声道、立体声和5.1 声道都有共同的定义，每次需要描述其中一种格式时，生成和携带大量的XML是低效的。国际电联无线电通信标准ITU-R BS.2094［6］中规定了音频定义模型通用定义。通用定义中出现了多种格式，既有基于声道的，也有基于HOA 的。基于声道的格式范围从单声道和立体声一直到22.2 声。基于HOA 的格式主要有SN3D 和N3D。

3 音频定义模型元数据在高级音频系统中的应用

音频定义模型元数据在高级音频系统中的广播应用链路，如图4 所示。广播节目制作可以使用任何类型的音频源和内容，但应该用正确的元数据对其进行充分注释，以描述音频信号，并以支持此元数据的文件格式存储。分发阶段将把节目中的表示形式调整为更紧凑的形式，从而保留或生成新的元数据，以允许进一步渲染。将分发文件或流传递到广播阶段，广播阶段将呈现特定的广播格式。更高的带宽广播将允许传送和渲染许多对象和通道，而低带宽广播可能必须渲染到更传统的立体声格式。广播格式应该保留接收端所需的尽可能多的元数据。每个接收设备都有自己的渲染器，用于该设备可能的扬声器布局。例如，高保真需要一些非常灵活的东西来允许多个扬声器有不同的位置，而电视将其内部扬声器固定在已知的位置。未来的内容交付可能接收到的表现形式，将确保为用户互动和个性化提供充分的灵活性。

4 结语

当今的多媒体世界正在向观众体验更丰富的方向发展，包括更高分辨率的显示、交互性和身临其境的音频。对于音频，有不同的方法来实现沉浸式体验和交互式体验。音频的未来看起来很复杂，需要确保它可以为听众正确地再现，并且不需要在制作和传输中进行太多的干预。元数据与音频紧密相关，允许音频在整个制作、分发和传输链中得到正确的处理和再现。国际电信联盟制定的音频定义模型标准，能够充分描述音频的格式，用以满足未来音频发展的需要。