APP下载

全景声技术及应用

2021-06-15白泉

卫星电视与宽带多媒体 2021年6期
关键词:虚拟现实

白泉

【摘要】本文以全景声为核心内容,阐述全景声的诞生历史、技术原理、技术发展以及实际应用。通过图文的形式更加直观的阐述观点和问题,并结合实际加以求真论证。作者希望通过本篇论文帮助大家认识了解全景声的技术和应用。

【关键词】Ambisonics;VR(虚拟现实);音频编解码;WAVES;Pro Tools

中图分类号:TN94                     文献标识码:A                     DOI:10.12246/j.issn.1673-0348.2021.06..005

随着我国物质经济实力的不断提高,国民对于物质文化的需求也水涨船高,特别是对于精神文化需求逐年递增。为此我们的技术储备也必须不断地完善进取才能满足人民日益增长的物质文化需求。建国初期在黑白电视时代,我们声音只有一个通道叫单声道。后来随着技术的进步,彩色电视时代步入家庭从而加速了声音单声道到立体声的转变。到了高清1080P甚至超高清4K分辨率时代,我们诞生了5.1、7.1环绕立体声。技术的飞速发展给人民群众带来了更加接近真实的视听感官体验。2010年以后,随着VR头戴设备的诞生,我们进入了一个颠覆以往所有视听技术的时代——虚拟现实!那么声音便诞生出了与之相适应的技术革命——全景声!

1. 全景声技术概述

讲到全景声我们不得不先从Ambisonics这种声音格式讲起。那么什么是Ambisonics?

1.1 Ambisonics的前世今生

说起Ambisonics的历史是非常曲折的。Ambisonics以牛津大学教授Michael Gerzon(1945-1996)的理论成果为基础,二十世纪70年代,由英国国家研究发展公司主持开发Ambisonics,并成功实现了“四声道理论(quadraphonics)”的高保真沉浸空间全景360声音。

当年Ambinsonics搞得风风火火,甚至注册了商标(2010年过期)并申请了专利(大部分已经过期)。是的,尽管Ambisonics具有当时最完美的功能和效果,英国国家研究发展公司具有雄厚的技术基础和许多优势,但是Ambisonics并没有获得商业上的成功。在实际推广过程中,却由于种种因素的制约,始终没有形成大规模的市场需求,最终被搁置,甚至在一段时间内只有在爱好者粉丝中的坚持才算幸存下来。即使制作Ambisonics话筒方面一直有“持续性”研究的公司,有商业的回报,也经历了无数次转手收购才存活下来(先是Calrec,后来相继被AMS、Siemens、Soundfield Research、现在是RODE所收购)。其实只要再撑几年,随着技术的不断进步,特别是VR虚拟现实的发展变能让Ambisonics重新红火起来。由此我们可以看到,声音技术的诞生到应用商业化是漫长的过程,甚至是有赖于视觉的技术革命才能得以发展。

1.2 Ambisonics的定义

Ambisonics是一种用于记录,混音和重放三维360度音频的方法。它是在20世纪70年代被发明的,但直到最近随着VR行业的发展,全景声音频解决方案才被更多人认知。

Ambisonics音頻格式有时会与传统环绕声技术相混淆,但他们是不一样的,是有很大的区别,而正是这些差别特性,造成新兴的VR和全景视频都采用Ambisonics而不是经典的环绕声格式作为首选音频格式。

虽然传统的环绕声技术比简单的双声道立体声更加有沉浸效果,但是它们基础的原理是相同的,它们都通过将音频发送到特定的扬声器阵列来创建声音场景。立体声将音源发送给两个扬声器、5.1环绕立体声将音源发送到6个全频扬声器和一个超低音、杜比7.1发送到7个全频扬声器外加一个超低等等。

相比之下,Ambisonics与其他多声道环绕声格式不同,其传输通道不带扬声器信号。相反,它们包含与B格式声场无关的扬声器,然后将其解码为听众的扬声器设置。这个额外的步骤允许音频工作者根据声源方向而不是扬声器的位置来思考设计。并且为听众提供了用于播放扬声器的布局和数量。因此,大大增加了灵活性。Ambisonics音频格式可以解码任何扬声器阵列。并且可以完整的、不间断的还原音源而不受任何特定编解码播放系统的限制。如图(1)是从立体声、5.1到全景声的3D人耳模拟图

1.3 Ambisonics的技术解析

广泛应用于VR和全景视频的Ambisonics音频格式其中包括一种称为Ambisonics B格式的4通道格式。Ambisonics可以理解为M/S立体声拾音制式的三维扩展。Ambisonics音频格式为高度和深度增加了另外的差异通道。所得到的音频信号集称为B格式(Ambisonics B Format)。它使用至少四个通道来再现完整的三维声场。是一种拾取和播放声音的技术,专门用来模拟原始三维声场效果的声音系统。

它通过拾音“四面体阵列”(麦克风振膜排列的这种不寻常的布置被称为四面体阵列,由四个指向不同方向的心形话筒组成)实现三维度全覆盖的360°沉浸式全景环绕声音。Ambisonics除了水平X Z轴向环绕声音,还包括拾音位置或者听众即Y轴上下的声源。与普通环绕声不同,播放效果更类似于Dobly Atoms(这里必须强调一点的是Dobly Atoms目前只解决了半球形的声场,并没有解决720度球型声场的重现与还原)。如(图2)是一个全景声话筒,来自RODE公司的NT-SF

1.4 Ambisonics的编解码

编码:一个简单的Ambisonic panner(或编码器)可以获取源信号S和W两个参数,即水平θ和仰角?。它通过以不同的增益将音频信号分布在Ambisonics组件上,将信号源定位在所需的角度:

全方位的W通道始终获得相同的恒定输入信号,无论角度如何。因此,它的平均能量或多或少与其他通道的平均能量相同,W衰减约3dB(精确地除以2的平方根)。我们认为他们的价值在角度和仰角,并将结果与输入信号相乘。其结果是,输入在所有组件中完全相对应的麦克风拾取它一样响。

解码:基本的Ambisonic解码器与一组虚拟麦克风非常相似。对于完美的规则布局,可以通过将虚拟心形麦克风指向每个扬声器的方向来生成简化的解码器。这里是一个正方形:

的迹象X和Y组件是重要组成部分,其余都是增益因素。该Z组件被丢弃,因为不可能在一个平面上只用四个扬声器重现高度线索。实际上,真实的Ambisonics解码器需要许多心理声学优化才能正常工作。如图(3)是用于方形扬声器布局的朴素单频段同相解码器。

当然了,这篇文章我们讨论的主要是Ambisonics的一阶形态,更高阶的形态我们在这里不展开阐述,以图4作为参考。

图解:Ambisonic B格式组件的视觉表示直至三阶。黑色部分表示极性反转的区域。请注意前两行如何对应于全向和八字形麦克风极性图案。

了解了全景声技术的基石,我们不难推出全景声的概念了。首先来说人类只有两个耳朵,但可以在三维空间中定位范围(距离),上下前后左右方向、以及任意一侧。因为通过大脑,内耳和外耳(耳廓)的双耳时间差,双耳响度差一起工作来推断位置。这种将声源本地化的能力可能在人类和祖先中已经发展成为一种进化的必要性,因为眼睛只能看到观看者周围的世界的一小部分,并且视觉在黑暗中受到阻碍,而听觉不受光线的影响,声源本地化的能力则以不同的精度在所有的方向起作用。那么全景声用一句话概括就是一种全球通用的环绕声技术:除了水平面之外,它还覆盖了听者上方和下方的声源。它高精度的还原了真实环境下人耳的听觉体验,而且这种声音的还原再现很难让人分辨出这是真实的还是虚拟的。

2. 全景声制作流程

2.1 全景声的声音采集

全景声的声音采集目前采用全景声话筒外加单声道点话筒分轨录制,最后通过DAW混音。目前市面上的全景声话筒种类不多,国外的有森海塞尔AMBEO VR MIC 、RODE NT-SF1,国内有时代拓灵Twirling720。他们大多采用“四面体阵列”拾音,需要强调一点的是,采用全景声话筒录制,接口箱、声卡或者调音台必须留有4路XLR接口,以便接入4路音频信号。如图(5)是SENNHEISER AMBEO VR MIC的话筒内部图。

我以声卡Zoom F8外加AMBEO VR MIC 话筒简述录制全景声步骤。

将录音设备连接到三脚架上,调整角度。理想的情况下是将它尽可能的以垂直方向靠近相机。如果它的距离与VR摄像机太过遥远,声音便不会那样的身临其境,因为你的眼睛(相机)和耳朵(话筒)应该是在同一个水平上的。拧紧话筒支架,将话筒指向朝上。

将XLR线连接到Ambeo底部,按顺序将四通道的输入插到F4多轨现场录音机的输入接口。

连接好AMBEO VR MIC话筒和ZOOM F8录音机后,进入菜单点INPUT,选择希望录制的Ambisonic格式。F8的固件4.0现在包括Ambisonics解码,允许以以下格式录制360个音频:●FuMa●Ambix●AmbisonicA(立体声监视器)●FuMa(双)●Ambix(双)●FuMa+Ambix●FuMa+AmbisonicsA●Ambix+ Ambisonics A

录制Ambisonics所有格式都会记录在Poly WAV文件。当在Ambisonics模式下使用F8时,增益会自动关联,因此可以使用一个旋钮进行控制。这对于正确监视和调整ambisonic录音中的音频电平至关重要。采样率只能设置为192 kHz时,Ambisonic模式关闭。必须说明的是Ambisonic只能文件保存为4轨Poly文件,不能保存为多单声道或立体声文件。在Ambisonic模式录音时,可以点PFL监听输入声音,当PFL为PFL模式下,你听到的是转换Ambisonic B格式之前的声音,当PFL为SOLO模式下,你听到的是转换Ambisonic B格式之后的声音。

在编码的实际应用上,AMBEO只需要通过一对编码立体声输入通道和4个解码重放通道(reproducing channel),就能够实现对听众周围360度三维范围内声场效果的精确模拟和复制。当然,所使用的输入通道和重放扬声器越多,听众的听音环境就越接近于三维体圆球形。从编解码方式来看,采用Ambisonics方式录制得到的声音信号可以通过计算变换后得到很多相关的格式,双声道,立体声、5.1、7.1,甚至是11.1、22.2等各种多声道环绕声格式。

2.2 全景声的后期制作

声音录制下来以后就是后期的制作,全景声的后期制作和原来的立体声,环绕立体声5.1或者7.1完全不同,它需要DAW挂载特殊的全景声插件来处理720°度声像的变化,而之前不管是立体声还是5.1、7.1环绕立体声都是在一个平面即360°上来通过声像位置的变化来设计声场。

DAW的选择:业内通用的DAW是avid的Pro Tools。Pro Tools HD 12.8.2使用高保真度立体声音响开启了新的3D音频工作流程,并提供开始使用Facebook Spatial Workstation插件创建虚拟现实(VR)和360音頻内容的工具。同时最新版的Pro Tools 12.8.2为第一,第二和第三阶的Ambisonics增加了新的总线和音轨格式,为插件创建和操作Ambisonics音频和混音提供了框架。First Order总线有4个通道,并且是由传统声场麦克风产生的格式。更高阶的高保真度立体声系统会使用更多通道(第二阶为9,第三阶为16)以增加混合中点声源的位置分辨率。

在手机上观看全景视频,或者使用Samsung Gear VR或Google Cardboard等头戴式显示器(HMD)。Pro Tools为这些体验提供了一个完整的球形视图,通过用手指滑动或转动头部来环视四周。由于Ambisonics具有统一的环绕声音场,可以与播放时的视觉体验相匹配,因此它是360和VR音效的理想媒体。在大多数情况下,全景视频和VR的声音通过耳机传送。当移动屏幕或转动头部时,设备会旋转Ambisonic的声场以匹配观看方向,并将其转换为立体声耳机输出。

使用熟悉的后期制作或音乐混合工作流程从头开始制作Ambisonics格式的内容。Dolby Atmos Renderer插件与Facebook Spatial Workstation集合和Audio Ease的360pan套件中的插件一样,可将混音源(单声道,立体声,5.1等)定位到Ambisonics混音。如图(7.1、7.2)是Pro Tools制作全景声的软件界面

监听的选择:在监听部分目前有两种途径,一种是以标准制式摆放全景声监听音箱。这种方式以杜比5.1.4、7.1.4扬声器制式为业内标准,主要针对电影和电视行业的音频后期混音监听。如图(8)是杜比5.1.4的音箱位置图。

除了扬声器监听外,还有另外一种途径监听全景声的制作那就是耳机监听。市面上现在已经推出了全景声的耳机监听,在DAW中也加入了耳机监听全景声的插件包。如图(9)是WAVES的 B360 Ambisonics Encoder。

B360 Ambisonics Encoder能够将单声道,立体声和环绕声音频转换为Ambisonics B格式音频,从而为YouTube 360,Facebook 360或其他虚拟现实(VR)视频提供360°全景混音。Ambisonics B格式是制作360°全景声场的行业标准。与传统基于声道的单声道,立体声和环绕声不同,B格式能够用4个声道的信息表现整个全景声场。当你想要将一些单声道,立体声或环绕声音频素材添加到Ambisonics混音当中,你需要先将它们转换为B格式。B360 Ambi- sonics Encoder能够让你通过两个基本步骤完成转换。你也可以将B360插入到你的立体声或环绕声母线中,它会帮你把整个混音转换为Ambisonics B格式。你也可以将B360插入每一个轨道,从而分别将这些声音精确地定位在立体混响混音的3D声场当中。

在以上两种方式中,你都可以通过B360将多种类型的声音素材置入到一个三维声场当中,同时还可以控制混音的宽度,高度和角度。通过直观的界面和流畅的操控,B360将让你的立体混响混音流程变得前所未有的快捷,简单。

关于全景声的耳机,我在这里介绍一下Mobius: Immersive Cinematic 3D Audio Headphone。如图(10)

图10:Mobius: Immersive Cinematic 3D Audio Headphone

Mobius捆绑了来自Waves的最新3D音频插件,包括B360 4编码器和NX 4 Mix Room。对于任何使用虚拟和增强的人来说,这两个关键工具都是重要的。

Mobius的平面磁驱动器针对空间音频进行了优化,先进的3D声音仿真算法,使用6轴(四元数)跟踪与3轴加速度计和3轴陀螺仪进行连续智能头部跟踪,使声场随着头部位置的变化而发生变化。使用Mobius的实时头部追踪功能编辑,将单声道,立体声,5.1或7.1元素引入DAW的时间线。Mobius还可以精确地跟踪每秒1000次的最微小的头部动作,并提供3D 仿真算法用来创建房间内声音的空间混响感和直达声。

Mobius允许使用的音频工作站有(Avid Pro Tools,Logic Pro,Ableton Live,Digital Performer,Nuendo,Cubase,Reaper等)并与控制界面实时创造性地刻录音频,而无需佩戴VR耳机。

3. 全景声应用当下处境

与传统体验方式一样,4体验中声音与画面同等重要,是衡量整体体验质量高低的一项关键指标。而空间音频则是构建逼真VR体验的关键。空间化的声源提供了三维位置数据,与杜比全景声技术十分相似,可以让用户时时感觉到声音传来的具体位置,营造一直极强的临场感。

从电影电视到游戏音乐无不与声音相关,2017年世界范围内个人终端只有YouTube和Facebook是支持全景声播放的公众性开放平台。2019年后中国的爱奇艺和腾讯等视频平台开始陆续支持支持少量全景声音视频节目。但全景声的电视节目目前还微乎其微,目前最高也就停留在环绕立体声。换句话说,即便有,对于受众来说从终端输出这些声音需要从编解码到专业软硬件等一系列的技术性问题需要商业化解决方案。群体性的观众规模目前主要集中在杜比全景声影院。遗憾的是目前全景声影片和全景声影院与目前传统立体声电影和影院比仍旧比例失衡。因此,发行平台数量上的限制也就使得内容创作者制作全景声的热情大大降低。毕竟经过自己潜心打造的东西不能得到有效的传播对于任何人来说都不是那么容易接受的一件事。不过,随着人们越来越重视声音的逼真性体验感,我们有理由相信未来主流媒体以及互联网音视频平台将陆续全面支持全景声的影音节目。

参考文献:

[1]来自维基百科:https://en.wikipedia.org/wiki/Ambisonics

[2]来自avid官网:http://www.avidblogs.com/Ambisonics-vr360-audio-pro-tools-hd/?promo_id=ProToolsHD,productteaser,ProAudioAmbisonicsBlogPromo,10182017&promo_name=ProAudioAmbisonicsBlogPromo&promo_position=productteaser

[3]来自插件提供商waves:https://www.waves.com/nx

[4]来自杜比官网:https://www.dolby.com/cn/zh/brands/dolby-atmos.html

[5]來自audeze的官网:https://www.audeze.com/products/mobius-series/mobius-creators-edition

[6]来自同期录音网:http://www.locationsound.cn/portal.php?mod=list&catid=31

猜你喜欢

虚拟现实
虚拟现实,让学习更“沉浸”
虚拟现实LG 360 VR眼镜
View Master虚拟现实显示器