基于单服务器实现大容量会议服务的系统及方法研究

2017-03-27殷亚玲耿小峰

电子设计工程 2017年6期

关键词：混音与会者音频

张龙，殷亚玲，耿小峰

（1.西安欧亚学院信息工程学院，陕西西安710065；2.西安财经学院信息工程学院，陕西西安710100；3.西安融科通信技术有限公司陕西西安 710077）

基于单服务器实现大容量会议服务的系统及方法研究

张龙1，殷亚玲2，耿小峰3

（1.西安欧亚学院信息工程学院，陕西西安710065；2.西安财经学院信息工程学院，陕西西安710100；3.西安融科通信技术有限公司陕西西安 710077）

针对电话会议和视频会议涉及到的音、视频子系统，如何在提升音、视频品质的同时提高并发容量的难题，文中通过采用音、视频优化技术，提出了一种基于单服务器实现大容量会议服务的系统及方法，实现了不增加硬件投资而采用单台服务器即可提供高品质、大容量的会议服务系统。通过小规模的远程视频通话测试，单台服务器下测试结果显示对网络带宽的要求有效降低，目前在4Mb带宽的网络环境下已经可以满足多方视频会议中的音频、视频实时传递的要求并且收到了良好的通信效果。

视频会议；电话会议；降噪处理；语音代理；视频优化

目前，针对电话会议和视频会议涉及到的音、视频子系统，如何在提升音、视频品质的同时提高并发容量，一直是学术界、技术界积极探索的课题[1]。针对并发容量的问题有采用服务器级联技术解决大规模并发会议的方案[2]；也有采用硬件板卡来分担混音给CPU带来的负载的方法[3]；还有通过P2P（peer-topeer，即点对点）技术实现超大规模的会议相关技术[4]。针对音、视频品质而言，有采用先进的音、视频编解码实现会议的高品质，如采用GIPS（Global IP Sound）语音引擎[5]，它是采用ILBC（InternetLowBitrateCodec）的编、解码[6-7]，是一种适合互联网低比特率传输的编、解码技术。视频方面大都采用H.264或基于多层自适应传输编解码技术[8]。虽然这些技术在一定程度上满足了大容量会议的需求，同时会议品质也有了一定保证，但是以上技术或策略同样也存在弊端[9]，如服务器级联或通过板卡技术会加剧系统的硬件投入，P2P模式满足了大容量，而P2P天生延迟性的弊端导致在交互性很强的会议系统中体现的尤为明显。因此，如何在低廉的单台服务器下满足大规模、高品质会议需求还是亟需解决的一个技术难题。

1 相关方案及名词

本设计目的是提供一种基于单服务器实现大容量会议服务的系统及方法，其中采用音、视频优化技术实现了单台服务器下高品质、大容量的会议服务。

1.1 本设计方案包括三大模块

1）降噪处理模块

噪音的产生是由客户端采集设备引入或数据在网络传输中受到干扰形成，是影响会议品质的罪魁祸首，虽然客户端通过采用静音检测技术可以有效地降低噪音形成，但是传输中出现的噪音却不可避免，尤其在混音迭代后，影响更大。为此本设计通过在服务器端针对每个信道通过降噪处理模块过滤掉噪音部分，使得纯音质部分进入混音模块从而提生大容量会议服务的品质。

2）语音代理模块

会议中处于静音状态的与会者不发送语音流，它们需要听到的声音完全相同，就是当前所有发言者的声音。根据混音原理可以得出结论，任意时刻处于静音状态的与会者端所要接收的语音流完全相同，是当前所有发言的与会者的混音流。为了降低运算复杂度，可以对处于静音状态的与会者的语音媒体做统一处理和发送[7]。因此语音代理模块针对所有静音状态的与会者采用分类编、解码减小CPU的负载，从而达到提升并发容量的目的。

3）视频优化转发模块

视频优化转发模块主要目的是为了有效降低服务器带宽的消耗。本设计通过增加打开、关闭视频的命令，以达到在确实需要与会者客户端上传视频时通过发送打开视频的命令，从而将视频传至服务器。当没人观看某与会者的视频时，可以通过发送结束视频命令以停止某与会者的视频上传，通过这种“按需发送”的策略可有效地降低对服务器带宽的消耗。同时改变多画面的组合视频模式，因为在网络视频会议中，视频仅是作为辅助功能，且相比音频而言消耗了更多的带宽，为此设计中引入了用户自主选择视频展现的单画面机制，即用户通过选择想要观看的视频画面，或者通过服务器制定视频转发策略，如统一分派发言人视频、轮询分派会议与会者视频等。通过这种有效的策略可以极大地节约服务器端及客户端的带宽和降低合成多画面的CPU负载，从而使得会议音质有好的提升，通过这种策略也为单服务器多并发容量会议服务提供了有利保障。

1.2 名词解释

系统中包括多个与会者客户端和会议服务器，所述会议服务器包括多个缓冲队列、解码单元、降噪模块、一个混音处理模块、一个语音代理模块、多个线性分离单元和多个编码单元：

1）缓冲队列是和多个解码单元一一对应连接；

2）解码单元是将音频输入数据进行编码转换成线性数据，多个解码单元的输出信号送入混音处理模块以便进行时域线性叠加[10]；

3）降噪模块是为了过滤掉因传输或干扰形成噪音部分，其自身和每个发言者一一对应；

4）混音处理模块主要完成语音数据的叠加处理，其输出信号送入线性分离或语音代理模块进行处理；

5）语音代理模块主要是为了完成所有静音状态与会者接收数据的处理，其输出端和所有静音状态与会者客户端连接；多个线性分离单元是为了分离过滤掉发言者自身那部分声音，其输入端和混音模块输出端连接，输出端和多个编码模块一一对应；每个编码模块的输出端与多个与会者客户端分别连接。

上述编码模块包括ULAW[11]编码模块、ILBC编码模块和G.729编码模块等常见音频编码模块。

2 方案实现

1）传统会议混音的流程如图1，步骤如下：

图1 传统服务器会议混音结构示意图

步骤1：发言状态的与会者进入会议室后，音频数据进入缓冲区，设置缓冲区的目的是为了有效地防止网络抖动、延迟造成的音质下降；

步骤2：从缓冲区出来的数据进入编码转化，因为只有变为线性数据才可以进行混音和叠加；

步骤3：编码转换后的数据直接进入混音模块进行混音处理；

步骤4：混音后的数据通过遍历所有与会者并逐一进行线性分离；

步骤5：分离后的数据再根据与会者的解码格式进行编码；

步骤6：将编码后的数据发送给相应与会者；

2、服务器采用音频优化技术的降噪和混音优化的流程如图2，具体步骤如下：

步骤1：正在发言的与会者的音频信号通过网络进入会议服务器中与其相对应的缓冲队列；

步骤2：会议服务器判断是否有其他正在发言的与会者的音频信号进入，若无（即当前会议就一个发言者），则将缓冲队列出来的数据直接进行降噪处理后，转至步骤10。若有，则转至步骤3：

步骤3：从缓冲队列出来的数据进行编码转换；

步骤4：编码转换后的数据进行降噪处理；

步骤5：降噪处理后的不同发言的与会者音频数据分别送入混音处理模块；

步骤6：混音处理模块进行混音（即音频数据进行线性迭加）；

步骤7：判断其他与会者是否是为静音状态，若是，则转至步骤8，否则转至步骤9；

步骤8：混音后的数据进入语音代理模块，转至步骤10；

步骤9：混音后的数据进入对应的线性分离模块，通过分离技术[12]过滤掉与会者自身音频输入的数据，然后再根据与会者的的解码能力对过滤后的音频数据进行编码，编码后的数据发送给与会者；

图2 服务器采用音频优化技术的会议混音结构示意图

步骤10：进入语音代理模块的音频数据首先被放入缓冲队列，然后服务器需要根据所有静音状态与会者所支持的解码能力进行分类，并按照分类对音频数据进行相应的编码；

步骤11：针对每个类别编码后的音频数据均逐一发送给所支持解码能力的静音状态与会者。

其中相比较图1传统服务器混音结构[13]而言，图2结构中针对每路发言信道增加降噪处理。同时与会者若为静音状态，则无需进行缓冲、编码、降噪和混音的过程，仅接收混音模块输出并经语音代理模块处理后的数据[14]。

3）语音代理处理流程如图3，具体步骤如下：

步骤1：从混音模块出来的数据先进入缓冲队列；

步骤2：服务器根据所有静音与会者的解码格式进行分类，然后分别对缓冲队列的数据进行对应的编码；

步骤3：分别将编码后的音频数据按照同类型解码格式转发相同数据的原则逐一发送给对应与会者。

图3 语音代理处理流程示意图

4）会议中视频的优化处理流程如图4，具体步骤如下：

步骤1：主持人进入会议室，默认打开自身视频发送模块，并在其客户端显示本地视频；

步骤2：与会者进入会议时，不启动自身视频发送模块，默认看到主持人的视频；

步骤3：若与会者1选择查看与会者2的视频，此时服务器需要判断与会者2是否已经被其他与会者订阅其视频，若订阅了，则直接将与会者2的视频持续不断地转发给与会者1，若没有订阅者，则转到步骤4；

图4 视频优化转发流程示意图

步骤4：服务器向与会者2发送开启视频命令，且与会者2客户端启动自身视频模块并向服务器上传视频数据；

步骤5：服务器将收到的视频数据按照视频源的订阅清单逐一转发；

步骤6：与会者1切换视频或者离开会议室时，发送取消订阅原视频的请求（异常掉线情况通过服务器超时检测[15]），此时服务器需要判断原来视频源与会者是否还有其他用户订阅其视频，若没有，则转到步骤7。若有，则简单从该视频源与会者的订阅清单中删除取消与会者的信息，同时针对切换视频的情况下，与会者1的处理转至步骤4，只是此时请求订阅的数据变成其他与会者而已；

步骤7：服务器向与会者2发送停止视频发送命令；

步骤8:与会者2在收到服务器发送的停止命令后，停止向服务器发送视频数据。

3 结束语

文中提出了一种基于单服务器实现大容量会议服务的系统设计方法，主要有以下4个特点：

1）混音完成后对音频数据进行分类的编码，即根据所有与会者协商后的支持解码格式进行分类，这样就把针对每路编码的工作变成针对几大类的编码工作量，从而可有效地降低由于过多的编码带来的CPU运算；

2）针对特定会议场合做了特殊直接转发的策略，如当前会议仅有一人发言，这时不进行混音，如果其他与会者解码能力是支持发言人编码格式时，直接进行音频数据的转发，若是其他与会者解码能力不支持发言人编码格式时，通过编码转换后再将音频数据分发给与会者。通过这种特殊策略可以显著提高单台服务器会议服务的与会者容量；

3）通过增加打开、关闭视频的命令，在需要与会者客户端上传视频时通过发送打开视频的命令，此后与会者再将视频传至服务器。当没人观看某与会者的视频时，通过发送结束视频命令以停止某与会者的视频上传，通过这种“按需发送”的策略可以有效地降低对服务器及客户端的带宽消耗，也减轻了服务器处理视频数据的压力；

4）改变了多画面的组合视频模式，因为在网络视频会议中，视频仅作为辅助功能，且相比音频而言消耗了更多的带宽，为此引入了用户自主选择视频展现的单画面机制，即用户通过选择想要观看的视频画面，或者通过服务器制定视频转发策略，如统一分派发言人视频、轮询分派会议与会者视频等。通过这种有效地策略可以极大地节约服务器端及客户端的带宽和降低合成多画面的CPU负载，从而使得会议音质有好的提升，通过这种策略也为单服务器多并发容量会议服务提供了有利保障。

经过小规模的远程视频通话测试，测试结果显示有效地提高了CPU的利用率，尤其是对网络带宽的要求有效降低，并且不需要增加硬件板卡等新增投资，单台服务器即可，目前在4Mb带宽的网络环境下已经可以满足多方视频会议中的音频、视频实时传递的要求并且收到了良好的通信效果，目前正在进行公网大规模测试，预期效果良好。

[1]高亮，谷英亮，闫飞.视频会议与电话会议语音交互解决方案研究[J].电力信息化，2013，11（7）：106-109.

[2]贺星，赵问道，陈惠芳.网络级联型视频监控服务器的设计与实现[J].电视技术，2006（1）:90-92.

[3]何炎祥，邓爱林.多媒体会议系统分层通信结构及共算法研究[J].计算机学报，2001，24（5）:516-520.

[4]黄东军，陈松乔.基于源根组播的多点视频会议系统模型及其实现[J].电子学报，2005，33（1）:47-51.

[5]谢晓钢，蔡骏，陈奇川，等.基于Speex语音引擎的VoIP系统设计与实现[J].计算机应用研究，2007（12）:104.

[6]林丰.一种基于3DTV编解码技术的视频流传输方法倡[J].计算机应用研究，2011，28（9）：3576-3578.

[7]涂卫平，胡瑞敏.视频会议中音频多点处理器的研究[J].武汉大学学报（信息科学版），2002：98-101.

[8]吴晓军，白世军，卢文涛.基于H.264视频编码的运动估计算法优化 [J].电子学报，2009，37（11）: 2541-2545.

[9]陈杰.基于数字语音交换技术的多方会议系统[J].信息通信，2015（5）:111.

[10]辛杰，康丹丹，张飞弦，等.可扩展语音与音频编解码技术的专利分析[J].电声技术，2012（1）:59-62.

[11]蔡必强.视频会议中混音技术研究[J].现代电子技术，2006：85-87.

[12]赵代强.基于数字语音交换技术的多方会议系统[J].计算机工程，2004：87-89.

[13]薛卫，都思丹.基于变分辨率频谱特征的向量机静音检测和实时混音技术[J].中国科学技术大学学报，2006：898-901.

[14]史美林，向勇，杨光信.计算机支持的协同工作理论与应用[M].北京：电子工业出版社，2000.

[15]何炎祥，邓爱林，杜卓敏.多媒体会议系统分层通信结构及其算法研究[J].计算机学报，2001：516-520.

Research on the system and method of realizing large capacity conference service based on single server

ZHANG Long1，YIN Ya-ling2，GENG Xiao-feng3
（1.Information Engineering School，Xi'an Eurasia University，Xi'an 710065，China；2.Information School，Xi'an University of Finance and Economics，Xi'an 710100，China；3.Xi'an RongKeCommunication Technology Co Ltd，Xi'an 710077，China）

According to the conference call and video conferencing involves the audio and video system，how to improve the problem of concurrent capacity in the audio and video quality at the same time，through the use of audio and video optimization technology，proposes a system and method for large capacity meeting service based on a single server，realize the hardware investment is not increased by a single server can provide high quality and large capacity through remote video conference service system，small scale test calls，test results of a single server that the demand for network bandwidth is reduced effectively，currently in the 4Mb bandwidth network environment can satisfy multi-party video conferencing in audio and video real-time transmission requirements and received good communication effect.

video conference；conference call；noise reduction processing；voice proxy；video optimization

TN91

：A

：1674－6236（2017）06-0039-04

2016-02-29稿件编号：201602185

张龙（1977—），男，陕西西安人，硕士，讲师。研究方向：软件工程，人工智能。