APP下载

基于相关系数的AVS-P10带宽扩展优化

2017-02-27杨玉红

计算机应用与软件 2017年2期
关键词:皮尔逊子带样点

文 彬 杨玉红 姜 林,

1(武汉大学计算机学院国家多媒体软件工程技术研究中心 湖北 武汉 430072)2(东华理工大学软件学院 江西 南昌 330013)

基于相关系数的AVS-P10带宽扩展优化

文 彬1杨玉红2姜 林1,2

1(武汉大学计算机学院国家多媒体软件工程技术研究中心 湖北 武汉 430072)2(东华理工大学软件学院 江西 南昌 330013)

AVS-P10是我国第一部完全自主研发的移动音频编解码国家标准。为适应移动通信环境,实现低码率、高质量的音频传输与重建,在分析现有AVS-P10带宽扩展模块的基础上,提出一种基于相关系数的AVS-P10带宽扩展优化方案。为找出高频重建的最佳频带选择方式,通过计算原始高频频带与各准高频频带的皮尔逊系数绝对值进行最强相关子带选取,并通过判断最高相关系数数值是否低于域值,选择用最强相关准高频子带或白噪声来进行高频重建。实验表明,与原有的AVS-P10带宽扩展算法相比,该方法音频信号的高频重建效果有一定的提高。

移动音频 AVS-P10 带宽扩展 最强相关子带选取 皮尔逊系数

0 引 言

人耳对于不同频率的音频信号的感知敏感度是不同的,相对于信号的高频部分,人耳对于低频信号感知更加敏感。因此,由于传输带宽及存储能力等方面的限制,在低比特率编码当中,为提高编码效率,编码器只针对信号的低频部分进行编码,而人耳不那么敏感的高频部分则几乎被全部截去。这样的编码方式不可避免的导致了解码后的音频信号质量会出现明显的下降,变得沉闷不自然[1]。然而随着人们对高品质音频需求的不断提高,现有的编码方式显然无法满足人们的需求。因此,对于带宽扩展技术的研究变得十分重要。

AVS-P10[2-3]是我国自主研发的,具有完全自主知识产权的移动音频编解码器,它采用ACELP/TVC混合编码模式分别编码语音和音乐信号的低频部分[3],2013年,AVS-P10颁布为国家标准,于2014年正式实施。对于高频信号的编码,AVS-P10标准借鉴了3GPP AMR-WB+[4]标准的基本框架,通过带宽扩展模块完成高频信号的重建。其采用的是一种非盲式的带宽扩展算法,通过在时域利用低频残差信号和线性预测[5]构建了准高频信号,然后利用若干增益信息在频域对准高频信号进行调整,完成高频重建。在高频重建的过程中,仅仅简单地按子带顺序进行复制,不足以保证相关性最好的原始高频与准高频子带能准确匹配,若高、低频子带相关性变弱时,可能会带来较严重的失真。

针对上述问题,本文提出一种基于相关系数的AVS-P10带宽扩展优化方案。通过计算高频子带与各准高频子带之间的皮尔逊相关系数选取最强相关子带,并通过判断最高相关系数数值是否低于阈值,选择用最强相关准高频子带或白噪声来进行高频重建,构建频带间更合适、更具关联性的匹配组合,以提高高频重建的音频质量,减少失真。本文的工作对于推动AVS-P10标准的应用和产业化具有重要意义。

1 已有工作

1.1 已有带宽扩展技术

带宽扩展技术分为盲式和非盲式[6]。盲式带宽扩展在编码端不需要任何高频信息,在解码端直接利用低频信息完成高频重建。国内鲍长春教授在该方面进行了大量的研究,通过非线性分析,Volterra级数预测高频包络[7];利用分形插值的方法预测高频频谱细节[8],该类方法以非线性动力学为基础,从物理动力学角度分析了高频包络的形成,取得了较好的重建效果。但盲式带宽扩展复杂度较高,且由于没有高频任何信息,因此编码音质一般,尤其对于谐波丰富的音乐类信号效果较差。本文主要讨论非盲式带宽扩展,这类方法以频带复制(SBR)和基于LPC的带宽扩展为代表。频带复制在频率域内进行高低频子带划分,利用低频子带复制到高频子带,通过高频包络、能量级数、噪声级数等参数进行包络调整,得到较高的重建音质[9]。Neukam等在SBR基础上,通过相位声码器,通过谐波拉伸,噪声补偿等方法在MDCT域内对SBR进一步优化,得到了最新的eSBR技术[10],目前该技术已被应用到最新的MPEG USAC音频编码标准中。SBR技术虽然能得到较高编码音质,但其复杂度和码率都较高,难以应用到移动音频场景中。基于LPC的带宽扩展技术是目前低码率、低复杂度的代表技术。它通过提取表征高频包络的LPC参数,子带能量,然后对得到高频的低频信号进行调整,得到同码率下接近SBR的编码音质。Zhan等将该方法成功应用于我国AVS-M中[11];武汉大学Jiang等在此基础上,根据信号类型提出了一种基于LPC和FFT的混合带宽扩展方法[12];之后Jiang等又提出了利用深度神经网络预测高频信号的方法得到了一种基于DAE的带宽扩展方法[13]。上述方法都在AVS-P10基础上实现,提升了AVS-P10编码音质。但上述方法都采用子带顺序复制,没有考虑高低频子带间的相关性,难免造成编码音质受损。

1.2 AVS-P10的带宽扩展算法

现有AVS-P10带宽扩展模块采用一种非盲式带宽扩展算法,其主要原理是用能量增益信息调整原始低频残差信号通过每个子帧的LPC系数组成的合成滤波器生成的准高频信号来重建高频信号。过程包括:编码端提取高频信号的频谱包络信息和增益信息,在解码端利用高频频谱包络信息调整激励信号得到重建准高频信号,并用增益信息调整准高频得到重建高频信号。编码框图如图1所示。

在编码器端,对每一帧高频原始信号进行一次八阶线性预测分析,得到一组八阶的线性预测编码(LPC)系数,并转换为导抗频谱对(ISP)系数,导抗频谱对系数进一步变换为导抗谱频率(ISF)系数。量化后的ISF系数变换为量化后线性预测系数,并以此产生高频合成滤波器。假设高频合成滤波器288点的冲击响应为h(n),用288点的快速傅里叶变换(FFT)将h(n)变换到频域,以此表示原始高频信号的频谱包络。

低带原始信号经过低带线性预测逆滤波器滤波后得到低带残差信号作为激励信号,低带的线性预测系数每帧更新一次。每一个1024样点超帧的低带激励信号通过长度为288样点,重叠区域为32样点的余弦窗分割为四个长度288样点的帧,每一超帧中的分帧结构如图2所示。

图2 超帧中的开窗分帧模式

每一帧的低带激励信号和高带合成滤波器的冲击响应用288点的FFT变换到频域。高带合成滤波器冲击响应的288点FFT系数用其中的最大值归一化。将低带激励信号的FFT系数乘以归一化的高带合成滤波器的冲击响应FFT系数就可以得到频域的准高频信号。

假设XHF[k]和XBF[k]分别表示原始高频信号和准高频频域信号,每一帧信号进一步被划分到四个子带。在每个子带中,按照子带排列的对应顺序,通过式(1)来计算该子带的增益系数,式中Gain[i]表示当前帧中第i个子带增益系数,M是子带长度72。

(1)

在解码端,解码器解析出码流中的高频谱包络信息和增益信息,并使用高频频谱包络信息调整低频解码后的激励信号得到重建的准高频信号,再用增益信息调整准高频信号的得到频域重建高频信号。

2 优化的AVS-P10带宽扩展模块

2.1 优化的带宽扩展模块流程

由以上可以看出,AVS-P10的带宽扩展模块存在一定的弊端,在利用准高频信号进行高频重建时,简单地按子带顺序选取准高频频带对原始高频频带进行重建,没有选择性。难以根据信号自身特性,做出自适应的调整,影响高频重建的准确性。虽然原始高频频带与准高频频带具有一定的相关性,但固定的匹配方式,不足以保证相关性最好的原始高频与准高频子带能准确对应,相反可能导致相关性较弱甚至不相关的子带匹配,导致高频重建效果不佳。

针对上述问题,本文提出了一种基于AVS-P10的带宽扩展优化方案,通过计算高频子带与各准高频子带之间的皮尔逊相关系数选取最强相关子带,并通过判断最高相关系数数值是否低于域值,找到频带间更合适、更具关联性的匹配组合,指导原始高频重建。此处选择皮尔逊系数计算相关性的原因在于音频信号具有类高斯的特点,而根据文献[14],当数据具有高斯特性时,皮尔逊系数是相关性最好的度量方法。优化后的编码框架如图3所示,图中虚线部分即为本文的改进模块。

图3 优化的AVS-P10带宽扩展编码框图

2.2 最强相关子带选取

在编码端,低频残差信号经过利用高频LPC系数构建的高频合成滤波器,生成准高频信号。时频变换后,将准高频信号和原始高频信号均分为4个子带。

为建立原始高频频带与准高频频带之间的最优匹配,针对每一个原始高频子带,通过式(2)计算它与各个准高频信号子带之间的皮尔逊相关系数,从而得到原始子带与各个待选子带之间的相关性。

(2)

式中Pn[k]代表第n个原始高频子带与第k个准高频子带之间的相关系数,x[n,i]表示原始高频子带样点,其中n表示原始高频子带序号,i表示子带样点序号,y[k,i]表示准高频子带样点,k表示准高频子带序号,N表示子带长度。

以上计算对所有的原始高频子带n进行,对每个原始高频子带选择出使得Pn[k]最大的k,即为原始高频子带相关度最高的准高频子带。

每个原始高频的最大相关系数max(Pn[k])用最大相关矩阵Pmax[n][k]记录。

2.3 相关性判决修正

皮尔逊相关系数是一种度量两个变量间相关程度的方法。它的绝对值介于0到1之间。相关度与其值的大小成正比,当其值介于0到0.2之间时表示两个变量极弱相关或不相关。

有一种特殊情况,我们通过上述方法从准高频信号中选取出来的最强相关子带与原始高频信号子带的相关性仍然极弱,此时如果仍然使用此子带进行高频重建,可能会引入误差,使听到的声音不自然。

因此为高质量完成高频重建,避免最强相关子带与原始高频子带相关性极弱,带入误差,影响音频恢复质量需进行相关性判断,其判断条件为:

(3)

式中Pmax[n][k]表示以原始高频子带与最大相关性子带之间的皮尔逊系数,此处根据统计学中弱相关或不相关的阈值,γ取0.2。

基于信号的高频部分主要由噪声和零散的谐波分量构成这一假设。若上式成立,则用最强相关的准高频频带重建该原始高频子带。否则,则说明原始高频子带盒相关系数最大的准高频子带之间的相关程度仍然很弱,不宜直接使用准高频频带进行高频重建,使用白噪声重建高频子带。后续也通过客观实验证明了相关性判决修正的必要性和优越性。

2.4 能量参数计算

计算能量参数指导高频子带的重建,若采用准高频信号来重建高频信号,需提取最相关子带间的能量增益如式(4),以用来在解码端指导高频重建。若采用白噪声重建高频,则需提取高频子带平均能量如式(5),在解码器端指导高频重建。计算公式如下:

(4)

(5)

式中,r[i]表示第n个原始高频子带与第k个准高频子带间的增益,e[i]表示第n个原始高频子带能量,x[n,i] 表示原始高频子带样点,其中n表示原始高频子带序号,i表示子带样点序号,y[k,i]表示准高频子带样点,k表示准高频子带序号,N表示子带长度。

在解码器端,根据原始高频频带与准高频频带或白噪声信号的对应关系,以能量参数为依据,结合经过核心解码器解码出来的低频信号,重建原始高频频带,从而恢复出完整的音频信号。

3 实验材料和方法

3.1 实验材料

为验证文中所提方法的有效性,针对现有的AVS-P10带宽扩展模块和文中的优化方案进行了一系列主客观对比实验。所有的实验都是在AVS-P10编解码器中进行,编码码率为24kpbs,内部采样率为44.1KHz。实验采用MPEG标准化组织的音频测试序列。实验中共使用了12组单声道测试序列,包括3个语音序列,6个音乐序列和3个复杂序列,每个信号的频谱特征、高低频关联度、信号噪声分布等都不尽相同。

3.2 实验方法

(1) 客观实验

在进行客观实验时,采用ITU-R10/4工作组提出的音频质量客观评价方法PEAQ法,分别针对现有AVS-P10带宽扩展模块、本文中的优化方案以及未经相关性判决修正的优化方案进行客观实验,给出PEAQ的ODG分值(ODG分值为0~-5,分值越接近0表示音质越好)。测试结果如表2所示。

表2 客观测试ODG分值表

由表2可以看出,经过优化方案处理过的测试序列比原AVS-P10带宽扩展方案处理过的测试序列所得ODG分值普遍稍高,提高了7.1%((-2.68-(-2.49))/(-2.68)×100%)。而未经相关性判决修正的优化方案与原方案相比,在音乐序列上得分稍高,而在语音序列上得分相当,和本文优化方案比低了6.8%。

从客观结果来看,本文的优化方法相比原有方案对于信号特性的恢复具有一定的改善作用。而未经相关性判决修正的优化方案和本文的优化方案在语音序列上未经修正的优化方案得分与原有的AVS-P10算法得分相当,比经过白噪声修正的本文优化方案得分稍低。这样的差异也验证了我们之前的设想,由于语音信号的谐波特性不明显,频谱相关性比较弱,很容易出现最大相关子带之间的相关性也很弱,如果此时仍然使用最大相关子带重建,反而会引入误差。所以引入白噪声,代替相关程度较低的最大相关子带,很有必要。

(2) 主观实验

主观测试是对比AVS-P10相同码率情况下采取原有带宽扩展模块和本文优化方案解码出来的音频主观听力音频质量,本文根据AVS-P10音频工作组提出的主观听力规范,进行主观听力测试。在进行听力实验时,听力材料由 ref、A、B三组组成,ref为原始信号,A为使用本文优化方案的解码信号,B为使用AVS-P10现有带宽扩展算法的解码信号。主观实验采用CMOS打分机制如表3所示。

表3 CMOS打分机制

本文邀请了8名有经验的测试者参加了主观测试,对得分求均值和95%置信空间。实验结果如图4所示。

图4 COMS得分图

主观试验结果可以看出,优化后的多模式带宽扩展算法对于在信号的恢复质量总体上优于AVS-P10现有带宽扩展算法,提高幅度介于0分到1分之间,可见优化后的方案对于音质有所提升,但部分序列提升并不十分明显。对于此,我们分析的原因可能是在判断子带相关的时候,我们采取的纯统计学方法在应用于音频信号的时候可能会有些不足。因为对于高频频带,有时候在数字上并不是很相近,可能仍然会存在一定的相关性。如何更精确地判断频带关系也是我们日后努力的方向。

4 结 语

针对AVS-P10带宽扩展模块在进行高频重建时,机械地根据子带顺序选择准高频频带用于高频重建,无法保证相关性最好的频带得到匹配。本文提出了一种基于相关系数优化的AVS-P10带宽扩展优化方案,通过皮尔逊系数衡量子带之间的相关程度,选取与原始高频信号相关性最高的准高频频带,并通过对最高相关系数数值的判断,选择用于高频重建的频带。客观实验结果表明,优化后的编码框架相比原方案提升了7.1%,主观听力实验表明,与原有的AVS-P10带宽扩展算法相比,该方法音频信号的高频重建效果也有一定的提高。

[1] Zhang X,Bao C,Liu X,et al.Audio bandwidth extension based on maximum Lyapunov prediction[C]//2011 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference,2011:1-4.

[2] 中华人民共和国国家质量监督检验检疫总局.信息技术 先进音视频编码(第10部分):移动语音和音频:GB/T 20090.10-2013[S].北京:中国标准出版社,2014.

[3] 胡瑞敏,艾浩军,张勇.数字音频压缩技术和AVS音频标准的研究[J].电视技术,2005,29(7):21-23.

[4] Association of Radio Industries and Businesses.Audio codec processing functions;Extended adaptive multi-rate-wideband (AMR-WB+) codec;Transcoding functions:3GPP TS 26.290[S].2012.

[5] Liu C M,Lee W C,Hsu H W.High frequency reconstruction by linear extrapolation:20080109215[P].2006-6-26.

[6] 鲍枫,刘鑫,贾懋珅,等.音频带宽扩展技术分析与展望[J].电讯技术,2011,51(2):122-126.

[7] 张兴涛,鲍长春,刘鑫,等.基于Volterra级数预测的音频频带扩展[J].电子学报,2012,40(12):2501-2506.

[8] 李红蕊,鲍长春,刘鑫,等.基于分形的音频频带盲扩展方法[J].信号处理,2013,29(9):1127-1133.

[9] Association of Radio Industries and Businesses.Enhanced aacPlus general audio codec;Encoder specification SBR part:3GPP TS 26.404[S].2012.

[10] Neukam C,Nagel F,Schuller G,et al.A MDCT based harmonic spectral bandwidth extension method[C]//Acoustics,Speech and Signal Processing (ICASSP),2013 IEEE International Conference on.IEEE,2013:566-570.

[11]ZhanJ,ChooK,OhE.BandwidthextensionforChinaAVS-Mstandard[C]//Acoustics,SpeechandSignalProcessing(ICASSP),2009IEEEInternationalConferenceon.IEEE,2009:4149-4152.

[12]JiangL,HuR,WangX,etal.AVS2speechandaudiocodingschemeforhighqualityatlowbitrates[C]//MultimediaandExpoWorkshops(ICMEW),2014IEEEInternationalConferenceon.IEEE,2014:1-6.

[13]JiangL,HuR,WangX,etal.Lowbitratesaudiobandwidthextensionusingadeepauto-encoder[C]//16thPacific-RimConferenceonMultimedia.SpringerInternationalPublishing,2015:528-537.

[14] 徐维超.相关系数研究综述[J].广东工业大学学报,2012,29(3):12-17.

AN OPTIMIZED BANDWIDTH EXTENSION ALGORITHM OF AVS-P10 BASED ON CORRELATION COEFFICIENTS

Wen Bin1Yang Yuhong2Jiang Lin1,2

1(NationalEngineeringResearchCenterforMultimediaSoftware,ComputerSchool,WuhanUniversity,Wuhan430072,Hubei,China)2(SchoolofSoftware,EastChinaUniversityofTechnology,Nanchang330013,Jiangxi,China)

AVS-P10 is the first national standard of mobile audio encoding and decoding which is completely self-developed. An optimized bandwidth extension algorithm of AVS-P10 based on correlation coefficients is proposed to adapt the mobile communication environment and realize low bit rate, high quality audio transmission and reconstruction by analyzing AVS-P10 bandwidth extension module. The algorithm calculated the absolute value of Pearson coefficient between the original high-frequency band and the quasi high-frequency band to search the optimal sub-band selection. Then, it chose the most relevant quasi high-frequency band or white noise for the high frequency band reconstruction by determining whether the highest correlation is lower than the threshold value. Experiments show that the high-frequency audio signal reconstruction effect of this method has significantly improved, comparing with the original AVS-P10 bandwidth extension algorithm.

Mobile Audio AVS-P10 Bandwidth extension The most relevant sub-band selection Pearson coefficient

2016-01-07。国家自然科学基金重点项目(61231015);国家自然科学基金面上青年项目(61102127);国家高技术研究发展计划项目(2015AA016306)。文彬,硕士,主研领域:音频信号处理。杨玉红,副教授。姜林,副教授。

TP37

A

10.3969/j.issn.1000-386x.2017.02.031

猜你喜欢

皮尔逊子带样点
小麦条锈病田间为害损失的初步分析
超高分辨率星载SAR系统多子带信号处理技术研究
一种基于奇偶判断WPT的多音干扰抑制方法*
基于空间模拟退火算法的最优土壤采样尺度选择研究①
现代统计学之父:卡尔·皮尔逊
现代统计学之父:卡尔·皮尔逊
子带编码在图像压缩编码中的应用
Excel在水文学教学中的应用
高分辨率机载SAR多子带合成误差补偿方法
卡方分布的探源