一种基于MELP模型600bps声码器的设计

2012-05-31石乔林

电子与封装 2012年10期

石乔林，韦凯，吴辉

（中国电子科技集团公司第58研究所，江苏无锡 214035）

1 引言

随着通信、计算机网络等技术的飞速发展，语音压缩编码技术得到了广泛应用。近年来随着低速率声码器在军事和卫星通信中的成功运用，使得低于2.4kbps语音编码算法越来越受到关注。混合激励线线性预测编码（MELP）在二元激励LPC模型基础上，采用了混合激励、非周期脉冲、自适应增强、脉冲整形滤波等技术，使语音质量得到极大改善，在1996年，该算法被美国国防部语音信号处理协会（DDVPC）选定为新一代的2.4kbps声码器标准；随后其增强型算法（MELPe）被北大西洋公约组织（NATO）选为语音编码标准STANAG-4591；目前国内外很多研究机构基于该算法的改进型正在进行更低速率语音编码算法的研究[1～4]。

本文以增强型MELP算法为基础，将三个连续语音帧构成一个超帧（每个语音帧帧长25ms），利用帧间参数的相关性，采用多模式预测多级矩阵量化方法对LSF参数进行量化[5]；在增益量化中，将增益量化分为超帧增益平均值量化和各增益值与增益均值之差值量化相结合，并将增益差值量化与基因周期量化联合到一起，通过联合量化的方法提高量化性能。

2 600bps声码器的设计

在编码过程（见图1）中通过线性预测分析、增益计算、基音估计和多带分析方法从语音信号中提取线性预测系数、增益均值、增益差值、基音周期和子带清浊判决等参数，然后通过量化进入信道。

图1 编码过程

译码过程（见图2）是通过将脉冲信号和噪声信号根据子带清浊判决结果，将其叠加在一起作为激励信号，然后通过自适应谱增强、LPC合成滤波、增益校正、脉冲整形滤波处理，从而充分反映了语音信号的本质特征，极大地提高了合成语音的质量。

图2 译码过程

2.1 线谱对（LSF）参数量化

在基于线性预测的语音编码算法中，线性预测系数的量化精度对于语音合成质量具有举足轻重的影响。本算法将在线性预测（LPC）系数转化为线谱频率（LSF）系数后，LSF矢量通过多级预测矩阵量化（predictive multistage matrix quantization）方法进行量化。首先，通过码本训练获得LSF矩阵的平均值矩阵，而需要量化的矩阵由转化得到的LSF矩阵与LSF平均矩阵的差值组成。然后，通过线性预测的方法来获得残差的LSF矩阵消除连续超帧之间的相关性。预测系数与超帧中语音帧的清浊分布有关。对剩余的LSF矩阵进行多级矩阵量化，量化分为3级，每级码本分别都含有256个码矩阵。量化结果见表1。

表1 LSF失真测度对比表

从这组参数对比可以看出，本文采用的量化方式其量化效率得到了有效的提高。

2.2 子带清浊判决量化

MELP算法中包含5个子带（0～500Hz，500Hz～1 000Hz，1000Hz～2 000Hz，2 000Hz～3 000Hz，3 000Hz～4 000Hz），子带清浊音对合成语音的自然度有重要影响。当子带清浊音判清音过多，合成的语音比较沙哑；当子带清浊音判浊音过多，合成的语音机械音比较重，并影响合成语音的可懂度。

本算法根据子带清浊音的统计规律，采用加权的欧氏距离作为量化距离测度。

式中：M表示一个超帧中包含的语音帧帧数，分别表示超帧中第i个语音帧第j子带清浊判决，ωj为各个子带的量化权值，根据每个子带的重要性设置，低频子带的量化权值最高，高频子带权值最小。本文设置的权值

2.3 增益均值量化

每个语音帧中提取2个增益参数。这样3个连续语音帧组成的一个超帧得到的一个6维的增益矢量G={G1，G2，G3，…，G6}，然后用5bit来均匀量化量化得到的量化值为Gavg。

2.4 基音周期与增益差值的联合量化[6]

基音是语音信号中最重要的参数之一，因此基音周期的提取和估计是语音信号处理中一个重要环节。本算法中基音周期估计的计算方法参照MELP。一个超帧有3个语音帧，能提取3个基音周期，基音周期的量化是在周期的对数值中进行的，对于单独量化的基音周期，其量化失真测度采用加权的欧氏距离算法：

式中：M表示一个超帧中包含的语音帧帧数，分别表示超帧中的第i个语音帧的基音周期及其量化值。

增益差值是增益参数与增益平均值之间的差值gi=Gi-Gavg，若是单独对增益差值进行量化，失真测度为

其中M表示一个超帧中包含的语音帧帧数，gi、分别表示超帧中第i个语音帧的增益差值及其量化值。

我们利用一个系数α将基音周期和增益差值联合在一起进行联合量化，联合量化的失真测度为：

权重因子α在联合量化中可以显示出基音周期和增益差值两个参数在联合量化失真测度计算中的重要程度。α是通过自适应过程得到的，首先分别用公式（2）和公式（3）作为基音周期和增益差值单独量化时的码书设计失真距离公式，用GLA算法做码书设计。用它们的失真距离初始化α，初始化值与它们成反比例。然后再用初始化后的权重因子α用公式（4）作为联合量化时码书设计失真距离公式，用GLA算法做码书设计，再用分别得到的基音周期和增益差值的失真距离来更新α，再进行下一次码书设计。最后取得到的最小失真距离时的值作为权重因子α和联合量化的码书。

2.5 量化比特分布

表2列出600bps语音算法超帧的比特分配情况。每一超帧持续时间为75ms，量化45bit，即速率为600bit/s。

表2 量化比特分布表

3 仿真测试及分析

选择诊断押韵测试（DRT）和诊断可接受度测试（DAM）来做语音质量主观听觉测试。DRT主要用来评价合成语音的可懂度，DAM则用来评价语音质量。实验室条件下录制的相对纯净语音作为测试语音，其中男生5名，女生 4名。在1%随机误码信道的仿真条件下做了仿真测试，表3给出了其在非正式主观听觉测试的结果。

表3 主观听觉测试结果

从测试结果可以看出，通过将连续语音帧组成超级帧进行联合量化，利用帧间参数的相关性，在大幅度压缩编码速率的条件下，获得了较高质量的合成语音。

4 结束语

超低速语音编码是当前语音编码的热点和难点。本文依据MELP语音编码模型，采用多帧联合结构，根据连续帧的帧间冗余，用多模式预测多级矩阵量化和基音周期与增益联合量化算法，提高了量化效率和合成语音质量。当然在极低速率下实现高质量语音编码仍存在很多问题有待解决，需要我们长期而深入的研究。

[1] A McCree, K Brady, T F Quatieri. Multisensor very low bit rate speech coding using segment quantization[C].Proc.IEEE Int. Conf. Acoustic, Speech, Signal Processing, Las Vegas, NV, 2008.3997-4000.

[2] J W Zhang, T H Huo, J L Li, H J Cui, K Tang. High quality 0.6kb/s speech coding algorithm[J]. J. Tsinghua Univ. of Sci.&Tech. (Chinese), 2003,43(4) : 449-452.

[3] X Zou, X W Zhang. High Quality 0.6/1.2/2.4kbps Multi-Band LPC Speech Coding Algorithm[C].IEE International Conference on Wireless, Mobile & Multimedia Networks,Hangzhou, China, 2006.1061-1064.

[4] M W Chamberlain. A 600 bps MELP vocoder for use on HF channels[C].IEEE Military Communications Conference,2001. 447- 453.

[5] X Zou, X W Zhang. Efficient coding of LSF parameters using multi-mode predictive multistage matrix quantization[C]. IEEE International Conference on Signal Processing, Beijing, China, 2008. 542-545.

[6] Xia Zou, ChuanHua Wen, XiongWei Zhang, YaFei Zhang.An Improved 600bps Speech Codiing on Joint Quantization of pitch and Gain Shape[C].IEEE International Conference,2010.1303-1306.