基于匹配追踪算法的汉语音节重叠声韵分割

2012-07-27韩德亮于凤芹

计算机工程与设计 2012年7期

韩德亮，于凤芹

（江南大学物联网工程学院，江苏无锡214122）

0 引言

精确可靠的声韵分割是影响汉语语音识别和合成等系统性能的关键因素。目前已经多种方法被提出来以完成声韵分割。目前的分割方法主要基于组成声韵母的不同音素之间的差异，文献［1］中就阐明了频谱的最大变化点在很大程度上就对应着音素的边界位置；Ricardo Sánchez Jurado［2］等人根据相同音素片段特征序列距离较小而不同音素片段的特征序列距离较大的原理，利用段间距离测度的方法对西班牙语和英语进行了良好的分割；文献［3］和文献［4］则分别利用HMM和神经网络进行音素分割；此外，基于统计学和信息论的方法［5］也是近年来的热点。由于汉语音节所特有的C＋V结构中存在过渡音，这使得其声韵母单元在声学信号上界限不够清晰，传统的通过音节的直接分割得到声韵母单元的方法，就存在一定的主观性，导致分割的一致性比较差，不适于实际系统采用［6］。

由于汉语音节的过渡音部分，浊音起点后仍然包含较少的声母特性，为了更精确地确定声母的结束位置，采用匹配追踪（matching pursuit，MP）算法，根据分解语音信号所得的原子参数的变化规律，来寻找这个过渡段的结束位置。在这里，由于传统MP算法的时间复杂度过高，本文采用遗传算法改进的MP算法以加快运算速度。

为避免“绝对”策略分割所导致的主观性和随意性，使声韵分割更加符合汉语发音的实际情况，本文先利用语谱图找到浊音起点，并以该点作为声韵母过渡段的起点；然后依据声韵母过渡段上与之对应的匹配追踪原子参数所呈现的变化规律，以各原子参数在浊音起点之后所达到的第一个极值的位置为过渡段终点，确定过渡段。通过对96个汉语孤立字进行的仿真测验显示，有84个音节分割正确。将分割正确的声韵母单元送入语音识别系统，识别率与以孤立字为识别单元时相比提高了1.33%。

1 算法原理

局部时频性质是非平稳信号最根本和最关键的性质，时频分析技术作为分析语音信号等非平稳信号的有力工具，可以同时在时域和频域刻画声韵母音素间的差异。语谱图反映了语音信号的频谱随时间的变化情况，充分体现了语音信号的时频特性，其中的横杠是判断浊音的重要标志［7］，因此可以通过计算语谱来搜索汉语音节发音的浊音起点位置。

匹配追踪算法通过组合优化方法对信号进行稀疏表示，将观察信号分解为一组最好匹配信号局部结构的时频原子的线性展开。该算法从冗余的函数字典D中选择时频原子，然后将残差信号正交投影到D中与之最相似的原子上，再将这部分投影从残差信号中减去，如此循环，直至残差信号的能量小于预先设定的阈值。其第m次的分解过程可表示为［8］

式中：Rmf——第m次投影后的残差信号，gγm——由参数组γ定义的最佳时频原子，＜Rmf，gγm＞——Rmf与gγm的内积。其中gγm满足

等式右边表示残差信号与原子库中所有原子内积的上确界。

由此，经过m步的分解后，信号就可表示为m个原子的线性叠加。

为了获得信号的稀疏表示，用尽量少的原子表示待分解信号，要求时频原子尽量适应于待分解信号的局部结构。本文选用具有良好局部时频特性的Gabor原子对语音信号进行分解。Gabor原子的表达式如下

式中：g（t）——具有单位能量的高斯函数，s、u、ξ——尺度、平移、频率调制参数。Gabor原子即高斯函数经过伸缩、平移、频率调制而得。

1.1 重叠分割策略

在汉语音节特有的CV结构中，包含了一种过渡性质，在过渡阶段的起始处留有较多声母特性和少部分韵母特性，而在过渡阶段的终止处则保留了较多的韵母特性，但仍有少部分声母特性。

重叠音素分割策略就是依据汉语音节发音时，声门运动周期性所呈现的无序－基本有规律－有规律的特点提出来的。所谓音素重叠分割，就是指分割后的声母单元和韵母单元之间存在部分重叠，即在声母单元的结尾和韵母单元的开始含有相同的过渡音［6］。

1.2 遗传算法基本原理

遗传算法是（genetic algorithms，GA）一种仿效大自然生物进化中物竞天择、适者生存自然选择过程的随机搜索寻优算法。在一个有一定规模的种群里，比较适应环境（适应度大）的个体，可以获得更多的繁殖机会，不适应环境的个体获得较少的繁殖机会。父代的繁殖通过交叉和变异等遗传操作传给下一代。遗传算法的实现通常需要以下几个步骤［9］：

（1）编码。将种群中个体特征转换成遗传空间中的基因型数据。为了适合遗传算法的基因运算，通常采用二进制编码方法。

（2）生成初始种群。即随机产生具有一定规模的种群。

（3）选择。通过评价每个个体的适应度，来模仿优胜劣汰的操作。

（4）交叉。将种群中的个体随机配对，通过交配重组产生新的个体。交叉运算在遗传算法中起着关键作用，是产生新个体的主要方法。

（5）变异。将个体基因串中的某些基因值用该基因座的其它等位基因来替换。变异运算是产生新个体的辅助方法，它决定了遗传算法的局部搜索能力。

（6）重复（3）～（5），直到找到最优个体，亦即最优解。

1.3 Gabor原子参数的提取

由于利用匹配追踪算法分解信号时，每一步信号分解都要进行大量的内积运算，所以该算法的计算任务十分繁重。遗传算法建立在自然选择和群体遗传学机理的基础之上，是一种具有广泛适用性的搜索方法。通过结合达尔文适者生存和随机信息交换理论，既消除了解空间中的不适应因素，又利用了原有解的已有知识，从而有力加快了搜索过程。由于遗传算法相较于传统优化方法，有更好的全局寻优能力，因而常被用于降低匹配追踪算法的运算量［10］。

通过采用遗传算法，以模仿自然进化过程来寻找最佳匹配原子替代遍历式的耗尽搜索，使得每个寻找最佳原子的过程由搜索整个原子库变为仅搜索原子库中一个随机产生的较小的子集，并结合了遗传算法全局寻优的优势，从而大幅提高了原子特征的提取速度。

对于一帧语音信号，其Gabor原子参数的提取过程主要按以下步骤进行，如图1所示。

图1中的Rmf表示第m次迭代后的残差信号。

汉语实际发音中，声母能量一般明显小于韵母，在它们的过渡段，信号能量有一个递增的过程，体现在相应的时频原子的尺度参数上，即这部分语音对应的大尺度原子越来越多；而在频域上，声母的发音与白噪声相类似，韵母的能量则主要集中于中低频，在过渡段上语音信号的频率呈现一个递减的过程，各谐波分量的频率也越来越集中，对应的时频原子的频移参数就表现为逐渐减小，该参数的离散程度也逐渐减小。本文正是依据匹配追踪原子参数所呈现的这种变化规律，来确定声韵母过渡段的终点位置。

图1 Gabor原子参数提取流程

1.4 算法步骤

本文在进行重叠声韵分割的具体实现过程主要按以下步骤进行：

（1）寻找浊音起点。读入语音信号，计算其语谱，依据横杠信息找到浊音起点。为保证该点的准确性，可设置搜索的横杠宽度适当小一些。

（2）选定浊音起点后的一段语音y，并确保y的末尾位于语音信号的稳定周期段。并将y分帧。为更精确地观察原子参数的变化，可将帧长设的小一些，本文取10ms。

（3）按照1.2的步骤，利用遗传算法改进的匹配追踪算法提取每帧信号的原子特征参数。

（4）计算过渡段终止帧位置。寻找各原子特征在第（1）步的浊音起点后的第一个极值所对应的帧位置b1、b2、b3。求出它们的均值，将其中偏离该均值最大的一个值略去，以另外两个的均值b作为过渡段终止帧。

（5）确定过渡段。若信号y的原子特征参数在其持续的时间内无明显变化，则视为零声母音节，重置b＝0；否则，保持b，完成分割。

算法实现过程中，相关参数设置如下：

MP迭代过程中，设置迭代的能量终止条件为原信号能量的1%，遗传算法部分采用均匀算术交叉算子以及非均匀变异算子，分别设置交叉概率为0.8、变异概率为0.01。所得的最佳原子参数中，以大尺度原子占原子总数的比例、高频率原子占原子总数的比例以及频移参数的标准差作为相应帧信号的特征输出。

2 仿真实验

仿真实验过程中，本文选用8个常用汉语孤立字，用Cool Edit软件在实验室环境下录制而成，录音水平为16k/16bits，单声道，每个单字读12遍，录音人数为三男三女。

表1中给出了汉语发音“山”在其浊音起点之后六帧的原子参数。由于数据量较大，这里只列出每帧信号的前10个原子的尺度参数s和频移参数ω。

表1 汉语发音“山”的原子参数

图2为汉语发音“山”的浊音起点位置及其原子特征。

图3为汉语发音“山”在其浊音起点后的原子特征及相应的分割效果图。

经统计，得声韵分割的仿真结果见表2。

表2 仿真结果

为进一步验证本文所采用的分割方法，主要是以匹配追踪原子参数的变化规律来确定声韵母过渡段终点的方法的合理性，又对上述除零声母以外分割正确的音节，以支持向量机为识别系统，进行了两组语音识别的仿真实验：①以孤立字为识别单元，进行语音识别；②先对孤立字进行重叠声韵分割，然后以分割所得的声、韵母为识别单元进行语音识别。以12阶MFCC作为特征，每个语音信号的特征矩阵均齐次化至40×12维，取测试集等于训练集。仿真结果显示，两组仿真实验的识别率分别为93.33%和94.67%。

3 结束语

汉语实际发音中，声母和韵母在时域和频域上均有明显的差异，通过结合语谱的计算和遗传算法改进的匹配追踪算法，先根据语音信号时频面上的横杠找到浊音起点，再依据声韵母过渡段上与之对应的匹配追踪原子参数所呈现的变化规律，确定声韵母过渡段终点，实现了一种对汉语音节进行重叠声韵分割的新的时频方法。仿真实验表明了该方法的有效性和合理性。

［1］Dusan S，Rabiner L.On the relation between maximum spectral transition positions and phone boundaries［C］.Pittsburgh，PA，USA：Ninth International Conference on Spoken Language Processing，2006：17－21.

［2］Jurado R S，Gomez－Gil P，Garcia C.Speech text－independent segmentation using an improvement method for identification of phoneme boundaries［C］.Cholula，Puebla：International Conference on Electrical，Communications，and Computers，2009：20－24.

［3］Theera－Umpon N，Chansareewittaya S，Auephanwiriyakul S.Thai phoneme soft segmentation and recognition using hidden Markov models［C］.Taipei，Taiwan：33rd Annual Conference of the IEEE Industrial Electronics Society，2007：251－255.

［4］Kanda H，Ogata T，Komatani K，et al.Segmenting acoustic signal with articulatory movement using recurrent neural net－work for phoneme acquisition［C］.Nice，France：IEEE/RSJ International Conference on Intelligent Robots and Systems，2008：1712－1717.

［5］Yu Q，Shimomura N，Minematsu N.Unsupervised optimal phoneme segmentation［C］.Las Vegas，NV：IEEE International Conference on Acoustics，Speech and Signal Processing，2008：3989－3992.

［6］HE X，WANG X L，ZHOU X Z.A method for syllable segmentation in mandarin speech recognition［J］.Fire Control ＆Command Control，2004，29（6）：94－96（in Chinese）.［何新，王晓兰，周献中.汉语语音识别中的一种音节分割方法［J］.火力与指挥控制，2004，29（6）：94－96.］

［7］ZHAO L.Speech signal processing［M］.Beijing：China Machine Press，2009：27－31（in Chinese）.［赵力.语音信号处理［M］.北京：机械工业出版社，2009：27－31.］

［8］Wacker M，Witte H.Adaptive phase extraction：Incorporating the Gabor transform in the matching pursuit algorithm［J］.IEEE Transactions on Biomedical Engineering，2011，58（10）：2844－2851.

［9］Guo P F，Wang X Z，Han Y S.The enhanced genetic algorithms for the optimization design［C］.Yantai：3rd International Conference on Biomedical Engineering and Informatics，2010：2990－2994.

［10］Gao Q，Duan C D，Fang X B，et al.A study on matching pursuit based on genetic algorithm［C］.Shanghai：Third International Conference on Measuring Technology and Mechatronics Automation，2011：283－286.