基于共振峰过渡的协同发音语音合成算法

2010-06-06康广玉郭世泽孙圣和

天津大学学报(自然科学与工程技术版) 2010年9期

康广玉，郭世泽，孙圣和

基于共振峰过渡的协同发音语音合成算法

康广玉1,2，郭世泽3，孙圣和1

(1. 哈尔滨工业大学自动化测试与控制系，哈尔滨150001；2. 天津工程师范学院自动化系，天津 300222；3. 中国人民解放军总参54所，北京 100001)

协同发音是音素在语流中受前后音素的影响，而使2个以上音素的发音特征同时出现的现象．大语料库语音拼接算法获得的语音合成效果最好，但录制语料困难、算法复杂、耗费时间，需要占用很大的存储空间，在应用中存在困难．为此，针对小语料库语音合成，提出参数修改和波形拼接相结合的语音合成方法，通过参数修改方法合成协同发音段，再与自然语音进行波形拼接．实验表明，该算法合成的语音效果较好，而且对语料库内容要求较低．

语音合成；协同发音；共振峰；基频轨迹

协同发音是指在发音时，音素在语流中受前后音素的影响而使2个以上音素的发音特征同时出现的现象[1]．当前音节的结束音素为元音，后音节的起始音素为元音或摩擦音时，就会产生协同发音现象，而其他音素作为音节起始则不会产生协同发音现象，或可以忽略其影响．协同发音时语音在音段方面，表现为共振峰的过渡，在超音段方面，表现为基音频率的过渡，这是说话过程中经常发生的现象．

为提供语音拼接合成质量，应考虑协同发音现象．大语料库语音波形拼接算法获得的语音合成效果最好，在解决协同发音时采用大量录制具有协同发音的语音，从中选择适当片段进行拼接的方法，但存在录制语料困难、算法复杂、耗费时间，而且需要占用很大的存储空间[2]，在应用中存在困难．目前进行小语料库语音合成算法的研究很多，文献[3]提到语音拼接合成系统兼有拼接合成及参数合成的优点，也对相邻音素基音频率进行了一定的修改，保证了基音频率的联续性，但并未考虑相邻音素的协同发音现象，只是简单地将单个音节发音波形直接进行拼接合成得到的合成语音，与实际连续语音往往有着很大的区别，主要表现在合成基元之间连接处的谱包络、共振峰等声学特性不能很好地还原，导致得到合成语音连续性差、谱包络不能平滑过渡，因而效果不好[1,4]．

因此，如何在语音合成基元存储容量有限的条件下，进一步提高合成语音的质量一直是波形拼接合成法研究的主要问题．由于发音器官的惯性作用，协同发音词组的共振峰变化和基音频率变化是连续的[4]．Matsumoto等[5]研究发现：不同说话人发同一段语音时，人耳的柯蒂氏器官就是靠感知不同的共振峰频率分布来区分不同的说话人，基音周期与共振峰频率能够表示85%的说话人特征．笔者的语音合成算法主要对这2个方面进行研究．

1 协同发音分析

协同发音时语音在音段方面，表现为共振峰的过渡，在超音段方面，表现为基音频率的过渡．“西安”存在协同发音现象，如果不考虑协同发音现象而直接合成，则发音一字一顿，听者明显感觉不自然．如图1和图2所示．

图1 “西”、“安”单独发音的语谱Fig.1 Speech spectrogram of individual articulation of“Xi”and“An”

图2 “西安”协同发音的语谱Fig.2 Speech spectrogram of co-articulation of“Xi’an”

由图2可见，具有协同发音现象的语音可分为2部分，语音稳定段和语音过渡段，语音稳定段共振峰频率基本不变化，而语音过渡段共振峰频率表现为连续平滑过渡到下移音节开始段．

2 算法的基本思想

笔者提出一种以音节为合成基元，参数修改与波形拼接结合的语音合成算法．其中包括2个问题：一是共振峰的修改；二是基音频率的调整．通过对过渡段共振峰的修改和基频轨迹的调整，来合成协同发音段，与自然语音进行波形拼接．

2.1共振峰过渡

1)共振峰参数及其提取

共振峰参数是指发浊音时，气流通过声道，引起声道谐振，产生的一组谐振参数(频率、带宽和幅度)．这些参数包含在语音频谱包络中，代表了语音信号的短时频谱声学特征，频谱包络的局部最大值就是共振峰．通常在0～5,000,Hz范围内，有5个共振峰，从中可以提取共振峰频率、共振峰带宽和共振峰幅度．

由线性预测(linear prediction，LP)分析导出的声道滤波器是频谱包络估计的有效方法，即近似认为声道滤波器的共轭极点对应频谱包络的最大值，即对应共振峰参数．由线性预测分析可知，声道可近似表示一个全极点滤波器．对于每一帧信号，其传输函数表示为

式中：G为增益；pa为线性预测系数；P为线性预测阶数．

将式(1)分解为

求解出声道滤波函数的极点．式(2)中：K为实极点个数；J为共轭极点对的个数；kr、jr为极点半径；jφ为极点的相角．设与共轭极点jz对应的共振峰频率为jF，带宽为jB，幅度为jA．根据文献[6]则有

式中sF表示采样频率．利用式(2)和式(3)可得共振峰的频率、带宽和幅度分别为

2)修改共振峰

由于发声器官的惯性作用，协同发音在音节之间形成一个共振峰过渡段，过渡段的前边界各个共振峰的参数(频率、带宽、幅度)等于前音节结尾的相应共振峰的参数，而其后边界的各个共振峰的参数等于后音起始的相应共振峰的参数．因此，可以通过对前后共振峰参数进行线性插值的方法来构造音节之间的共振峰过渡段，如图3所示．

图3 协同发音共振峰移动示意Fig.3 Schematic of formants shift in co-articulations

将前共振峰的参数通过过渡时间达到后音节对应共振峰参数值，假设在过渡时间内共振峰参数是均匀变化的．根据语速来确定过渡时间，过渡时间一般占音节元音部分的10%～15%，实验采用12%作为过渡时间．

共振峰参数的修改可通过同时在语音谱中加入与原共振峰参数相对应的复零点对rme±iφj，以及与修改后的共振峰参数相对应的复极点对rne±iφ′j来完成[7]，即代表了说话人声音音调随时间的起伏，它反映了一个人说话时抑扬顿挫的特性，是语音长时超音段的重要特征之一．协同发音段的基频轨迹同样符合说话人的韵律特点，因此，用前后音节的基频轨迹来估计协同发音段的基频轨迹．

基频轨迹的变化不是一个简单的线性过程，而是在基音频率均值附近变化，本文中采用高斯分布来描述这一过程[8]．前音节的基音参数为ff(t)，通过式(8)进行转换得到后音节基音参数，即式中

合成语音基音频率的修改是通过LP残差的修改来实现的[9]，增加LP残差的零点或删除零点来降低和提高基音频率．

3 实验

3.1实验设置及步骤

实验中所用的说话人语音样本均使用Sennheisere828s传声器和Aureon 7.1 Space专业数字音频卡采集，其采样频率为PCM 22.05 kHz，16 bit量化．录音在普通实验室安静环境下进行．

影响语音能量分布的因素很多，包括话者的年龄、情绪、身体状况、所使用的方言等．实验样本选择了男女各2名、年龄22～24岁身体健康的大学生进行实验，录制了他们在平静时汉语普通话录制汉语平静状态普通话单字发音25组，按本算法合成25个词组．录制文本相同的25个词组的自然发音，作为测听参照．具体实验步骤如图4所示．

图4 算法示意Fig.4 Schematic of proposed algorithm

2.2基音轨迹转换

基音频率0F代表了说话人声音的尖锐和低沉的程度，是短时音段层面上的特征，而基频轨迹(0Ft～)

3.2实验结果

图5 合成后的语音谱Fig.5 Synthesized speech spectrogram

以“西安”为例，用本算法将单独发音合成协同发音．实验结果如图5所示．法，在实验中采用了25条平静状态普通话具有协同发音现象的合成词组和25条相同文本内容的自然语音词组，由4名28～33岁说普通话的年轻教师男女各2人进行测听，按照5分制MOS 给出其认可的效果打分，5个分制分别为：5优、4良、3一般、2差、1坏．结果如表1所示．

3.2.2 客观评价

采用Itakura距离进行评价，平均Itakura距离[10]为

3.2.1 主观测听

采用平均意见分(mean opinion scores，MOS)方

式中：N为源与目标话者共振峰参数动态时间规整(dynamic time wrapping，DTW)对齐后的帧数；A为线性预测系数；s表示源说话人；k指目标说话人．

表1 主观测听结果Tab.1 Results from subjective tests %

因本算法只对协同发音过渡段进行合成，故只将该段和自然发音过渡段进行比较，先进行动态时间规整．客观评价结果见表2．

表2 客观评价结果Tab.2 Results from objective tests

3.3讨论

文献[3]所述算法，音素采用滑动窗平滑，寻找最合适的拼接点，并不对音素进行修改．因而运算速度快，缺点是没有共振峰平滑过渡、效果差．本算法通过计算前后两音素的共振峰参数信息，人工合成一段过渡音，填补的两音素之间，使得音素频谱能量、共振峰平滑过渡，合成效果较好，但计算量大，因而运算速度较慢．

4 结语

大语料库语音合成存在录制语料困难、算法复杂、耗费时间，而且需要占用很大的存储空间，在应用中存在困难．通过对汉语中协同发音现象的研究，提出了一种参数修改和波形拼接结合的语音合成方法，在以音节为合成基元的波形拼接算法基础上通过共振峰的修改，合成协同发音音节间过渡段，再与自然语音进行波形拼接．实验表明，结合了波形拼接合成与参数合成方法的优点，能最大限度地使用自然语音进行语音合成，同时运用参数合成的灵活性，因而合成语音的质量比拼接平滑算法有较大提高，对语音库的规模要求较低，是适用于小语料库语音合成的良好算法．

［1］郑玉玲. 韵律词边界的协同发音问题[J]. 清华大学学报：自然科学版，2008，48(S1)：645-651.

Zheng Yuling. Co-articulation at the boundary of prosodic words[J]. Journal of Tsinghua University：Science and Technology，2008，48 (S1)：645-651(in Chinese).

［2］周讯溢，王蓓，杨玉芳，等. 语句中协同发音对音节知觉的影响[J]. 心理学报，2003，35(3)：340-344.

Zhou Xunyi，Wang Bei，Yang Yufang，et al．The influence of coarticulation on syllable perception in utterance[J]. Acta Psychologica Sinica，2003，35(3)：340-344(in Chinese).

［3］尹勇，曹振海，祖漪清．语境相关的音素级语音合成系统中拼接平滑算法[J]．清华大学学报：自然科学版，2008，48(S1)：640-644．

Yin Yong，Cao Zhenhai，Zu Yiqing. Smoothing algorithm for contextual phone concatenation in speech synthesis[J]. Journal of Tsinghua University：Science and Technology，2008，48(S1)：640-644(in Chinese)．

［4］ Zheng Yuling，Cao Jianfen，Bao Huaiqiao. Co-articulation and prosodic hierarchy [C]// Second International Conference on Tonal Aspects of Languages. La Rochelle，France，2006：145-150.

［5］ Matsumoto H，Hiki S，Sone T，et al. Multidimensional representation of personal quality of vowels and its acoustical correlates [J]. IEEE Trans on Audio and Electroacoustics，1973，21(5)：428-436.

［6］ Furui S. Digital Speech Processing，Synthesis，and Recognition [M]. New York：Marcel Dekker Inc，1989.

［7］蒋丹宁，蔡莲红，陶建华．带有频谱补偿的基频修改算法[J]．清华大学学报：自然科学版，2004，44(7)：974-977.

Jiang Danning，Cai Lianhong，Tao Jianhua. Pitch modification algorithm with spectral characteristic compensation[J]. Journal of Tsinghua University：Science and Technology，2004，44(7)：974-977(in Chinese).

［8］ Gutiérrez-Arriola J M，Montero J M，Vallejo J A，et al. A new multi-speaker formant synthesizer that applies voice conversion techniques [C]//Proc Eurospeech. Aalborg，Denmark：ISCA，2001：357-360.

［9］ Rao K S，Yegnanarayana B. Prosodic manipulation using instants of significant excitation [C]// Int Conf Acoust Speech Signal Processing. Maryland，USA，2003：234-238.

［10］ Rabiner L，Juang B-H. Fundamentals of Speech Recognition[M]. New Jersey：Prentice Hall，Inc，Upper Saddle River，1993.

Speech Synthesis Using Formant Transition Based Co-Articulation

KANG Guang-yu1,2，GUO Shi-ze3，SUN Sheng-he1
(1. Department of Automatic Test and Control，Harbin Institute of Technology，Harbin 150001，China；2. Department of Automation Engineering，Tianjin University of Technology and Education，Tianjin 300222，China；3. No.54 Institute from Headquarters of the General Staff，People’s Liberation Army，Beijing 100001，China)

Co-articulation is the phenomenon of co-occurrence of two or more phonemes features due to the effect of front and rear phonemes during articulation. While the speech mosaicing algorithm for the large speech database obtains good performance on speech synthesis，it finds difficulty in practical application resulting from difficulty inthe collection of speech samples，the complexity of algorithm，the time consumed and large storing space. This paper proposes a speech synthesis scheme for small speech database based on parameter adjustment and wave mosaic of speech band. The co-articulation speech band was first synthesized with parameter modification，and then mosaiced with natural speech. Simulations demonstrate that the proposed algorithm performs well on speech synthesis and has lower demand on the size of speech database.

speech synthesis；co-articulation；formant；pitch trace

TP391

0493-2137(2010)09-0810-05

2009-07-03；

2009-11-30.

国家自然科学基金资助项目(60772074).

康广玉（1975— ），男，博士研究生，讲师.

康广玉，kgycat250318@sina.com．