APP下载

皮肤听声原理在语音合成中的应用研究

2020-10-13李建文朱悦

现代电子技术 2020年19期
关键词:谱线正弦频谱

李建文 朱悦

摘  要: 语音合成一直是信息交互的重要研究领域,但是目前语音合成的方法还远不够完备。为提高重建语音的辨识正确率,提出以频谱构造法进行语音信号合成。首先将语音信号经过去噪、加窗、分帧和傅里叶变换等处理得到语音频谱图,然后通过频率解析提取共振峰谱线关键频率信息,在以C#搭建的智能语音合成平台上进行语音信号重建,最后利用重建语音信号和原始标准语音信号进行主观辨析测试。实验结果表明,重建语音信号可平衡各频率段的能量,突出语音信号的频谱特征。相比双谱线汉语重建语音,除汉语音素[o],其他单韵母音素识别正确率皆有明显提高。

关键词: 皮肤听声; 语音信号处理; 语音频谱图; 频谱特征; 共振峰谱线; 频谱构造; 语音信号重建; 浊音

中图分类号: TN912?34                         文献标识码: A                          文章编号: 1004?373X(2020)19?0035?05

Abstract: The speech synthesis has always been an important research area of information interaction, however, the current methods of speech synthesis are far from complete. In order to improve the recognition accuracy of reconstructed speech, a speech signal synthesis method is proposed based on spectrum construction. The speech signal is processed by denoising, windowing, framing and Fourier transform to obtain a speech spectrum diagram, and then the key frequency information of the formant spectral line is extracted by frequency analysis. Speech signal is reconstructed on the intelligent speech synthesis platform build with C#. In the end, the reconstructed speech signal and original standard speech signal are used in the subjective discrimination analysis test. The experimental results show that the reconstructed speech signal can balance the energy of each frequency band and highlight the spectrum feature of speech signal. In comparison with the Chinese reconstructed speech with double?spectrum line, the accuracy of single final phonemes is significantly improved except for the Chinese phoneme [o].

Keywords: skin?hearing; speech signal processing; speech spectrum; spectrum feature; formant spectral line; spectrum construction; speech signal reconstruction; voiced sound

0  引  言

语音合成是一个具有极大挑战性的研究领域,目前人们在语音合成领域的成果非常有限,尤其是以计算机实现任意语音合成的问题至今很少有研究成果出现[1?2]。语音合成涉及的数学理论非常多并且非常细腻,以至于现在很多语音合成问题没有解决,比如计算机合成的语音演唱。

目前大部分语音合成方法归属于数据驱动法,即通过载入语音语料库中最小分割单元进行处理,最终合成自然度和可懂度符合要求的语音信号。线性预测编码(LPC)技术作为波形拼接技术中的主要处理方法,但本质上来说是将录音重放[3]。基音同步叠加(PSOLA)技术是一种改进的波形拼接方法,但是必须对基音周期进行准确的判定,且可能对频域参数有一定的影响[4]。綜上,数据驱动法主要是对语料库中的最小分割单元在拼接时的处理,构建出的语音信号的音色和音调不具有灵活多变的特点,虽然具有很长的研究历史,但是很难实现基于语音编码的模拟演唱,且对语音信号的本质特性分析较少。

因此,在皮肤听声理论基础上采用频谱构造法合成语音信号,即通过频谱图的构造实现合成语音的方法。频谱图在医学、工程测试、航空航天及物联网等方面有广泛的应用[5?7],但在语音合成技术上应用较少。本文基于语音的发声原理[8]和皮肤听声原理[9],通过对语音信号进行频谱分析和参数提取,并以C#语言实现语音信号再合成。为探索汉语语音信号的特征,文献[10]提出语音信号的浊音段基本包含语音所有的信息,研究汉语韵母频谱分布具有重要意义,运用原始语音信号前两个共振峰参数即可进行语音信号重建,得到了汉语单音节双谱线重建语音的混淆矩阵。但从混淆矩阵中得出,单音节[o],[e]和[i]的分辨效果不佳。

为提高单音节语音的辨识率,本文用24谱线频谱构造法进行汉语单音节语音信号重建。首先,基于皮肤听声技术对语音信号进行频谱分析;然后,运用正弦模型和频谱构造法对语音信号进行模拟重建;最后,运用原始语音信号与仿真语音信号进行主观辨析实验,得到汉语单音节24谱线重建语音的混淆矩阵。结果表明重建语音信号的辨别成功率皆有提升。

1  语音正弦模型和皮肤听声器原理

1.1  语音正弦模型

在语音信号的产生模型中,假设语音信号[st]是由一个声门激励信号[et]通过冲激响应[ht]的线性时变滤波器所得到的响应。那么:

根据语音正弦模型原理[7],激励信号[et]可以表示为:

式中:[l]表示第[i]个正弦分量;[alt]和[wlt]分别代表正弦分量的幅度和频率;[?l]表示该正弦信号的初始相位。而线形时变滤波器的频率响应可以表示为:

于是语音信号模型可表示为:

化简得,语音信号[s(t)]可表示为:

因此,语音信号可以表示为一系列正弦波信号的叠加[11],各正弦波的幅度为[Alt],相位為[ψlt]。语音的正弦模型表示切合频谱构造法的中心思想,其参数是频谱构造法中的重要参数。

1.2  皮肤听声器原理

皮肤听声技术是将声音信号转化为电刺激信号,刺激皮肤让听障人感知到声音的新技术,是可以彻底解决听觉障碍的前沿技术[12]。皮肤听声器原理如图1所示。

皮肤听声器将从麦克风获取到的声音信号进行放大和降噪处理后,通过多通道带通滤波器将声音信号划分为多组信号,再经过功放、升压,最终通过多通道电极阵列作用于皮肤,使触觉中枢接收刺激信号,相当于在人体皮肤上画一个语音频谱图。

频谱图在医学、工程测试、航空航天及物联网等方面有广泛应用,而本文涉及的频谱图为语音频谱图,简称语谱图。语谱图是语音信号短时频谱的时间?强度表示,是一种三维图谱[13]。本文使用窄带语谱图表示语音信号。与宽带语谱图相反,窄带语谱图的频率分辨率较低,时间分辨率较高,呈现横向条纹,可以更加清晰地反映语音信号频率的分布情况。

语谱图中颜色的明暗一般用能量的对数表示,即[lg (P(n,ω))],语音信号在[(n,ω)]处能量具体表示为:

2  语音信号合成方法

根据皮肤听声原理提出基于正弦模型的频谱构造合成语音信号的方法,该方法是皮肤听声器处理语音信号的逆过程,其流程如图2所示。

2.1  语音信号预处理

研究使用的原始音频保存为.wav文件格式,采样大小为16位,为单声道录音。为去除在录制过程中可能会出现小幅值的噪音以及录音设备的电流干扰,对语音信号进行预处理。

语音频域范围[14]约在150~4 000 Hz,设置滤波器截止频率为75 Hz,图3给出了所设计的滤波器的参数特性,图中横轴为频率参数,纵轴为幅度参数。

2.2  语音关键频率提取

2.2.1  使用高性能皮肤听声器筛选关键频率

使用高性能皮肤听声器进行汉语单韵母关键频率的初步筛选。佩戴高性能皮肤听声器,播放经过预处理后的语音音频,测试高性能皮肤听声器各个通道电极的信号,不同的语音检测到的通道及通道数量不同。

以阴平女声[a]和[i]为例,测得女声[a]检测到信号的通道为L型B通道至L通道、H型B通道至G通道,女声[i]检测到信号的通道为H型G通道至J通道。参考高性能皮肤听声器的频率对照表可得,汉语音素[a]的频率范围为220~1 064 Hz,汉语因素[i]的频率范围为220~450 Hz,2 800~4 400Hz。经皮肤听声器测得汉语单韵母音节男女声频率范围如表1所示。

2.2.2  关键谱线分布提取

为了提高频谱分析精度,选择的窗函数的频谱应该有较窄主瓣、较小旁瓣,并有较大的衰减速度,因此选择Hamming窗[15],其定义式如下:

根据声道特性[16?17],年轻女性声音的基频约为300 Hz,年轻男性的基频约为110 Hz,年轻女性声音相邻共振峰相距300 Hz,年轻男性声音相邻共振峰相距110 Hz。因此在提取共振峰参数数据时,可以以等差数列为规律提取参数数据。本文中语音信号[xn]的采样率为44 100 Hz,量化位数为16 bit,正弦模型的分析帧长为20 ms。

采用提取局部峰值法提取极值点,得到每个重要频率及能量参数如表2所示。

由表2可以得出,女声的每条谱线之间的差值为250 Hz;男声的每条谱线之间的差值为150 Hz。

在Matlab中,使用[A(a)]代表幅值参数,[F]表示频率参数,对提取到关键谱线提取幅值参数[17],语句如下:

A(a)=find(f==F*10^6);

将表2中的谱线频率数据代入,得到每条关键谱线的幅值参数,将数据载入文档。使用模拟函数描述语音信号,如式(9)所示:

式中[A(xn)]和[f(xn)]表示幅值参数和频率参数。频谱构造法通过构建不同谱线进行频谱构造,即可得到不同的语音信号,使合成语音具有多样性和灵活性。

2.3  语音信号合成

使用C#语言编写WAVE波形编辑文件,将提取到的数据写入文件中。人体的听觉范围为20~20 000 Hz,因此本文选用WAVE音频格式,秒数据量为44 100,即可生成20~20 000 Hz范围内所有声音。

1) 使用二进制流进行文件数据的写入:

MemoryStream ms2 = new MemoryStream();

BinaryWriter bw2 = new BinaryWriter(ms2);

2) 设置for循环计算WAVE音频文件中多个频率为[x]的谱线幅值叠加后,每个数据单位中保存的参数[Y]。ActualAmplitude表示幅值参数,[a]为基音频率,[b]为语音信号高频率,[c]为谱线频率间隔。

for(x=a; x

Y=(short)(Math.sin(x)*ActualAmplitude;

//计算每个采样点的数据值

3) 将计算出的[Y]值写入每个声道数据中:

for (int channelIndex=0; channelIndex

//计算每个声道数据位

bw2.Write(Y);                          //写入数据

3  频谱构造法的有效性验证

3.1  重建语音信号频谱对比

在Matlab 2015中处理重建信号,生成频谱解析图,与原始信号做对比,如图4,图5所示。

从图4和图5中可得,与原始语音信号相比,重建语音信号降低了低频区域信号能量,提高了高频区域信号能量,突出语音信号高频区域特征的同时,平衡了语音信号的能量强度,增大了语音信号的被识别率。

3.2  主观评价

主观评价采用辨析法来测试。辨析法将重建语音音频和对应原始语音音频打乱次序,由18位测试者进行辨析测试。测试结束后统计测试者的正确率,正确率越高,说明重建的语音可懂性越强。

文献[10]中双谱线重建语音的混淆矩阵如表3所示,本文根据主观评价结果得到了汉语韵母新的混淆矩阵,如表4所示。

比较表3和表4可得,除汉语音素[o]外,其他汉语音素的辨识正确率皆有明显提高。

4  结  语

本文在皮肤听声技术的基础上,对汉語音素进行模拟重建,得到以下结果:

1) 重建的语音提高了高频区域的信号能量,平衡了低频区域的信号能量,突显了原始语音信号的特征。

2) 经主观辨析测试得到了重建语音的混淆矩阵,相比双谱线重建语音的混淆矩阵,除了重建语音音素[o],其他音素识别正确率皆有显著提高。

文中研究了皮肤听声原理在语音合成技术中的可行性,并使用频谱构造法重建语音,结果显示该方法具有良好的可控性和灵活性。课题的下一步工作是通过函数拟合的方法构建不同频谱视觉形态的声纹谱线进行不同声音的频谱构造。

注:本文通讯作者为朱悦。

参考文献

[1] 张斌,全昌勤,任福继.语音合成方法和发展综述[J].小型微型计算机系统,2016,37(1):186?192.

[2] 刘豫军,夏聪.计算机语音合成技术研究及发展方向[J].网络安全技术与应用,2014(12):22.

[3] 卓嘎,董志诚.藏语拉萨语LPC语音参数提取研究[J].现代电子技术,2017,40(18):20?22.

[4] 李娟,张雪英,黄丽霞,等.基于Hilbert?Huang变换的语音合成基音标注搜索新算法[J].现代电子技术,2018,41(12):153?156.

[5] BOVERI H, SOTO G. Spectrogram analysis as a monitor of anesthetic depth in a pediatric patient [J]. Journal of neurosurgical anesthesiology, 2018, 30(2): 193?194.

[6] 肖娜,关喜峰,孔祥伟.基于图像处理的航空发动机自适应频谱报警技术研究[J].计算机测量与控制,2019,27(9):184?190.

[7] YAN Siyuan, LI Xiao, JIANG Changhong, et al. Digital predistortion for spectrum compliance in the Internet of Things [J]. Journal of electronic testing, 2018, 34(3): 255?262.

[8] 吕亮亮.基于正弦模型的语音编码算法研究[D].西安:西安电子科技大学,2013.

[9] 李建文,李沙沙.基于Matlab的多通道人耳模型技术在皮肤听声中的应用[J].计算机测量与控制,2012,20(11):3083?3085.

[10] 张毅楠,肖熙.汉语语音正弦模型特征分析和听觉辨识[J].电声技术,2011,35(8):38?41.

[11] 尹伟,易本顺.一种基于正弦激励的线性预测模型的语音转换方法[J].数据采集与处理,2010,25(2):218?222.

[12] 贺靖康,李建文.一种改进的皮肤听声语音信号处理系统[J].江苏科技大学学报(自然科学版),2017,31(6):825?829.

[13] SARRIA?PAJA M, FALK T H. Fusion of auditory inspired amplitude modulation spectrum and cepstral features for whispered and normal speech speaker verification [J]. Computer speech & language, 2017, 45: 437?456.

[14] 王钟斐,王彪.基于时频分布的汉语语音关键频率分布研究[J].电子设计工程,2011,19(10):14?18.

[15] SMITH B, SUSTERSIC J, MOORE M. Low?power OZGF bank and MR hamming windowing for embedded speech recognition [J]. WSEAS transactions on signal processing, 2015, 11: 52?57.

[16] AYOUB M R, LARROUY?MAESTRI P, MORSOMME D. The effect of smoking on the fundamental frequency of the speaking voice [J]. Journal of voice, 2019, 33(5): 11?16.

[17] 周丽红,雷金辉.双谱图在语音分析中的应用[J].传感器与微系统,2018,37(2):158?160.

猜你喜欢

谱线正弦频谱
例说正弦定理的七大应用
正弦、余弦定理的应用
基于HITRAN光谱数据库的合并谱线测温仿真研究
一种用于深空探测的Chirp变换频谱分析仪设计与实现
一种基于稀疏度估计的自适应压缩频谱感知算法
“美”在二倍角正弦公式中的应用
铁合金光谱谱线分离实验研究
锶原子光钟钟跃迁谱线探测中的程序控制
基于VSG的正弦锁定技术研究
药芯焊丝GMAW电弧光谱的研究