APP下载

语音识别技术的发展及应用

2019-11-28于晓明

计算机时代 2019年11期
关键词:语音识别特征提取预处理

于晓明

摘  要: 人类生活中,语言是必不可少的信息传达媒介,作为模式识别技术之一的语音识别技术独有其发展的亮点。文章对语音识别的发展历程进行了总结,从语音识别的原理出发,在端点检测、特征提取等方面介绍了语音识别模型的建构。例举了语音识别技术的应用,探讨了语音识别的技术突破和发展前景。

关键词: 语音识别; 语音信号; 预处理; 特征提取

中图分类号:TP393          文献标志码:A     文章编号:1006-8228(2019)11-28-04

Abstract: Language is an indispensable medium of information transmission in human life. Speech recognition technology, as one of the pattern recognition technologies, has its own bright spot. This paper summarizes the development process of speech recognition, and starting from the principle of speech recognition, introduces the construction of speech recognition model in the aspects of endpoint detection and feature extraction and so on. The application of speech recognition technology is described, and the technological breakthroughs and development prospects of speech recognition are discussed.

Key words: speech recognition; speech signal; preprocessing; feature extraction

0 引言

语言最初是人类所特有的交流工具,但随着科技的不断进步,人类如今不只局限于人与人的交流,并开始逐渐向人与机器的交流方向发展,即通过语言的沟通让机器能像人类一样听懂对方所传达的信息。如今的语音识别技术正是此方向突破的关键,信息领域和自动化领域的专业研究人员不断进行这方面的研究,机器自动的语言识别,使机器能为人类所用增加人们的生产生活效率,推动人类历史的发展进步。语音识别技术是涉及模式识别、人工智能的多领域研究学科,是人类与机器之间联系的关键。

1 语音识别的发展历程

语音识别技术最初的兴起是在20世纪50年代,此时我国的语音识别技术也开始出现,国外当时只是在贝尔实验室里进行关于识别英文数字的简单发音装置的研究,而后带来了小词汇量和单个词语的识别,在进入20世纪70年代,才有了语音识别实质性的进展,出现了逐渐成为主流的隐式马尔科夫模型技术(HMM)[1],并且从传统的目标匹配方式向基于统计的数学化方向有很大的进展。进入20世纪80年代,语音识别技术继续深入发展,人工神经网络进入模式识别的范畴,出现了利用人工神经网络[1,2]进行语音识别问题的处理思路,研究不只是在简单词语数字的识别上,有了连续语音的识别和基于大量词语的识别[3]。我国在此时期执行863计划,语音识别技术的研究与国外同步发展,这是语音识别技术的一个过渡阶段。20世纪90年代之后,语音识别技术逐渐进入饱和阶段,基于语音识别的产品开始进入人们的生产生活,随着时代的不断迁移,基于BP神经网络的优点,大量的语音识别都基于此進行识别系统产品的设计。

2 语音识别构建模型

语音识别技术的过程包括语音信号的预处理、特征提取、模式匹配和判决三个方面。首先由系统接收语音输入,经过信号的预处理和特征提取,得到目标信息的语音数据形成语音信息模式库,再进行输入的语音信号和模式库的模式匹配得到两者信息匹配的结果。(如图1)

2.1 语音信号的预处理

2.1.1 语音信号预加重

在如今十分成熟的A/D转换操作之后,最初获取的语音信号中语音信息被多种噪声影响且高频信号部分不明显,因而要事先对于语音信号进行预加重,预加重的实现结果是提高目标信号和噪声信号的对比度,便于能很好地对于语音信号进行滤波,目前广泛使用的是一阶滤波器来实现预加重。

其中,z是语音信号,H为预加重后的信号,μ为一阶滤波器的参数。

2.1.2 加窗分帧

在预加重处理的信号之后,为得到语音信号的分析频谱,要将语音信号分成多个窗口,这样就把一段持续的语音信号分成多段信号,为了保持每段信号连接的平滑性,在断接点处设置交叠的部分,便于不同分帧之间的平滑移动。对于加窗处理,常使用汉明窗,汉明窗的通频特性好,在信号的分区截取中保证了连续性平滑性,减小了分析频谱的泄露。

2.1.3 端点检测

端点检测在整个语音识别过程中是十分关键的,在一段语音信息中有正常的语音信息,有间断信息,有无声信息,端点检测就是保证将三者能很好地区分出来,排除无声信息等掺杂的信号,选取所需要的正常的语音信息。目前端点检测的研究具有多样化且处于发展的黄金时期,有基于语音信号的时域特性的能量大小、平均过零率、能量变化率等,基于频域特性的频谱变化、谱熵的测定。下面主要通过语言信息的谱熵来进行简要的介绍。首先取某点Xi的概率表示为P{Xi},则在点Xi的熵定义为:

通过设置一个边界范围,在此范围之内的数据即为正常的语音信号,若超出这一范围则将其他噪音信号去除掉,通过选择熵函数实现了端点检测的操作。

2.2 语音信号的特征提取

应用模式识别技术,只有将所测试信息的信号特征提取出来,才能供实验的研究分析。语音信号的特征提取历史悠久,其算法的实现已经有多种形式[4]针对特定的倒谱特征,本文将介绍两个经典的LPCC[5]和MFCC[6-7]参数来进行语音信号的特征提取。通过傅里叶变换谱经对数运算再取傅里叶反变换即可得到信号的倒谱,LPCC既能实现它的预测功能,又能提供进行声道模型参数的提取过程,在LPCC分析过程中首先将语音信号视作全极点形式,在LPC基础上进行运算:

2.3 模式匹配和判决

如今模式匹配的声学模型技术得到许多研究者关注,深度学习在模式匹配的研究[8,9]模式匹配方式有了很大的改进,模式匹配包括声学模型和语言模型。声学模型是将获取语言信息的发音标准与模式库中的发音标准进行匹配而设计的模型,它通过矢量量化的分析将不同发音模板提取出来,常用的就是HMM声学模型,在此基础上[10]引入了状态段长,对于不同语音段的划分提高了原始基本识别的性能,神经网络的引入也给模式匹配环节带来了性能的进步。语言模型是针对不同语言的语法结构进行上下文分析确定词义,在统计方面的语言模型的建立,将一系列相同的语法规则集中起来就在一定程度上减少了系统的识别时间。识别结果就是将事先测试的语音信息进行预处理和特征提取,与模式库的声学模型进行不同程度的匹配,通过统计识别信号的正确数量得到识别率,基于相同的识别率可以通过识别时间的比较进行算法优良性能的判决。

3 语音识别应用

语音识别技术的应用十分广泛,从孤立词的识别到关键词的识别,最后根据说话人连续的语言的识别,如许多社交软件都实现了从开始的键盘输入到语音识别输入,语音输入技术的突破给人们的生活带来了很大的便利,图2介绍了一部分基于语音识别的应用网络,为未来的语音识别网络提供可视化模型。

⑴ 语音助手。语音识别作为机器与人交流的媒介,在语音助手方向有很大的可操作性,目前已存在语言的自动识别功能的小型机器人(例天猫精灵、小度),在网络销售中即可购买,事先通过内部下载的程序进行机器人和手机的联合配对,针对使用者的语言进行开关电视、播放音乐、设置闹钟等操作,这是最终全面实现智能家居[11-12]的一个发展趋势。智能家居是将语音识别系统嵌入家庭使用设备中,使家用设备系统网络一体化,这种操作能极大的丰富人们的生活;车载语音助手[13]如今也有了明显的发展,利用语音传输进行音乐播放、导航配置的控制,在一定程度上改善了驾驶人的驾驶环境。

⑵ 身份确认。如今在科技高速发展的时代,人类身份的确认尤为重要,除了在生物体特征识别之外,语音识别也能达到其期望的效果[14]。身份的确定基于说话人声道的不同,发出声音频率的不同进行不同的区分,解决了如今身份密码的缺憾,密码作为保护信息的一种途径容易被破解且固定不可迁移,从现在技术高超的译码技术能枚举破解固定的密码,但基于人物语音的不同,发音习惯的差异对于身份的确认十分有益处。在门禁系统中,人物可以事先将自己的语言信息存储在系统模块库中,当涉及具体的人物识别的时候,将采集的语言数据和存储数据进行识别对比得到说话人的身份;语音识别的身份确认在公安系统的案件侦查中也有很大的效用,将语音识别与身份证信息的结合也是出彩的操作,语音输入加上生物体特征识别技术的配合就将得到多重身份保证。

4 语音识别的技术突破及发展前景

4.1 技术突破

语音识别有了历史性的进展,但是仍存在一些技术上的不足。语音识别过程中的噪声处理仍然是一个很难突破的难题,在上例的天猫精灵就有此方面的缺陷,超过一定的距离机器就很难识别使用者的语言,甚至是停止工作不进行识别工作,不仅有距离上的影响,当面临于嘈杂的环境中,系统也很难辨析出讲话人的语言。在身份识别中也存在一定的缺陷,单从声音信息来说,当今处于互联网时代,图像声音的处理软件十分发达,信息有被复制和融合的可能性,这就对于身份的确认很容易造成误差,在此部分未被突破前只有与生物识别技术相结合才能进一步保证识别信息的准确性。

4.2 发展前景

语音识别技术在未来是十分热门的领域,许多企业家将加大对于语音识别的资金投入,首先基于其原理进行适当的展望;其次从应用领域进行可视化的分析,目前全球中有大部分的听觉受限的人员,每人都拥有人工耳蜗是不经济的也是不现实的,但是语音识别技术将有十分优势方面,若配合语音识别系统,将对此问题有很大的帮助,将说话方的语言通过语音识别技术显示给听力受限的人群,作为一个类似于辅助助听器的应用软件,不仅有效而且经济;再次是技术层面,将噪音从获取的语音信息中完全过滤,使机器像人群一样不受限于嘈杂的环境,对于生活中嵌入的应用是很有发展价值的。

参考文献(References):

[1] 袁翔.基于HMM和DNN的语音识别算法研究与实现[D].江西理工大学,2017.

[2] 戚龙,赵丹.基于BP神經网络的非特定人语音识别算法[J].科学技术与工程,2017.17(31):277-282

[3] 刘加.汉语大词汇量连续语音识别系统研究进展[J].电子学报,2000.1:85-91

[4] 惠博.语音识别特征提取算法的研究及实现[D].西北大学,2008.

[5] 张文克.融合LPCC和MFCC特征参数的语音识别技术的研究[D].湘潭大学,2016.

[6] 田莎莎,唐菀,佘纬.改进MFCC参数在非特定人语音识别中的研究[J].科技通报,2013.29(3):139-142,146

[7] 袁正午,肖旺辉.改进的混合MFCC语音识别算法研究[J].计算机工程与应用,2009.45(33):108-110

[8] 戴礼荣,张仕良,黄智颖.基于深度学习的语音识别技术现状与展望[J].数据采集与处理,2017.32(2):221-231

[9] 侯一民,周慧琼,王政一.深度学习在语音识别中的研究进展综述[J].计算机应用研究,2017.34(8):2241-2246

[10] 袁里驰.基于改进的隐马尔科夫模型的语音识别方法[J].中南大学学报(自然科学版),2008.39(6):1303-1308

[11] 王爱芸.语音识别技术在智能家居中的应用[J].软件,2015.36(7):104-107

[12] 徐子豪,张腾飞.基于语音识别和无线传感网络的智能家居系统设计[J].计算机测量与控制,2012.20(01):180-182

[13] 苟鹏程,宗群.车载语音识别及控制系统的设计与实现[J].计算机应用与软件,2017.34(5):129-134

[14] 陈大为.基于HMM的说话人识别改进研究及应用[D].浙江大学,2002.

[15] 倪崇嘉,刘文举,徐波.汉语大词汇量连续语音识别系统研究进展[J].中文信息学报,2009.23(1):112-123,128

[16] 于俊婷,刘伍颖,易绵竹,李雪,李娜.国内语音识别研究综述[J].计算机光盘软件与应用,2014.17(10):76-78

[17] 詹新明,黄南山,杨灿.语音识别技术研究进展[J].现代计算机(专业版),2008.9:43-45,50

[18] 柯登峰,徐波.互联网时代语音识别基本问题[J].中国科学:信息科学,2013.43(12):1578-1597

[19] 金学骥,叶秀清,顾伟康.预加重与MMSE结合的语音增强方法[J].传感技术学报,2005.2:300-302,306

猜你喜欢

语音识别特征提取预处理
基于Daubechies(dbN)的飞行器音频特征提取
基于预处理MUSIC算法的分布式阵列DOA估计
Bagging RCSP脑电特征提取算法
通话中的语音识别技术
面向移动终端的语音签到系统
络合萃取法预处理H酸废水
农业物联网平台手机秘书功能分析与实现
基于Android手机语音和Arduino控制板的机器人控制系统
基于自适应预处理的改进CPF-GMRES算法
基于MED和循环域解调的多故障特征提取