APP下载

浅谈广播电视新章节
——语音识别技术

2018-07-02

新闻研究导刊 2018年4期
关键词:马尔科夫人工神经网络高斯

王 雯

(国家新闻出版广电总局 成都监测台,四川 成都 611130)

对音频信号的自动分析和处理能够为新闻工作者提供许多有用信息。例如,在新闻广播中,音频自动分析与处理任务包括声音识别、说话者分辨、锚点检测、角色检测、故事场景边界检测、频道质量评估、与声音相关的事件检测、非语言类声音检测与分类、音频特征分类、静音检测、广告检测、语种识别、语音情感识别等。而语音识别技术是所有上述任务的工作基础,通常作为上述任务的前端技术被采用。

要分析音频信号,首先需要对信号进行预处理并提取音频特征。最后,所提取的音频特征经由模式识别算法处理而得到分析或识别的结果。

常用的音频信号特征包括时域特征与频域特征。零交叉率与梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,简称“MFCC”)为最常用的时域与频域特征。其他常用特征还包括音高、感知线性预测系数、谐波噪声比率、线性预测编码系数、色度特征、自相关性等。

在模型识别阶段,各种概率性和判别性的机器学习算法相继被提出。高斯混合模型(Gaussian Mixture Model,简称“GMM”)与隐马尔可夫模型(Hidden Markov Model,简称“HMM”)为音频模式识别中最常用的模式识别算法。其他被广泛采用的机器学习算法还包括支持向量机、人工神经网络、最邻近分类器、决策树、遗传算法、模糊逻辑算法等。

图1 语音识别系统总体架构

一、机器学习算法

以下列举机器学习在语音智能识别方面的一些应用。语音识别系统的总体架构大体如图1所示。

输入的音频信号首先通过前端处理单元,该单元对信号进行预处理并提取类频谱特征。此后,这些特征被输入模式识别算法用于估算属于不同音素的概率。得到的音素概率结果将结合隐马尔科夫模型、语言模型、词典等共同作用对音频进行解码(如图1所示),推导出该音频对应的文本内容。值得一提的是,模式识别与隐马尔科夫模型都属于机器学习范畴。

二、机器学习算法在语音识别中的应用

自动语音识别系统已经被应用在许多商业工作中,但系统仍然存在很多问题亟待解决。多年来,各种机器学习相关技术被运用在自动语音识别系统的语音建模中。其中,用隐马尔科夫模型来预测问题是被大部分人所熟知的。现实中,采用机器学习算法得到的结果往往不能绑定马尔科夫模型的某一特定状态,但是可以给出属于不同状态的概率程度,因而催生了隐马尔科夫模型。20世纪70年代以来,在许多关于自动语音识别系统的评估中,隐马尔科夫模型被公认为语音识别技术中变化最大的框架迁移,因此其被认为是语音识别技术中重要的里程碑。谈到隐马尔科夫模型,不得不提到与之相关的三个典型问题,即评估(前向算法)、解码(维特比算法)以及训练。给定模型和某一观察序列(结果),确定该模型生成此序列的概率为评估过程,该算法也被称为前向算法;确定出现某结果最可能的状态序列被称为解码,通常采用的是维特比(Viterbi)算法。更新模型参数使得产生某结果的可能性最大化被称为训练,一般采用Baum-Welch算法。

然而,隐马尔科夫模型也有自身的局限性,一是该模型需要通过大量训练数据来防止由于测试和训练条件间的不匹配所导致的模型性能下降。一般情况下,混合高斯模型可以估算出这些隐马尔科夫模型的输出概率密度。而采用混合高斯模型与隐马尔科夫模型的系统是目前自动语音识别系统中最杰出的生成式学习方法。尽管如此,人们一直在寻找能够替代隐马尔科夫模型的方法,因此在20世纪80年代末90年代初催生了各种基于人工神经网络(Artifical Neural Network,简称“ANN”)的语音识别技术,许多工作者提出使用ANN或者特殊的多层感知器来估算语音识别中的概率问题。此外,另一种可选的概率估计手段是支持向量机(Support Vector Machine,简称“SVM”)算法。值得一提的是,前面提到的隐马尔科夫模型是一种生成式模型,即最终决策由生成模型对当前模式输出的似然概率来确定。相比之下,支持向量机是区分式模型。区分式模型与生成式模型可相互补充,因此催生了一种混合支持向量机与隐马尔科夫模型的系统,该系统类似隐马尔科夫模型与多层感知机的混合系统。由于支持向量机具有强大的泛化能力,有助于提高自动语音识别的鲁棒性,近期的趋势之一是在噪声鲁棒的语音识别系统中采用结构化的支持向量机算法。以下分析语音识别系统中常用的机器学习算法,包括人工神经网络、支持向量机、混合高斯模型以及近几年兴起的深度学习。

(一)人工神经网络在自动语音识别中的应用

在人工神经网络中,每个音素都与多层感知机输出层中特定输出单元对应。两种常用神经网络类型是时间延迟神经网络(time-delay neural networks,TDNNs)和递归神经网络(recurrent neural networks)。虽然人工神经网络能够为自动语音识别解决许多问题,但仍然存在以下几点不足急需改进:第一,人工神经网络无法模拟语音信号的时变性。第二,在为混合模型设计最佳网络结构方面存在一定的困难。第三,目前缺乏联合的训练方式来同时训练隐马尔科夫模型和人工神经网络模型。第四,对大型多层感知机的训练较为困难。

(二)支持向量机

支持向量机(SVM)是一种二类非线性分类器,能够预测输入向量值属于类一还是类二。虽然在处理分类问题上,SVM是目前最先进的工具,其应用在语音识别上也有着优缺点,进而促使语音领域的研究者不断对其进行研究。SVM用于ASR具有以下优点:第一,支持向量机鲁棒性较好,因此适合在嘈杂的环境中进行语音识别。第二,因为采用了核化手段(kernel trick),只需考虑核矩阵(kernel matrix)参与优化,因此SVM已能处理应对“维度灾难”,处理上千维度的输入特征。

它的不足之处在于:第一,许多SVM算法的实现需要将所有输入样本(数量表示为n)之间的核矩阵进行存储,复杂度为O(n2),这是SVM的主要缺点。第二,SVM的输出取决于所用核函数类型,对于给定的任务,无法明确哪种核函数是最优的。第三,SVM的输入向量需要具有固定的大小,然而在语音识别中,每个语音序列有着不同的持续长度。

(三)高斯模型

混合高斯模型(GMM)用于对连续的分布函数进行参数化概率建模(采用高斯或正态分布),整个数据的分布则可以使用这些分布函数或高斯模型的混合模型来逼近。混合高斯模型在平滑近似大规模样本的分布方面非常有效。基于GMM的隐马尔科夫模型或者是混合高斯/隐马尔科夫模型是目前自动语音识别中最常用的机器学习方法。

采用高斯模型待解决的问题如下:第一,需要对模型的方差设置合适的下限,可改进泛化性能并防止方差变得极小。第二,使用GMM增加了计算的复杂性,因为需要一系列对数加法来计算GMM的似然概率。解决方法之一是仅选取对总概率值有相当贡献的高斯成分而舍弃其他权值很小的高斯成分;另一种方法是仅取所有高斯成分中最大的概率值来近似总概率值。第三,确定系统中每个状态对应的高斯成分数量是一个问题。第一种方法是假设对所有状态使用相同的成分数量,并在数据的帮助下确定该数量;第二种方法是使用常用的贝叶斯准则;第三种方法是将高斯成分的数量设计为与该状态中观测值数量相关的函数。第四,GMM建立在条件独立性假设之上。

另外,HMM / GMM系统的成功和普及源于以下原因:第一,归因于高效的Baum-Welch算法,受其启发催生了期望最大化(Expectation Maximization,简称“EM”)算法,用于学习GMM和HMM模型。第二,生成式GMM / HMM模型已经被证实能够在有噪声的语音环境下成功地将噪声与语音信息分离。值得一提的是,在识别嘈杂的语音时,其表现甚至可能超越人类。

(四)深度学习在语音智能识别方面的应用

2006年,Hinton等人提出了一种新颖的机器学习框架,即深度学习或层次化学习。最近通过实验发现,深度学习算法已在包括自动语音识别在内的许多应用中得到了极大的性能提升。在深度学习中,研究者开发了包含多处理层的层次化结构,技术的关键为对这些层的无监督预训练以及有监督反向误差回传进行模式学习与分类。

深度学习的兴起与流行有以下两个重要原因:第一,计算硬件(如GPU等)成本的显著下降。第二,计算硬件(如GPU)等芯片处理能力的极大提升。

所谓深度神经网络(DNN),其实是具有许多隐藏层的传统MLP。基于深度神经网络的语音模型在大词汇连续语音识别(LVCSR)上的首次应用案例出现于2012年。该案例利用了微软Bing语音搜索数据库,使用5个预训练的神经元层(每层包含2048个神经元)将具有11个音素的语音上下文窗口分为可能的761种上下文状态。该系统在测试集上获得了69.6%的准确率,而作为比较基准的GMM / HMM的准确率为63.8%。此外,该案例的研究者还发现绑定三音素作为上下文状态比仅使用单音素作为上下文状态效果更好。

三、结语

语音识别技术和机器学习技术相辅相成,而自动语音识别和深度学习间有着深厚的关联,在最近几年里,彼此的研究成果呈现互补状态。语音识别中的深度学习由基于人工神经网络的语音识别器开启,随后发展为隐马尔科夫与人工神经网络的混合模型,然而研究势头后来由于所采用的学习方法中的难点而受阻。可喜的是,最近兴起的深度学习克服了这些困难。因此,隐马尔科夫与混合高斯模型的结合正在慢慢被深度神经网络与隐马尔科夫的混合模型所替代。设计高效的深度学习网络结构与鲁棒的可应对大规模、不确定、不完整数据的学习算法极具挑战性,是未来要深入研究的方向。

猜你喜欢

马尔科夫人工神经网络高斯
基于三维马尔科夫模型的5G物联网数据传输协议研究
基于叠加马尔科夫链的边坡位移预测研究
基于改进的灰色-马尔科夫模型在风机沉降中的应用
利用人工神经网络快速计算木星系磁坐标
数学王子高斯
天才数学家——高斯
人工神经网络实现简单字母的识别
基于改进人工神经网络的航天器电信号分类方法
模糊人工神经网络在工程建设项目后评价中的运用
从自卑到自信 瑞恩·高斯林