APP下载

视频与音频特征融合生成动作指令组的方法研究

2023-08-10林大润陈俊洪王思涵钟经谋刘文印

计算机应用与软件 2023年7期
关键词:音频语音模态

林大润 陈俊洪 王思涵 钟经谋 刘文印

(广东工业大学计算机学院 广东 广州 510006)

0 引 言

近年来随着人工智能技术和智慧城市的快速发展,服务机器人逐渐走入人们的生活中,在餐饮、家居、物流等各行业都得到广泛的应用,其可以辅助人类高效完成一些具有重复性、复杂性、娱乐性等特性的任务。这使得人们对于良好的人机交互体验有着更高要求,但传统机器人控制通常依赖于专门的指向设备和特定的操作流程,这不仅耗费大量的资源,而且对于普通用户特别是特殊人群则具有较高的使用难度。语音技术的出现使得人机交互领域有了极大的发展:只需要直接说出自己的需求,机器人就能完成相应的动作。

虽然现有的语音交互技术已经有了很大的进展,但在现实应用场景中,语音识别准确度的提升主要依靠网络的深度以及海量的数据集去支撑的。人们提出了许多已经比较成熟的语音识别的方法:Ravanelli等[1]提出了一个RNN模型并在TIMIT数据集上取得了sota成果;Zhou等[2]提出了一个在语音识别领域上的transformer模型用于普通话数据集上。但是这类方法都是将语音的全部内容识别成文本,不仅准确率不高,而且还需要增加一道文本转换成机器人所能接受的指令形式的步骤,效率较低。为了解决以上问题,人们提出将音频和视频的特征相结合的方式提高模型的准确度:宋冠军等[3]直接级联音视频特征并采用PCA降维的方法达到特征融合的目的;Guo等[4]提出使用共享权重和共享记忆的特征融合方法,提高了音频特征和视频特征的“共鸣”度。但这些方法效果一般。

为了提高计算精度,本文提出了一个基于视频与音频特征融合网络的动作三元组分类框架。该框架主要包含三个模块,分别为视频特征提取网络、音频特征提取网络和特征融合分类网络。第一个模块利用I3D[5]视频分类网络来提取视频的特征;第二个模块利用了一维的卷积神经网络和LSTM网络来提取音频的特征;第三个模块将两个特征分别通过全连接层以及归一化后相加,然后导入GRU分类网络输出动作三元组。与其他语音分类网络相比,本文提出的框架虽然需要视频数据,但不需要转换成中间文本形式。端对端的输出动作指令使得准确率有所突破,并且在数据集上表现出较好的鲁棒性。

1 相关研究

1.1 语音关键词检索

从语音中提取出动作三元组(动作,主体物体,受体物体)其本质是语音关键词检索(Spoken Keyword Spotting)。作为语音识别的一个子领域,其目的是在语音信号中检测指定词语的所有出现位置。随着智能助理、智能音箱等应用的兴起,语音关键词检测越来越受到产业界的重视。早些年前,一些专业领域的人员希望通过专业知识来解决这一问题,Weintraub[6-7]提出使用对数似然比以及Viterbi的两种方法来获取语音关键词,但是这些方法需要大量的先验知识,无法进行广泛的应用。后来随着深度学习的兴起,人们开始在这个领域使用深度模型,例如隐马尔可夫模型(HMM)[8]、深度神经网络(DNN)[9]、卷积神经网络(CNN)[10]等,取得了不错的效果。

基于样例的语音关键词检索(QbE-STD)已经成为一个非常值得关注的领域。在这个领域关注的是长语音的关键词识别,由于语音长度变长与语义理解变得复杂,检索的难度也有所上升。文献[11-12]提出DTW(Dynamic Time Warping)算法,但在多人语音里不是很理想。借鉴深度学习的成功经验,研究人员提出了基于LSTM[13]、DNN[14]、RNN[15]的模型并取得了不错的效果。这些方法不需要研究人员具备太多的语音专业知识也能端对端地完成任务,但准确率仍然没有进一步的提高。Kamper等[16]创新地提出了多模态特征融合的方法检索关键词,取得了很好的效果。

1.2 多模态的音视频特征融合

单模态表示学习负责将信息表示为计算机可以处理的数值向量或者进一步抽象为更高层的特征向量,而多模态表示学习是指通过利用多模态之间的互补性,剔除模态间的冗余性,从而学习到更好的特征表示,这在许多领域上有许多成功的应用。其中最早的应用领域是视听语音识别[17],通过将视频跟音频特征进行融合提高语音的识别效果。第二个重要的多模态应用类别来自多媒体内容索引和检索领域[18-20]。

多模态领域根据模态的融合方法分为两个研究方向,分别是联合表示(Joint Representations)和协同表示(Coordinated Representations)。协同表示负责将多模态中的每个模态分别映射到各自的表示空间,但映射后的向量之间满足一定的相关性约束。例如Kamper等[16]的方法将音频特征与视频特征分别映射到各自的表示空间上进行检索,是典型的协同表示方法。Guo等[4]提出的方法都是将视觉模态和听觉模态的信息一起映射到一个统一的多模态向量空间进行概括生成,是典型的联合表示方法。本文应用联合表示的方法,将音视频特征先进行融合并用于动作三元组的分类,提高了准确率。

2 基于多模态融合网络的动作三元组分类

我们的目标是从音频和视频中生成可以高度概括技能的动作三元组(动作,主体物体,受体物体),总体网络框架如图1所示。接下来我们将按视频特征提取、音频特征提取和视频特征及音频特征融合分类三个部分进行详细介绍。

图1 音视频融合网络框架

2.1 视频特征的提取

由于动作是在时间与空间两个维度上进行变化的序列,所以我们考虑从时序与空间信息中共同提取动作特征,从而提高动作识别的准确性。对此,我们采用I3D(Two-Stream Inflated 3D ConvNet)网络[5]进行特征的提取,该网络具有两个分支,分别用于提取时间特征和空间特征,并且可通过增加空间维度将2D卷积核扩展到3D卷积核,使得网络可以提取更多的时间特征,具体网络结构如图2所示。

图2 I3D网络结构

可以看到,该模型由一系列的二维卷积层、最大池化层,以及INC层组成,其中INC层是将Inception-v1[24]的2D-Inception module加一个时间维度拓展为3D-Inception module,具体结构如图3所示。本文使用Charades[21]数据集的预训练参数,将动作指令相关的视频输入到网络后,将网络结构原本的分类层移除,得到维度为(30,2 048)的特征向量。

图3 INC模块结构

2.2 音频特征的提取

由于原始语音表示形式不符合人耳的听觉特性,难以抽取有效特征,所以在对音频特征提取之前,我们将原始语音转换成梅尔频率倒谱系数MFCC(Mel Frequency Cepstrum Coefficient)。该方法与基于声道模型的LPCC相比具有更好的鲁棒性,并且更加符合人耳的听觉特性。在得到39维的MFCC特征后,我们将其输入到一维的卷积+LSTM神经网络,其具体网络结构如图4所示。

图4 音频特征提取网络结构

我们参考Satt等[25]的工作使用了一层的一维卷积层加LSTM的网络结构:将MFCC的音频特征输入到一维卷积层,然后加入最大池化层突出语音中描述动作三元组的部分,去除冗余特征。随后加入双向LSTM层,使其能更加充分地从时序数据中学习。最后再接入全连接层,维度是(3,400),便得到了音频特征并作为特征融合部分的输入。

2.3 特征融合分类

特征融合分类网络的目的是将2.1节得到的视频特征以及2.2节得到的音频特征相融合后预测出动作三元组。其具体的结构如图5所示。

图5 特征融合网络

紧接着,我们将XF输入至Scaled Dot-Product Attention层,在该步骤中,先生成一个Query向量Q、Key向量K,以及Value向量V,其计算公式如下:

Q=Wqx

(5)

K=Wkx

(6)

V=Wvx

(7)

式中:dk是向量Q和向量K的维度,输出的矩阵Q、K、V∈Rm×dv。为了捕获句子中更加丰富的语义信息,我们使用Multi-Head Attention[26]来提高分类效果,其公式如下:

图6 Multi-Head Attention的结构

随后,我们将其输入到双向的GRU网络以及批归一化层,其后输入到全连接层,得到维度为(3,29)的向量,其中29为动作类别数以及物品类别数的总和,最终输入到softmax函数进行分类。

3 实 验

3.1 数据集

MPII Cooking 2数据集是由不同操作者进行烹饪所采集的数据集,它一共包含30多个菜谱,273个烹饪视频,总时长达到27小时。在本文中,我们挑选了7个动作,21类常见物体进行研究,考虑到某些动作无主体或者受体,我们使用“-”代表物体缺失。类别信息如表1所示。

表1 物体和动作类别数据

由于本文中我们只考虑单个指令任务,所以我们首先把视频按照动作分割成视频段,并从中随机抽取4 000个视频段作为视频模块的训练集,2 000个视频段作为整个网络框架的训练集,500个视频段作为视频模块的测试。然而,由于MPII Cooking 2数据集只有视频和文本的描述,缺少语音描述数据,所以我们根据文本描述扩展出3 000段英文语音描述,其中每段语音时间不超过10 s。我们随机选取2 500段语音将用于语音模块的训练,剩下的500段语音用于整个网络框架的测试。为了更好地展示所使用的数据集,我们对部分数据集进行了可视化展示,内容如表2所示。

表2 数据集可视化效果

3.2 实验设置

在视频特征提取阶段,我们使用在Charades[21]数据集上预训练的I3D网络参数在我们的数据集上训练,具体的网络参数参考文献[5]。

在音频特征提取阶段,我们使用只有一层的一维卷积网络进行特征的提取,其卷积核大小为3,步长为1,padding模式为same,深度为3。随后我们使用最大池化,输入到双向LSTM网络,单元数为400,激活函数为ReLU函数,dropout参数选择0.3,最后使用一个全连接层将输出维度调整为(3,400)。

在特征融合分类的阶段,将视频和语音特征进行相加后输入到Multi-Head Attention层,其中我们将dmodel以及h分别设置为400和8。而后面的双向GRU层单元数设置为400,激活函数选择为ReLU,dropout参数是0.3。

在本文中,模型的学习率变化使用指数衰减算法,其中指数衰减学习率是先使用较大的学习率来快速得到一个较优的解,然后随着迭代的继续,逐步减小学习率,使得模型在训练后期更加稳定。其公式如下。

式中:lr为此轮的学习率,lrinit为初始的学习率设为0.000 7,epoch为当前迭代轮数,drop设为0.5,epochsdrop设为5。

3.3 实验结果与分析

视频模块性能测试:我们横向对比本文的视频模块部分的模型,即使用Stack Flow、AlexNet、CNN3D、LSTM、Two-Stream[27]方法将I3D网络进行视频单模态模型替换并性能的比较,结果如表3所示。

表3 不同视频模块融合模型效果(%)

可以看出,I3D融合网络在我们的数据集上的准确率达到74.92%,召回率达到70.37%。通过与其他模型相对比,可以发现Two-Stream以及I3D模型相比于CNN3D、LSTM等网络表现得更加出色,这是因为这两个方法不仅使用了RGB图像的信息,还较好地利用了光流数据进行特征的抽取,有效地获得了空间特征与时序特征,提高了动作的识别率。而对比Two-Stream以及I3D网络,I3D模型更胜一筹的地方在于,Two-Stream中的两个网络均采用2D CNN,在学习的过程中丢失了较多的时序信息,对于运动线索如何随时间的演变不能很好地体现。而I3D分别使用两个3D CNN对RGB数据与光流数据中的空间特征与时序特征进行有效提取,尽可能地利用到数据流中的动作特征信息,并取得了最好的结果。

音频模块性能测试:将本文所提出的音频模块模型与ResNet[28],FFN[29]方法通过在融合模型中替换音频模块进行横向比较,结果如表4所示。

表4 不同音频模块融合模型效果(%)

可以看到,音频特征提取网络的融合模型在我们的数据集上的准确率以及召回率表现最好,相比于其他网络具有巨大的提升。其中ResNet[28]是具有一系列shortcut模块的卷积神经网络,它的网络能更深并且更加有效地进行学习,在语音识别[29]上取得有效的成果。而FFN(Feed Forward Network)[30]则是以瓶颈结构(bottleneck)提取特征,再使用ResNet[28]结构学习的一种神经网络结构。由于我们的音频模型具有双向LSTM结构,能够对语音中的时序信息进行有效的提取,因此其在我们的数据集上能有更好的效果。

单模态与多模态方法对比:为了验证本文所提出来的多模态特征融合的有效性,我们将测试出来的最好的视频模型和音频模型与我们所提出的多模态融合模型进行对比,其中Single Video代表I3D网络,Single Audio代表我们提出的音频特征提取网络。结果如表5所示。

表5 单模块模型与多模态模型的表现(%)

可以看出,我们的模型的准确率能达到74.92%,召回率为70.37%,准确率比表现最好的视频模型提高了6.79百分点。通过分析我们发现单模态的模型由于特征的缺少导致表现不佳,我们的模型同时从视觉信息和听觉信息不一样的特征空间中提取特征,当视觉信息中有用信息变少时,例如遮挡、光线太暗等,我们的模型能够从听觉信息中补充所需要的有用信息,提高了模型的鲁棒性。如表6所示,由于角度的不同、手部遮挡以及光线不足等原因,单模态模型无法在这些样本上提取有效的特征进行识别;而多模态模型可以较好地融合两种不同模态特征,使得视频即使在恶劣条件下仍然可以有效地进行识别。为了更直观地展示本文所提出的算法效果,我们对部分结果进行了可视化,结果如表7所示。其中错误指令用斜体标出。

表6 单模态与多模态的效果对比可视化

表7 动作指令组的可视化效果

4 结 语

本文提出了一种融合视频特征和音频特征的动作指令组生成框架,该框架通过使用I3D、BiLSTM等方法分别对视频和语音进行特征的提取,并通过融合输入给Multi-Head Attention层生成动作指令组。大量的实验表明,本文所提出的框架能够有效地突破单模态下分类预测的瓶颈,并且在数据集上表现良好,具有较高的鲁棒性。

在以后的工作中,我们将在以下几个方面进行拓展:(1) 使用其他特征融合方式,提高分类的准确率;(2) 尝试从长视频或者复杂视频中提取动作指令组,提高操作复杂性。

猜你喜欢

音频语音模态
魔力语音
基于MATLAB的语音信号处理
基于MQ3与MP3的价廉物美的酒驾语音提醒器
必须了解的音频基础知识 家庭影院入门攻略:音频认证与推荐标准篇
对方正在输入……
基于Daubechies(dbN)的飞行器音频特征提取
音频分析仪中低失真音频信号的发生方法
Pro Tools音频剪辑及修正
国内多模态教学研究回顾与展望
基于HHT和Prony算法的电力系统低频振荡模态识别