APP下载

基于多模态语义分组的视频摘要模型

2022-07-18叶晓辉

关键词:模态音频语义

叶晓辉,杨 欣,李 涛

(南京航空航天大学 自动化学院,江苏 南京 210016)

视频摘要是用有限文字描述一段视频,这是最具挑战性的计算机视觉任务之一[1-2].大多数视频摘要方法都是基于卷积神经网络和循环神经网络构建的编码器-解码器框架.基于CNN的编码器接收输入视频的一组连续帧,并产生视觉表示,以生成描述视频的准确标题.然后,基于RNN的解码器将视觉编码的特征和先前预测的单词作为输入,逐词地生成摘要.

由于视频包含丰富的信息,其中包括视觉信息,音频信息,分类信息等等,所以如何有效利用这些复杂信息也是一个很重要的研究方向.从视频的编码器来看,之前的视频特征提取方法提取的特征,种类不够丰富,忽略了视频的音频信息,分类信息以及动态信息.对于人类来说,通过基于语义将视频划分为信息单元来理解视频是很自然的事情.因此,将每一帧视为独立的信息单元并不是理解视频的有效方法.并且,相邻的视频帧之间存在着冗余信息[3].

笔者针对视频连续帧冗余问题和提取的特征不够问题,提出了一种基于多模态语义分组的视频摘要模型.该模型使用3D ResNet神经网络和残差神经网络来提取3D和2D特征;然后把音频信息与视频的分类信息加入多模态的框架中进行编码;得到多模态的特征之后需要进行解码,不同于之前的逐帧进行分组的解码模式,VMSG使用了语义分组的方式进行解码,将相同语义的视频分为一个语义组进行解码,预测下一个单词.基于之前的多模态特征,针对特征提取视频摘要的生成过程进行改进,提出了一种基于多模态语义分组的视频摘要模型(video captioning model based on multimodal semantic grouping),VMSG模型.

1 本文模型

1.1 模型的总体结构

文中的VMSG由4个部分组成,分别是视频编码模块,短语编码模块,语义分组模块,解码模块.为了给输入提供更多的信息,在视频编码模块采用多模态的输入,加入了2D特征,3D特征,音频特征以及分类特征.获取多模态特征之后,进行短语编码,根据已经获得的单词形成短语,再通过语义分组将视频帧对应短语进行分组,形成视频表示,再通过LSTM进行解码,最终生成单词预测.

1.2 多模态的视频编码

文中VMSG构建了一种多模态的分段标签的视频摘要架构,其采用了多种模态输入,极大丰富了特征的种类,对视频摘要的生成具有积极的作用.

图1 多模态语义分组的视频摘要架构

多模态输入包括2D特征,动态特征,视频类别特征以及音频特征,具体如下:

2D特征 2D特征广泛应用于图像检测和图像分类任务当中,它特供了提供了物体和场景的详细信息.该模型预先训练了120多万张图片,这些图片分属 1 000 个类别.我们在ResNet[4]最后加入了一个池化层,最后生成 2 048 维的2D特征.

动态特征 虽然ResNet能够有效的在静态图像中生成视觉特征,但是对于动态特征提取能力有限,动态特征能够很好的描述各个物体的运动信息.VMSG将二维的神经网络拓展为三维的卷积神经网络(C3D),这样能较好的记录动态特征.

视频类别特征 在视频特征的消融实验中我们发现,视频的类别信息中包含了对视频摘要生成有帮助的信息.比如对象是一个音乐视频,那么音频的权重就要适当的提升,运动类视频中视觉权重就要提升.文中使用3D ResNet[5]网络提取视频的分类信息.

音频特征 为了能较好的利用原有的音频特征,使用了梅尔频率倒谱系数(MFCC)进行预处理,然后利用pyAudioAnalysis进行均匀采样,从而形成了最终的音频特征.

1.3 短语编码模块

有些单词单独使用时没有任何含义,有些单词单独使用的时候含义不明确,因此VMSG进行语义分组的时候,使用的是词组而不是单个单词.

为了构建VMSG的语义词组,需要从部分已经生成的摘要中生成合适的单词词组,为了达到这个目标,需要寻找单词之间的依赖关系.当生成摘要的第t个单词wt时,该模块有一个单词表示矩阵Wt=[E[w1]…E[wt-1]]T∈(t-1)×dw.其中,E表示一个单词嵌入矩阵.使用短语编码器φp将单词表示矩阵Wt生成短语表示矩阵Pt=[p1,t…pt-1,t]T∈(t-1)×dw

Pt,At=φp(Wt).

(1)

其中At=[a1,t…at-1,t]T∈(t-1)×(t-1)是单词注意力矩阵,aj,t∈t-1为单词的注意力权重.对于编码器φp,该模块使用的是Vaswani等[6]提出的自我注意力机制模块,可以很好的建模句子中单词之间的依赖关系.

1.4 语义分组模块

1.4.1 短语过滤器

为了保留那些具有意义以及耦合性低的短语,本文使用了一种短语过滤器,使用短语过滤器筛选出需要的句子.使用短语的注意力矩阵来计算相似性

Rt=At(At)T.

(2)

ri,j,t代表pi,t和pj,t的相似性.过滤器会设定一个阈值,如果ri,j,t大于这个阈值,那么就判定这2个短语有关联.得到2个相关联的短语之后,再对比2个短语与所有短语的相似性,数值大的一方将被舍弃.如∑ri,k,t>∑rj,k,t,那么pi,t将被舍弃.

1.4.2 语义调整器

(3)

(4)

(5)

si,t代表了视频帧的特征信息以及相关的短语的信息,从而避免了相邻帧的信息冗余.

1.4.3 解码模块

构造语义信息组合之后,解码器就要提取预测下一个单词wt所需的信息.解码器会根据上一个解码器的状态函数ht-1,给每一个语义组分配一个分数.

(6)

(7)

其中,ud、Ud、Hd和bd是可学习参数,然后将Xt输出给LSTM,下一个单词可能的概率由一个全连接层和一个softmax层组成.

ht=LSTM(|xt;E|wt-1],ht-1).

(8)

p(wt|V,w1,…,wt-1)=softmax(Uhht+bh).

(9)

其中,Uh和bh是可学习参数.解码器与传统的解码器是类似的,不同的地方是将视频帧特征变成了语义组.

2 实验结果与分析

首先对每个输入视频进行均匀采样,每个视频采样30帧.用这30帧图像作为ResNet输入,就可以获得2D特征.提取这30帧周围的连续帧组成一个剪辑作为3D ResNet和C3D的输入,提取视频的动态特征,音频特征也是类似的.由于是多模态的输入,多模态的输入必然会导致输入维度的增加,这就极大的提高了对硬件的要求.为此,用一个全连接层来降低特征的维度,对3D ResNet网络在Kinetics数据集上进行训练之后,输入采样得到的视频帧获得相应的标签.本章采用One-Hot编码方式对标签进行编码,并且将其输入LSTM.使用GloVe给单词嵌入矩阵初始化,并于整个模型一起训练.在第一个单词生产之前,使用来作为标签的开头,之后忽略它.

想要生成一个句子或者单词,词库是必不可少的.文中模型词库全部来自MSR-VTT的训练集和测试集的视频摘要,一共有 23 667 个单词.在训练时我们设置dropout为0.5,其能够很好的降低过拟合.模型采用Adam优化器进行优化,初始学习率设为 0.000 5.

2.1 数据集

在整个实验当中,在MSR-VTT中训练以及测试文中的模型.MSR-VTT是视频摘要领域的重要数据集,不仅提供了视频的类别,还提供了视频的音频特征.MSR-VTT包含了10 000个,共 41.2 h 的网络视频,来自20个不同的类.每个网络视频都配有AMT工作人员制作的20个视频摘要.

实验中,发现数据集中的视频存在着单词拼写错误和部分音频信息不可使用等问题.虽然视频摘要的所有句子的词汇的总数为 23 667 个,但是一共有 10 040 个单词只出现过一次.此外,将所有单词与维基百科的词汇库进行比对后可以发现有836单词是不存在的,究其原因大多是拼写错误.这样一个有瑕疵的词汇库对模型的训练和测试是一个挑战.

数据集的视频包含音频特征,音频特征在生成视频摘要时效果很好.但是大约有13%的视频不含音频信息,所以残缺的音频信息对实验造成了困难.90%以上的视频小于30 s,90%以上的视频的摘要小于16个单词,因此对视频均匀取30帧,在能保证数据不过于庞大的同时能较好的表征视频特征.

2.2 消融实验

为了评估多模态语义分组中各个模块的有效性,分别对各个模块进行了消融实验,结果如表1所示.

其中,Multi代表多模态特征,丰富文中提取的特征.SA是语义分组模块能够使模型组成一个语义组(包括语义注意力),PE是短语编译模块可以生成相关的语义单词.从表格中可以看到,SA提升的性能最为突出,PE提升的幅度最小.SA是为了更好将相邻帧组成一个语义组,PE是生成语义组相适应的语义词,与将相邻特征组成一个语义组相比,生成语义组的语义单词效果不是很明显.深究其原因,SA是直接促进生成一个语义组,而PE是间接的促进语义组地生成.多模态的视频特征能够提升编码器包含的视频信息,所以可以明显地提升模型性能.

表1 消融实验指标对比

2.3 实验结果

本节比较了该模型与现阶段较为先进模型的性能,结果如表2所示,可以看到VMSG在MSR-VTT数据集上是优于大多数模型的.文中的模型在4个指标中,有3个达到了最先进的水平,例如在CIDEr指标上领先第2名2%,在METEOR上领先第2名1%.在BLEU4上与最先进的指标相差不大,也达到了先进水平,在ROUGE-L上与第2名性能相同.综合来看,VMSG达到了当前的最先进水平.

表2 各种模型指标对比

图2显示了SA-LSTM和VMSG生成标题的示例,VMSG的预测结果比SA-LSTM准确.VMSG能够更好的生成长视频场景中执行动作的主体,如图3,VMSG预测是一群卡通人物,而不是一个,并且内容更加准确.总体而言VMSG优于SA-LSTM.

图2 第7743个视频的实验结果

图3是实验中语义组的形成过程,橙色代表注意力权重,“a man is talking”和“a ground of” 这2个短语是用部分解码的标题“a man is talking to a group of”中的单词构建的.一个语义组是通过收集一位男士讲话而形成的,另一个语义组是通过收集一群人而形成的.在预测下一个单词“people”时,更多的利用了后一个语义组的信息.结果表明,VMSG能够较好地形成语义词组,并能够很好地把图像帧与语义词组相关联.

图3 语义组形成过程

3 结语

文中提出了一种语义分组的多模态视频描述方法,采用了基于2D特征和3D特征以及标签和音频特征的多模态特征融合方式.从而使得模型的提取的特征类型非常丰富,能极大的表征视频信息的真实状况.将1组相关的视频帧组成1组语义组,能够很好的解决视频之间的冗余问题.VMSG在MSR-VTT上取得了较好的结果.未来目标是探索更好的多模态模型,考虑对视频进行上下文关联,以便更好生成视频摘要.

猜你喜欢

模态音频语义
On Doors
真实场景水下语义分割方法及数据集
Egdon Heath (Extract from The Return of the Native)
联合仿真在某车型LGF/PP尾门模态仿真上的应用
基于老年驾驶人的多模态集成式交互设计研究
柏韵音频举办Pureaudio 2021新产品发布会
模态可精确化方向的含糊性研究
“吃+NP”的语义生成机制研究
汉语依凭介词的语义范畴
日版《午夜凶铃》多模态隐喻的认知研究