APP下载

基于CNN的多模态特征融合视频语义分析关键过程研究

2020-03-04陈怡然

科学咨询 2020年38期
关键词:关键帧语义卷积

陈怡然 廖 宁

(重庆工程学院 重庆 400056)

一、引言

随着计算机技术和网络技术的发展,信息不再仅仅是单一的文字或语言,而是以更加多样化的媒体数据的形式呈现,包括文本、图形、图像、视频和音频等等[1]。媒体数据的非格式化特性使得对数据的归类,分析,搜索和使用都存在比较大的困难。随着媒体数据采集设备的广泛普及以及计算机处理能力、网络带宽的不断提高,多媒体数据呈现海量增长的趋势,现今互联网上 85%以上的数据业务包含了非结构化的图像、音频和视频等媒体数据[2-3]。如何建立起一种高效、准确的媒体数据流语义识别方法以提升视频检测、视频行为识别等已成为国内外学者的研究热点,同时也给人们带来了巨大的挑战和亟待解决的研究问题[4]。

90年代初,在图像检索领域出现了基于内容的多媒体分析与检索技术,随着视频成为一种主要的网络资源,美国的卡耐基梅隆大学(Carnegie Mellon University,CMU)、哥伦比亚大学(Columbia University)及 IBM Watson 研究中心及微软研究院等研究机构纷纷开展了视频语义分析理解的相关研究,出现了以CMU的Infomedia、哥伦比亚大学的VideoQ和IBM的MARVEL等为代表的媒体应用系统。国内的一些研究单位,如中科院自动化所和计算所、以及清华大学、浙江大学、上海交通大学和南京大学等高校也开展了类似研究工作。

视频场景语义分析是对视频信息所包含事物的状态描述和逻辑表示,涉及人和物的动作、表情、音频、图像序列等信息。视频场景语义分析与识别是对视频包含的语义信息进行特征提取、整理、分析与识别的过程,涉及人的视觉机理、图像识别、机器学习、模式识别和深度学习等领域。

二、视频场景预处理研究方法

镜头分割是视频场景预处理的第一步,现如今比较成熟的镜头分割方法有X2直方图匹配算法与梯度法。基于X2直方图匹配与梯度法镜头检测算法,来检测视频中镜头切换和淡入淡出。该算法是通过计算视频中连续两帧图像的直方图差值来检测镜头切换。除切换外,另一个重要的镜头连接方式是淡入淡出,其特点是视频帧的画面先渐渐暗下去,然后再亮起来,因此每帧画面的相邻像素相关性都会先变小再变大,而每两个像素的梯度恰好能代表他们的相关性。

关键帧提取是要获取视频场景中能够代表镜头内容的图像。Li提出一种中基于非相邻帧比较的关键帧提取算法。算法的思想是选择镜头中的第一帧作为第一个关键帧和参考帧,然后计算后续帧和当前参考帧的差异,当差异大于预定的阈值时,则选后续帧为关键帧和参考帧,重复上述过程直到镜头结尾。

镜头聚类是完成视频场景预处理的重要步骤,首先通过HSV空间中的颜色直方图来描述关键帧的整体颜色特征,并以此作为特征值进行关键帧聚类;接着通过计算关键帧之间的相似度值作为输入来计算镜头相似度来对上述颜色直方图特征进行匹配;最后计算簇中元素间的最大相似度,当相似度值大于一个预先设定的阈值时,将这两个簇合并为一个簇,聚类的终止条件是直到簇间距离都小于阈值。归为一类的镜头集,即为场景,聚类结束即完成对将视频的场景划分。

三、基于深度学习方法的视频场景语义分析模型的研究方法

(一)视频场景语义分析模型框架设计

(二)通道中层语义特征提取

通道中层语义特征提取主要时卷积神经网络中的卷积、采样和全连接过程。卷积本质上是通过一个或多个可训练的滤波器即卷积核,来对原特征向量做一次或多次非线性变化。为了更好地描述每两层之间的卷积过程,我们通过(Nl,bl*bl)来描述第L层神经元;通过多个可训练的滤波器f(n*n)向量和多个连接表(Nl*Nl-1)来描述L层和L-1层之间神经元的卷积运算。

在视频的场景分析中,通过多个可训练的滤波器f(n*n)向量卷积一个输入为m*n维的图像,然后加上偏置b,得到卷积层的输出特征图用(Nl,bl*bl)描述,Nl代表第L层的特征图个数,bl代表第L层的特征图维数。第一层输入的是图像,后面阶段输入的是从前一层抽取的卷积特征图集合的一个子集。具体要几个特征图来卷积构成后一层的一个特征图,需要先设定好一张两层特征图之间的连接表,该表记录着两层特征图之间的连接关系。

以行为语义通道为例,卷积层公式如下:

子采样本质上是给卷积层中得到的每一个特征图进行降维。典型的操作一般是对输入图像中大小维n*n块的所有像素进行求和,这样输出图像的两个维度上缩小了n倍。

全连接是将卷积核在前一层所有的特征图上做卷积操作,将特征向量降为1*n维的向量,本项目将每个通道上的语义,通过各自全连接层,输出一个1*n向量特征。

(三)多通道语义特征融合

公式(2)中Z(l+1)表示的是融合层三层中层语义的卷积输出。

四、基于深度学习的异构多模态的视频场景语义分析的研究方法

(一)基于RBM的深度学习模型

RBM是一种特殊形式的玻尔兹曼机,可通过输入数据集学习概率分布的随机生成神经网络,具有较好的泛化能力。而由多个RBM结构堆叠而成的深度信念网络能提取出多层抽象的特征,从而用于分类合目标识别。

RBM的结构如图1所示,整体是一个二分图大的结构,分为2层:一层为可见层(visible units),也称为输入层;另一层为隐层(hidden units)。

图1 RBM的结构图

RBM的隐藏变量h和可见变量v之间存在对称性的连接(Wij),但是隐藏变量之间或者可见变量之间没有连接。该模型通过模拟热力学能量定义了基于h和v的联合概率分布公式(3)。由于同层变量之间没有连接,因此根据联合概率分布可方便计算出每一个单元的激发概率。

根据方程(3),可定义隐层和可见层的概率分布:

每一个单元的激发概率为:

(二)基于CNN的深度学习模型

CNN 是多层感知机(MLP)的一个变种模型,是近几年来快速发展并引起广泛重视的一种高效识别方法。它是从生物学概念中演化而来的。20世纪60年代,Hubel等在研究猫脑皮层中用于局部敏感和方向选择的神经元时发现其独特的网络结构可以有效地降低反馈神经网络的复杂性,继而提出了CNN。

一般来说,CNN的基本结构包括2层:一层为特征提取层,每个神经元的输入与前一层的局部接受域相连,并提取该局部的特征。一旦该局部特征被提取后,它与其他特征间的位置关系也随之确定下来;另一层为特征映射层,网络的每个计算层由多个特征映射组成,每个特征映射是一个平面,平面上所有神经元的权值相等。特征映射结构采用的sigmoid函数作为卷积网络的激活函数,使得特征映射具有位移不变性。此外,由于一个映射面上的神经元共享权值,因而减少了网络自由参数的个数。卷积神经网络中的每一个卷积层都紧跟着一个用来求局部平均与二次提取的计算层,这种特有的两次特征提取结构减小了特征分辨率。其具体结构图如图2所示。

图2 卷积神经网络多层卷积运算和采样过程图

偏置blp和滤波器权重wlp,q,s,t通过反向传播算法进行训练。输出层的位面为Dl-1*Dl-1,其中Dl=Dl-1-Kl+1。

子抽样层Sl在每个出入位面上使用Kl*Kl平滑滤波:

(三)基于深度编码器和关联分析的异构学习

首先将视频模型描述为视听双模态,其中该模型的输入是视频帧和与视频帧同步的连续声谱。本项目预计采用基于稀疏理论的深度自动编码器异构多模态的深度学习方法。

深度自动编码器是一种利用无监督逐层贪心预训练和系统性参数优化的多层非线性网络,能够从无标签数据中提取高维复杂输入数据的分层特征,并得到原始数据的分布式特征表示的深度学习神经网络结构,其由编码器、解码器和隐含层组成。

基于稀疏理论的深度自动编码器对原始自动编码器的隐含层添加了约束条件并增加了隐含层数量,能提取高维数据变量的稀疏解释性因子,保留原始输入的非零特征,增加表示算法的鲁棒性,增强数据的线性可分性,使物体边界变得更加清晰。

该识别模型分为输入层、共享表示层以及输出层。

输入层:为视频资源的2个模态,即声谱和视频帧,其中声谱采用RBM训练,视频帧采用CNN训练。

共享表示层:这一层的关键是找到特征模态的转换表示从而最大化模态之间的关联性。本文采用典型关联分析(canonical correlation analysis,CCA)的方法寻找声谱波和视频帧数据的线性转换从而形成性能优良的共享表示。

CCA是先将较多变量转化为少数几个典型变量,再通过其间的典型相关系数来综合描述两组多元随机变量之间关系的统计方法,有助于综合地描述两组变量之间的典型相关关系。基本过程是从两组变量各自的线性函数中各抽取一个组成一对,它们应是相关系数达到最大值的一对,称为第1对典型变量,类似地就可以求出第2对、第3对等,这些成对变量之间互不相关,各对典型变量的相关系数称为典型相关系数。所得到的典型相关系数的数目不超过原两组变量中任何一组变量的数目。输出层:这一层为声谱和视频的重构。还原视频信息的同时,识别视频中的物体。

猜你喜欢

关键帧语义卷积
真实场景水下语义分割方法及数据集
基于图像熵和局部帧差分的关键帧提取方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
自适应无监督聚类算法的运动图像关键帧跟踪
语言与语义
卷积神经网络的分析与设计
基于块分类的矿井视频图像DCVS重构算法
从滤波器理解卷积
基于误差预测模型的半自动2D转3D关键帧提取算法
基于傅里叶域卷积表示的目标跟踪算法