联合多层时空切片和二分思想的视频浓缩

2022-11-29张云佐郑婷婷蔡昭权

合肥工业大学学报（自然科学版） 2022年11期

张云佐, 郑婷婷, 蔡昭权

(1.石家庄铁道大学信息科学与技术学院,河北石家庄 050043;2.汕尾职业技术学院,广东汕尾 516600)

随着智慧城市的建设和发展,监控摄像机被广泛安装和应用,所产生的视频数据量呈现爆炸式的增长。如何高效地利用监控视频大数据是当前的研究热点,也是亟待解决的技术难点,视频浓缩[1-2]为此提供了有效的解决手段。

视频浓缩,又称基于目标的视频摘要[3],打破了传统的视频帧结构,以目标作为处理单元,旨在将冗长的监控视频浓缩为简短的概要视频[1]。该技术采用以空间换时间的方式,消除视频之间的冗余。首先采用目标检测和目标跟踪对运动目标的轨迹进行提取,生成目标管;然后对目标管进行优化重排,得到最优的时间标签;最后对输入视频进行背景建模生成背景,将重排后的目标管进行缝合,生成浓缩视频。围绕视频浓缩,研究人员进行了广泛的研究和拓展,取得了丰富的研究成果[1,4],以下从离线优化方法和在线优化方法进行阐述。

(1) 离线优化方法。文献[3]首次系统地提出了视频浓缩技术框架,该框架将检测到的目标在时域上进行平移，有2个主要步骤,分别为:在线获取目标管用来保存生成的轨迹;离线选取一个时间段,进行背景生成、管重排和目标缝合。该方法定义了一个包含目标、时间一致性和碰撞代价的全局能量函数,采用了模拟退火(simulated annealing algorithm,SA)[5]方法进行能量最小化,得到了最优的管重排结果。为了优化能量函数,研究人员随后提出了遗传算法[6]、HSATLBO算法[7]、HSAJAYA算法[8]、粒子群算法[9]和HGWOSA算法[10]等。区别于上述将管优化重排问题看作求解能量函数最优化问题,文献[11]提出了将其表述为图着色问题,通过着色图找到目标管从原始视频到浓缩视频的映射,通过定位碰撞时间在优化中来安排目标管。为了在浓缩视频中更好地保留目标之间时序性,文献[12]提出了事件优化重排方法,将目标管重排问题看作轨迹关联性和事件紧凑性的迭代判断,该方法提出了融合时间、碰撞和密度的出现概率模型,在优化过程中能够很好地保留目标之间的时序关系且碰撞较少。文献[13]为了避免在平移过程中,管道重排产生“伪碰撞”,提出了一种同时进行目标移动、尺寸缩放和速度改变的视频浓缩方法,将3个单独的构件融合起来,构造了一个集成框架来实现视频浓缩。

(2) 在线优化方法。为实时获取浓缩视频,文献[14]采用了一种循序渐进的在线内容感知方法,将传统的两阶段离线视频摘要流程转换为单阶段在线框架。文献[15]将管优化重排归结为最大后验概率估计问题,用在线概要表来确定目标的开始时间标签且不需要经过优化过程。在没有得到完整的轨迹时,也能实时地对轨迹进行重排列。该方法可以保证目标轨迹是按照时间顺序排列的,且重排列后的相对位置不发生改变。文献[16]提出了一种基于快速傅里叶变换的并行电子管重排方法，用于解决当输入视频管数较多时的浓缩视频问题。文献[17]提出了一种基于动态图着色的在线视频浓缩管重排方法。该方法目标管之间的关系是用动态图建模的,它的节点(即管的对象掩模)和边(即关系)可以逐步插入和更新,从而实现实时压缩,且会产生较少的碰撞。

上述离线和在线的优化方法提取目标管均依赖于目标检测和跟踪,应用于稀疏场景的监控视频时具有较好的浓缩结果,但当面对包含拥挤场景的监控视频时目标管的提取轨迹不完整。为此,文献[18]提出了一种解决复杂场景的视频浓缩方法,通过检测目标之间的交互性和视频帧的拥挤程度划分群,提出了一个基于群的贪心算法用于优化重排,但其重点在于获得具有交互性的目标,而忽略了对稀疏和拥挤片段的划分。

基于此,本文联合多层时空切片和二分思想进行稀疏和拥挤视频片段的划分,提出了一种稀疏-拥挤的视频浓缩框架,即SCVS框架,如图1所示。

图1 SCVS框架

该框架首先对原始视频进行稀疏和拥挤片段的划分;然后针对稀疏片段进行目标管提取、管优化重排和背景生成与缝合,生成稀疏浓缩视频;最后融合稀疏浓缩视频和拥挤片段生成浓缩视频。

1 SCVS框架

1.1 稀疏和拥挤片段划分

本文联合多层时空切片和二分思想对输入的视频进行稀疏和拥挤片段的划分,具体分为两步:采用联合多层时空切片检测视频片段的拥挤程度;利用二分思想划分稀疏和拥挤片段。

1.1.1 联合多层时空切片检测拥挤状态

时空切片的概念由文献[19]首次提出。所谓时空切片就是指将视频看作是一个I(x,y,t)的三维图像序列,其中:(x,y)为图像维;t为时间维。沿t轴方向切分得到的剖面就是时空切片。常用的时空切片有水平时空切片、垂直时空切片和对角线时空切片。本文主要研究水平时空切片。一个水平时空切片是指固定一个值y=yk,然后连续地提取相同位置的一行像素点得到一个2维图像I(x,y=yk,t)。

如果将移动的目标近似看成是一个“条形”的刚体目标,那么目标在不同的切片图像中不仅具有相同的水平坐标,而且具有一致的运动模式[20],如图2a所示。测试视频是2个运动目标依次进入和退出监控区域,从不同的切片图像可以看出,同一目标不仅具有相同的坐标信息,而且具有一致的运动模式。同时,切片图像不仅包含所需要的轨迹信息,还包含无关的背景信息。为便于操作,本文采用混合高斯背景建模的方法对切片图像进行背景去除,并对切片图像进行形态学处理以消除噪声的影响,结果如图2b所示。根据运动模式的可分性和一致性,对视频的多层切片轨迹叠加处理,叠加后的切片图像能够避免背景干扰,局部时空切片所产生的轨迹断裂等问题,提供了更完整且更连续的轨迹信息,如图2c所示。

图2 切片图像展示

基于此,本文联合多层时空切片对I(x,y,t)视频序列进行水平方向切片,形成水平时空切片图像集合Sli-H,即

Sli-H={I(x,y=yk,t)|1≤k≤n}

(1)

其中,n为水平时空切片的个数。

根据叠加的时空切片图像Sli-H,定义视频片段的拥挤度为clip-S，即

(2)

其中:number为Sli-H中目标像素点的个数;x为视频的宽;t为帧号。通过目标轨迹像素点占切片图像的比率反映该片段的拥挤程度。

1.1.2 二分思想划分稀疏和拥挤片段

二分查找是一种快速检索的方法,其原理是将待查找的元素与有序数列的中间元素进行比较,根据得到的比较结果排除1/2的元素,再选取保留的一段折半查找,直至找到目标元素所在位置。监控视频通常是一段同时包含稀疏和拥挤场景的视频,且拥挤场景的长度往往小于稀疏场景,因此本文对输入视频利用二分的思想不断寻找并保留拥挤片段。

假设输入一段视频长度为L,帧号f-num∈[1,L],帧率为p。首先将视频一分为二,分割后的2部分片段帧号分别为f-num∈[1,L/2]和f-num∈[L/2+1,L]。若L/2≠0,则向下取整；例如一段视频为1 663帧,将其分为[1,831]和[832,1 633]，然后采用联合多层时空切片检测2个片段的拥挤状态。

针对目前的任务,需要一定的约束条件,本文定义划分后视频片段的长度小于4p的片段称为最小拥挤片段。定义S为所有检测结果为稀疏的片段集合,C为所有检测结果为拥挤的片段集合。根据(2)式可得,检测后的结果存在3种可能的组合:稀疏和稀疏、拥挤和稀疏、拥挤和拥挤。下面分别进行阐述。

(1) 若检测结果是稀疏和稀疏,则认为该片段是稀疏的,之后按照1.2节所述对稀疏片段进行浓缩。

(2) 若检测结果是拥挤和稀疏,则分别对这2段视频进行处理。对于拥挤片段,首先判断当前片段是否是最小拥挤片段,若是,直接保留;若不是，采用联合多层时空切片折半检测。对于稀疏片段,按照1.2节所述对稀疏片段进行浓缩。

(3) 若检测结果是拥挤和拥挤,首先判断当前2段视频是否是最小拥挤片段。针对最小拥挤片段直接保留,否则采用联合多层时空切片折半检测。

通过上述操作,即可获得所有稀疏和拥挤片段且分别划分到集合C和S。本文所提的划分方法如图3所示。设输入视频的长度为L,步骤如下:① 采用联合多层时空切片对输入的视频折半检测,得到[1,L/2]段是拥挤的;② 对步骤①得到的拥挤片段折半检测,得到[1,L/4]段是拥挤的;③ 对步骤②得到的拥挤片段折半检测,得到[L/8,L/4]段是拥挤的且该段是最小拥挤片段,输出拥挤片段。

图3 二分搜索拥挤片段

1.2 稀疏片段的视频浓缩

1.2.1 目标管提取

在目标管提取阶段,本文采用YOLOv4算法对输入的视频Si′进行目标检测生成边界框,这是首次在视频浓缩领域采用YOLOv4目标检测算法。随后采用卡尔曼滤波器和匈牙利算法进行目标跟踪和轨迹匹配,引入了外观特征,在整个视频中追踪边界框,生成目标管的轨迹集合T={Ti,…,Tl},其中Ti代表第i个目标管。

1.2.2 管优化重排

1.2.3 背景生成与缝合

在该阶段有2个任务需要完成:一是监控视频背景的生成;二是目标管和背景的缝合。

本文采用混合高斯背景建模的方法生成静态背景，进而利用泊松图像编辑,将已经安排好时间标签的目标管缝合到背景上,生成稀疏场景下的浓缩视频,称为稀疏浓缩视频。

1.3 浓缩视频生成

本文根据1.1节保留的拥挤片段和1.2节生成稀疏浓缩视频生成浓缩视频。为了能够在浓缩视频中更好地保留原始视频移动目标之间的时间顺序,在融合多个视频片段时按照其在输入视频中出现的时间关系拼接。

由于地域、师资水平等原因，高职学生英语听说水平相差悬殊，两极分化严重。传统的听说教学方式，无视学生差异，严重影响了学生的学习兴趣和积极性，阻碍了学生英语听说能力的提高。

首先,定义每个片段的开始时间：定义C中每一个拥挤片段Ci的开始时间为fi,fi为Ci对应于输入视频的帧号；定义每一个稀疏浓缩视频的开始时间为fj,fj为T中每一个Ti的开始时间的最小值。然后,将获得的所有开始时间按照从小到大排序。最后,按照排序顺序拼接所对应的片段。

2 实验结果和评价

为了验证所提框架的有效性和普适性,本文在10段监控视频上进行了实验,视频分别来自不同的场景,如交叉路口、餐厅进出口、道路等,并将所提出框架与经典框架[21]及当前主流的浓缩框架[12，18，22]分别从客观和主观的角度进行对比。

2.1 客观评价

为了准确估计浓缩视频中完整保留目标轨迹的程度,本文根据文献[13,21]的活动代价,提出目标留存比(object preserving ratio,OPR),同时采用常用的浓缩评价指标压缩率[1,4](compression ratio,CR)作为客观的评价指标对实验视频进行测试,CR和OPR的计算公式如下:

(3)

(4)

由(3)式、(4)式可知:CR的值越小说明浓缩的效果越好;OPR的值接近1说明在浓缩视频中完整保留目标轨迹的效果越好。对比框架以及SCVS框架的测试结果平均值,结果见表1所列。

表1 实验结果对比

由表1可知,在压缩率方面,本文的压缩率均低于对比框架,这表明SCVS框架对于包含拥挤场景的监控视频在压缩率方面可以获得更佳的性能。为了更加清晰地展示CR的对比情况,每段测试视频的CR值如图4所示。

图4 不同算法的CR值

从图4可以看出,SCVS框架的CR值普遍低于对比框架。其中,文献[12]框架出现了压缩率大于1的结果,这是由于输入视频包含拥挤片段,而该框架限制在每一帧中目标出现的个数,于是导致浓缩视频的长度大于原始视频的长度,因此文献 [12]框架仅适用于目标稀疏的监控视频。

在目标留存比方面,SCVS的OPR值为1.13,更接近于1,说明生成浓缩视频更能完整保留目标轨迹。这表明，本文框架在一定程度上解决了当应用浓缩方法于包含拥挤场景的监控视频时性能表现不佳的问题。

2.2 主观评价

本文采用平均意见得分(mean opinion score,MOS)作为主观评价指标。MOS是指征集用户为待评估的数据进行观察并打分,然后统计所有的得分并取平均值作为评估结果。邀请了20位来自不同专业的用户对生成的浓缩视频根据自己的直观感受逐个进行打分。5分制目前是最流行的评估得分尺度之一,因此本文选择打分的分数范围为0～5,分数越高代表浓缩视频质量越佳,且取每一段视频分数的平均值作为主观得分,主观得分的统计结果如图5所示。

在主观评价方面,用户分别对文献[12]、文献[18]、文献[21-22]的浓缩框架和本文框架进行打分,平均得分为3.935、4.255、3.86、4.32和4.558。这表明对于包含拥挤场景的监控视频,本文框架生成的浓缩视频更符合用户的视觉感知,具有更好的视觉效果,进一步表明了SCVS框架的优越性。

图5 不同算法的主观得分比较

为了更直观地呈现所提框架的浓缩结果,本文选取了具有代表性的视频6和视频8进行分析和展示,如图6所示。

图6a所示为视频6的浓缩可视化结果。第1行是视频6的代表帧,对视频进行稀疏和拥挤划分。第402帧和第566帧分别来自稀疏片段,第766帧来自拥挤片段。视频6的浓缩视频展示在第2行,第47帧是稀疏场景浓缩视频的代表帧,第347帧是拥挤片段中的保留帧。图6b所示为输入视频8的代表帧,其中第71帧和第323帧来自稀疏片段,第648帧来自拥挤片段。生成的浓缩视频展示在第2行,其中第65帧来自稀疏片段的浓缩视频,第434帧是来自保留的拥挤片段。通过直观的展示可以看出,所提框架能够很好地解决包含拥挤场景的监控视频浓缩问题。

3 结论

本文通过联合多层时空切片和二分思想提出了一种稀疏-拥挤视频的浓缩框架SCVS。该框架采用联合多层时空切片和二分思想的划分方法对输入视频进行处理;检测结果为拥挤片段则直接保留,检测结果为稀疏片段则进行稀疏场景下的视频浓缩,得到稀疏浓缩视频;最后融合稀疏浓缩视频和拥挤片段生成最终的浓缩视频。实验的主客观结果均表明,该框架与以往的先进框架相比具有更好的性能。