视频检索常用的镜头分割方法的研究

2014-09-18朱耀麟

电视技术 2014年3期

朱耀麟，李倩

(西安工程大学电子信息学院，陕西西安 710048)

由于视频数据是由一系列连续拍摄的镜头组成，直接进行管理和检索会很复杂，所以采用镜头分割的方式，按照一定的算法规则，把视频数据划分成单独的不同镜头，然后在每个镜头中提取关键帧，这样就把视频检索的问题转化为图像检索问题。镜头分割是基于内容的视频检索的第一步，分割的准确性会直接影响后续的检索过程，因此，关于镜头分割方法的研究得到广泛的重视，而且取得了丰富的研究成果。

镜头之间的转换主要有两类，即突变和渐变，在此情况下需要镜头分割主要是对镜头的边界进行准确划分。根据现在的研究结果，对镜头边界的检测算法主要分成两个方向，分别是基于压缩域的算法和基于非压缩域的算法。从前一类方法来看，可以直接从压缩视频中进行分析和获取关键帧，省略了解压的过程，从而降低了计算的复杂度;而后一类方法，由于多年的研究和改进，在视频检索中也是比较重要的算法。本文对当前视频检索常用的镜头分割方法进行简单的概述比较，得出各方法的优缺点，为实际应用提供一些参考。

1 镜头分割的方法及分类

1.1 基于非压缩域的方法

1.1.1 模板匹配法

模板匹配法也可以称为像素比较法，这种方法比较简单，但是对物体运动、噪声等因素非常敏感，相机的微小移动都会使差值明显增大，造成镜头边缘的误检。

1.1.2 直方图法

直方图法是在像素比较法的基础上发展起来的，是使用最普遍的镜头分割方法，并且能够取得较好的效果。其中比较常用的是颜色直方图法，该方法包括灰度直方图和彩色直方图。这种方法是利用两帧图像的直方图差值与设定好的阈值进行比较来判断是否发生镜头转变。因为物体一般运动时几乎不影响直方图，所以常用的颜色直方图法克服了模板匹配法的局限性。但是当物体快速移动时，会使帧图像的颜色、灰度等发生较大改变，易出现误检情况;当2帧图像直方图相似时，内容有可能完全不同，也易造成误检。对该问题的解决方法，可以参考文献［1］，采用直方图帧差法、χ2检验直方图差法、直方图最小帧差法、平均彩色法等进行方法改进;也可以参考文献［2］提出的基于直方图法的切变镜头自动检测算法，利用镜头内直方图帧间差值的相似性，通过寻找窗口内的突变点来寻找镜头的切变帧。

1.1.3 基于边缘法

基于边缘法可称为基于轮廓的方法，是利用连续镜头的边缘变化程度来确定镜头是否发生转变。判断过程大致为:首先对2个连续帧图像进行总体的运动补偿，再提取2帧的边缘(轮廓)，计算出变化了的轮廓比率(即新的边缘在旧的边缘基础上增加或者减少的像素比例)，若该值大于事先设定的阈值，则可认定发生了镜头转变。

这种方法先进行配准，再实行边缘比较，所以能够判断运动物体的镜头，并且对镜头的突变和渐变都有很好的检测效果。但是该方法计算量比较大，并且当帧图像很复杂，主体或者背景中出现较多轮廓时，可造成对镜头边界的判断失误;当亮度不强时，还有可能出现漏检轮廓的情况。

1.1.4 块匹配法

块匹配法也可以改善模板匹配法的缺点，通过利用局部的特点来减弱整体对运动的敏感特性。块匹配法首先需要进行帧图像的n×n子块划分，然后，对连续帧的相同位置的子块进行相似比较，比较依据可以是子块的灰度差，也可以是直方图，比较的结果可用相似比∂表示。同样，需要事先设定好一个阈值，该阈值要与∂比较，统计n×n个子块的∂中有多少个是大于阈值的，当有足够多的∂大于阈值时，可判断镜头发生转变。从判定过程可看出，块匹配法是计算量非常复杂的方法，并且只有子块划分得足够小，才能提高判定的准确性。

1.1.5 基于模型法

这种方法适用于专业领域，需要对各种镜头转变建立恰当的数学模型，利用建好的模型实现对镜头边缘的检测，实现镜头分割。该方法的关键点在于数学模型的建立，只有在准确建模的基础上才能确保镜头分割的精准性。

1.1.6 自适应阈值法

有文献提出的思路是，将镜头的帧差平均值乘上一个扩大系数a作为判定镜头转换的阈值，达到阈值的自适应选择。一般情况下，同一镜头内的帧差值是与帧差平均值相差不多的，只有镜头转变处的帧差才会显著大于该帧差平均值，所以根据只要比帧差平均值大很多的帧差就是镜头转变边界的思路，研究出了自适应阈值法。关于自适应阈值法的算法还有很多，文献［3］提出了综合利用像素差值的统计方差、直方图差异等多种方法，根据差值的分布自动计算阈值的算法。

1.1.7 基于聚类法

K-means聚类算法根据相邻帧的颜色直方图自动将帧差值分为场景有明显变化和没明显变化两类进行镜头分割，其中，单独出现的场景变化处判定为镜头突变，连续出现的场景变化处判定为镜头渐变。该方法的最突出优点就是不用进行阈值比较，并且对各段视频序列有自适应的能力，但是该方法对噪声的干扰比较敏感，同时由于镜头渐变时其变化不大，很容易把渐变归入到无场景变化中，造成误检。

1.1.8 双重比较法

由于镜头转换分为突变和渐变，当发生突变时，帧间差在突变处会有明显峰值，使用阈值能够较准确检测出突变;但是发生渐变时，帧间差没有很明显的峰值，所以，上述用到判定镜头转换的阈值的方法都会有局限性。有文献提出了双重比较法，可以采用2个阈值T1和T2(T1＜T2)，当连续2帧的帧差大于T1、小于T2时，可判定潜在渐变开始，接着将差值进行累加，当差值大于T2时判定发生渐变，差值小于T1时判定渐变结束。这种方法主要用于渐变的检测，但是当镜头运动速度缓慢时，基本也符合上述特点，容易出现误检情况。

1.2 基于压缩域的方法

1.2.1 基于DCT变换法

目前国际上常用的视频压缩标准都可以实现DCT变换。所谓DCT变换，就是将二维空间像素值转变成二维频域系数值，这样就导致频域的变换系数与像素域有了直接联系，频域能够顺利表达图像帧。该方法主要是计算连续帧间的DCT系数的差值，与设定好的阈值进行比较，进而判断出是否发生镜头转换。

此方法还是有缺陷的，例如MPEG压缩视频，只对I帧进行DCT变化，P帧和B帧只能通过预测来编码，所以采用DCT变化法来判定镜头转换，在精度上会有所限制。

1.2.2 基于DC系数的方法

基于DC直流分量的方法是在DCT方法的基础上发展改善的。DC方法使用的是DCT系数的直流分量，DC系数代表了块内图像的平均亮度，并且DC图像是原图像8×8的平均，它包含了原图像的基本全局信息。首先对视频序列中的每帧图像进行运动补偿，进行DCT变化，将其DC直流分量取出，然后采用模板匹配法，设DC图像之间的差值作2帧之间的相似性度量，当差值(亮度变化)明显偏大时，表明亮度改变，可认为镜头发生转换。这种方法的优点是速度比较快，但是也有缺点，当2帧的像素值相似而密度函数不同时，容易造成误检。

1.2.3 基于运动矢量的方法

该方法的思路是，从视频序列中估计出来的运动矢量在同一个镜头中肯定是相对连续的，只有不同镜头间的运动才会出现不连续性。以MPEG压缩视频为例，镜头转变前B帧常有大量前向运动补偿，镜头转变后B帧常有大量后向运动补偿，具体应用此方法，关系到P帧和B帧，还需要进行2次判断。首先要检测P帧中的帧内编码宏块的数量，较大时说明可能出现镜头转换，然后检测统计B帧中前后向宏块的数量，以此判定镜头转换的具体位置。

由于该方法充分利用各种帧中运动补偿信息，导致计算复杂，容易出错。

1.2.4 基于宏块编码类型的方法

1.2.5 模糊查找法

该方法主要是根据H.264压缩编码视频所研究出的镜头分割方法，Sungmin等人［4］提出通过比较2个连续I帧的宏块分割模式来判断镜头边界的方法，该方法运算速度非常快，精度也较高，但是只能将镜头边界确定在2个I帧之间，所以也可称为模糊查找法。在此方法基础上可进行改进，首先是找出差异大的相邻2个I帧作为可能发生镜头转换的位置，然后利用2个I帧间的P帧和B帧确定准确位置。这种方法的精度也很高，但是对渐变检测效果一般。

2 归纳与对比

关于镜头分割的常用方法，大致是按压缩域和非压缩域进行划分，也可以认为是分成基于像素域和基于压缩域两大类。对本文提到的常用方法进行分类和归纳［5-14］，如表1 所示。

表1 常用方法的分类和归纳

3 存在的问题及发展方向

由于镜头分割存在两种情况，分别是突变和渐变，导致分割方法需要在两种情况下都要有良好的检测效果，才能使该方法成为广泛使用的分割方法。但是从目前的研究成果来看，因为镜头突变的立即性等特点，研究出多种分割方法，并且实测效果良好，可是关于镜头渐变的分割方法还没有到达突变的检测效果。同时，关于镜头分割方法，大部分还需要事先按照经验或者实验数据设定一定的阈值，这种情况会导致检测结果的不精准。

从现阶段的研究发展来看，镜头分割的研究主要有以下几点:1)阈值的设定。可以考虑自适应阈值的算法和不使用阈值的分割方法的研究;2)渐变检测方法的研究，使对突变检测效果较好的方法适用于渐变检测，并且效果也较好;3)改善现有的突变算法，提高边界识别率;4)压缩域分割方法的研究。直接对压缩视频进行镜头分割，能够缩短检测时间，是近年来研究重点，并且现在大部分是对MPEG压缩格式的研究，随着越来越多的压缩格式的产生，比如H.264，压缩域的镜头分割算法也应该扩大适用性。

4 结束语

基于内容的视频检索的镜头分割方法是多年来研究的热点问题，有着丰硕的科研成果。本文对镜头分割主要方法进行概述，并简单归纳出这些方法的优缺点，最后根据研究现状提出一些想法，为实际应用提供一定的参考。

［1］刘政凯，汤晓鸥.视频检索中镜头分割方法综述［J］.计算机工程与应用，2002(23):84-87.

［2］刘典，刘文萍.一种基于直方图的切变镜头自动检测算法［J］.北方工业大学学报，2007，19(3):16-20.

［3］成勇，须德.一种自动选取阈值的视频镜头边界检测算法［J］.电子学报，2004(3):508-511.

［4］KIM S，BYUN J，WON C.A scene change detection in H.264/AVC［J］.LNCS3786，2005:1072-1082

［5］ZABHI R，MILLER J，MAI K.A feature-based algorithm for detecting and classifying scene breaks［EB/OL］.［2013-03-10］.http://wenku.baidu.com/view/90972b126c175f0e7cd13718.html.

［6］孙利涛，杨雷.视频镜头分割技术综述［J］.山东轻工业学院学报，2007(3):36-39.

［7］钱刚，曾贵华.典型视频镜头分割方法的比较［J］.计算机工程与应用，2004(32):51-55.

［8］周祥东，李国辉，涂丹，等.一种新的视频镜头分割算法［J］.计算机工程与科学，2003(25):5-8.

［9］ZHANG H J，KANKANHALL A K，WMOLIAR S W.Automatic partitioning of full-motion video［J］.Multimedia Systems，1993，1(1):10-28.

［10］朱曦，林行刚.视频镜头时域分割方法的研究［J］.计算机学报，2004(8):1027-1035.

［11］吕晓宇.视频镜头分割方法［J］.办公自动化杂志，2011(7):33-34.

［12］刘佳兵.视频检索中的视频镜头分割技术［J］.福建电脑，2007(1):66-67.

［13］洪夏俊，夏殿松.基于H.264/AVC压缩域的实时视频镜头分割算法［J］.电脑知识与技术，2009(4):944-946.

［14］李向伟，李战明，张明新，等.基于内容的视频镜头检测技术［J］.电视技术，2008，32(3):19-21.