基于二进制光流描述子的运动目标提议

2017-04-14吴克伟孙永宣

计算机应用与软件 2017年3期

关键词：查全率目标性光流

李洋吴克伟谢昭孙永宣

(合肥工业大学计算机与信息学院安徽合肥 230009)

基于二进制光流描述子的运动目标提议

李洋吴克伟谢昭孙永宣

(合肥工业大学计算机与信息学院安徽合肥 230009)

针对视频目标检测提议框存在大量冗余的问题，提出二进制光流描述子，实现视频连通目标的分离提议。通过分析目标局部运动一致性，设计二进制光流描述子，构建目标提议模型，然后利用线性支持向量机分类器求解运动目标提议参数。为充分利用二进制与或运算速度快的优势，采用二进制近似表示运动目标提议参数，快速高效地完成目标提议任务。实验针对Caltech行人数据库，快速地生成了少量高质量的运动目标提议窗口。实验结果优于现有目标提议方法。

目标提议局部运动一致性光流二进制描述子

0 引言

目标检测是计算机视觉领域重要的研究任务之一，近年来这方面的研究取得了巨大成就，广泛应用在工业、医学、军事、教育、商业、体育等领域中。但是，目前许多先进的检测器，需要使用特定类别分类器评估每一个滑动窗口，而被评估的滑动窗口存在大量的冗余，导致检测速度过慢[1-2]。为了加快目标检测速度，通过目标性提议，剔除特定类别分类器需要评估的滑动窗口中的非目标性窗口，成为近年来研究的热点[3-4]。

目标具有定义良好的封闭边界而背景具有杂乱无章性，梯度幅值特征描述子可以表示目标的封闭边界特性，用于区分目标与背景，剔除滑动窗口中的非目标性窗口[5]。图像中目标像素点比背景像素点具有更强的视觉吸引力[6]，图像中目标像素点局部颜色统计特征可以描述目标局部显著性，使用决策森林方法判别每一个像素点与周围像素点的差异性，得到目标的轮廓区域[7]。超像素把目标分割成具有统一颜色和纹理的小区域，同一个超像素区域里的像素点属于同一个目标[8]，因此，一个目标虽然被划分为几个超像素区域，但是每一个区域并没有跨越目标边界，超像素的这一特性可以作为评估一个窗口是否包含目标的有效线索[9]。静态背景视频中运动目标具有运动显著性，帧差法可以有效提取运动目标区域[10-11]。上述方法虽然都可以实现目标性提议任务，但是只考虑了目标与背景的差异性，没有考虑目标局部运动一致性，应用于视频前景检测中，存在目标提议冗余，并且无法区分多个连通目标。

针对上述方法应用于动态背景视频目标提议冗余和无法区分连通目标的问题，本文考虑到目标封闭边界性在视频中表现为目标区域运动一致性这一线索，使用光流描述子，描述目标局部运动一致性以及与背景区域的差异性，有效地区分目标与背景以及多个连通目标，生成高质量的目标性提议窗口，与现有目标提议方法相比，本文主要贡献如下：

(1) 针对视频中场景信息混杂的难题，利用前景目标的局部运动一致性，提出一种二进制光流描述子，实现运动目标性的客观提议，有效区分多个连通目标。

(2) 采用线性支持向量机，实现特定类目标的二进制光流模板的近似求解。

(3) 在Caltech数据集中，验证了本文方法对行人目标提议的查全率，优于目标提议的现有方法。

1 基于光流特征的目标提议

将客观目标提议用于视频运动目标识别，可以有效地加快视频目标识别速度，但是现有方法是针对静态图片提议，应用于视频提议存在大量冗余框，所以本文构建目标运动描述子，采用二进制光流描述子完成视频运动目标提议任务。

1.1 光流幅值描述子与客观目标性

目标具有定义良好的封闭边界，在视频图像中，目标的封闭边界特性表示为目标区域运动一致性。将不同尺度的视频图像目标窗口缩放到大小预先设定的分辨率，光流幅值特征是区别运动目标与背景的有效特征，因为光流幅值特征的变化体现了运动目标封闭边界的微小变化，虽然目标的形状、颜色、纹理、光照等特征不同，但是目标局部运动是一致的，局部运动量是相似的，与背景光流特征具有差异性[12]。

基于运动目标的局部光流幅值相似性，计算每种预设尺度的窗口缩放为预先设定的分辨率后的光流幅值，构成对应窗口的光流特征向量，采用式(1)计算每一个窗口的目标性得分：

sl=〈W,OFl〉

(1)

其中，sl表示滤波值，OFl表示窗口l的光流幅值特征向量，l=(i,x,y)表示窗口位置参数，i=(a,b)表示预设的目标提议窗口的长和宽，(x,y)表示窗口坐标，W为模型参数。

1.2 二进制近似求解目标性得分

与或运算比乘法运算具有更快地运算速度[13]，为了充分利用二进制与或运算速度快的优势，加快视频目标提议的速度，本文将W与OFl转化为二进制形式[5]，通过与或运算求解〈W,OFl〉的近似值。

为了用与或运算近似求解〈W,OFl〉，本文将向量OFl中的值量化为0～255，得到二进制表示的光流特征向量OFBl。将每种预设尺度的窗口缩放为8×8，每个像素的光流幅值用1byte=8bit表示，那么每个窗口的特征向量正好用64byte存储。将训练数据集中标定的正例窗口作为正例样本，随机采取背景窗口构造负例样本，使用线性支持向量机获得模型最优解。

算法1 目标提议模板二值化近似求解算法

输入：W,NW

初始化：ε=w

forj=1:Nw

αj=sign(ε)

βj=〈αj,ε〉/‖αj‖2

ε←ε-βjαj

Endfor

将用二进制向量基近似表示的W和二进制光流幅值特征向量OFBl代入式(1)，得到式(1)的近似表示式(2)：

(2)

通过与或运算快速计算式(2)，得到每一个预设尺度i下的每一个窗口的目标性得分sl的近似值，采用极大值抑制，从每一个固定尺度和比率的窗口中选择一些候选框，快速完成目标提议任务。

2 实验

本文实验方法基于Caltech行人数据库，该数据采用车载摄像头拍摄，约10个小时左右，视频的分辨率为640×480，30帧/秒，标注了约250 000帧，用矩形框标定每帧中的行人，另外还对矩形框之间的时间对应关系及其遮挡的情况进行标注。数据集包括set00-set10，其中set00-set05为训练集，set06-set10为测试集。测试时，以DR#WIN和时效性作为对比方法评价标准，其中DR为检测查全率，WIN为DR对应的目标提议窗口数量，目标被正确预测的标准为预测的窗口与Ground-Truth窗口面积重叠超过50%。为了保证公平对比，本文程序和对比方法的程序在同一台PC上在单线程条件下运行，本文PC的配置为IntelCPUi3-4130。

为了获取行人目标提议的窗口分辨率参数，分别对Caltech行人数据库中行人高度分辨率，以及行人宽度与高度的比率进行了统计。在统计分析的基础上，本文为目标提议窗口预设了10个不同的高度分辨率(26到160等比取10个值)，为每种高度的预设窗口设置3个不同的纵横比(宽/高)0.34、0.41、0.50，所以本文共计预设30种尺度的预设窗口，并随后缩放为8×8提取二进制光流描述子。

表1中给出了用于近似表示W的二进制向量基的数量Nw对查全率和平均一帧视频提议时间的影响，时间单位为毫秒，用符号ms表示。Nw越大基元数量越多，则检测速度越慢，综合考虑目标提议的查全率与速度，由表1可以看出，Nw=2可以兼顾查全率与速度。图1给出了本文方法与BING[5]方法在Caltech行人测试数据集上的DR#WIN曲线(Nw=2)，曲线横坐标表示目标提议窗口数量，纵坐标表示目标查全率。

表1 不同基元个数情况下的运动目标提议

图1 本文方法与BING[5]方法的目标提议查全率

由于缺乏目标的先验位置，传统的目标检测算法采用滑动窗口采样，需要的采样窗口数量约为106～107，造成目标检测实时性效率低下。观察图1中曲线，对应每一个WIN，本文方法DR高于BING[5]方法DR，WIN约为3 600时，本文方法的DR已经达到最大值93.7%，而BING[5]方法在WIN约为5 000时DR才达到最大值90.2%。本文方法使用比BING[5]方法较少的窗口数量实现了比BING[5]方法高的召回率，说明在视频图像目标提议中，光流特征描述子能够比BING[5]方法中的梯度幅值特征描述子更有效地描述目标，获得更高质量的目标提议框。

本实验对不同方法的检测速度进行对比，由于两种方法都使用了二进制与或运算，并且计算量相当，因此，实验中两种方法时间开销非常接近，本文方法为39.1毫秒，BING[5]方法为36.4毫秒，在同一个数量级上，本文方法使用较少窗口数量实现了较大DR。综上所述，本文时效性与BING[5]相同的情况下，使用更少的窗口数量实现了更高的查全率，即窗口数量比BING[5]减少了30%，DR值却增加了3.5%。

与BING[5]方法相比，本文方法不仅使用更少的窗口数量实现了更高的查全率，而且还可以区分多个连通目标。如图2(a)所示，输入视频帧最左边的两个行人连在一起，由于BING[5]方法基于外观特征，将两个连通的人视为一个目标，如图2(c)最左边白色框所示。而本文通过计算场景的光流能量图2(b)，使用目标局部运动一致性线索，由于两个人的运动速度不同，所以有效地区分两个连通的目标，如图2(d)中最左边两个白色框。为避免标记过多窗口，图中只标记与目标重叠率大于50%的目标提议窗口中重叠面积最大的窗口。

图2 连通目标的运动目标提议

上述实验结果表明，视频目标检测中目标局部运动一致性是非常有用的线索，使用二进制光流特征描述，能够很好地表示目标局部运动量相似性，并通过二进制与或运算，高效地完成目标提议任务。

3 结语

本文通过使用二进制光流幅值特征描述子，快速地完成了视频目标提议任务，生成了少量高质量的目标性提议窗口。将这些窗口应用于特定类别的目标检测器，可以有效地加快目标检测速度。基于本文的目标提议窗口数量为103数量级，因此，下一步工作将探索是否可以利用时间和空间规律，确定独立目标的新信息，完成准确高效的目标性估计，降低目标提议窗口的数量。

[1]RenX,RamananD.Histogramsofsparsecodesforobjectdetection[C]//Proc.ComputerVisionandPatternRecognition,Portland,OR,USA,2013:3246-3253.

[2]DayanandaKumarNC,SureshKV.HOG-PCAdescriptorwithopticalflowbasedhumandetectionandtracking[C]//Proc.InternationalConferenceonCommunicationsandSignalProcessing,Melmaruvathur,India,2014:900-904.

[3]HosangJ,BenensonR,DollárP,etal.Whatmakesforeffectivedetectionproposals?[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2015,38(4):814-830.

[4]GirshickR,DonahueJ,DarrellT,etal.Richfeaturehierarchiesforaccurateobjectdetectionandsemanticsegmentation[C]//Proc.ComputerVisionandPatternRecognition,Columbus,OH,USA,2014:580-587.

[5]ChengMM,ZhangZ,LinWY,etal.BING:Binarizednormedgradientsforobjectnessestimationat300fps[C]//Proc.ComputerVisionandPatternRecognition,Columbus,OH,USA,2014:3286-3293.

[6] 白雪飞,王文剑,梁吉业.基于区域显著性的活动轮廓分割模型[J].计算机研究与发展,2015,49(12):2686-2695.

[7]DollárP,ZitnickCL.Fastedgedetectionusingstructuredforests[J].PatternAnalysis&MachineIntelligence,2015,8(37):1558-1570.

[8]RussellBC,FreemanWT,EfrosA,etal.Usingmultiplesegmentationstodiscoverobjectsandtheirextentinimagecollections[C]//Proc.ComputerVisionandPatternRecognition,Jeju,Korea,2006,2:1605-1614.

[9]AlexeB,DeselaersT,FerrariV.Measuringtheobjectnessofimagewindows[J].TransactionsonPatternAnalysisandMachineIntelligence,2012,34(11):2189-2202.

[10]ZhouF,KangSB,CohenMF.Time-mappingusingspace-timesaliency[C]//Proc.ConferenceonComputerVisionandPatternRecognition,Columbus,OH,USA,2014:3358-3365.

[11] 高美凤,刘娣.分块帧差和背景差相融合的运动目标检测[J].计算机应用研究,2013,30(1):299-302.

[12]BarronJL,FleetDJ,BeaucheminSS.Performanceofopticalflowtechniques[J].Internationaljournalofcomputervision,1994,12(1):43-77.

[13]HareS,SaffariA,TorrPHS.Efficientonlinestructuredoutputlearningforkeypoint-basedobjecttracking[C]//Proc.ComputerVisionandPatternRecognition,Providence,RI,2012:1894-1901.

MOTION OBJECT PROPOSAL BASED ON BINARY OPTICAL FLOW DESCRIPTOR

Li Yang Wu Kewei Xie Zhao Sun Yongxuan

(SchoolofComputerandInformation,HefeiUniversityofTechnology,Hefei230009,Anhui,China)

In order to reduce the redundance of proposal windows in video object detection, a novel binary optical flow descriptor is proposed to achieve separate proposals for connected objects. By analysing the local motion coherence of objects, we design the binary optical flow descriptor, construct the object proposal model and then use linear SVM classifier to solve motion object proposal parameters. To make full use of the speed advantage of binary and/or calculation, the motion object proposal parameters are represented approximately in binary to complete object proposal tasks quickly and efficiently. The experiment on the Caltech Pedestrians dataset is carried out, and a small number of high-quality motion object proposal windows are generated quickly. Experimental results show that the proposed method is superior to current object proposal methods.

Object proposal Local motion coherence Optical flow Binary descriptor

2016-01-22。国家自然科学

61503111，61501467)。李洋，硕士生，主研领域：计算机视觉。吴克伟，讲师。谢昭，副研究员。孙永宣，讲师。

TP391.41

10.3969/j.issn.1000-386x.2017.03.023