基于self—resemblance的视频通用目标跟踪与提取研究

2018-03-19何坤鹏龚捷何山褚福银

电脑知识与技术 2018年4期

何坤鹏+龚捷+何山++褚福银

摘要：针对目前图像识别中存在局部识别及特定目标识别的限制和目标视频片段提取的问题，该文利用局部自适应回归核函数（LARKs），并结合self-resemblance、PCA、Saliency Map等方法而设计出一种视频中通用目标识别系统，该系统可以通过输入图片从视频中找到目标并进行跟踪，针对用户需求可以从视频中提取只与目标相关的视频片段，从而提高用户获取有效信息的效率。经过实验测试，该方法具有较高的准确率，特别是在视频监控领域具有重要的应用价值。

关键词：局部自适应回归核函数；self-resemblance；通用目标；跟踪提取；Saliency Map；PCA

中图分类号：TP391 文献标识码：A 文章编号：1009-3044（2018）04-0150-03

Research on General Targets Tracking and Extraction of Video Based on Self-Resemblance

HE Kun-peng， GONG Jie， HE Shan， CHU Fu-yin

（Southwest Petroleum University， Chengdu 610500，China）

Abstract： For there are local recognition and specific target recognition of the limitations and target video clips extracted problems in image recognition， In this paper， we use the locally adaptive regression kernel （LARKs）， Combined with self-resemblance， PCA， Saliency Map and other methods， a universal target recognition system in video is designed，， by inputting the target image from the video to find the target and tracking， according to the needs of the user can extract only associated with the target video clips from the video， so as to improve the user access to effective information efficiency. Through the test， the method has higher accuracy， especially in the field of video surveillance has important application value.

Key words： LARKS； self-resemblance； general objective； Tracking and extracting； Saliency Map；PCA

1 概述

圖像识别可以通过用计算机进行数据处理、分析，通过不同算法对特定目标及应用场景进行识别的技术。图像的识别经历了文字识别、数字图像处理与识别、物体识别三个阶段。[1]当前针对图像识别主要是对目标局部、针对特定个体进行识别，如这几年研究比较多的人脸识别、虹膜识别、车牌识别、人脸识别、手势识别等等，然而随着社会经济的不断发展，新媒体的发展日新月异，但是无论怎么变化，信息的传播基本是以文字、音频、视频为主要表现形式。图像识别技术在监控视频领域中有着较高的应用需求，主要的需求来源于对大量数据的有效存储和识别，以及实时监控两个方面。对于前者而言，如何存储海量数据和挖掘有效信息成为了一种急需解决的问题，对于后者而言如何对大量的实时监控视频进行处理已经成为人们关注的焦点，目前公共场所、道路交通、军工生产、高校校园都有拥有大量的视频监控设备，但是在发生突发事故时，面对海量的监控视频，不仅需要监控设备使用方拥有容量比较大的存储设备来存储数据，与此同时工作人员需要花费大量时间寻找与突发事件相关的视频片段。为了解决这些问题，我们提出了基于Self-Resemblance的视频通用目标跟踪与提取解决方案。所谓自相似是在待匹配的图片中到与自身最相似结果。先我们要获得原视频，通过程序处理将视频转化为图片帧的形式并保存，然后根据用户提供的或者视频中截取的目标进行匹配，并通过运行系统将检测结果自动标记出来，最后通过设置图片帧，将在视频中连续检测到超过一定时间的检测结果连起来输出，即可提取出目标视频片段，系统识别流程图如图1所示。本文的不同之处在于可以达到以图搜索目标的目的，并且可以在监控视频中自动提取与识别目标相关的视频片段，对输入的待识别目标样本没有特殊要求，从而实现通用目标识别，在一定程度上待匹配目标的与样本相似程度对识别正确率会有一定影响，这也是目前存在的难点，图2为系统软件的界面图。

2 相关工作

2.1 LARKs特征计算

自动视频跟踪是通过图像处理算法，实时计算出选定的目标（如人、车辆等）在图像中的精确位置，并控制状态转动，从而保持目标始终处在视频窗口中的一个指定位置。[2]但是在实际情况中，识别目标比较复杂，不仅仅是依靠人体某些局部部位，因此针对不同的应用场合，从物体局部位向物体的识别能够很好地解决这一矛盾。通常在视频监控系统中需要对移动目标先检测后识别，本文主要使用了LARKs（LocallyAdaptive Regression Kernels），即局部自适应回归核函数，LARKs关键思想是在评估梯度的基础上通过分析像素值的差异来有力的获取图像的结构，并且使用获取的结构信息决定典型核函数的模型及大小，而局部核被模型化为一个径向对称函数[3]。

（1）

X=[x1， x2]T 为空间坐标，P2为在当前窗口PxP的像素，因此所谓的方向矩阵定义如下：

（2）

h为全局平滑参数，矩阵是协方差矩阵估计一个在局部分析窗口X位置的空间梯度向量集合。转向矩矩阵Hl通过修改局部核函数模型及大小的方式大致对体现图像局部的几何结构进行编译[4]。在向量x方向，我们基本上是使用（一个归一化的版本）k（xl-x；）作为Xl和Hl的函数体现一幅图像的固有的局部几何结构。为了更加精确，局部核导向函数Kj（xl-x；Hl）在每一小块通过指数j的密集计算和规范定义如下[5]：

（3）

其中n为LARKs查询图像集M被计算的块数。

2.2 PCA主成因分析

PCA（Principal Component Analysis）是我们科研中常用的数据分析方法，PCA是通过寻找方差比较大的维与忽略比较平均的维度，以线性变换的方式将原始数据变换为一组各维度线性无关的表示，经常用来提取数据主要特征分量及高维数据的降维，也可以数据可视化，本文中利用PCA一方面实现特征降维、尺寸缩减，其次是重构LARKs查询的特征的协方差矩阵，并进行主成分分析。一般情况下，在数据挖掘和机器学习中，数据被表示为向量，PCA算法在本质上把方差最大的方向作为主要特征，并且在各个正交方向上将数据“离相关”，也就是让它们在不同正交方向上没有相关性[6]。由于在降维映射过程中的误差存在，因此在高维特征降维之前，需要做特征归一化处理。本文中的数据源是用于目标测试的标准视频库，经过算法转化为帧图片，每副图像都是N*N大小，将它们作为一个维的向量并排成矩阵找出主元。

2.3 基于self-resemblance的saliency map计算

如果一个目标具有自相似性，表示它和它本身的一部分完全或是几乎相似。self-resemblance可以通过公式4的模型计算，如果输入图为一个灰度图，在一个局部邻域内识别特征矩阵Fi、Fj，否则就从不同的三种颜色通道识别各自的特征矩阵，矩阵余弦相似性计算显著性。Si即为输出的Saliency Map[7]。

（4）

其中i，j分别对应向量个数，Fi为中心矩阵，Fj为中心+周围矩阵，σ是权重脱落量控制参数，N为一个中心+周围区域的大小[8]。

显著度的研究是从生物研究发展而来，早期比较重要的工作是C.Koch与S.Ullman做的，时间可以追溯到1985年[9]。这是一种模拟生物体视觉注意机制的选择性注意模型，更多的应用与处理自然图像。本文中的显著值是通过把像素点在颜色、亮度、方向方面和周围背景进行对比得出一系列显著点，所有点的显著值构成一张显著图。[10]

该模型主要是提取色彩、亮度、旋转一致性三种特征，最终可以得到三种feature map。然后将feature map归一化进一步综合，综合的方法是简单的相加。从综合后的saliency map上提取前N个峰值即为寻求的interest points。

在得到saliency map图后，最后对不同颜色通道输出识别结果并保存，在视频的输出中，我们根据输出识别结果连续时间，设置合适的阈值和播放时间，这里用户可以根据自己的需求自行设置目标区间，从而得到自己感兴趣的部分。

3 总结与展望

通过以上的方法介绍，在本文中我们提出了新的方法，整个系统算法处理流程如图4所示，我们使用显著性检测图像中目标，首先利用LARKs函数获取局部结构特征潜在的数据，然后使用非参数核密度评估这些特征，获得的结果将会在一个含有自相似衡量的显著图中[10]。在上述过程中为了减少预测变量的个数，实现特征降维，同时确保独立性变量，我们采用了PCA主成因分析的方法。

本文通过上述方法，能够进行海量视频中选择性通用目标的识别跟踪，在识别图片的基础上，通过调整设置阈值和播放时间的数值，能够把识别的结果分别以视频和图片形式输出，能够帮助工作人员或者客户迅速找到自己感兴趣的目标视频片段，在不丢失基本信息的基础上实现了视频的压缩，通过通用目标识别的方法，摆脱了传统方法对输入目标样本的特殊要求，通过大量实验测试，我们能够以较高的的准确率识别目标，但是目前监控视频数据巨大，在处理上难免会花费更长时间，所以提高运算速度至关重要，一方面需要借助高性能计算平台来提高运算速度，其次可以人工选取需要处理的视频时间范围来节省时间。目前面临一个问题，因为这是基于自相似的通用目标识别，如果待识别样本中出现的样本与目标样本过于相似，就有可能出现识别错误的现象，这也是影响准确率的关键所在，因此如何避免这种错误是我们接下来进一步的要做的工作。如果很好解决了这个问题将会使使准确率大幅提高，在现实生活中具有重要的应用价值。

4 实验结果

本文中我采用一个本地监控视频及Pets2001视频数据集和i-LIDS library进行试验测试，为了证明方法的可靠性，我还用了监控视频、新闻视频等视频资源进行测试，实验结果中针对不同类别样本中，能够准确的识别出结果，图5中红色框内圈出的即为系统自动识别的结果，若多个框的颜色深度不一，颜色较深的为实际目标，较浅的为可疑目标，通过统计识别结果，我们得出了在不同样本数、不同类别样本中，该方法具有较高的准确率，因此该方法在现实生活中具有一定的实用价值。

参考文献：

[1] 侯胜彬.基于Open CV 的运动目标检测跟踪的研究[D].电子科技大学， 2014.

[2] 谭琪璘.运动目标信息感知技术在智能监管系统中的应用[D].西安电子科技大学， 2013.

[3] H. J. Seo and P. Milanfar. Training-free，g-eneric object detectionusing locally adaptive regression kernels[J].IEEE Transactions onPattern Analysis & Machine Intelligence.2010，32（9）：1688-1704.

[4] Zhihui Zheng，Liping Xiao，Bin Zhou.Generi-c Object Detection in Maritime Environment Using Self-Resemblance[C].IEEE，2015.

[5] H. Takeda， S. Farslu， and P. Milanfar. Kernel regression for image processing and reconstruction[J]. IEEE Transactions on Image Processing，2007，16（2）：349-366

[6] 焦斌亮.基于PCA算法的人臉识别[J].计算机工程与应用.2011，47（18）：201-203.

[7] Hae JongSeo.Peyman Milanfar.Nonparaetric Bottom-Up Saliency Detection by Self-Resemblance[C].IEEE，2009：45-52.

[8] E. Shechtman and M. Irani. Matching local self-similarities across images and videos[C].Minneapolis：IEEE，2007.5：1-8

[9] S.Goferman，L. Zelnik-Manor， and A. Tal.Context-aware saliency detection[C].IEEE，2012，34（10）：1915-1926.

[10] L Itti，C Koch，E Niebur.A Model of Saliency-Based Visual Attention for Rapid Scene Analysis[J].IEEE Transactions on Pattern Analysis &Machine Intelligence.1998，20（11）：1254-1259.