APP下载

一种基于MHI和支持向量机的人体动作识别方法

2017-04-18周佳琪智敏

软件导刊 2017年2期

周佳琪 智敏

摘要 针对人体动作识别问题,研究了一种基于运动历史图像(Motion History Images,MHI)的人体动作识别方法。利用从运动图像序列获得的MHI图像获取视频帧中运动目标的运动特征,由运动特征的变化分类确定人体动作种类,同时给出相应的实验结果。

关键词 人体运动识别;运动历史图像;Hu矩;Zernike矩

DOI DOI: 10.11907/rjdk.162257

中图分类号: TP301

文献标识码: A 文章编号 文章编号: 16727800(2017)002003603

0 引言

人体运动识别是计算机视觉领域中的一个非常重要的研究课题,在公共场所的视频监控、人流量较大场所的智能安防,以及新兴的虚拟现实、人机交互、人工智能等方面都有十分广阔的应用前景,具有重大的研究意义。基于视频的人体运动识别技术的关键,是通过从视频中提取可靠有效的特征来表征人体的动作姿态,并通过对这些动作进行标记,借助机器学习方法来实现人体动作的识别。姿态识别是人体动作识别的前身,常用方法有两种:第一种是利用传感器制作可穿戴设备,比如戴在身体上的加速度计[1]或装在衣服上的张力传感器[2],可穿戴传感器的特点是精确直接,但会对肢体运动造成束缚,而且携带不方便,会给用户带来额外的负担,实用性较弱;第二种是利用视觉捕捉技术[3],例如视频监控图像或者静态图像,通过对视觉数据的处理来提取有用的信息并判断人体的动作。基于视觉捕捉技术在特征表征方面,最直观的方法是采用人体轮廓作为姿势特征表达[45]。但是轮廓特征是从人体整体的角度来描述姿势,忽略了身体各部位的细节变化,不能精确地表示多种多样的人体姿势。有研究[6]采用基于身体部位的姿势表达,即将人体轮廓分成若干个身体部位,例如颈部、躯干和腿等。由于这些姿势特征都是从二维彩色图像中抽取而来,需要克服人体定位、肢体遮挡、不同光照条件对识别的影响等问题。人体动作识别建立在姿态识别的基础上,有关人体动作识别的研究方向一般来讲主要集中在3个方面[7],分别是人体姿态的结构分析、人体运动目标的跟踪、基于图像序列的人体动作识别。

1 基本原理

本文通过获得监控图像的MHI图像的Hu矩和Zernike矩特征进行SVM分类,来实现人体动作识别,该方法的基本过程可以分为4个阶段:

(1)运动检测阶段。即从监控视频中提取出每一帧,并通过图像分割方法分离出运动物体。本文采用最常用的背景减除法,同时添加了背景模型的自动更新功能。该方法能够快速有效地分割出运动物体,计算速度较快并且具有良好的自适应能力。

(2)MHI图像获取阶段。由于运动历史图像能够很好地描述运动发生的位置、区域,以及运动方向和运动轨迹,利用运动历史图像可以精确地得到运动区域。

(3)Hu矩和Zernike矩提取阶段。即有效地提取出这两种全局特征,并进行特征融合。

(4)人体动作标记和识别阶段。根据获取出的视频帧的运动历史图像的MHI特征值和MBH特征值,使用SVM分类器分析判断并标记出人体动作的种类。

2 运动人体检测

目前使用最广泛最常见的目标检测算法主要有背景减除法、光流法和时间差分法等。时间差分方法[8]一般不能完全提取出所有相关的像素点,而且容易在运动实体内部产生空洞现象。光流法[9]不仅计算方法相当复杂,而且抗噪能力差。本文采用最常用的背景减除方法[10],该方法实现简单、运算速度快,在大多数情况下检测结果较好。其基本流程包括预处理、背景建模、目标检测、后處理。

运动历史图像[11](Motion History Images for Action Recognition and Understanding)是一种非常巧妙的人体运动的全局描述方法,它利用了连续图像中目标轮廓在空间上的相关性,每个像素值是此像素点上运动时间的方程,每个MHI图像都对应连续时间的连续图像加权叠加的结果。记B(x,y)为运动人体的二值轮廓图像序列,则运动历史图像的计算方法如式(1)所示。

hτ(x,y,t)= τ,B(x,y,t)-B(x,y,t-1)≠0max(0,hτ(x,y,t-1)-1),其它 (1)

式中,τ为时间窗口长度,即一个运动视频序列的帧数,表示运动的持续时间。在MHI图像中,当前视频的运动目标轮廓都具有最大的灰度值,是图像中最亮的部分,时间过去越久的轮廓灰度值越低、图像越暗。

3 特征提取以及特征融合

3.1 Hu矩

几何矩(Visual Pattern Recognition by Moment Invariants)由Hu在1962年提出,Hu矩利用了二阶和三阶中心矩构造了7个不变矩,是归一化中心矩的不同的线性组合,它们在图像连续的条件下,可保持平移、缩放和旋转不变性。能够获取代表图像某个特殊特征的矩函数,这些矩(除外)函数对某些变化,如缩放、旋转和镜像映射具有不变性,具体定义如下:

使用有Hu矩组成的特征向量对人体动作进行识别,运行速度非常快,但准确率较低,对于图像的细节有缺失。

3.2 Zernike矩

Hu矩的7个矩之间并不正交[12],因此包含了很多冗余信息,对特征提取的效率和准确率不高,为了克服该缺点,Teague[13]在Hu矩的基础上提出了正交的Zernike矩。本文选择采用正交的Zemkie矩结合Hu矩作为图像的统计特征进行特征提取和特征融合。

Zernike矩是图像函数f(x,y)在正交多项式{Vnm(x,y)}上的投影。Zernike引入了一组定义在单位圆x2+y2=1的复值函数集{Vpq(x,y)},称为Zernike多项式。{Vpq(x,y)}具有完备性和正交性,使得它可以表示定义在单位圆盘内的任何平方可积函数,定义为:

为了准确计算图像的Zernike矩,首先要将图像的重心平移到坐标原点处,并将图像像素点映射到单位圆内,单位圆以外的任何点都不参与此计算过程。

4 实验结果与分析

本文使用Weizmann通用动作识别数据库,该数据库包括93段视频,9名表演者(Daia、Denis、Eli、Ido、Ira、Lena、Lyova、Moshe、Shahar)在受限场景下执行了10个不同的动作(bend、jack、jump、pjump、run、side、skip、walk、wave1、wave2)。图1是Daria分别做这10种动作图的举例。

本文采用支持向量机[14]进行人体运动数据的训练与测试,分别使用Zernkie矩(47个)、规则矩(47个)和Hu矩(7个)进行人体动作识别实验。同时采用10次十倍交叉验证法,此方法将实验数据被随机划分为10等份,轮流将其中9份作为训练数据(即SVM的训练集),一份作为测试数据(即SVM的测试集),取这10次实验结果的平均值作为这次人体动作识别实验的结果,再按该方法将随机划分实验进行10次,取这10次人体动作识别各标记准确率实验结果的平均值作为最终识别的准确率。分别使用3种矩特征:Zernkie矩(47个)、规则矩(47个)、Hu矩(7个)进行了人体动作识别和标记实验,都统一采用SVM分类器,最后分类的统计结果为:规则矩、Hu矩的人体动作识别准确率分别为80%和68%,Zernike矩的人体动作识别的准确率为84%,本文方法为94%。由此可见,基于MHI图像的Hu矩和Zenrkie矩特征融合方法的准确率远远高于其它方法。

5 结语

本文实现了一种新的基于MHI和Zernike矩特征并使用SVM进行分类的人体动作识别方法,充分利用了Zemkie矩的正交性和不变性,使得特征的提取在保证信息量的同时避免了信息的冗余,保证了实验准确率,提高了运行速率。实验中对9个人的10类不同的人体动作进行了识别与标记,得到的分类准确率高于单独以Hu矩、规则矩为特征的方法。因此,基于MHI和Zerike矩的特征提取方法对人体行为识别非常有效。

参考文献:

[1] ALLEN F R,AMBIKAIRAJAH E,LOVELL N H,et al.Classification of a known sequence of motions and postures from accelerometry data using adapted Gaussian mixture models[J].Physiological Measurement,2006,27(10):935951.

[2] MATTMANN C,CLEMENS F,TRSTER G.Sensor for measuring strain in textile[J].Sensors,2008,8(6):37193732.

[3] WEINLAND D,RONFARD R,BOYER E.A survey of visionbased methods for action representation,segmentation and recognition[J].Computer Vision & Image Understanding,2011,115(2):224241.

[4] BOULAY B.Applying 3D human model in a posture recognition system[J].Pattern Recognition Letters,2006,27(15):17881796.

[5] COHEN I,LI H.Inference of human postures by classification of 3D human body shape[C].IEEE International Workshop on Analysis and Modeling of Faces and Gestures,2003:7481.

[6] MO H C,LEOU J J,LIN C S.Human behavior analysis using multiple 2D features and multicategory support vector machine[J].MVA,2009:4648.

[7] GAVRILA D.The visual analysis of human movement:a survey[J].Computer Vision and Image Understanding,1999,73(1):8298.

[8] ABDI J,NEKOUI M A.Determined prediction of nonlinear time series via emotional temporal difference learning[C].Control and Decision Conference,2008:52575262.

[9] AHMAD M,TASLIMA T,LATA L,et al.A combined localglobal optical flow approach for cranial ultrasonogram image sequence analysis[C].International Conference on Computer and Information Technology,2009:323328.

[10] TANG C Y,WU Y L,CHAO S P,et al.Anomaly foreground detection through background learning in video surveillance[M].Springer Berlin Heidelberg,2009:427435.

[11] BOBICK A F,DAVIS J W.The recognition of human movement using temporal templates[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2001,23(3):257267.

[12] 刘堃.基于整体特征的人体动作的识别[D].南京:南京理工大学,2009.

[13] TEAGUE M R.Image analysis via the general theory of moments[J].Journal of the Optical Society of America,1980,69(8):920930.

[14] 高雋.人工神经网络原理及仿真实例[M].北京:机械工业出版社,2003.

(责任编辑:孙 娟)