APP下载

基于时间序列手势轮廓模型的动态手势识别*

2015-12-19庞海波李占波丁友东

关键词:规整时间尺度识别率

庞海波 李占波 丁友东

(1.郑州大学 软件技术学院, 河南 郑州450002; 2.上海大学 影视艺术技术学院, 上海200072)

动态手势是运动的手势,与静态手势有所不同,在图像处理中它由一组序列图像组成,对应着模型参数空间中的一条轨迹.不同用户做的同一类型动态手势,其空间和时间尺度是不同的,甚至同一个用户前后两次做的同一类型动态手势在空间和时间尺度上也有差异.因此,如何表示同一类型手势并消除同一类型手势存在的时空差异,是动态手势识别需要解决的关键问题[1].

动态手势的表示方法可以分为基于表观的表示方法和基于模型的表示方法.基于表观的表示方法采用图像序列上的颜色信息或者灰度信息对人的运动进行分析[2],但不同人种的肤色有很大差别,因此该方法的应用容易受到限制[3].其次,背景通常相差也比较大,因此对颜色特征提取也需要进行动态建模[4].基于模型的表示方法通常要计算图像运动参数,常见的手势模型参数包括目标轨迹、光流及速度等.Molina 等[5]先分割手势,然后结合手势形态学的轮廓和手势运动模型识别动态手势.Fan[6]在跟踪目标时引入了一种动态更新模板机制.Liu 等[7]提出了目标特征点的相关生成关系.Wang 等[8]提出了用于手势识别的基于动态贝叶斯网络的分层视觉模型,该模型利用快速差分颜色跟踪算法对运动轨迹进行跟踪和运动判断,取得了不错的效果,但需要先分割手势再提取特征.Sgouropoulos 等[9]提出了一种基于自组织神经网络和隐马尔可夫模型的手势识别系统,该系统能够适应较多的光照场合,但计算过于复杂.

动态时间规整(DTW)[10]是具有非线性时间归一化效果的模式匹配算法,该算法希望找到一个时间规整函数,能将测试模式的时间轴非线性地映射到参考模式的时间轴上,使得测试模式和参考模式达到最大程度的重叠,从而消除两个时空模式之间的时间尺度差别.DTW 算法更适合于采样频率高的语音识别,而基于视觉的动态手势识别采样率通常较低,因此不太适合直接使用DTW 方法.HMM[11]存在模型选择难度大、参数训练过程复杂和时间较长等问题,当动态手势在时间尺度上变化比较大时,上述方法受到很大的限制.因此,解决动态手势时间尺度的变化问题是一个迫切需要解决的问题.Itakura[12]将规划路径限制到平行四边形,计算开销显著减少,但匹配识别率较低.Sakoe 等[13]在规划路径上合并路权重,计算过程麻烦,开销较大.Black 等[14]在概率框架下使用DTW,将手势轨迹的规整量和手势类型结合成一个统一的状态量,以待识别轨迹为观测值,找到基于当前观测的最优状态估计.Cheng 等[15]提出了一种基于图像分类的动态时间规整算法的3D 手势识别方法,该方法显著提高了识别性能.本质上,动态手势可以利用一个在空间上随时间推移而变化的表面或者轮廓进行描述,因此本研究试图建立动态手势的一个时空模型,并利用该模型实现对动态手势的识别,以提高动态手势识别对空间和时间尺度的鲁棒性.

1 动态手势轮廓提取和手势建模

动态手势识别很重要的一个任务就是提取动态手势高层次语义,或者对动态手势进行抽象层次的描述,因为可利用这些高层次语义或者高层次描述区分不同的动态手势.由于文中的研究和应用不考虑人手的非刚体运动,不关注手势本身的旋转等信息,因此利用一些能够描述运动的动态属性构建动态手势模型.动态手势的运动通常可以由一些静态形状或者轮廓构成,这些静态形状序列或者轮廓序列是伴随着手势执行过程中的时间序列而产生的.提取不同动态手势每一时刻的轮廓信息,将所有时刻的轮廓信息按时间顺序组合成矩阵,构成动态手势轮廓模型(DGCM),并依据该模型进行动态手势识别.

1.1 动态手势轮廓特征提取

利用背景减除法获得实验者的动态手势图像,然后提取实验者手势对象,如图1(b)给出了图1(a)图像减除背景后得到的二值图像.

从图1(a)的左下角进行边界跟踪,获得二值图像手势边界轮廓,最终提取的轮廓信息如图1(c)所示.

在图1(c)中,选择轮廓上的每一个点到质心的距离构成形状上下文描述符描述该轮廓.但由于实验者个体差异等因素的影响,提取的轮廓鲁棒性较差,因此,文中提出如下的解决方案.

假设一个轮廓含有N 个边界点,需要得到采样点个数为L.

(1)如果L<N<2L,则可以直接对手势的轮廓进行等间隔采样,获得L 个采样点.

(2)如果N>2L,则将手势按照比例因子进行缩小,保证缩小后手势轮廓含有的采样点个数N'满足

(3)如果N≤L,则将手势按照比例因子进行放大,该比例因子η 需要满足

将手势放大后轮廓含有的采样点数N'=L.

将在动态手势连续t 帧图像上获取的手势轮廓描述符定义为Dt,

图2给出了轮廓点的遍历过程,从图像手势的左下角轮廓点Pa开始,顺时针遍历所有轮廓点,经过点Pb,最后回到轮廓点Pa的前一个轮廓点.da和db分别是点Pa和点Pb到质心的欧氏距离.

假设一个动态手势由t 帧组成,可以将Dt组合成一个大小为t×L 的矩阵M,

保证动态手势第一帧轮廓向量D1位于矩阵最后一行,最后一帧轮廓向量Dt位于矩阵第一行,则称M为构建的动态手势轮廓平面图.给该二维空间平面添加一个时间轴,堆栈化时间序列上的每一个轮廓描述符,如图2(b)所示.

图2 轮廓描述子和归一化距离Fig.2 Contour descriptor and normalized distance

设x 轴指示轮廓点,y 轴指示时间序列,代表帧数,图3(a)显示了动态手势“画三角形”提取的每一帧图像手势轮廓构成的图像.三维图像的x 轴显示轮廓采样点个数为120,y 轴给出了手势动作持续的帧数是52.图3(b)的二维平面图x 轴表示采样点个数,y 轴代表帧数.

图3 手势“画三角形”轮廓图Fig.3 Contour of gesture “Draw triangle”

1.2 动态手势轮廓特征建模

为了建立手势轮廓图像模型库,需要实验者以适中的速度反复多次执行同一类型动作.

图4是“画三角形”动态手势小时间尺度运动产生的三维和二维平面图.

图4 手势“画三角形”小时间尺度运动手势轮廓图Fig.4 Short-time scale contour of gesture “Draw triangle”

假设在训练集中执行最慢的动态手势的时间尺度是smax=t,且同一动态手势连续相邻时间尺度间隔ε 帧,那么每个动态手势所具有的不同时间尺度的个数为t/ε,即

通过在时间轴上线性插值获得任意时间尺度的动态手势轮廓图像:

式中,Ms代表尺度为s 时的动态手势轮廓图像,φ(·)为时间轴上的线性插值函数.

分别计算这些不同时间尺度的手势轮廓图像的均值图像和方差图像,并将它们组成手势轮廓模型库,即

式中,Mjs(x,y)、μs(x,y)和σs(x,y)分别为训练集中第j 个平面图像在时间尺度s 时的手势轮廓图像、均值图像和方差图像.图5所示为手势“画圆”轮廓图像的均值、方差图像.

图5 手势“画圆”轮廓的均值图像和方差图像Fig.5 Mean images and variance images of gesture“Draw circle”contour

对训练集中的每一种手势都进行上述处理,获得训练集中每一种动态手势的均值图像组和方差图像组,它们构成了动态手势轮廓模型库,然后利用测试集中的图像对动态手势进行分类识别.

2 动态手势识别

2.1 基于相关信息的动态手势识别

给定一个测试手势的轮廓均值图像和方差图像M,其时间尺度为s,如果s≤smax,则计算该尺度轮廓模型和训练集中所有同尺度轮廓模型的相似度;如果s>smax,那么先将该动态手势M 的时间尺度s压缩到时间尺度smax,再与训练集中所有在smax尺度上的模型进行相似度计算.即

式中,1≤k≤K,K 是训练集中所有动态手势类型的个数,Mt0s是需要测试的动态手势在时间尺度s 上的模型,Gks是训练集中动态手势k 在时间尺度s 上的模型,M't0s是由M 利用式(6)插值得到的,f(·)是相似度计算函数.

相关信息不仅描述了不同模型之间的统计依赖信息,而且考虑了手势运动的时间信息[16],基于相关信息的相似度函数fC的计算式为

式中,μs(i)和σs(i)分别是训练集中第i 个手势模型在时间尺度s 上的均值图像和方差图像,Ms是时间尺度为s 的测试手势轮廓模型,Ni是图像的像素个数,fC是匹配程度值.

2.2 基于改进动态时间规整的动态手势识别

在动态手势识别中,不同个体或者相同个体在不同时间做的手势的速率会有很大差异,在进行尺度规整时会出现很大的波动,误匹配率比较高.

假设参考手势轮廓图像定义为

式中,S 为时间尺度,ai为i(i=1,2,…,t)时刻轮廓采样点向量.待测试的手势轮廓图像定义为

式中,R 为时间尺度,bi为i(i=1,2,…,t)时刻的轮廓采样点向量.通常R≠S,但与前述一样,要求采样点数相同,即轮廓采样点形成的向量维数要相同.

改进的动态时间规整IDTW 的具体过程如下:

1)给定输入手势时空轮廓向量

并假设规整后输出时空轮廓向量为

2)对于每个轮廓向量bi,m,计算它们从时间0 到时间R 的累积采样点的值Ci,m,

3)将时间轴按时间ts等间隔划分到S-1 个时间片,

4)根据式(15),利用线性插值法估计第i 个采样点从时间0 到时间ts的累加和C′i,ts,

6)输出经过时间规整的采样点序列

将上述测试手势轮廓图像B 和参考手势轮廓图像A 在时间尺度上进行对齐处理,将在时间尺度上规整对齐后的测试手势轮廓图像定义为

3 实验验证和分析

文中实验选用了文献[2]中的12 类动态手势,如图6所示.其中G1,G2,…,G12分别是“画圆”、“画三角形”、“画矩形”、“画弧线”、“画水平直线”、“画垂直线”、“移动”、“复制”、“撤销”、“交换”、“删除”和“关闭”手势.

图6 动态手势集Fig.6 Dynamic gesture set

图7 不同尺寸和采样点数时的ROC 曲线Fig.7 ROC curves with different sizes and different sampling point numbers

选择5 个受试者,让每个受试者依次将12 类动态手势分别以不同的时间尺度和空间尺度执行5次,摄像头记录5 个受试者的手势运动视频,视频尺寸为320×240,共录制的300 段视频按照手势类型分为12 类,每类包含25 个相同类型动态手势的视频.考虑到视频尺寸的影响,也在尺寸为40×30 的视频上进行实验.分别对轮廓等间隔采样80 和120个点;采用“交叉验证”法随机选择225 个训练视频和75 个测试视频,利用相关信息近似度量方法(CI)、原始动态时间规整方法(DTW)和改进动态时间规整方法(IDTW)分别进行100 次试验,统计每种方法的平均识别率.

图7给出了不同尺寸和采样点数时获得的平均受试者工作特征(ROC)曲线.从图中可知,相关信息近似度量方法和改进动态时间规整方法的性能比较接近,原始动态时间规整方法因没有在时间尺度上进行对齐处理而导致其整体AUC 值偏低.

当图像尺寸为320×240 时,采样点数对相关信息近似度量方法识别率的影响不大,而当图像尺寸为40×30 时,采样点数对识别率的影响较大.无论采样点数取80 或者120,当图像尺寸增加时,识别率都有较大的提升.另外,随着图像尺寸的增加,采样点数对识别率的影响逐渐减弱.

表1给出了利用3 种时间规整方法获得的识别率.从表中可知,改进动态时间规整方法比原始动态时间规整方法有更高的识别率.

表1 3 种方法的平均识别率比较Table1 Comparison of mean recognition rates among three methods

当图像尺寸降低时轮廓点数减少,导致提取手势轮廓点的误差较大.另外,随着采样点数的增加,轮廓描述手势更加准确,识别率都有明显的提升.

相关信息近似度量方法没有复杂的时间尺度对齐操作,故其时间性能最好;而改进动态时间规整方法因前期引入了时间尺度对齐操作,故其时间开销增加.

当图像尺寸为320×240、采样点数为120 时,3种方法对12 种手势(见图6)的识别率如图8所示.从图中可以看出:CI 和DTW 方法对12 种手势的识别精度总体上相当,CI 方法略有优势;IDTW 方法对简单动态手势(如G4、G5、G6)的识别率与其他两种方法非常接近,没有明显的优势,对较为复杂手势(如G1、G2、G3等)的识别率有明显的优势,但对复杂动态手势G11的识别率优势不明显.这表明,与DTW方法相比,IDTW 方法能够提高对较为复杂手势的识别率,但对简单和复杂动态手势的识别率很接近.

图8 尺寸为320×240、采样点数为120 时CI、DTW 和IDTW 方法对12 种动态手势的识别率Fig.8 Recognition rates of 12 kinds of gestures by using CI,DTW and IDTW methods with the size of 320×240 and the sampling point number of 120

4 结论

文中提出了一种新的动态手势识别框架,包括动态手势轮廓特征提取和建模、利用相关信息或改进动态时间规整方法进行识别;将在时间序列上提取的手势轮廓构成动态手势轮廓图像,计算出同一类型手势在多个时间尺度上的动态手势轮廓图像的均值图像和方差图像,以提高动态手势轮廓图像在采样点数和时间尺度上的鲁棒性;将这些均值图像和方差图像组成动态手势轮廓模型库,利用相关信息近似度量方法和改进动态时间规整方法计算待测试动态手势与模型库中参考动态手势轮廓模型之间的相似度.实验结果表明,文中动态手势轮廓模型对时间尺度有较强的鲁棒性,利用改进动态时间规整方法可取得比传统动态时间规整方法更高的识别率.

[1]周航.基于计算机视觉的手势识别系统研究[D].北京:北京交通大学信息科学研究所,2007.

[2]顾立忠.基于表观的手势识别及人机交互技术研究[D].上海:上海交通大学自动化系,2008.

[3]Khan Rehanullan,Hanbury Allan,Sto¨ttinger Julian,et al.Color based skin classification [J].Pattern Recognition Letters,2012,33(2):157-163.

[4]Sun Hung-Ming.Skin detection for single images using dynamic skin color modeling [J].Pattern Recognition,2010,43(4):1413-1420.

[5]MolinaJavier,Escudero-Vin~oloMarcos,SignorielloAlessandro,et al.Real-time user independent hand gesture recognition from time-of-flight camera video using static and dynamic models [J].Machine Vision and Applications,2011,24(1):187-204.

[6]Fan Lixin.A feature-based object tracking method using online template switching and feature adaptation [C]//Proceedings of the 6th International Conference on Image and Graphics.Hefei:ICIG,2011:707-713.

[7]Liu Yu,Zhou Wei,Yin Huagang,et al.Tracking based on SURF and superpixel [C]//Proceedings of the 6th International Conference on Image and Graphics.Hefei:IEEE,2011:714-719.

[8]Wang W H A,Tung C L.Dynamic hand gesture recognition using hierarchical dynamic Bayesian networks through low-level image processing [C]//Proceedings of the Seventh International Conference on Machine Learning and Cybernetics.Kunming:IEEE,2008:3247-3253.

[9]Sgouropoulos Kyriakos,Stergiopoulou Ekaterini,Papamarkos Nikos.A dynamic gesture and posture recognition system [J].Journal of Intelligent and Robotic Systems:Theory and Applications,2014,76(2):283-296.

[10]Neumann GerHard,Maass Wolfgang,Peters Jan.Learning complex motions by sequencing simpler motion templates [C]//Proceedings of the 26th Annual International Conference on Machine Learning.New York:ACM,2009:753-760.

[11]王西颖,戴国忠,张习文,等.基于HMM-FNN 模型的复杂动态手势识别[J].软件学报,2008,19(9):2302-2312.Wang Xi-ying,Dai Guo-zhong,Zhang Xi-wen,et al.Recognition of complex dynamic gesture based on HMM-FNN model[J].Journal of Software,2008,19(9):2302-2312.

[12]Itakura F.Minimum prediction residual principle applied to speech recognition, acoustics [J].IEEE Transactions on Speech and Signal Processing,1975,23(1):67-72.

[13]Sakoe H,Chiba S.Dynamic programming algorithm optimization for spoken word recognition,acoustics [J].IEEE Transactions on Speech and Signal Processing,1978,26(1):43-49.

[14]Black M,Jepson A.A probabilistic framework for matching temporal trajectories:condensation-based recognition of gestures and expressions [C]//Proceedings of the 5th European Conference on Computer Vision.Berlin/Heidelberg:Springer,1998:909-924.

[15]Cheng Hong,Dai Zhongjun,Liu Zicheng.Image-to-class dynamic time warping for 3D hand gesture recognition[C]//Proceedings of 2013 IEEE International Conference on Multimedia and Expo.San Jose:IEEE,2013:1-6.

[16]Pluim Josien P W,Maintz J B Antoine,Viergever Max A.Mutual information based registration of medical images:a survey [J].IEEE Transactions on Medical Image,2003,22(8):986-1004.

猜你喜欢

规整时间尺度识别率
“教学做合一”在生成课程背景下构建区角游戏开展
时间尺度上带超线性中立项的二阶时滞动力方程的振动性
CaputoΔ型分数阶时间尺度Noether 定理1)
交直流混合微电网多时间尺度协同控制
时间尺度上完整非保守力学系统的Noether定理
基于类图像处理与向量化的大数据脚本攻击智能检测
300kt/a硫酸系统规整填料使用情况简介
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
提升高速公路MTC二次抓拍车牌识别率方案研究
提高日用玻璃陶瓷规整度和表面光滑度的处理方法