基于双隐变量空间局部粒子搜索的人体运动形态估计

2014-06-02李万益孙季丰王玉龙

电子与信息学报 2014年12期

李万益孙季丰王玉龙

李万益*孙季丰王玉龙

(华南理工大学电子与信息学院广州 510641)

该文提出一种双隐变量空间局部粒子搜索(DLVSLPS)算法，可以从多视角图像序列的轮廓特征较准确地估计出3维人体运动形态序列。该算法用高斯过程动态模型(GPDM)降维建立双隐变量空间和低维隐变量数据到高维数据的映射关系后，然后对双隐变量空间使用近邻权重先验条件搜索(NWPCS)，实现局部低维粒子搜索来生成较优高维数据，从而估计相应帧的3维人体运动形态，解决传统粒子滤波算法直接在高维数据空间采样较难获取有效正确数据进行估计的问题。经仿真实验验证，所提出的算法比传统粒子滤波算法在实现多视角非连续帧估计，克服轮廓图像数据歧义，减小估计误差有明显优势。

人体运动形态估计；双隐变量空间；局部粒子搜索；多视角图像序列；3维人体运动形态序列

1 引言

本文针对以上问题，提出一种可靠稳定的双隐变量空间局部粒子搜索算法(Dual Latent Variable Spaces Local Particle Search, DLVSLPS)，对于估计周期性匀速含空间位置信息3维人体运动形态很有效。该算法采用高斯过程动态模型(Gaussian Process Dynamical Models, GPDM)[9,10]分别对少量两套(带空间位置信息和不带空间位置信息)已知的3维人体运动形数据进行降维，获取低维隐变量数据，建立低维隐变量数据到高维人体运动形态数据函数映射关系后，再用近邻权重先验条件搜索(Neighbor Weight Prior Condition Search, NWPCS)来实现。GPDM降维算法与其他降维算法[11]相比，其具有低维到高维可逆性，并且从低维隐变量数据还原的高维数据与原高维数据差别较小，它由高斯过程隐变量模型(Gaussian Process Latent Variable Models, GPLVM)[12,13]演变而来。这两个隐变量空间中的低维隐变量数据对于搜索过程中具有很好的先验信息，本文提出算法就可以较好利用该信息，结合相关约束模型，对两个空间低维粒子进行局部搜索，生成较有效正确的高维数据进行估计。本文提出的算法与传统几种粒子滤波算法(APF, PSO-PF, PF)相比，可以估计非连续帧所对应的3维人体运动形态，有效克服轮廓图像数据歧义，且减小估计误差。最后，通过仿真实验验证该算法比传统几种粒子滤波算法更有效。文中称描述3维人体运动形态的数据为高维数据，其降维后在隐变量空间中所获取的低维隐变量数据称为低维数据(低维粒子)，隐变量空间也称为低维空间。

2 高斯过程动态模型(GPDM)降维

本文需要估计的3维人体运动形态用如图1(a)所示的人体运动立体模型表示，里面由圆台体与骨架组成，该模型可以较近似地描述真实人体运动形态，肢体大小，并且该模型是由高维数据转换而来。在对多视角的2维人体运动图像处理前，可以将已知少量立体模型的高维数据组成一个稀疏的数据样本1，这组样本序列是大致覆盖有一个周期空间位置信息的，如图1(b)所示。然后，本文同样可以采集一个走路运动周期少量无空间位置信息稀疏的数据样本2，如图1(c)所示。两组高维数据用GPDM降维后就建立了低维空间且获取了如图1(d)与图1(e)所示的相应两组低维数据，及其函数映射关系。GPDM相关概率关系为

3 双隐变量空间局部粒子搜索

3.1相关数学模型建立

根据文献[5]的研究以及Humaneva-I数据库中的采集数据特点，每一帧的人体运动形态图像由3个不同视角彩色镜头拍摄，如图2第1行的3幅图所示。那么本文通过图像分割算法[14,15]对该帧的3个视角图像进行处理得到相应视角的轮廓图像，如图2第2行的3幅图所示，本文还需要对生成的人体运动立体模型做该3个视角的2维图像投影，如图2第3行的3幅图所示。根据式(4)，本文有以下函数及概率关系：

(6)

图2 图像数据

3.2 低维局部粒子的NWPCS及运动形态估计

通常，经过首个低维空间的搜索后，还原得到高维数据的空间位置信息会有偏差，那么这时需要对还原高维数据的空间位置信息(共6维)进行搜索，一般是高维数据的前2维数据偏差较大，搜索前2维即可。搜索方法也使用上述方法进行搜索，找出权重大的空间位置信息进行保留即可，之后再进行第2个低维空间的搜索。对第2个低维空间搜索时，为了克服轮廓图像数据歧义，本文建立以下运动形态约束模型，寻找与首个低维空间搜索后得出的高维数据相对接近的高维数据的相应低维粒子：

本文在图3中简单描述了NWPCS原理，低维空间局部粒子搜索与传统粒子滤波算法的采样复制有所不同。在概率权重函数局部含有较小多峰时，按约束条件寻找前3个权重较大的相邻粒子，对低维空间从全局到局部逐步定位，可以较快找到与各视角轮廓图像数据特征最近似(最优)且单峰的相应局部，在该局部中再通过搜索向量进行空间搜索，获得新的粒子，然后在所获粒子中再找出权重较大的前3个粒子(含上次搜索权重最大的粒子)，重复上述的方法，搜索范围会逐步缩小到权重大的粒子生成空间。相比之下，传统的粒子滤波算法是多次复制权重大的粒子再来采样，且每次采样范围是很有限的，先验信息较不理想时，较小概率权重值归一化后很有可能出现权重比较大的粒子，会重复复制了实际概率相对最大值都比较小的粒子进行下一轮粒子的权重计算，就较难得到实际概率大且和轮廓图像特征匹配的粒子，相当于陷入局部最优的概率值。由于低维空间含有很多高维数据全局先验信息，所以在低维空间进行全局到局部定位再局部搜索生成的粒子会比传统粒子滤波算法要有效得多，从而所提算法具有较好的性能。

图3 NWPCS搜索原理示意图(设分别为第1次，第2次搜索到的粒子，N为数据样本1或2的个数，NP为搜索粒子个数)

3.3双隐变量空间局部粒子搜索(DLVSLPS)算法建立

本文采用双隐变量空间搜索，可以较准确地估计人体运动立体模型所在的空间位置信息和动作姿态信息。由第3.2节的结论，本文给出算法如下。

具体搜索步骤如表1所示。

4 仿真实验

本文用DLVSLPS算法在估计非连续帧，克服轮廓图像数据歧义以及估计人体运动形态的误差3个方面和其他粒子滤波算法进行比较，其中所用视角为3个视角，测试数据选用HumanEva-I数据。

4.1 估计非连续帧

本文选用任意间隔20帧的两帧图像进行测试，从任意1帧开始估计其后的第20帧，且用4种不同的算法比较，其后的第20帧估计效果如图4(a)~图4(d)所示。图4中可以看出所提出的DLVSLPS算法可以很好地估计出非连续帧的人体运动立体模型及其空间位置，并且其各肢体和该非连续帧各视角的2维图像也很匹配，然而APF, PSO-PF和PF算法估计出非连续帧的人体运动立体模型及其空间位置均有误，其各肢体与相应各视角2维图像明显不匹配。

表1 搜索步骤

图4 各算法在3个视角下估计非连续帧的人体运动立体模型及其2维图像显示

4.2克服轮廓图像数据歧义估计

一组有限视角如图2第2行的3幅图这样的2维轮廓图像数据是带有数据歧义的，也就是说一组轮廓数据无法判别人体运动立体模型肢体的具体情况。例如，一组有限视角轮廓图像数据无法判别人体运动形态的脚到底是左脚在前还是右脚在前的类似情况。DLVSLPS算法利用低维空间的先验信息，加上运动形态约束，可克服轮廓图像数据歧义估计，给出更接近真实数据的人体运动立体模型。如图5(a)~图5(e)所示，DLVSLPS算法估计效果和真实数据较接近，而APF, PF算法估计左脚(白色)及右脚(灰色)的位置相反了，手有和2维图像不匹配的现象，并且与真实数据相差很大。PSO-PF算法更无法克服轮廓图像数据歧义，估计的效果和真实数据差别更大，得出人体运动立体模型完全不成人形。因此，说明DLVSLPS算法估计过程中可以克服轮廓数据歧义进行估计。

4.3估计误差

本文采用文献[16]的计算误差方法，计算镶嵌在圆台里的骨架各关节点的平均误差作为每一帧的误差，然后采用APF, PSO-PF, PF 3种粒子滤波算法与所提算法DLVSLPS比较。由于APF, PSO-PF, PF算法估计非连续帧不是很好，故采用50帧连续图像，比较估计误差。本文采用HumanEva-I里空间位置信息变化较大的人体走路和跑步形态的数据进行测试比较，其中走路1~3与跑步1~3两类运动形态数据段都是空间位置信息不同的数据，如图6所示，各子图中可以分别看出所提算法DLVSLPS估计连续帧的平均误差，标准差，走路1~3和跑步1~3每帧的误差及最大误差(图6(b)~图6(g)的算法图例标识所示)，都比APF, PSO-PF, PF算法总体明显要小，所以DLVSLPS算法比以上3种算法有很大优势。

图5 各算法在3个视角下克服轮廓数据歧义估计人体运动立体模型的2维图像显示

图6 估计误差比较

5 结束语

从以上实验结果可知，所提DLVSLPS算法可以从多视角图像序列中的人体运动形态轮廓特征估计出相应的3维人体运动形态，并且可以较好地估计出其所含的相应空间位置信息。和其他传统粒子滤波算法APF, PF, PSO-PF相比，DLVSLPS算法还有非连续帧估计，克服轮廓图像数据歧义及减小估计误差的优势。另外，对多视角的图像序列进行图像分割提取轮廓图像时，如果轮廓图像提取的质量较差，会直接对实验结果产生较大影响。本文的研究还局限于人体运动形态及空间位置变化较规则，且有标记人体运动立体模型的估计，将来本文的研究还会拓展到人体运动空间位置变化不规则，无标记且多角色交互复杂的人体运动立体模型估计[17]。如何在低维空间中进行最优搜索，与高维数据相互建立函数关系，仍是研究重点。

[1] Yao A, Gall J, Gool L V,. Learning probabilistic non-linear latent variable models for tracking complex activities[C]. Proceedings of Neural Information Processing Systems, Vancouver, Canada, 2011: 1-8.

[2] Luo Wei-lan, Yamasaki T, and Aizawa K. Cooperative estimation of human motion and surfaces using multiview videos[J]., 2013, 117(11): 1560-1574.

[3] Gall J, Rosenhahn B, Brox T,. Optimization and filtering for human motion capture[J]., 2010, 87(1/2): 75-92.

[4] Bernard J, Wilhelm N, Krüger B,. Motionexplorer: exploratory search in human motion capture data based on hierarchical aggregation[J]., 2013, 19(12): 2257-2266.

[5] Sigal L, Balan A O, and Black M J. Humaneva: synchronized video and motion capture dataset and baseline algorithm for evaluation of articulated human motion[J]., 2010, 87(1/2): 4-27.

[6] Deutscher J and Reid I. Articulated body motion capture by stochastic search[J]., 2005, 61(2): 185-205.

[7] 朱志宇. 粒子滤波算法及其应用[M]. 北京: 科学出版社, 2010: 78-83.

Zhu Zhi-yu. Particle Filter Algorithm and Its Application[M]. Beijing: Science Press, 2010: 78-83.

[8] 李毅, 孙正兴, 陈松乐, 等. 基于退火粒子群优化的单目视频人体姿态分析方法[J]. 自动化学报, 2012, 38(5): 732-741.

Li Yi, Sun Zheng-xing, Chen Song-le,. 3D human pose analysis from monocular video by simulated annealed particle swarm optimization[J]., 2012, 38(5): 732-741.

[9] Wang J M and Fleet D J. Gaussian process dynamical models for human motion[J]., 2008, 30(3): 283-298.

[10] Urtasun R, Fleet D J, and Fua P. 3D people tracking with gaussian process dynamical models[C]. Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition, New York, USA, 2006: 238-245.

[11] Rosman G, Bronstein M M, Bronstein A M,. Nonlinear dimensionality reduction by topologically constrained isometric embedding[J]., 2010, 89(1): 56-68.

[12] Lawrence N D. Probabilistic non-linear principal component analysis with Gaussian process latent variable models[J]., 2005, 6(11): 1783-1816.

[13] Ek C H, Torr P H S, and Lawrence N D. Gaussian process latent variable models for human pose estimation[C]. Proceedings of 4th Workshop on Machine Learning for Multimodal Interaction, Brno, Czech Republic, 2007: 132-143.

[14] Dong Fang-fang, Chen Zeng-si, and Wang Jin-wei. A new level set method for inhomogeneous image segmentation[J]., 2013, 31(10): 809-822.

[15] Kasaiezadeh A and Khajepour A. Multi-agent stochastic level set method in image segmentation[J]., 2013, 117(9): 1147-1162.

[16] Sigal L and Black M J. Humaneva: synchronized video and motion capture dataset for evaluation of articulated human motion[R]. Report of Brown University, Providence: USA, 2006.

[17] Liu Ye-bin, Gall J, Stoll C,. Markerless motion capture of multiple characters using multiview image segmentation[J]., 2013, 35(11): 2720-2735.

李万益：男，1985年生，博士生，研究方向为机器学习、智能计算方法、通信系统优化.

孙季丰：男，1962年生，教授，博士生导师，研究方向为图像理解、计算机视觉.

王玉龙：男，1989年生，硕士生，研究方向为图像与视频处理.

Human Motion Estimation Based on Dual LatentVariable Spaces Local Particle Search

Li Wan-yi Sun Ji-feng Wang Yu-long

(,,510641,)

A novel algorithm called Dual Latent Variable Spaces Local Particle Search (DLVSLPS) is proposed. It can estimate the 3D human motion sequence from silhouettes of multi-view image sequence more accurately. Gaussian Process Dynamical Models (GPDM) is used to reduce the dimension to build the dual latent variable spaces and the mapping from low dimensional latent variable data to high dimensional data. Then, the low dimensional particles are searched in these spaces by the method called Neighbor Weight Prior Condition Search (NWPCS). The better high dimensional data are generated from the mapping to estimate the 3D human motion of the corresponding frame. The proposed algorithm aims to solve the problem of traditional particle filters. The problem is that sampling in high dimensional data space can not get the valid and correct data to estimate the 3D human motion. The simulating experiments show the proposed algorithm has better performance than the traditional particle filters. The better performance includes the multi-view and discontinuous frame estimation, overcoming the silhouette ambiguity and reducing the estimation error.

Human motion estimation; Dual latent variable spaces; Local particle search; Multi-view image sequence; 3D human motion sequence

TP391.4

1009-5896(2014)12-2915-08

10.3724/SP.J.1146.2013.01915

李万益 luther1212@163.com

2013-12-09收到，2014-06-30改回

国家自然科学基金青年基金(61202292)和广东省自然科学基金(9151064101000037)资助课题