基于关节角度和DTW的太极拳视频配准方法

2020-04-09叶松涛文雪琴

计算技术与自动化 2020年1期

叶松涛　文雪琴

摘要：太极拳视频配准是实现太极拳线上教学的首要问题。为实现太极拳视频的自动配准，提出了一种基于关节角度和DTW算法的太极拳视频配准方法。该方法主要利用人体关节角度消除太极拳视频背景的干扰和不同太极拳视频中人体大小不同的影响，并利用动态时间规整（DTW）算法对不同时间点的视频帧进行配准。在该方法中，首先计算出练习者动作视频中关节角度的时间序列，并使用指数平滑法消除时间序列中存在的误差;然后利用上下帧之间的人体关节角度差分割时间序列;最后利用DTW算法求分割后得到的时间序列与标准动作视频中对应的时间序列之间的距离，即可得到练习者与标准动作之间的匹配度。实验结果表明：该方法中的指数平滑法对太极拳视频配准的精度有较大影响，以及如果用欧几里得距离替换DTW算法将会较大的降低配准精度。并且该方法在太极拳视频配准上与基于SIFT特征的方法相比，配准精度更高，达到81.21%。

关键词：太极拳;视频配准;时间序列;动态时间规整;指数平滑法

中图分类号：TP391.41 文献标识码：A

TaiChi Video Registration Method Based on Joint Angle and DTW

YE Song-tao？覮，WEN Xue-Qin

（School of Computer Science，Xiangtan University，Xiangtan，Hunan 411105，China）

Abstract：TaiChi video registration is the primary problem in the online teaching of TaiChi. In order to realize the automatic registration of TaiChi video，a TaiChi video registration method based on joint angle and DTW algorithm is proposed. The method mainly uses the human joint angle to eliminate the interference of the TaiChi video background and the different human body size in different TaiChi videos，and uses the DTW algorithm to register the video frames at different time points. In this method，the time series of the joint angle in the exercise video of the practitioner is first calculated，and the error existing in the time series is eliminated by exponential smoothing;then the time series is segmented by the angle difference of the human joint between the upper and lower frames;Dynamic Time Warping（DTW） algorithm obtains the distance between the time series obtained after the segmentation and the corresponding time series in the standard action video，and the matching degree between the practitioner and the standard action can be obtained. The experimental results show that the exponential smoothing method in this method has a great influence on the accuracy of Tai Chi video registration，and if the DTW algorithm is replaced by Euclidean distance，the registration accuracy will be greatly reduced.Moreover，compared with the method based on SIFT feature，the method has higher registration accuracy of 81.21% in Tai Chi video registration.

Key words：Tai Chi;video registration;time series;dynamic time warping;exponential smoothing

太極拳线上教学工作将可以推进太极拳在全球的传播，其中进行太极拳视频配准是实现太极拳线上教学工作的首要任务。

目前的视频配准方法主要基于图像配准，并且图像配准方法主要基于灰度信息、优化策略和特征进行配准。其中基于灰度信息的配准算法实现简单，但计算量巨大，对于复杂的太极拳视频图像配准效果不理想;基于优化策略的配准算法可以对待搜寻区域的所有点进行搜寻，但太极拳视频图像中除了人其余位置的像素点皆为干扰，用该算法将计算量大，还容易被误导;基于特征的配准算法尽管效果较好，但在提取太极拳视频图像的特征点时，容易被视频中的背景干扰，提取出与人无关的特征。

从上述可以看出，将目前基于图像配准的视频配准方法应用到太极拳视频是不适用的。太极拳视频在进行配准时，需要克服以下3个问题：

（1）两个太极拳视频中的背景很可能不一样，在进行视频配准时，不可能跟踪颜色和纹理变化[1];

（2）目前大多数方法使用帧间差异进行视频分

割[2]-[3]，但是太极拳视频帧差异小;

（3）太极拳视频中随时间变化的动作快慢不同，直接将对应时间点的视频帧进行配准将产生较大误差。

为了解决上述描述的3个问题，提出了一种基于关节角度和DTW的太极拳视频配准方法。该方法主要分为以下3个部分：

1）通过OpenPose提取18个关节的坐标，并利用关节坐标求得18个关节之间的角度，制作成关节的角度时间序列，再利用指数平滑法修改时间序列中的突变值，通过该步骤解决了上述的问题（1），消除了视频背景的影响;

2）使用不同视频帧之间的关节角度差对视频

帧进行聚类，将视频分割成小视频，该步骤解决了上述的问题（2），分割视频帧差异小的太极拳视频;

3）通过DTW算法求得分割后的练习者视频

与标准动作视频的关节角度时间序列之间的距离，并将该距离总和作为判断视频配准的依据，该步骤解决了上述的问题（3），不同太极拳视频中动作快慢不一样。

1 太极拳视频配准方法

针对太极拳视频，提出了一种基于关节角度和DTW算法的太极拳视频配准方法，该方法的主要步骤如图1所示。

在图1中的6个步骤分别表示为：

Step1：输入练习者的太极拳视频;

图1 太极拳视频配准的主要步骤

Step2：利用OpenPose提取出关节坐标，并利用关节坐标制作出关节角度的时间序列;

Step3：利用指数平滑法调整关节的角度时间序列;

Step4：分割调整过的关节角度时间序列，得到关节的角度时间序列集;

Step5：利用DTW算法分别计算分割后的练习者视频与标准动作视频的关节角度时间序列集合之间的距离di;

Step6：将得到的距离总和，并利用公式（1）求得最后分数s。

s = 1 - ■ （1）

其中，m为关节角度时间序列集合的个数，Di为练习者与标准动作的第i个关节角度时间序列之间最大的距离。

1.1 制作关节角度时间序列

在介绍如何制作关节角度的时间序列之前，先解释一下关节角度的时间序列。时间序列主要是记录一个或多个属性在一段时间内发生变化时的值，其中关节角度时间序列是指每个时间点对应于视频的帧，并且时间序列中的值是人体关节角度。

因为人体关节的角度不会被背景和人像大小影响，更能减少动作匹配时的误差，因此本文将关节角度作为太极拳视频配准的依据。制作关节角度时间序列的总体步骤如：

1）提取视频中随时间变化的关节坐标;

2）利用坐标计算关节的角度，并为每个关节制作一个角度时间序列;

3）利用指数平滑法消除关节角度的时间序列中的突变值，使其变得更准确。

本文所用的关节坐标提取模型为OpenPose[4]，OpenPose的骨架提取技术已经较为成熟，所提取出的骨架效果如图2所示。

图2 骨架效果图

接下来利用关节坐标计算每一帧的关节角度。首先，确定求角度的基线，由于左臀部和右臀部之间的连线在太极拳视频中相对于其他关节变化较小，因此将左右臀部之间的连线作为基线，然后计算基线和其余关节之间的角度，求得每一帧的关节角度。具体步骤如下所示：

1）首先确定以左右臀部的连线为基线，并利用左臀部的坐标（x1，y1）和右臀部的坐标（x2，y2）计算连线的距离a，计算公式为：

a = ■

2）然后计算剩余的16个关节与左右臀部之间的距离。假设该关节的坐标（x3，y3），则该关节与左臀部的距离為：b = ■，该关节与右臀部的距离为：c = ■;

3）最后计算该关节与基线的角度。利用上述求出的a，b，c可求出角度θ，计算公式为：

θ = cos-1（■）

利用上述可计算出视频帧中的16个关节的角度时间序列A = {{？坠ij}n j=1}16j=1，其中i表示第i个视频帧，j表示第j个关节，16个关节中不包括基线的两端左右臀部。

在太极拳动作视频中，关节角度的变化是平滑的，而OpenPose模型所提取的关节坐标并不能完全正确，有时候关节被挡住使得不能被识别。为了消除这种误差对结果的影响，使用了指数平滑法（ES），消除角度时间序列中突变的值。

ES是利用过去数据的加权平均进行预测[5]。这种方法给相对更近一些的数据以较大的权重，而较远数据的权重则小一些，因为，较近的数据对将来的影响比较远的数据对将来的影响大一些。

利用ES消除角度时间序列中突变值的具体步骤为：首先，找到角度时间序列中突变值的位置;然后利用指数平滑法用该位置之前的角度值预测该位置的值;最后，用预测出的值取代突变值，得到平滑的角度时间序列A′ = {{？坠′ij}n j=1}16j=1，其中i表示第i个视频帧，j表示第j个关节，？坠′表示调整后的角度值。如图3所示，展示了利用ES消除突变值的效果，其中图3 （a）是使用ES之前的角度时间序列图，而图3（b）是使用之后的角度时间序列图。从图3中可以看出，图3（b）中的角度时间序列消除了图3（a）中时间点60-80之间的突变值，因此利用ES可以有效的解决OpenPose关节识别误差的问题。

图3 消除突变值前后的关节角度的时间序列对比图

1.2 分割关节角度时间序列

目前关于视频配准问题已经有了大量研究，但是大分布都关注在视频帧之间的差异，而没有关注视频帧的内容。由于本文针对的是太极拳视频，如果仅利用视频帧之间的差异进行视频帧配准，而不关注视频帧的内容，将会被视频中的背景误导，从而忽略了太极拳视频中的重点：人体动作。

因此在分割视频帧时，关注到了太极拳视频中重要的内容-人物动作中的关节角度。分割太极拳视频帧最主要的是找到动作之间的转折点，而动作之间的转折点需要满足以下两个条件：

1）动作转折点所在位置为波峰或波谷，即在上一个角度差与下一个角度差的积为负数的位置;

2）动作转折点前后的角度差要大于一定阈值，此条件可排除小的动作幅度。

根据上述描述，提出了一种针对太极拳视频的视频帧分割方法。方法步骤为：首先，利用角度时间序列计算出上一帧与下一帧之间的角度差;然后，找到满足上一个角度差与下一个角度差之间的积为负数的位置;最后，在找到的位置中，计算前后的角度差，如果大于阈值，则该位置为分割点，否则，不是分割点，并在分割点处将时间序列分割，得到时间序列的集合β = {？坠′1，？坠′2，…，？坠′n}，其中n为分割后的时间序列的个数。

如图4所示，利用上述分割视频帧的方法可以在左手腕关节的角度时间序列中找到A和B两个分割点，并分割成如图5中（a）（b）（c）所示的时间序列图。图4的角度变化过程和分割点的确定可由图6的动作分解过程解释。图4中的左手腕角度时间序列在位置A之前的时间点对应为图6（a）到图6（b）的过程，此时左手腕的角度只有较小变化;在位置A到位置B之间的时间点对应为图6（b）到图6（c）的过程，此时左手腕的角度逐渐增大;在位置B之后的时间点对应为图6（c）到图6（d）的过程，此时左手腕的角度逐渐减小。

LWrist（before）

time

图4 左手腕关节的角度时间序列图

图5 分割后的左手腕关节的角度时间序列

图6 动作分解图

1.3 进行DTW匹配

通过上述方法已经得到分割后的关节角度时间序列，接下来将计算分割好的练习者与标准动作的关节角度时间序列集之间的距离。用于评估时间序列之间相似性的最广泛使用的距离函数是欧几里得距离和DTW算法。在文献[6]中还有其他求时间序列之间相似性的方法。然而欧几里得距离和其他方法需要两个视频在同一时间点上动作的高度对应，不然在计算时容易产生误差。而在计算两个太极拳视频的时间序列的相似性时，并不能保证在同一个时间点上动作的高度对应，因此选用DTW，DTW允许缩放和移动时间轴以更恰当地计算相似性。

DTW（Dynamic Time Warping）的概念最开始被引入到语音识别领域[7]，以解决时间上不灵活性的问题。DTW距离通过允许拉伸和挤压时间来计算两个时間序列的最佳对齐序列。这种灵活性使得DTW在语音识别之外的许多应用领域可被采用和适应，其中文献[8]和文献[9]介绍了在图像序列和视频上的适用性。

利用DTW求解时间序列之间的距离的主要原理是利用动态规划思想，并结合欧几里得距离求解。利用公式（2）（3）（4）可求得时间序列X和Y之间距离，其中i表示X中的i坐标，j表示Y中的坐标，Dist（i，j）表示求i与j之间的欧几里得距离。

利用上述步骤可求得分割后的时间序列与对应的标准动作的时间序列之间的距离di，并利用公式（1）求得练习者最后的评分s。

2 实验

2.1 实验设备

表1 运行环境

运行环境：除了OpenPose模型是在GPU上运行，其余运行环境罗列在表1中。

2.2 实验数据和评估方法

为了验证本文提出的太极拳视频方法的可靠性，特意找来了段位一到段位六的一百二十六位太极拳运动员，拍摄了陈氏太极拳老架一路中一到六式的视频。如果提出的太极拳视频配准方法给这些视频评的分与段位相符，则表示本文的动作匹配方法是可靠的。

为了评估提出的太极拳视频配准方法，设计了一种评估方式。评估的主要步骤为：首先，从6个段位中，分别随机抽取4个人，利用视频配准方法给这24个人打分;然后，将不同段位的人进行排列组合，此时会有4096种不同的组合方式，将这4096种组合方式进行排序，得到段位排序的字符串;最后，利用编辑距离[10]计算排序后的第i个字符串与正确的段位排序字符串之间的距离di，利用公式acc = ■求得匹配的准确度。

2.3 实验对比和结果分析

由于视频配准方法目前所用的方法大多为基于图像配准，并且图像配准的主要方法有基于灰度信息，优化策略和特征等。其中，基于灰度信息的图像配准方法是对小形变图像进行高精度配准，但是不同太极拳视频图像之间有较大差异，因此基于灰度信息对太极拳视频图像配准可明显看出不适应，在实验对比上将排除该方法。基于优化策略的图像配准是通过寻找使相似度达到最大值的变换参数，从而配准图像，但是太极拳视频图像中除人以外的背景为干扰，如果使用优化策略将会误导配准结果，因此在实验对比上也排除该方法。基于特征的图像配准主要通过从图像中提取一部分点或线，使用的信息较少，应用到太极拳视频图像中，有不确定性，因此将该方法与本文的方法作对比。

基于特征的圖像配准方法，主要有基于SIFT和SURF特征的方法，其中Mikolajczyk和Schmid[11]通过对比SIFT、PCA-SIFT、Steerable Filter、Moment Invariants 等数十种特征点比较之后，指出SIFT特征仍是目前最为有效的特征检测算子。

为了验证方法的有效性，共做了三组对比。一组是本文的方法与基于SIFT特征的方法作对比，一组是本文的方法中有和无ES作对比，最后一组为DTW算法与欧几里得距离作对比。将不同的方法利用上述描述的评估方法进行评估，得到这些方法的准确度。其对比的结果如表2所示。从表2中可以看出，本文的方法明显优于基于SIFT特征的方法，并且添加了指数平滑法增加了结果的准确性，所用的DTW算法也明显优于欧几里得距离。

表2 实验对比评分

3 结论

通过分析太极拳视频配准上的难点，描述了用现有方法无法实现太极拳视频配准的高精度。因此提出了一种基于关节角度和DTW的太极拳视频配准方法，解决了太极拳视频配准的难点。从实验结果也可以看出，本文提出的太极拳视频配准方法与基于图像的视频配准方法相比，有较高的精度。

参考文献

[1] SHAN C . Video search and mining[C]// Springer Publishing Company，Incorporated，2010.

[2] PIRAMANAYAGAM S ，SABER E ，CAHILL N D ，et al. Shot boundary detection and label propagation for spatio-temporal video segmentation[C]// Image Processing：Machine Vision Applications VIII. International Society for Optics and Photonics，2015.

[3] JIANG H，ZHANG G，WANG H，et al. Spatio-temporal video segmentation of static scenes and its applications[J]. IEEE Trans on Multimedia，2015，17（1）：3—15.

[4] CAO Z，SIMON T，WEI S，et al. Realtime multi-person 2D pose estimation using part affinity fields[C]// Proc of 2017 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）. Honolulu：IEEE Press，2017：1302—1310.

[5] BROWN R G . Exponential smoothing[M]. Encyclopedia of Operations Research and Management Science. Springer US，2013.

[6] HUI D，GOCE T，PETER S，el al. Querying and mining of time series data：experimental comparison of representations and distance measures[C]// Proc of the VLDB Endow. VLDB Endowment Press，2008：1542—1552.

[7] BERNDT D J，CLIFFORD J. Using dynamic time warping to find patterns in time series[C]// In Proc of the 3rd International Conference on Knowledge Discovery and Data Mining （AAAIWS'94）. Seattle：AAAI Press，1994：359—370.

[8] CHEN A P，LIN S F，CHENG Y C. Time registration of two image sequences by dynamic time warping[C]//Procof IEEE International Conference on Networking，Sensing and Control. Taiwan：IEEE Press，2004：418—423.

[9] ASSENT I ，KREMER H. Robust adaptable video copy detection[C]// Proc of the 11th International Symposium on Advances in Spatial and Temporal Databases. Aalborg：Springer-Verlag Press，2009：380—385.

[10] GAO X，XIAO B，TAO D，et al. A survey of graph edit distance[J]. Pattern Analysis and Applications，2010，13（1）：113—129.

[11] MIKOLAJCZYK K，SCHMID C.A performance evaluation of local descriptors[J].IEEE Transactions on Pattern Analysis and Machine Intelligence，2005，27（10）：1615—1630.