基于残差时空图卷积网络的3D人体行为识别

2020-03-13管珊珊张益农

计算机应用与软件 2020年3期

管珊珊张益农

1(北京联合大学北京市信息服务工程重点实验室北京 100101)2(北京联合大学城市轨道交通与物流学院北京 100101)

0 引言

人体行为识别是计算机视觉领域研究的一个重要且富有挑战性的研究方向。人体行为识别的应用领域包括视频监控、人机交互、智能医疗、机器人技术与技能评估[1-2]等。早期的行为识别主要是针对RGB视频进行人体行为识别[3-4]，但在此过程中会不可避免地丢失有价值的三维时空信息。随着深度传感器——微软Kinect[5]的出现和改进，利用3D传感器提供的3D结构来研究人体行为识别的方法已成为一个比较热门的研究领域[6]。

近年来，基于深度学习的方法在图像识别和分类方面取得了突出的成绩。这些方法中的大多数都是从RGB-D图像序列中学习动作特征。文献[7]提出一种采用选关节的3D位置构成球形直方图，在使用LDA重新投影并聚类成词汇表之后，将编码的特征馈送到隐马尔可夫模型(HMM)以进行分类。

虽然深度图像的方法对动作识别非常有用，但是由于帧数的增加，学习模型的计算复杂度也会迅速增加。

通过从微软Kinect设备获取和处理得到的深度数据中提取出人体的骨骼特征[8]，其特征为行为识别提供了重要的表征信息。文献[9]提出了一种改进的递归神经网络结构来模拟每个身体部位的特征的时间相关性，并利用它们进行动作分类。文献[10]提出一种采用时间卷积神经网络从人体关节坐标提取特征，进而进行人体行为识别。上述这些基于骨骼进行动作识别的方法只是在各个时间步骤使用关节坐标形成特征向量，并对其进行时序分析。但这些方法并没有充分地利用人体关节的自然连接关系，而图卷积神经网络(Graph Convolutional Networks，GCNs)[11]是将深度学习中常用于图像的卷积神经网络应用到图数据上，且人体骨骼关节的连接是以图的方式呈现的，因此，图卷积神经网络的提出为基于人体骨骼的3D行为识别提供了新思路。

1 相关工作

1.1 图卷积网络

图卷积网络将深度学习中常用于图像的卷积神经网络应用到图数据上。GCNs这个模型框架，输入是一幅图，经过一层一层计算变换，最后输出一幅图。在图上构建GCN通常遵循两个原理：(1)从光谱的角度，图卷积的局部性以光谱分析的形式被考虑[11]；(2)从空间角度，卷积核直接应用于图形节点及其邻域节点[12]。本文采用的图卷积神经网络从空间角度出发，通过将每个滤波器的应用限制在每个节点的1邻域内来构建空间上的卷积滤波器。例如，在τ时刻的某帧中有N个骨骼点Vt，骨骼边ES(τ)={vtivtj|t=τ,(i,j)∈H}。从2维图像或特征图上的卷积运算的定义来看，它们都可被视为二维网络。设一个大小为K×K的卷积核，输入图为fin，通道数为C。单通道在位置x的输出如下式所示：

(1)

式中：下采样函数p表示位置x的领域，在图卷积中也可表示为p(x,h,w)=x+p′(h,w)；权重函数w提供一个c维真实空间中的权向量，用于计算c维的采样输入特征向量的内积。权重函数与输入位置x无关。因此，输入图上的所有权重都是共享的。通过在p(x)中编码矩形网格来实现图上的标准卷积。

1.2 骨架图的构建

通常基于骨骼点的动作识别是通过每帧中所有的关节坐标连接成一个特征向量[10]。本文将利用时间-空间图形成骨架序列的层次表示行为特征向量。构建骨架序列的时间-空间图分为两步。第一步，根据人体关节的自然连通性，构建帧内的空间图，如图1所示。第二步，在空间图的基础上将相邻帧间的同一关节连接起来，即可构成骨架序列的时空图，图2为在NTU-RGB+D数据集[13]上人体骨骼的时空图构建过程。

图1 人体关节的空间图

图2 人体关节的时空图构建过程

在具有N个关节和M帧的骨架序列上构建无向空间时间图G=(V,E)，其特征在于帧内和帧间连接。在该图中，节点集V={vti|t=1,2，…,M,i=1,2，…,N}，包括骨架序列中的所有关节点。边集E由两个子集组成：第一个子集描述了每个帧的骨架内连接，表示为ES(τ)={vtivtj|t=τ,(i,j)∈H}，其中H是自然连接的人的身体关节集合；第二个子集包含帧间边缘，其连接连续帧中的相同关节，如EF={vtiv(t+1)i}。

近年来，图卷积(GCN)得到了越来越多的关注，且已被成功应用到图像分类[14]、文献分类[15]等领域。此外，文献[16]也已将图卷积网络的应用到人体行为识别，并取得了不错的效果。

对于传统的深度学习网络应用来说，网络越深所能学到的特征就越多，当然收敛速度也就越慢，训练时间越长，然而深度达到一定程度之后就会发现层次越深学习率越低的情况。深度残差网络的设计就是为了解决这种由于网络深度加深而产生的学习率变低、准确率无法有效提升的问题，也称作网络的退化问题。

2 基于残差连接的时空图卷积神经网络的行为识别

文献[17]提出一个残差学习的框架以减轻网络的训练负担，其实验表明基于残差的网络更容易优化，并且能够通过增加相当的深度来提高准确率。近年来，深度卷积神经网络对图像识别性能的巨大提升发挥着关键作用。以GoogLeNet的Inception网络为例，其以相对较低的计算代价取得出色的表现。在2015ILSVRC挑战赛上，与传统卷积结构相结合的残差连接网络取得非常优异的成绩；它的性能跟当时最新的Inception-v3网络非常接近。文献[18]中的实验证明了残差连接可以明显加速网络的训练，同时，相比没有残差连接的网络结构，残差连接的网络在性能上具有微弱的优势。残差网络解决了增加深度带来的退化问题，能够通过单纯地增加网络深度来提高网络性能。因此，本文将采用基于残差连接的时空图卷积神经网络来进行针对骨骼序列的3D人体行为识别。

本文所设计的基于残差连接的时空图卷积神经网络，是将更深的层分解为附加的残差项，不仅克服了以往方法的表征能力弱、泛化性能差的限制，而且能够学习骨骼数据中的时空信息。利用生成的网络结构Res-STGCN，并在当前最大的人体行为NTU-RGB+D数据集[13]上进行实验，同时验证其优越性。基于残差连接的时空图卷积神经网络的行为识别的输入是图节点的联合坐标向量，经过多层的残差连接的时空图卷积运算生成更高级别的图，然后将其输入到SoftMax分类器中进行人体行为分类。

2.1 残差连接的时空图卷积网络结构

本文所采用的基于残差连接的时空图卷积网络模型是由9层时空图卷积单元构成的，具体的网络模型结构如图3所示，前三层输出为64通道，中间三层输出为128通道，最后三层为256通道。

图3 基于残差连接的时空图卷积模型结构

Res-STGCN网络结构的残差模块如图4所示。

图4 残差单元

其中：F为残差单元，l层中的每个单元进行如下计算：

(2)

式中：在第l层，xl-1表示输入，wl表示学习参数集，σ为激活函数。当σ为ReLU时，wl×σ(xl-1)=wl×max(0,xl-1)。基于残差连接的图卷积网络中的第一图卷积层对骨架图进行输入操作，并将生成的激活映射传递给后续层。

2.2 关节点的子集划分

在基于残差连接的时空图卷积网络中，设计关节点的划分规则来作为标签图是至关重要的。图中的划分结构有很多种，如单一划分、距离划分、空间结构划分等。由于人体骨架具有空间上的局部性，身体部位的运动可以大致分为向心运动和离心运动。因此，本文采用了一种将1邻域关节点划分为三个子集的方法，具体为:(1) 根节点本身；(2) 向心节点集，指与根节点相比更接近骨架重心的邻近节点；(3) 离心节点集，指与根节点相比更远离骨架重心的邻近节点。所谓的重心是骨架中所有关节点的平均坐标，在形式上如下所示：

(3)

式中：ri是训练集中所有帧上从重心到关节i的平均距离。

本网络结构中采用的是针对1领域节点进行分析得到标签图，也可以采用其他范围领域(如2领域，3领域)进行节点集划分来获得行为标签图。更高级的划分策略将可能带来更好的建模能力和识别效果。

3 实验

为了验证基于残差连接的时空图卷积网络的有效性，对该网络模型在NTU-RGB+D数据集[13]上的识别效果与目前较先进的识别方法进行了对比。

3.1 数据集及评价标准

NTU-RGB+D数据集[13]是目前人类动作识别任务中最大的人体行为数据集。这个数据集包含60个动作类中的56 000个动作片段。

本文采取了该数据集的两种评价标准：(1) 跨表演人(X-Sub)，在这标准中，训练集来自参与者的一个子集，而测试集来自其他参与者；(2) 跨视角(X-View)，该设置中的训练集来自摄像机2和摄像机3，而测试集都来自摄像机1。

3.2 实验结果

实验过程中，为了具有可比性，将Res-STGCN网络中的网络层数设置与文献[16]中的时空图卷积网络的网络层数设置相同，皆为9层。

本实验遵循NTU-RGB+D数据集中的两个评价标准，以Top-1分类准确率和Top-5分类准确率来评价跨表演人(X-Sub)和跨视角(X-View)的识别性能，并与现在较先进的方法进行对比。实验结果如表1和表2所示。

表1 不同算法在X-Sub的实验结果

表2 不同算法在X-View的实验结果

从表1和表2可以看出，该网络模型在X-Sub和X-View的Top-1准确率都高于现有的较先进的模型。基于残差连接的时空图卷积模型在X-Sub上的Top-1准确率和Top-5准确率分别为83.00%和97.48%；在X-View上的Top-1准确率和Top-5准确率分别为89.23%和99.07%。

4 结语

本文提出的一种用于3D骨架的动作识别的基于残差连接的时空图卷积网络模型，充分利用了从Kinect三维骨架信息和关节的自然连接关系、且无需人工信息标注，其不仅可以捕获动态骨架序列中的运动信息，而且可以在提高准确率的同时能够避免梯度弥散现象的发生。实验结果显示，该网络模型的识别效果优于现有的最先进的基于骨架的模型，也为基于骨架模态与其他模态相结合来进行行为识别提供了新思路。针对3D人体行为识别的研究工作有很多，本文只是针对其中的一部分内容进行研究，将来还有更多的细节需要研究，如不同骨骼节点集的划分规则对行为识别效果的影响、空间图的边缘的权重对骨骼节点特征表示的作用等。