基于骨架动作识别的分块广义图卷积网络

2023-09-13丁文文邓淦森

淮北师范大学学报(自然科学版) 2023年3期

杨超，丁文文，邓淦森

（淮北师范大学数学科学学院，安徽淮北 235000）

0 引言

动作识别是计算机视觉领域主要研究方向之一，在视频监控，人机互交，机器人视觉，自动驾驶等领域有着广泛的应用，受到学术界和工业界的广泛关注［1-3］。由于近年流行的深度传感器，骨骼传递身体主要关节的三维位置信息，对视点，身体尺度和运动速度的变化具有鲁棒性［4-7］。因此，基于骨骼的方法已经成为人类行动识别的普遍方法［8-10］。

图卷积神经网络（Graph Convolutional NETWORKS，GCN）［11］是处理定义在不规则图上的数据，并用于计算机视觉、自然语言处理、科学等方面的应用。Yan等［12］提出将图神经网络扩展到时空图的时空图卷积网络模型（ST-GCN），该模型设计2种类型的边，即符合关节自然连通性的空间边和在连续的时间步长中连接相同关节的时间边。在此基础上构建多层时空图卷积，使信息能够沿着空间维度和时间维度进行整合。Tang 等［13］提出一种深度渐进强化学习方法来选择输入序列信息最丰富的帧，并利用图卷积神经网络来学习潜在边关联的关节点之间依赖关系。Zhang等［14］提出一种新的结构-特征融合自适应GCN（SFAGCN）方法，通过解耦时空相关性，有效地融合骨架图拓扑结构和关节特征。通过融合策略，很好地保持时空数据相关性，并保证数据完整性。Liu 等［15］提出一种基于双流网络的RNXt-GCN 动作识别方法。首先将人体骨骼转换为时空图和骨骼运动图像，分别输入ST-GCN和ResNeXt，进行时空卷积。然后将卷积的特征融合，对振幅的时间信息进行建模，解决ST-GCN中时间信息的不足。然而，基于GCN方法仅表示单个卷积层内空间和时间边缘的局部相关性。捕捉人体不相交关节点之间的关系需要堆叠多个这样的卷积层，使得使用GCN非常低效。因此，本文提出一种端到端的分块广义图卷积网络，通过谱图理论捕获时空变化，利用时空图来表示人体动作序列，降低模型大小，实现对人体动作序列的分类。

1 基于图的人体骨架数据构建与图卷积方法

1.1 基于图的人体骨架数据结构

1.2 图卷积网络

GCN 是一种基于谱的图卷积。借助图谱理论，使用拉普拉斯矩阵的特征值和特征向量提取网络结构空间特征，来研究图的性质的神经网络。在此部分，提供一个特定的基于图的神经网络模型f(X,A)，并且考虑一个具有以下分层传播规则的多层图卷积网络：

2 基于分块广义图的模型构建

2.1 PG-GCN体系结构

如图1所示，PG-GCN 模型主要由2 个功能模块组成，即一个空间分块图卷积网络（Spatial Partition Graph convolution Networks，P-GCN），一个广义图卷积网络（Generalized Graph Convolution NETWORKS，G-GCN）。此外，模型还包含一个输出模块。首先，将输入的邻接矩阵A与基于图结构的数据作为输入数据，传输到空间分块图卷积模块。然后，将提取的空间特征进行合并与拼接作为新的特征。作为本模型的核心部分，将新的特征输入广义图卷积模块同时提取数据时间与空间特征。最后将提取的时空特征放入一个全连接层组成的输出模块，得到模型的分类结果。

图1 PG-GCN体系结构

2.2 人体骨架分块图的构造

对于不同的数据，人体骨架关节点个数不尽相同。为此采用包含20个主要关节的人体骨架这种标准，来描绘人体骨架的分块思想。如图2 所示，对于人体骨架的分块，首先对人体骨架的关节点进行标号。然后，每一帧人体骨架按照左腿、左手、右手、右腿、胸部分成5 块，如图3所示，每一块包含4 个关节。其中，对人体骨架空间分块的关节点标号构成的集合，定义一个新的集合：P={{4,9,14,19},{2,7,12,17},{3,8,13,18},{5,10,15,20},{1,6,11,16}}，定义数集O={1,…,N1}，由于每个分块的节点数目相同，构建分块的节点标号集合到数集O的一个映射Ψ:P↦O，即∀p∈P，有Ψ(p)=O，于是，得到分块的通用表示，j=1,2,…,5，其中j表示人体骨骼分块的序号。

图2 20个关节的人体骨架

图3 人体骨架分块方式

图4 分块图的映射

对于每个分块骨架，按照其原有的连接方式，并且根据是否有物理连接构造含强连接和弱连接的邻接矩阵图[G1,G2,…,G5] 。其中，j=1,2,…,5。

2.3 分块图的映射与关节点的特征拼接

2.4 广义时间图的构造与计算

本文中，广义图的构造由2.3中的Ft按照公式（4）进行三帧合并，如图5所示：

图5 三帧合并

3 实验与分析

3.1 数据集和评估指标

NTU RGB+D 60数据集：该数据集是由3台微软Kinectv2摄像机从40个人类受试者中捕获的。它由56 880个动作序列和60个类组成。动作1～49由1名演员执行的，动作50～60由其他2名演员执行。每个身体骨骼被记录下来，有25个关节。基准评估包括跨学科（CS）和跨视图（CV）。在CS评价中，使用来自20名受试者的40 320个样本进行训练，其他的样本进行测试。在CV评估中，使用相机2号和相机3号捕获的样本进行训练，而使用相机1号捕获的样本进行测试。

3.2 模型参数与测试环境

在NTU RGB+D 60数据集的实验中，PG-GCN 模型经过对骨架进行空间分块、融合、对时间的广义特征图的构造及时间序列数据的处理。设计的网络经过100次的训练，每次训练取60个骨架动作序列为一个单位。每个动作序列最多包含300帧。经过2次图卷积神经网络的处理，特征数据最终被映射到一个低维空间上。然后对提取的特征数据进行向量化操作，并进行全连接操作。为防止过拟合，在全连接网络中取神经元的丢失率为0.1，网络优化器的学习衰减率为0.000 01。最终经过softmax操作，对数据集所包含的动作种类进行分类。

3.3 在NTU RGB+D 60数据集上的实验结果

如表1所示，PG-GCN模型在CS和CV中的准确率分别为88.9%、95.2%。对于人体骨骼动作识别，本文模型与较为先进的方法比较，在CS 与CV 的标准上分别提升4.1%、2.8%，证明本文所提出方法的有效性。

表1 本文方法在NTU RGB+D 60数据集与其他较为先进方法的比较

可以看出，所提出的区域分块，以及非物理的内在连接和时间连接对于基于骨架的动作识别做出贡献，其中分块与时间连接更为重要。

4 结论

本文提出一种用于骨架动作识别的空间分块广义图卷积网络，旨在通过分块图与广义时间图的构造，捕获身体关节之间的相关性以及时空依赖性。所提出的分块图和广义时间图不仅捕获空间划分区域关节点的内在连接，而且还在连续帧上建模强和弱的物理连接，以表示潜在的相关性，以便更好地识别。今后将在空间划分考虑建立自动连接的边值关系，使模型更加高效与简便。