基于深度学习的人体姿态检测算法综述

2021-11-08张增会姚彦鑫

电脑知识与技术 2021年27期

张增会姚彦鑫

摘要：近年来随着深度学习和人工智能的蓬勃发展，人体姿态检测逐渐成为计算机视觉领域研究的热点问题，许许多多的人体姿态检测方法和研究理论也在被不断地提出。人体姿态检测可以理解为人体关键点识别以及连接问题，本文通过对姿态检测的算法的描述，主要介绍单人与多人这两种主要人体姿态检测的主流算法，同时重点对于多人场景下的人体姿态检测算法介绍。通过对不同算法的对比得出各个算法的优缺点，并对人体姿态检测的应用进行阐述。本文的结尾结合人体姿态检测领域的发展现状，对此领域的未来发展趋势进行展望。

关键词：深度学习;人体姿态检测;人体关键点识别

中图分类号：TP311 文献标识码：A

文章编号：1009-3044（2021）27-0092-02

1 概述

随着计算机技术的不断进步以及人工智能时代的来临，人体姿态识别技术已经成了计算机视觉领域不可或缺的一部分，也越来越引起各个国家和科研机构的重视。人体姿态检测作为计算机视觉当下的研究热点，在生活中也具有十分广泛的应用，例如在视频监控烦那个面对公共领域的安全问题进行保障，以及在人机交互方面增强人与机器之间的流畅度。

一般来说人体姿态检测从算法层面上讲就是先使用卷积神经网络将图片或者视频中的人体的关键节点检测出来，然后对这些关键点进行连接的一个过程。通过对人体不同的关键点之间的连接得到人体完整的人体节点信息。在将深度学习算法应用于人体姿态检测之前，不少算法采用基于图形结构[1]算法来处理人体姿态检测问题。这些方法主要是基于局部检测器，局部检测器使用的原理即通过人体关键点之间的内在联系来建立模型，虽然在识别精确度方面有所提高，但是往往容易受到拍摄角度以及光照等不确定因素的影响。除此之外还容易受到人工标注等因素的制约，如边缘特征[2]，方向梯度直方图[3]，此种标注需要耗费大量的人力和物力。

人体姿态估计通常可以分为二维人体姿态和三维人体姿态两种，由于在现实生活中需要处理的图像大多为二维图像，所以一般来说我们理解的人体姿态检测为二维人体姿态检测。本文亦是针对二维条件下的人体姿态检测算法进行综述，根据不同的算法的不同应用场景，有队人体姿态检测分为单人和多人两种情况分别介绍。

2单人人体姿态检测算法

2.1堆叠沙漏网络算法

堆叠沙漏网络[4]（Stacked Hourglass Network）作为当下人体姿态检测算法以定位精度著称，该网络以残差网络为基本模块，该模块可以在提取图像高层特征的同时保留低层的信息，利用残差网络的购车还能够给可以更加有效的提取不同尺度的特征信息，除此之外，使用多个沙漏网络进行堆叠对于捕捉不同特征点间的空间关系也具有十分重要的作用，通过对多个沙漏模块的堆叠，通过卷积层和下采样层之后，与随后的上采样层获取的特征进行融合，最终获得图像的多尺度的特征图，由此可以多层次的提取图像中多尺度特征，与残差网络中可能出现的特征丢失相互补。

2.2卷积姿态机

卷积姿态机（convolutional pose machines）[5]主要继承了姿态机（Pose Mchines）的优点，主要突出了学习和推理之间的紧密结合，解决了多个关键点之间的长距离依赖以及图像的隐式学习问题。卷积姿态机主要还发挥了姿态机和卷积网络二者相互结合的优点，既可以通过学习图像的特征，又可以提高空间上下文的表达能力，同时又可以进行全局联合训练，对于大规模处理数据集具有很好的效果。卷积姿态机的主要算法思想即是通过卷积神经网络对空间信息的表达进行有效的学习，又由于身体部位不同的关键点可以适配不同的感受野，因此可以对不同的部位进行不同程度的检测。首先该方法对原始图像中的单个个体目标的关键点进行预测，此种预测方法主要可以使用直接回归关键点坐标的方法，以及通过heatmap来确定关键点的回归。

3多人人体姿态检测算法

多人姿态检测与单人姿态检测算法不同，多人姿态检测算法要求在将图片中人体关键点检测出来的同时还要将每个人的关键点进行准确的劃分。一般来说可以分为自上而下和自下而上两种方法。其中自上而下的方法又包括人体检测和单个人体关键点检测两个部分，即先通过目标检测算法将图像中存在的人体检测出来，然后在检测出人体的基础上，对每个人体的关键点进行检测。而自下而上的方法则是包含关键点检测以及对检测出的关键点进行聚类组合两部分，首先将图像中所有人的关键点检测出来，而后对检测出的关键点进行聚类分析，进一步组合成不同的个体。以下对两种方法进行不同介绍。

3.1自上而下方法

在当下的众多自上而下人体姿态检测算法中，比较有代表性的主要包括G-RMI算法[6]，AlphaPose[7]算法以及CPN（ cascaded pyramid network）[8]算法等。G-RMI算法主要解决的是各种复杂场景下的人与人在有遮挡的情况下对人体姿态进行识别的问题，主要利用的是FastRCNN[9]检测图片中人体的目标框的相应位置和大小，然后对每个位置框中的人体关键点进行检测。对于每种关键点的类型的预测，使用ResNet预测出关键点的heatmap以及相关的偏移量，并且结合相应的输出引入了新的聚合方法对关键点进行精准的预测，为了避免对相应的关键点的重复检测，该算法采用了基于OKS指标的新型非极大值抑制（NMS）机制，而不是采用比较粗糙的基于边界框的NMS。

CPN网络主体主要由两部分组成，分别是GlobalNet和RefineNet。GlobalNet主要对图像中的关键点进行粗提取，RefineNet主要是基于GlobalNet生成的特征金字塔，主要用于对不同的层之间的信息进行整合，更好地对关键点进行特征定位。

3.2自下而上方法