2D人体姿态估计综述

2020-11-06岳程宇闫胜业

现代信息科技 2020年12期

岳程宇闫胜业

摘要：在神经网络深度学习流行的今天，2D人体姿态估计作为其他计算机视觉任务的研究基础，它的检测精度和速度对后续其他检测等任务有着重大的影响，并且引起了学者们的广泛关注。文章针对该方向的研究内容进行了综述，阐述了研究意义和应用，对数据库和评价指标进行介绍，接着结合代表作分析研究了姿态估计的传统方法、深度学习方法，最后总结讨论现阶段研究的问题和趋势。

关键词：计算机视觉;姿态估计;人体关键点

中图分类号：TP391.41 文献标识码：A 文章编号：2096-4706（2020）12-0090-03

Abstract：Under the popularity of neural network and deep learning，2D pose estimation，the precision and speed of it has a great influence on the next task，and it has attracted wide attention of scholars. For this research details，this paper expounds the meanings and applications，introduces the databases and the evaluation indexes，then analyses the conventional methods and deep learning methods. Finally，it summarizes and discusses the current research problems and trend.

Keywords：computer vision;pose estimation;key points of human body

0 引言

2D人体姿态估计是计算机视觉研究中的一个重要分支，其研究结合了检测、识别、跟踪的相关方法。其主要目的是对人体骨骼的关键点进行准确快速定位识别，即给出一张RGB的图像，定位图中人体的关键点位置，并确定其隶属的人体。

笔者在研究新型人体姿态估计网络时，发现更进一步的研究需要对2D人体姿态估计的数据库及其评价指标、传统方法和主流方法进行综合了解，并且要把握姿态估计现在的困难以及未来的发展。笔者通过查阅分析近些年来人体姿态估计的相关方法论文，从其研究的意义和应用、数据库及其评价指标、2D人体姿态估计的传统方法和深度学习方法、现阶段的问题与发展趋势这4个角度分析进行了总结。

1 研究意义与应用

2D人体姿态估计的研究是一些其他计算机视觉问题研究的基础。它可以作为3D人体姿态估计研究的铺垫，对于视频动作识别来说可以作为前处理的来源，在重识别、视频追踪问题上，2D姿态估计都可以作为静态图像，并为动态处理提供有力的支持。

在现实应用方面，人体姿态估计可以应用于电影VR和AR技术、人体仿真模型的构建、手机短视频软件的人体动作特效等;在安全领域中可以作为驾驶辅助对行人进行检测和其未来动作进行识别、预测;在特殊重大场合下对密集人群危险动作的视频监控等

2 数据库及评价标准

2D姿态估计的数据库主要有MS COCO、MPII、FLIC。目前主流研究姿态估计的数据库是COCO和MPII这两个数据库。

COCO数据集[1]是微软于2014年为用于进行图像分割检测，图片上下文关系研究而出资标注的。它是继ImageNet竞赛后计算机视觉领域最受关注和权威的比赛之一。COCO数据集包含了有20万张图片和25万个带有17个人体骨骼关键点标注实例。

COCO数据集的评价指标为OKS，其中KS是一个关键点真值与预测值的相似度，如式（1），P表示的真值中的每个人的ID，pi表示的是某人关键点的ID，Vpi=0表示这个关键点没有标注，Vpi=1表示标注了但是图像中不可见，Vpi=2表示标注了且图像中可见，表示的是这个人所占面积的大小的平方根，σi表示第i个骨骼的归一化因子，dpi表示真值关键点与预测关键点之间的欧式距离，δ将关键点选出的函数。

MPII数据集是2014年发布的关于人体姿态估计的评估基准，它包括大约2.5万张图片，其中有超过4万人的身体关键点有注释，每个人体注释了16个特征关键点。它的评价指标为PCK@0.5，是检测正确关键点的百分比，若预测关节与真实关节之间的距离在特定阈值内，则检测到的关节被认为是正确的，其阈值大小为头骨长度的50%。

3 2D人体姿态估计研究方法

3.1 传统方法

人体姿态估计的传统研究的主流方式有两种。第一类是直接通过一个全局特征，把人体姿态估计问题当成分类问题或回归问题直接求解。

Randomized Trees for Human Pose Detection[2]中作者提出将人体姿态估计问题当作分类任务来做，他們的姿态估计算法中使用了层次树和随机森林的方法，随机树和随机森林可以快速且高效地处理多分类的问题且具有一定的鲁棒性。在特征提取方法中，作者使用了当时比较成功的HOG描述子进行特征提取，如图1所示。

第二类是基于一个图形结构模型，其思想是，将对象表示成一堆“部件”的集合，而部件的组合是可以发生形变的。一个部件表示目标对象某部分图形的模板。当部件通过像素位置和方向进行参数化后，其得到的结构可以对与姿态估计非常相关的关键点进行建模。

在Pictorial Structures Revisited：People Detection and Articulated Pose Estimation[5]中，作者提出了功能强大且简单的身体模型，可以精确有效地推断身体部件的树模型结构，同时研究了强大的关键点检测器，适用于各种不同场景下对关键点的检测。而且基于形状上下文描述计算，使用了AdaBoost来训练分类器。

3.2 深度学习方法

在传统方法中，特征的提取和图结构模型在姿态估计中都扮演了非常重要的角色。随着神经网络的流行、深度学习的运用，它将特征提取、分类和空间位置建模都直接在一个“黑盒”中进行端到端的训练，这不仅方便研究人员设计与优化，而且计算处理的数据越多，检测的效果也越好。

2D人体姿态估计的深度学习方法大致可分为自上而下（Top-Down）和自底向上（Bottom-Up）这两种。

3.2.1 Top-Down

这是一种自上而下的方法它是先通过目标检测算法检测人体的边界框，再对图片进行裁剪，将裁剪图片进行单人姿态估计。

DeepPose：Human Pose Estimation via Deep Neural Networks[3]是第一篇将深度学习应用在人体姿态估计问题的文献。它把姿态估计设计成一个关键点回归问题，并用神经网络来实现。首先输入图像，用一个7层的卷积神经网络和使用L2损失对模型进行回归训练。它克服了之前只使用局部特征的缺陷，并使用了全局的特征网络，如图2所示。

HRNet是2019年提出来的新的单人姿态估计研究的方法。HRNet是通过串联多个由高分辨到低分辨的子网来建立的，每个子网构成一个阶段卷积序列且通过一个下采样层将分辨率减半。网络向右侧方向，深度不断加深;网络向下方向，特征图分辨率逐渐降低，高分辨率和低分辨率特征图在中间有互相融合的过程，这样提升了高分辨下的表示。

3.2.2 Bottom-Up

这是一种自下而上的方法，它是先检测图片中所有的关键点，然后再对关键点通过匹配算法进行人体匹配。

在DeepCut中，作者通过CNN提取关键点的候选区域，每一个候选区域对应一个关键点，所有关键点组成一个密集连接图，关键点之间的关联性作为图节点的权重，将其作为一个优化问题。我们可以通过归类得到有多少个人，并且通过图论节点的聚类，进行非极大值抑制，将优化问题表示为整数线性规划求解。

在OpenPose[4]中作者将输入图片输入到一个特征提取网络，提取特征图后分别使用神经网络提取关键点置信图和亲和场，结构如图3所示。置信图和亲和向量场已知后，将关键点作为图的顶点，将关键点之间的相关性PAF看为图的边权，则将多人检测问题转化为二分图匹配问题，并用匈牙利算法求得最优匹配。关键点连线聚类问题可看成是各肢体之间独立优化配对，解决了肢体涉及的两类关键点的连线聚类后，最后依据关键点相同衔接组成整个姿态。

4 现阶段人体姿态估计研究问题趋势

在拥挤场景下人体关键点检测是目前十分具有挑战的任务，我们需要研究更多在不同场景、不同着装、不同姿态、不同尺度下人的标注图片。同时，这对姿态估计的检测速度和精度都提出了非常高的要求。

在检测任务中，网络大部分都是需要巨大参数量和计算量的大網络，在计算机上容易实现，但是转入到嵌入式，移动端的网络研究还是远远不够的，现在学者们主要的关注点是在提高关键点的检测精度，而在如何提高检测效率这个问题还需要进一步研究。

目前2D人体关键点的研究，有从2D人体姿态估计+匹配的方法推断3D结构，研究3D人体姿态估计问题，并有向更高维发展的趋势。

单一的图像理解已经稳步推进，但视频理解的进展较为缓慢，在Mask R-CNN的预测基础上，通过整合相邻视频帧的时间信息对CNN进行扩展预测视频信息，将研究的重点从图片向视频的方向发展。

在检测问题中要想提升性能，往往需要更多的资源和成本，所以要在保证精度不变的情况下提升网络效率，构建一个轻量级的网络。我们可以采用知识蒸馏的原理，实现姿态估计快速和低成本部署。

5 结论

2D人体姿态估计从传统方法进入了深度学习的时代，未来新的网络结构也不会是解决估计问题的核心，应通过数据处理、增强，以及更多的机器学习和数学方面的知识，来共同研究这个问题。从工程方面产品落地角度思考，要研究更轻量、方便的模型进行应用。总之，2D人体姿态估计是当下一个具有很高热度的计算机视觉研究领域，拥有非常广阔的研究前景。

参考文献：

[1] LIN T Y，MAIRE M，BELONGIE S，et al. Microsoft COCO：Common Objects in Context [C]// Conference proceedings ECCV 2014，Zurich，Switzerland：Springer，2014.

[2] ROGEZ G，RIHAN J，RAMALINGAM S，et al. Randomized trees for human pose detection [C]//2008 IEEE Conference on Computer Vision and Pattern Recognition，Anchorage，AK，USA：IEEE，2018.

[3] TOSHEV A，SZEGEDY C. DeepPose：Human Pose Estimation via Deep Neural Networks [J/OL]. arXiv：1312.4659 [cs.CV].（2014-08-20）.https：//arxiv.org/abs/1312.4659.

[4] CAO Z，SIMON T，WEI S E，et al. Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields [J/OL]. arXiv：1611.08050 [cs.CV].（2017-04-14）. https：//arxiv.org/abs/1611.08050.

作者简介：岳程宇（1996.01—），男，汉族，江苏南京人，硕士在读，研究方向：模式识别;闫胜业（1978.06—），男，汉族，河南新乡人，教授，博士研究生，工学博士，研究方向：视频与图像处理。