交通场景行人穿越检测方法进展研究

2021-04-17房建武薛建儒

无人系统技术 2021年1期

房建武，贾皓，朱晨，王贺，薛建儒

（1.长安大学交通视觉安全实验室，西安 710064；2.西安交通大学视觉认知计算与智能车实验室，西安 710049）

1 引言

据统计，由于“车辆未按规定避让行人”这一因素造成的交通事故伤亡占据中国交通事故发生的最大比重[1]，因此，行人穿越检测是智能驾驶车辆面临的重要感知任务之一。同时，由于长期以来人类在驾驶中积攒的大量经验，类人驾驶是目前智能驾驶技术研究的主要途径之一。所以，面对行人穿越检测这一问题，如果智能车辆系统能够像人一样理解行人的穿越意图、感知行人穿越的运动状态、预测其运动趋向，则可以有效地减少交通事故的发生，从而提高驾驶的安全性，促进智能交通领域发展。

近些年伴随深度神经网络理论研究的深入和计算力的不断提升，深度学习得到了前所未有的关注与发展，在计算机视觉领域催生并推动了许多应用场景，在一些诸如物体检测、图像分类等任务中都取得了超过人类检测的水平。因此，在需要感知系统的多种无人系统平台中，例如机器人、智能驾车、无人机等，被广泛使用[2-5]。在驾驶环境中，行人是最主要的交通要素，所以，许多学者及研究机构着力研究如何检测行人穿越[6-10]。发展到现在，由于行人目标的高机动性、主观意图不明确性、场景交互的多样性，这个问题现在仍然面临许多挑战[11]。本文主要综述当前驾驶环境行人穿越检测的发展现状及主要技术线路，从试图穿越、正在穿越、穿越预测三个阶段分别以穿越意图理解角度、穿越轨迹跟踪角度及穿越行为预测角度进行分析。最后对行人穿越检测问题可能的新思路及挑战因素进行探讨，希望为无人驾驶领域的发展提供一些新思路。

2 基于行人穿越意图的方法：试图穿越

2.1 基于人体姿态意图的行人穿越检测研究

近年来，一些关于穿越行人检测的方法利用行人的轮廓、姿态[12-13]等信息来进行穿越意图检测，这些方法的目的是在人体姿态发生细微变化时进行穿越与否的判断。比如，当某个行人要发生穿越行为时，首先会左右观望交通状况，此时尚未发生穿越动作，只是头部进行了细微的转向。一般而言，如果路侧行人与车辆存在视觉注意的交互，则其穿越意图比未发生眼神交互的行人更加明显。因此路侧的行人头部朝向和眼神的交互是行人穿越可能发生的重要线索。此外，当一个行人站在道路边缘时，其比站在距离路边较远的行人更有意发生穿越。在行人的穿越意图理解中，头部和躯干的特征是最主要的特征。

在计算机视觉领域内，行人的特征通常是从视觉影像中获取能够充分表征行人区分性的高纬度表征。基于此，采用若干机器学习算法进行识别与分类，比如支持向量机[14]，人工神经网络[15]概率决策树[16]、k-NN[17]和卷积神经网络[18]等。在这些工作中有一类方法结合头部和腿部的特征来预测行人是否具有穿越意图，比如文献[19]中的工作，首先利用头部图像进行头部朝向的估计，而腿部（躯干部分）用于估计行人的运动。图1是这类方法的一种典型示例，描述了这种特征提取的体系结构。

图1 基于人体特征识别穿越意图的框架Fig.1 Framework of intention estimation of pedestrian crossing

2.2 基于高斯动力学模型的穿越意图研究

高斯动力学模型在计算机视觉、模式分析及多媒体处理领域已经得到了大量的应用，并在很多具体应用中取得了突出进展。究其根本，高斯动力学模型的研究重点集中于如何将时空高维信息转换到低维空间来求解。在行人穿越意图估计中，高斯过程动力学模型将行人身体的关键点或肢体关节提取的三维时空信息约简到一个由位置和位移表征的低维高斯空间。例如Minguez 等人[20]提出的平衡化的高斯动力学模型（Balanced Gaussian Process Dynamical Models，B-GPDM）可以提前1 秒预测未来行人的意图，该方法将行人骨架或者关节点提取的三维位置和低维度隐空间上分布的位移关系融合进模型中，使其具有推断未来的可能位置和预测位置的特性。在此工作中，专门提出了4 种基础模型：行走（walking）、停止（stopping）、开始（beginning）、站立（standing）。

这种基于高斯运动学过程模型进行意图检测的核心过程是匹配一个训练好的行人识别模型来估计每个目标的意图，此类方法的示意如图2 所示，将行人执行不同活动的运动序列数据集进行训练。首先将几种类型的行人穿越序列分成若干子集，然后对视频内包含某一个活动的短时序列建模一个高斯过程动力学模型。对于持续到来的新视频输入不断选择最佳行为模式匹配的模型，这种匹配的方法精度取决于模型的训练准确程度。最后所选模型用于预测行人意图是否具有四种意图属性之中的一种从而完成意图检测，为自动驾驶车辆提供信息。本质上来讲，此工作是一种行人运动意图的分类方法。

图2 行人穿越行为训练及匹配示意图[20]Fig.2 Schematic of model training and evaluation process for pedestrian crossing detection [20]

2.3 基于数据驱动的穿越意图研究

随着大规模自动驾驶数据的不断涌现，深度学习逐渐在行人穿越任务中发挥作用。基于此，产生了一类数据驱动的行人穿越意图估计方法。当然，根据自动驾驶车辆配置传感器数据的模态差异，将有若干工作将不同传感数据引入穿越意图估计，比如，采用三维激光点云数据。

在数据驱动下，多种深度学习网络结构被提出，其中，文献[21]将深度神经网络的时间序列分类体系结构进行比较，专门创建了预测路旁行人的穿越意图的多尺度密集记忆网络（multi-scale dense neural networks）和长短时记忆网络（Long-Short-Term-Memory，LSTM），并验证了其效果。多尺度密集记忆网络包含两个全联接层、两个dropout 层以及一个sigmoid 激活层，用于直接将卷积神经网络提取的行人特征进行分类。而LSTM 结构进一步在时序上进行关联，捕捉行人运动特征。基于此，可以推断出行人的运动意图，比如行人未来姿势和移动方向。

由于图像坐标系是一种透视变换，在行人穿越意图估计上存在偏差，因此文献[21]采用三维点云数据进行意图估计，其将三维点云数据映射成一个二维图像，图像分辨率为三维点云采样点的范围，图像数值为三维点云的远近。这些图像可以收集行人姿态信息。对于每个独立的行人，记录下点云集合组成的点阵编号，以及点阵本身的旋转角度。这样，卷积神经网络卓越的图像处理分类能力就可以得到利用。

2.4 小结

本节显示出文中提到的几种典型方法的特征。这些方法是在行人还未发生穿越行为时，或者说行人将要进行穿越时意图的检测，从而避免可能发生的事故。

3 基于轨迹跟踪的方法：正在穿越

3.1 行人穿越检测中跟踪方法的特性

在驾驶环境中，由于交通参与者种类多样，行人的轨迹跟踪问题需要克服动态场景变化的干扰。同时，驾驶环境行人目标数目众多，一般采用多目标跟踪的方法进行研究。针对行人穿越而言，其主要呈现3 个大的挑战因素。

频繁遮挡：行人穿越过程通常处于复杂的交通环境之中，易发生行人被其他车辆或者行人目标遮挡的情况，且被遮挡的对象经常处于持续遮挡的状态。

强尺度变化：由于车辆的运动特性，穿越的行人目标存在明显的尺度变化问题。比如远处的行人起初尺度较小，但随着自车的不断接近，行人尺度会极速增大。

高机动性：行人穿越过程中，由于其主观判断的变化，其运动方向、运动速度存在频繁的变化，因此行人穿越过程具有高度的机动性，所以要将行人在运动中的机动性考虑进去。

轨迹跟踪中为了克服这些问题，本文首先介绍目前主要的两阶段训练的跟踪方法和端到端的跟踪方法。其次，对最新的基于图卷积的轨迹跟踪方法进行描述。

3.2 基于两阶段训练和端到端训练的跟踪方法研究

3.2.1 两阶段训练的跟踪方法研究

行人跟踪的分步训练方法一般来说需要预先收集整个序列后进行所有视频帧中行人目标的检测。考虑到相邻的视频帧之间的目标时空连接关系，一般会用到图模型来求解多目标跟踪问题。这些图结构可以通过最小损失流[22-23]、最短路径[24]、多次剪枝[25]或多区域[26]的子图分解来求解。可以向图结构中的点或者权边施加概率约束来描述运动和遮挡问题[27]。现如今，随着深度学习网络的发展，行人特征描述已经全面采用深度卷积特征。

两阶段训练过程中，在基于卷积神经网络进行行人目标特征提取的基础上[28-29]，关键问题是如何学习行人目标两两之间的相似度和短时轨迹之间的相似度。为了获得更精确的相似度度量，在文献[30]中考虑了额外的时间顺序信息。这些连续的特征在轨迹分裂重联结模块（Generation Cleaving Re-connection Association，GCRA）[31]就对较长时间内的物体特征打乱时间顺序后进行了多次重复利用，并获得了不错的效果。此外，联合多图切割方法（Joint Multi-cut，JointMC）[32]提取行人目标的深度光流特征提升图结构边切割优化性能。DeepNetWork[33]采用端到端学习的方式对网络流进行优化从而改善跟踪结果，从而更好地实现行人穿越跟踪。

在此类方法中，我们研究组之前也设计了基于RGB 图像数据和三维点云融合的多目标跟踪方法[34]。通过预先检测行人目标后，将行人的视觉特征和三维点云特征进行融合，并使用Kuhn- Munkras 算法计算相邻视频帧之间的目标关联。

3.2.2 端到端的的跟踪方法研究

与两阶段训练方式不同，端到端训练框架将行人目标检测和轨迹跟踪集成为一个端到端的网络结构。其主要难点在于如何同时学习目标检测器及轨迹关联模型，并进行新数据进入后的时序更新。

一些深度学习模型使得端到端的跟踪网络训练效率不断提升。比如文献[35]从行人再识别任务中学习外观特征，与检测相关联。而另一类方法[36-37]则通过使用长短时记忆网络进行自回归和匹配分类来预测运动与外观特征，比如基于时空注意机制的多目标跟踪（Spatial-Temporal Attention Mechanism MOT，STAM-MOT）[38]应用空间和时间注意力映射来处理跟踪中的局部遮挡问题，并设计端到端的递归神经网络（RNN、LSTM）来学习轨迹与检测、语句更新、初始化和终止轨迹之间的关联。为了寻找目标的最优位置，文献[39]采用了用于单个目标跟踪的密集搜索策略。此外，基于多假设跟踪（Multiple Hypothesis Tracking，MHT）框架的两种与深度学习相结合的方法是MHT-DAM 和MHT-bLSTM[40]，其中采用了CNN 和双线性LSTM 网络学习外观特征。

3.3 基于图卷积（GNN）的跟踪方法研究

由于图卷积网络（Graph Neural Network，GNN）在构建目标间关系时具有非常良好的建模特性，因此近年来GNN 也被广泛应用于多目标跟踪领域，本小节将介绍较为有效的基于GNN的跟踪算法。

最早将GNN 用于行人跟踪的是在Jiang 等人[41]的工作中，可以看出这种方法通过一个孪生网络，得到观测的目标和当前的目标轨迹的表征相似度，然后将目标的历史轨迹位置作为输入，输入一个LSTM 网络得到相应的位置，计算这个点与观测到的目标的运动相似度，由两个相似度构成相似度矩阵。轨迹与观测目标的相似度之间构成了关系图，以目标和观测信息作为节点，相似度作为边权，表观特征和位置信息拼接作为节点属性特征。

再比如另外一类基于GNN 的多目标跟踪方法，深度关联网络（Deep Association Network）[42]先将行人表观特征和实际运动特征进行提取，并构建了两种特征的网络联系图，通过GNN 后得到关联矩阵，其中目标重合度信息被用于相似度矩阵计算中。另一种方法，即GNMOT（Graph Networks Multiple Object Tracking）[43]将GNN 网络用于表征行人整体和躯干的运动，二者融合在一起得到一种相似度矩阵。

基于GNN 的多目标跟踪方法关键问题是怎样构建一个好的图关联结构。为此，文献[44]设计了一种基于信息传递网络（Message Passing Networks，MPN）的跟踪器。其中，MPN 的图关联结构的构建方法是比较新颖的，图的节点是由所有的视频帧中的全部目标组成的，直接将观测的信息作为一个总的节点。节点的属性特征是由训练得到的行人外观表征特征与人体姿态几何特征组成的，并且特征由欧氏距离度量，然后通过创建的MLP（多层感知机）网络得到最终的特征表达。图结构中各边表示跨越不同帧的不同行人目标之间的关系，最终也以此构建了一个端到端的网络结构。

此外，在一些利用三维激光点云进行多目标跟踪的工作上，比如在GNN3DMOT[45]，运动特征是通过LSTM 网络得到的，表观特征是通过卷积神经网络得到的。这个方法的改进版本GNNTrk Forecast[46-47]中将多目标跟踪与轨迹预测结合，取得了更好的跟踪效果，其示意图如图3 所示。

图3 GNN 用于跟踪示意图[46]Fig.3 Pipeline of multi-object tracking by GNN [46]

3.4 小结

行人跟踪的方法着重于行人发生穿越的过程中，当行人发生了穿越行为，通过跟踪的方法发现并检测出来穿越行人，为智能车提供信息。

4 基于轨迹预测的方法研究：穿越预测

在基于穿越跟踪的基础上穿越过程中的轨迹预测（穿越预测）是计算机视觉领域研究的热点问题之一，在汽车的自动驾驶、机器人自动导航、城市街道规划等领域具有广泛的应用场景。轨迹预测的影响因素主要是目标历史行为、不同目标之间的互动、场景背景的约束，对人的行为进行预测还涉及人类行为的随机性。所以挑战性主要表现在不确定性、交互性、机动性、多模态特性4 个方面。预测结果多模态（multi-modal）特性是指对于相同的历史轨迹，不同目标可能有不同的未来轨迹。例如在十字路口，A 行人可能左转，B 行人可能直行。如何对不同意图进行建模，使预测方法能够生成较为完善的预测结果是轨迹预测任务较为关注的一点。另外，目标间交互关系的建模也起到举足轻重的作用，在日常驾驶环境下，被预测车辆或行人的行为不仅与自身的历史轨迹有关，还会受到周围其他目标的影响。最终的目标是预测结果要可靠精确，因为车辆和行人在日常环境中的行为会受到各种交通规则的约束，怎样利用好这些规则输出安全可靠的预测结果对于辅助驾驶系统而言至关重要。

基于此，本文主要从基于马尔可夫决策过程的穿越预测方法和基于深度学习的穿越预测方法两方面进行综述。

4.1 基于马尔可夫决策过程的穿越预测方法

在行人穿越预测中有短期时序依赖的穿越行为预测和长期时序依赖的穿越行为预测。Karasev等人[48]提出了一种针对行人长期行为的预测方法，将他们的行为建模为跳跃马尔可夫过程，目标是一个隐藏变量。假设近似理性的行为，并结合环境约束和偏差，将穿越行为建模为马尔可夫决策过程框架中的策略学习。使用时序滤波器推断行人状态，并通过随机策略进行规划来预测穿越动作。

将穿越行为预测定义为将目标映射到行动的策略函数π：给定自然观测状态g和当前状态X=(X，θ，S)，其中X为行人位置，θ为行人移动方向，S为行人移动距离。策略π产生从当前时间t到实现目标的未来某个时间的未来物理状态轨迹。因为具有相同目标的不同个体会有不同的行为，所以策略π是随机的。预测结果示意图如图4 所示。

实际上，在轨迹预测过程中，结合道路的几何结构和行人目标的运动朝向，利用强化学习或者深度强化学习进行轨迹预测具有很大的实用价值。只不过，难点在于奖酬空间的设计和与环境交互中轨迹预测动作集合的设计。

图4 蓝色表示可能的潜在穿越区域[48]Fig.4 Regions marked by blue color represent potential path of crossing[48]

4.2 基于深度学习的穿越预测方法

由于行人穿越过程中的时序依赖性，长短时记忆网络（LSTM）[49]被广泛用来表征时空序列数据的时序特征，LSTM 将场景中的每个目标轨迹序列单独使用LSTM 网络编码-解码，学习每个目标的运动行为特征。解码器根据时空上下文信息生成场景个体的预测轨迹，该模型未考虑现实场景个体之间存在的交互性。Yang 等人在LSTM基础上提出的Social-LSTM 模型[50]，在LSTM 模型中加入社交池化层，该层基于空间距离的方式将邻近个体的隐藏信息共享，获取邻近个体的交互关注度。Group-LSTM[51]利用运动一致性，对具有相似运动趋势的轨迹进行聚类，然后再提出改进的Social-LSTM 来进行未来的轨迹预测。

计算机视觉几乎所有任务都在用GAN 网络来提升性能，GAN 神经网络主要包括一个生成器和一个鉴别器，通过两者的相互博弈来得到更精确的结果。Lisotto 等人基于生成对抗网络思想提出Social-GAN 和S-GAN-P 模型[52]，借助GAN网络的生成对抗思想，生成器与鉴别器的大量对抗训练，相较于LSTM 编码-解码系列模型，在总体时段和单个时间点的预测精度表现更好，图5 显示出基于GAN 网络的轨迹预测示意图。

考虑到行人穿越过程中，社交注意力的影响，即不同远近、不同运动朝向的行人对于目标行人具有不同的重要性。社交注意力（Social Attention）[53]是一种轨迹预测模型，可以捕捉每个人在人群中行走的相对重要性，无论他们是否接近。Yang 等人[54]在Social-GAN 的基础上采用注意机制来利用行人头部方向与其轨迹之间的相关性，以行人最后一步的行进方向为头部方向。

Takuma 等人[55]利用行人检测框的位置序列和大小序列，加入自车摄像机本身的运动信息（摄像机在每两帧之间的平移和旋转信息）。另外，图片中其他目标对于行人的相对坐标也被用来进行预测。为了得到更加准确的预测结果，有很多模型考虑了周围环境信息对预测轨迹的影响，Lisotto等人提出的模型[56]考虑了三个基本因素：人与人之间的相互作用、对区域的历史观察以及周围空间的语义，针对这三种因素分别设立了池化层来学习交互关系，未来的位置坐标是通过使用线性回归来提取高斯分布的关键参数获得的。

图5 基于GAN 的行人轨迹预测方法示意图Fig.5 Method pipeline of trajectory prediction by GAN

4.3 小结

行人穿越预测从行人轨迹点时序联系、行人空间交互、时空重要性度量、场景结构建模（几何、语义信息）4 个大的方面不断改进。进一步从单目标轨迹预测逐渐演变到多模态轨迹预测。从驾驶安全的角度来讲，行人穿越预测的精度和可靠度不断提升。

5 现阶段研究新思路

未来的行人检测技术的研究仍需要集中在以下几个方面：时效性、多目标、多尺度、复杂环境和遮挡问题。当前的穿越行人检测技术大多数面向车载端，这是自动驾驶智能车发展的必然方向。自动驾驶当前的目标是建立高效准确的穿越行人检测方法，而在一些复杂场景下，尤其是利用视觉信号进行行人穿越检测时，存在很大的挑战。行人穿越检测很重要，为了更好地检测行人穿越，现阶段的主流新思路有如下几个。

（1）驾驶员注意预测：驾驶员会注意到可能发生穿越的行人，结合自己的驾驶经验，会进行关键目标选择[57]，将这种机制融合到算法中可能会促进行人穿越检测性能提升。

（2）联合注意角度：驾驶员视觉注意和行人视觉注意角度在发生穿越时，会产生交互，这种交互信息的利用可以有望提高行人穿越判别准确度。

（3）场景几何结构使用：行人意图结合道路结构几何信息，是研究行人穿越的关键信息，比如站在路边的行人与道路的角度越靠近90°穿越的概率越大。

（4）多传感融合：从车载传感角度出发在视频输入设备的基础上融合多种传感器技术进行检测，比如融合红外设备、3D 激光雷达等。

（5）车路协同技术：随着国家布局车联网技术，车路协同技术得以大力发展，一些基于车路协同的穿越行人检测方法得到重视。其中，可以利用路侧及路上布设的新式传感器，进行行人穿越信号的识别，并及时发送给自主车辆。由路上的设备来进行感知（或者做一些边缘计算工作），这样，昂贵的传感器成本转移到道路基础设施上，给个人用户带来便利。

（6）车联网技术：伴随着国家布局的车联网技术的发展，在单车智能自动驾驶中，在车上安装摄像头、激光雷达、毫米波雷达等传感器，让车辆能感知到周围的情况，自动做出反应。但是，单车智能存在不可避免的视觉盲区。假如在此区域内出现突然穿出的行人，则对于车辆来说，行人出现时减速已经无法及时避让。因此，在行人穿越检测任务中，车辆网技术是一种有效手段。