LSTGHP：基于分层时空图的异构代理轨迹分布预测

2020-12-14张雪翔吴训成史训昂

软件导刊 2020年9期

张雪翔吴训成史训昂

摘要：为了在复杂的城市交通环境中安全且舒适的导航，自动驾驶汽车必须对周围交通代理（车辆，自行车，行人等）的未来轨迹做出负责任的预测。为此，我们提出了一种基于分层时空图结构的异构交通代理轨迹预测模型LSTGHP，模型由以下三部分组成：（1）分层时空图模块;（2）Ego-agent Motion模块;（3）轨迹预测模块，其可以学习到场景中具有不同语义类别的交通代理未来轨迹的多模态分布。为了评估模型的性能，我们在由一个时变、高动态的城市交叉路口环境下收集异构交通代理的轨迹数据集，其中车辆，自行车和行人在场景中彼此交互运动。实验结论表明，我们的模型可以提高代理在近距离交互时的预测准确性。通过模型在新數据集上的性能评估，与先前的预测方法相比，模型在异构交通代理轨迹预测中具有较低的预测误差。

关键词：交叉路口;分层时空图;LSTGHP;异构交通代理;轨迹预测

中图分类号： TP391.41 文献标识码： A DOI：10.3969/j.issn.1003-6970.2020.09.010

本文著录格式：张雪翔，吴训成，史训昂，等. LSTGHP：基于分层时空图的异构代理轨迹分布预测[J]. 软件，2020，41（09）：3642

【Abstract】： In order to navigate safely and comfortably in a complex urban traffic environment， autonomous vehicles must make responsible predictions about the future trajectories of surrounding traffic agents （vehicles， bicycles， pedestrians， etc.）. To this end， we propose a heterogeneous traffic agent trajectory prediction model LSTGHP based on a layered spatiotemporal graph structure. The model consists of the following three parts：（1） Layered Spatio-Temporal Graph module; （2） Ego-agent Motion module; （3） Trajectory Prediction module， which can learn the multimodal distribution of the future trajectories of traffic agents with different semantic categories in the scene. To evaluate the performance of the model， we collected trajectory data sets of heterogeneous traffic agents in a time-varying， highly dynamic urban intersection environment in which vehicles， bicycles， and pedestrians interacted with each other in the scene. The experimental results show that our model can improve the prediction accuracy of agents in close interaction. Through the performance evaluation of the model on the new data set， compared with the previous prediction methods， the model has a lower prediction error in the trajectory prediction of heterogeneous traffic agents.

【Key words】： Intersection; Layered spatio-temporal graph; LSTGHP; Heterogeneous transportation agents; Trajectory prediction

0 引言

自动驾驶作为人机交互的典型场景之一，其任务是使车辆在感知周围环境的同时，预测相邻交通代理的行为意图，从而实现自我车辆的路径规划和运动决策。目前，挑战主要是出现在人口稠密、交通流量大、车道结构复杂的城市交叉路口环境中，其交通是由不同形状、动力学、行为和类型的交通代理组成，包括汽车、自行车、行人等。已有大量研究致力于预测城市交叉路口交通参与者的未来状态。一些研究采用LSTM网络对交通代理运动的时序关系进行建模，根据其自身的历史和当前状态来预测未来轨迹的分布[1-4]，局限性在于只能预测单一类型的交通代理（例如，汽车、行人或自行车），无法学习到复杂环境中异构交通

代理之间的交互关系。而Lambert等人的结果和分析表明在环境对车辆未来移动轨迹的约束中，车道结构的约束可能占主导地位[5-6]。目前，大多数研究方法仅仅是把道路结构信息看作是欧几里得数据[7]，无法捕获其对于代理未来运动轨迹的实质影响，特别是在道路结构复杂的交叉路口环境中。

针对于当前代理轨迹预测模型普遍存在的问题，我们在本文中提出的LSTGHP异构代理轨迹预测模型主要由以下三部分组成：（1）分层时空图模块：利用时空图分别学习代理与动静态环境之间的时空交互关系，更新异构代理的隐藏状态表示;（2）自我代理运动模块：考虑到周围代理对自我代理运动的响应，编码自我代理的未来行为来提高代理近距离交互时的预测精度;（3）轨迹预测模块：我们将轨迹预测问题转化为重构问题，通过最小化模型的重构损失和散度损失来训练模型。在代理未来轨迹重构上，我们通过对潜在变量的次采样来生成代理多个未来轨迹。最后，我们利用联合概率密度函数对生成的轨迹进行排序来求出异构代理最可能的未来轨迹。

1 方法

1.1 问题定义

为了在高度动态的场景中生成异构代理合理的轨迹分布，我们假设场景中时变代理数量，其交互代理的集合表示为。每一个代理都有一个语义类别（车辆、自行车、或行人），在时刻上的代理状态表示为，其中则表示代理在时间步长上的历史轨迹位置。考虑到异构代理在交叉路口附近的未来运动会受到道路环境的约束，我们假定在固定时间步长内，单个代理周围的静态环境由条车道和一条人行横道组成。

与其它先前的工作不同，为了进一步提高代理在近距离交互时的预测精度，我们充分考虑了异构代理

对自我代理未来计划运动的响应。因此，我们假设自我代理在时间步长内的运动计划为，其可以从自我代理先前的运动规划或当前运动假设获得。

在训练期间，我们采用CVAE生成模型将轨迹预测问题转化为生成重构问题，在未来真实轨迹已知的前提下，通过比较代理的预测轨迹和的重构损失、KL-divergence loss损失来训练我们提出的模型，从而能从采样的条生成轨迹中选出最可能的代理轨迹。

1.2 LSTGHP

为了解决现有方法的局限性，充分考虑多异构代理与动静态环境之间的时空交互演化。在较高的层次上，我们根据交叉路口场景的交互拓扑结构创建代理-道路交互时空图、代理-代理交互时空图，并结合深度生成模型CVAE来预测异构代理的节点属性演化。我们的模型LSTGHP如图1所示，其主要由三部分组成：（1）分层时空图模块;（2）自我代理运动模块;（3）軌迹预测模块。

1.2.1 分层时空图模块

（1）静态交互层

静态交互图建立。为了显式的描述单一异构代理与车道、人行横道的成对交互关系，我们建立了一个静态交互图：，其中交互图节点的集合是，时间边的集合是，空间边的集合是。

其中包含两种类型的结点：给定时间内，代表任一异构代理结点类型，则代表被预测代理周围的车道数，节点和节点之间的成对关系组成了静态交互图的空间边。图的时间边则是由代理的状态演变和代理-道路关系随时间的变化组成。简而言之，它可以被看作是任一代理的运动历史，以及它与周围道路的时空变化关系而形成的静态交互时空图，如图2所示。

道路-代理关系演化。异构代理的运动除了受到自身固有结构和动力学约束以外，更多的是由代理的运动意图所决定的，比如在交叉路口处，行人和自行车过马路时大多会把注意力放在人行横道上，而车辆则会遵循一个或几个车道来避免与周围代理发生碰撞。因此，我们通过LSTM网络去捕获不同语义类型的代理与其周围道路的变化关系来推断异构代理的运动意图。

首先，我们将代理在时间上的新位置投影到每一个车道上以获得投影点的状态表示。然后，我们利用MLP去嵌入代理位置与其对应多投影点之间的差值向量：（2）。最后，如公式（3）所示，此嵌入向量与先前隐藏状态通过LSTM模块更新时间边上代理-道路成对关系的隐藏状态，从而学习代理与第个车道的时间演化关系。

道路-代理关系聚合。为了聚合代理与其周围车道、人行横道的演化关系，并将其作为代理结点的特征之一来预测代理的状态演化。对于每一条车道和人行横道，我们使用MLP网络对其相对于异构代理的当前位置、未来的形态进行了编码，如公式（4）和（5）所示，公式（6）则使用concat操作连接编码向量和隐藏状态来编码每条车道和人行横道对异构代理的影响：

为了有效汇总道路与异构代理之间的关系编码，考虑到场景中的车道数是可变的，并且车道或人行横道在异构代理的未来运动中扮演的角色是不同的。在这里我们假设代理类型代表行人，代表车辆，代表自行车，在汇总行人、自行车代理的道路编码时，我们选择最接近代理的单车道编码;而在汇总车辆代理的道路编码时，我们考虑到驾驶员对每条车道或人行横道的关注不同，根据和来计算每条车道或人行横道的注意力得分并加权求和，道路汇总编码如下所示：

（2）动态交互层

动态交互图建立。对于代理轨迹预测问题，除了考虑代理与静态环境之间的交互外，我们还需要去描述在观察序列内代理与代理之间的交互关系。为此，我们建立一个有向动态交互图：，交互图的节点集合表示场景中的异构代理数量，时间边表示代理在时间序列上的状态演变，空间边则表示异构代理间的空间交互，如图所示，其中在具有相同语义类型的节点和边缘之间共享参数，这使得模型可以容纳其他节点代理而无需增加参数大小，只需为每种类型的节点和边缘学习一组参数即可。

代理-代理关系演化。为了形象的描述周围节点代理对被预测节点代理的影响，我们利用边缘LSTM去学习动态交互图时间边和空间边的状态表示。每一个边缘LSTM都是以在时刻相连接的两个节点代理的特征差值作为输入，对于空间边，表示为在时间步长上一组节点的空间距离;对于时间边，特征差值则表示为单一节点在相邻时间上的相对距离变化，我们利用MLP嵌入边缘输入，其节点空间边的隐藏状态如下所示：

代理-代理关系聚合。为了减少模型的计算开销，在这里我们用两个节点间的距离来判断节点之间是否会产生影响，从而确定被预测代理周围的相邻结点数量（）。然后，我们利用注意力模块来汇总所有相邻结点的输入，此模块将所有相邻节点的时间边缘隐藏状态和空间边缘隐藏状态作为输入，并对异构代理类型使用相同的权重和来使输入线性转化为长度为的向量。最后，通过计算被转换的和之间的Scaled dot product attention得到加权后的所有相邻节点代理的空间边缘状态：

异构代理状态表示。在异构节点的隐藏状态表示上，我们合并了道路汇总编码、异构代理在当前时间步长上的节点编码向量、相邻节点时间边和空间边的联合状态编码向量，并将此传递给权重为的LSTM单元。其异构代理的隐藏状态为：

1.2.2 自我代理运动模块

为了模拟当自我代理采取不同的未来行为时，周围代理可能会做出的运动响应，从而提高在近距离交互时代理轨迹的预测精度。考虑到bi-directional LSTM在序列汇总任务上的优异表现，我们使用一个具有256个隐藏单元的bi-directional LSTM模块去编码自我代理在时刻的运动计划。最后，我们通过合并编码所得的隐藏状态和异构代理的隐藏状态来生成单个节点的表示向量。

1.2.3 轨迹预测模块

在模型的训练期间，我们同样使用具有512个隐藏单元的bi-directional LSTM模块来对节点未来的真实轨迹进行编码，其表示向量为。之后，我们分别将和送入带有ReLU激活函数的全连接层（FC）进行特征融合，其输出被分别定义为和。为了学习潜在变量的分布，我们将代理历史轨迹的特征表示和代理未来真实轨迹的特征表示进行合并，并将其作为全连接层的输入特征去学习变量的均值和方差分布。最后，我们合并和被采样的潜在变量，并将其送入解码器来重构代理的预测轨迹。模型中的解码器是由一个全连接层和一个256维的LSTM序列预测模块组成。

1.3 模型训练和轨迹排序

模型训练。我们利用CVAE模型仅仅通过一个输入变量即可生成多个输出变量的机制，将异构代理的历史轨迹和未来真实轨迹编码为训练中的一组潜在变量，并且通过对潜在变量的采样来重构异构代理的未来轨迹：

等式（12）表示轨迹的重构过程，其目标就是通过最小化轨迹重构损失和散度损失来最大化条件概率，从而使得代理的重構轨迹尽可能接近真实值和潜在变量符合高斯分布，变量参数化表示为（服从高斯分布）。

考虑到异构代理轨迹分布的多模态，我们对潜在变量进行次采样来生成异构代理的条未来轨迹，具体公式如下：

轨迹排序。为了在条重构轨迹中找出最可能的轨迹，我们利用二元高斯分布对代理预测的多轨迹进行排序。首先，我们把预测代理的未来状态定义为，其预测的位置被用来拟合一个二元高斯分布。最后，我们用联合概率密度函数对代理生成的轨迹进行排序来求：

2 实验

2.1 数据集

我们提出了一个新的异构代理轨迹数据集IVBP，其目的是为了研究城市交叉路口附近异构代理轨迹的预测、自主规划和仿真任务。IVBP数据集的采集方式主要是通过多种传感器，包括前置摄像头、雷达、GPS，采样周期是0.1秒，并通过深度学习的检测和跟踪算法提取多代理的轨迹、类别信息和其周围的车道信息。总体而言，IVBP数据集每帧大约包含19辆车辆、4辆自行车、6名行人等，其每帧的分辨率为1920×1080，每帧中的注释均是以米为单位的代理空间坐标、代理和道路的ID、类别组成。下面我们会在表一中将我们提出的数据集与现有的混合交通场景数据集进行对比。

2.2 实施细节

对于分层时空图模块中的LSTM单元，在静态交互层中，我们选择64维隐藏单元的LSTM模块来表示

代理与道路的成对交互关系;在动态交互层中，当两个代理节点的距离小于25英尺时，我们则考虑代理间的交互并利用16维隐藏单元的LSTM模块来表示代理与代理之间的成对交互关系。最后，对于被预测代理自身隐藏状态的描述，则使用256维的LSTM模块来聚合动静态环境对其的影响。对于模型的训练和测试，我们的方法是使用代理3秒内的历史轨迹来采样预测其未来5秒空间坐标的可能分布，其潜在变量的维度是16。我们模型的主要架构是基于Tensorflow深度学习框架，其是在单个Nvidia Titan-V GPU上进行训练。我们使用初始学习率为0.001的Adam优化器对模型进行优化，其主要是通过每隔3个批次乘以0.1来降低学习率直到模型损失收敛。

3 结果分析

本论文将现有的轨迹预测模型RNN-ED（ED）、Social-GAN[8]（SGAN）、SS-LSTM[9]（SSL）、TraPHic[10]（TP）和本文提出的模型LSTGHP及其变体进行定量和定性分析，其模型变体如下所示：

（1）LSTGHP-NoSI：我们方法的一种没有静态交互层的版本，其不考虑道路结构环境对于交通代理的运动约束。

（2）LSTGHP-NoEM：我们方法的一种没有自我代理运动模块的版本。在本方法中，我们虽然考虑了静态场景对代理未来运动的影响，但是在代理近距离交互时，没有考虑其他代理对自我代理未来计划运动的响应。

（3）LSTGHP：作为我们主要的方法，其不仅考虑了交通异构代理的动态和静态交互，而且编码自我代理的未来运动计划来描述其在未来预测上的影响。

3.1 定量分析

在图4-5中我们对比了所有现有方法和我们提出的算法在不同混合交通数据集上的性能。我们分别计算了不同预测方法针对于异构交通代理的平均位移误差（ADE）和最终位移误差（FDE），其误差是以米为单位来度量的。相比于ApolloScape数据集，我们的IVBP数据集有较高的稠密性，在其上训练的预测模型，都具有较低的预测误差。相比于确定性的轨迹预测模型，我们的基线模型LSTGHP的性能优于所有预测单一轨迹的方法，其预测准确率提高了将近40%。这意味着我们的模型有效的学习到了异构交通代理未来的运动模式，其更适用于异构的交通条件。

而针对于代理轨迹生成的分布预测，我们的基线模型和其两种变体在每个数据集上都普遍优于Social-GAN模型，其中LSTGHP-NoSI与Social-GAN模型有较为接近的预测误差，并且我们的基线方法的误差分布（如图4-5中的黄色方框图所示）通常也较低且更集中。同时，我们对于每一个轨迹分布预测模型都采集了200多条预测轨迹，我们发现我们的基线模型表现得更好，其代理轨迹的输出紧紧围绕未来轨迹的真实值，如图6所示。

3.2 定性分析

我們基于现有的RNN-ED（ED）、Social-GAN（SGAN）、SS-LSTM（SSL）、TraPHic（TP）和提出的LSTGHP预测方法，对异构交通代理未来的2D行驶轨迹进行了预测，其预测结果如图7所示。从定性分析结果中，我们发现我们的模型对城市中异构交通代理未来轨迹的预测是有效的，相比于其他方法，其预测出的代理轨迹是最接近真实值的，特别是在交叉路口处，由于代理的转弯，有许多轨迹曲线是高曲率的，但我们的模型依旧能够计算出代理精确的未来轨迹，而且如果我们有一个较长时间的历史轨迹，预测精度会进一步提高。我们也发现尽管我们的方法能够正确地预测代理的轨迹，但是随着时间的推移，预测的弹道会发生很大的变化，其间接证明了我们模型的有效性。由于在长期预测中代理未来运动的不确定性越来越大，因此预测多个可能轨迹的能力在本论文中具有十分重要的意义。

4 总结

在这篇论文中，我们提出了LSTGHP预测模型对城市中复杂异构交通代理的未来轨迹进行了预测。我们在模型中使用动静态交互层分别捕获了交通代理与道路结构、交通代理之间的时空交互关系，并将其编码之后使用LSTM模块进行了传递。为了进一步分析代理在近距离交互时所受的影响，我们编码自我代理未来的运动行为并与被预测代理的隐藏状态进行联合预测，从而有效的提高了代理在近距离交互时的预测精度。从实验中可知，我们的方法在新收集的混合交通数据集IVBP上的轨迹预测精度方面优于以往的最新方法，并且我们的算法是实时的。

我们的方法也有一些局限性。对于代理-代理和代理-道路之间交互的考虑，我们的算法使用的是两两交互的方式，其会极大地增加计算的消耗，我们今后会探索全局交互的方式来进一步增加算法的实时性。在未来，我们也会考虑更多的约束条件，如异构代理的运动学约束、交通信号和交通规则，从而进一步提高预测的精度。此外，我们也希望在更加密集的混合交通场景中评估模型的性能。

参考文献

[1]H Cui， V Radosavljevic， F -C Chou， et al. Multimodal trajectory predictions for autonomous driving using deep convolutional networks. In 2019 International Conference on Robotics and Automation （ICRA）， pages 2090-2096. IEEE， 2019.

[2]N. Deo and M. M. Trivedi. Multi-modal trajectory prediction of surrounding vehicles with maneuver based lstms. In 2018 IEEE Intelligent Vehicles Symposium （IV）， pages 1179-1184. IEEE， 2018.

[3]F. Altché and A. de La Fortelle. An lstm network for high way trajectory prediction. In 2017 IEEE 20th Inte rnational Conference on Intelligent Transportation Systems （ITSC）， pages 353-359. IEEE， 2017.

[4]贾朝龙，王雪纯，曾友渝，等. 不确定交通流实时可视化及短时预测方法研究[J]. 软件， 2018， 39（8）： 01-04.

[5]Lambert J， Chang M -F， Sangkloy P， et al. Argoverse： 3D tracking and forecasting with rich maps. In IEEE Conf. on Computer Vision and Pattern Recognition （CVPR）. 2019.

[6]姜雪原. 基于动态规划算法的轨迹地图匹配软件设计与实现[J]. 软件， 2015， 36（5）： 108-112.

[7]Djuric N， Radosavljevic V， Cui H， et al， J. Motion prediction of traffic actors for autonomous driving using deep convolutional networks. 2018.

[8]Agrim Gupta， Justin Johnson， Li Fei-Fei， et al. Social GAN： Socially acceptable trajectories with generative adversarial networks. In IEEE Conf. on Computer Vision and Pattern Recognition， 2018.

[9]Xue H， Huynh D Q， Reynolds M. SS-LSTM： A hierarchical LSTM model forpedestrian trajectory prediction. In IEEE Winter Conf. on Applications of Computer Vision （WACV）. 2018.

[10]Rohan Chandra， Uttaran Bhattacharya， Aniket Bera， et al. Traphic： Trajectory prediction in dense and heterogeneous traffic using weighted interactions. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recog nition， pages 8483-8492， 2019.