基于注意力机制的短道速滑运动轨迹预测模型

2022-09-20张子涵周斌李文豪

现代计算机 2022年14期

张子涵，周斌，李文豪

（中南民族大学计算机科学学院，武汉 430074）

0 引言

近年来，随着计算机视觉和人工智能的进步，轨迹处理技术广泛应用于机器人导航、自动驾驶、视频的智能监控等领域。人类轨迹的预测最近已经成为计算机视觉界一个充满活力的研究课题。轨迹预测是根据过去的运动轨迹进行建模，从而预测未来一段时间的轨迹，其中行人的轨迹预测是轨迹预测领域研究的基础与重点。现有的行人轨迹预测研究工作可以分为基于传统模型和基于深度学习的方法。

Kalman提出卡尔曼滤波，将统计学应用于轨迹预测，利用前一时刻的状态（和可能的测量值）来得到当前时刻下状态的最优估计。Chen等提出了光流卡尔曼滤波，此模型较传统的卡尔曼滤波更精准，但只能局限于速度不变，运动较慢的行人。Williams提出用高斯过程分布来对行人的速度和方向等运动参数进行建模。Helbing和Molnar的Social Forces模型是经典论文之一，他们提出了两种力，第一种力是引导人们相互走近的吸引力，第二种力是使行人避免碰撞的排斥力。Trautman和Krause提出进一步的改进，在Social Forces模型基础上利用高斯IGP得出行人轨迹的概率性预测。这些传统模型局限于手动设置的行人属性和函数，仅适用于行人基本没有互动的情况，逐渐被数据所驱动的深度学习模型所超越。

行人的轨迹可以看做一个典型的序列到序列（sequence-to-sequence,seq2seq）问题，因此善于处理时间序列的循环神经网络（recurrent neural network,RNN）逐渐走进研究者们的视野。然而，由于梯度消失或梯度爆炸的问题，简单的RNN很难记住长期的输入信息，所以研究者设计出擅长处理长期依赖关系数据的长短期记忆网络（LSTM），尤其是LSTM在时间序列数据处理的成功应用如语音识别、语言翻译、图像字幕等，为行人的轨迹预测提供了崭新的思路。最经典的是Alahi等提出的Social-LSTM模型，此模型中提出了一个新的概念“Social Pooling”，即根据行人的空间距离判断处于邻域内行人的隐藏状态进行共享，得到行人周围的信息，以代表其他行人对目标行人轨迹的影响。其结果表明，Social-LSTM模型平均比Social Forces模型和其他基线方法更接近真实结果。然而，Social-LSTM模型对于重要场景的上下文信息具有一定的局限性。Lee等提出了深度随机逆最优控制RNN编码器-解码器（desire）框架，将场景上下文进行排序和细化而不是直接对场景信息纳入轨迹预测。Bartoli等用contentpooling层进一步拓展了Social-LSTM模型，这也使神经网络能够研究障碍如何影响行人运动。Xue等创新性地提出了三种分工不同的LSTM来分别捕获行人过去的信息、行人彼此的互动信息和场景布局的信息，并用圆形邻域代替矩形邻域，使得预测精准度进一步提高。

如今，各种轨迹预测模型算法也被应用于运动员的轨迹预测。预测运动员的运动轨迹相比于预测行人轨迹更加困难，因为每一个运动员对于下一时刻运动行为的选择，不仅取决于自身的意图，还取决于其他运动员的位置、运动方向以及运动速度。这些因素并不能直接观察得到，只能从过去的信息推测出来。特别是在足球、篮球或者短道速滑等具有激烈对抗性的运动比赛中，预测运动轨迹具有极其关键的地位，能否提高预测精度，对于充分了解己方和对方运动员的位置信息与运动方式对在比赛中获得战术优势，或者赛后的比赛数据精准分析来说都至关重要。Cohan使用LSTM来预测篮球运动员最佳的运动位置。Zheng等也研究了NBA球员的轨迹预测，提出了一个基于VAE和LSTM的深度生成模型，并经过弱监督训练的深度生成模型来预测整个球队的轨迹。

在本文工作中，将轨迹预测应用于短道速滑中，旨在预测分析运动员的运动轨迹。短道速滑的轨迹分析属于运动员轨迹预测领域，可以借鉴现代的行人轨迹预测理论方法进行研究。短道速滑运动员运动特点与行人的特点相比主要有以下不同：

（1）短道速滑运动员的运动方向都是同向的，而行人的运动方向并不固定，受到场景和其他行人的影响。

（2）短道速滑运动员的运动速度与行人行走速度相比更快且变化更频繁。因此，本文将运动员的速度信息作为重要条件。

（3）短道速滑运动员的运动轨迹相比行人而言，更具有规律性。

虽然，短道速滑运动轨迹具有规律性，大致分为直道轨迹和弯道轨迹。但是，在短道速滑训练或者比赛中，运动员之间出现频繁的遮挡及位置交错的情况下难以避免地会出现运动员的轨迹紊乱现象，是否能准确地预测短道速滑运动员轨迹成为了一种挑战。

综上所述，本文提出了一个基于LSTM编码器-解码器（encoder-decoder）框架的位置速度信息LSTM（position-velocity-LSTM,PV-LSTM）的轨迹预测模型，将轨迹预测应用于短道速滑中，专注于运动员在真实训练或者比赛中的运动轨迹，从而准确预测运动员未来的轨迹。

1 PV-LSTM模型

PV-LSTM在Encoder模块采用速度和位置LSTM分别处理位置和速度信息，并在Encoder和Decoder中间引入注意力机制，添加速度注意力机制模块，计算速度权重对轨迹影响较大的运动员轨迹信息，旨在提升轨迹预测的精度，最后在Decoder模块对轨迹进行预测。

1.1 问题定义

在运动比赛或训练中，假设场上的运动员数量为，所以在时刻，场景中的每个运动员都由2D坐标（x,y）表示。我们从=1到=T观察每个运动员的位置，目的是预测运动员从=T到=T的位置，其中T与T分别表示结束观察的时刻和结束预测的时刻。给定观察轨迹P=［（,），…，（x,y）］，其中和分别代表横向位置和纵向位置。对于速度信息来说，短道速滑运动员在做行为决策的时候，相对速度比绝对速度更为重要，因此对于周围的速滑运动员，本文选择与目标运动员的相对速度作为输入U=［（,），…，（u,v）］，其中和分别代表横向速度和纵向速度。输入到编码器中的历史位置和速度信息是：

其中，表示运动员中的一员，在时刻的历史位置信息和速度信息。

1.2 PV-LSTM模型结构

整个网络结构如图1所示，模型框架包括如下几个模块：LSTM编码器模块、注意力模块和LSTM解码器模块。LSTM编码器模块首先将观察到的位置信息和速度信息分别输入到位置LSTM模块和速度LSTM模块，以获得相应模块的隐藏状态。接着将速度隐藏状态输入到对应的注意力模块中进行加权求和，再与位置隐藏状态连接形成最终上下文向量，最后LSTM解码器模块生成预测的轨迹。

图1 网络结构图

1.3 LSTM编码器模块

编码器模块是由多层感知机（multi-layer perception,MLP）、位置LSTM和速度LSTM组成。对于输入进编码器的每个运动员的位置和速度信息，本模型通过MLP把信息分别嵌入到向量中，即：

其中，A和B是运动员在各个时刻的位置和速度隐藏状态总和。

1.4 注意力模块

传统编码器输出的B不能完全代表T之内所有的速度状态信息，因为编码器-解码器模型具有一定的局限性，第一个输入序列信息会被随后输入序列数据稀释或覆盖，而且随着输入序列长度的增加，这种现象会更加严重。

为了解决这一问题，本模型采用注意力机制，其核心思想是在解码过程的每一个时刻，都会选择更合适的上下文向量。在本实验中，不同时间的速度信息对未来轨迹有不同的影响，注意力机制可以使影响预测结果的信息分配更大的权重，聚焦有用的信息，使预测更加精准。上下文向量本质上就是将所有隐藏状态进行加权求和得到的，B可以改写为：

最终，得到速度的上下文向量并与所有位置信息的隐藏状态进行连接，即：

其中是具非线性的全连接层，使得输出的是最终的上下文向量，并输入到LSTM解码模块。

1.5 LSTM解码器模块

通过注意力模块输入到本模块的是最终上下文向量C，本模块的结构是标准的LSTM模型，输出的预测轨迹计算公式如下：

上一个时间步LSTM解码器的输出作为输入传递给下一个时间步LSTM解码器，也就是说解码器在时间步时携带着时间步-1的位置与信息，在输入到下一个时间步之前对位置与速度信息进行加权并更新。

2 实验

2.1 实验方案

本文将嵌入层的维度设置为16，每个LSTM层的维度设置为32。该模型使用Adam优化器进行训练，初始学习率为0.001。在训练过程中，本预测模型将Droput率设置为0.2，以避免过度拟合。本文使用的数据集有速滑运动员日常训练的数据集（DET），由多名速滑运动员日常训练数据组成，ETH由750名行人数据组成，UCY由786名行人数据组成。ETH包含ETH和Hotel场景,UCY包含UNIV，ZARA1和ZARA2场景，数据集包含了丰富的现实世界场景。本文使用平均位移误差（ADE）和最终位移误差（FDE）两个指标，其值越小表示误差越小，精确度越高。

（1）ADE是预测轨迹与地面真值轨迹中所有点之间的平均欧氏距离。

（2）FDE定义为预测轨迹的最终点（目标点）与地面真值目标点之间的欧氏距离。

为了检测PV-LSTM模型相较于其他模型的精度提升，将所有模型进行实验并与基准模型进行对比：

（1）Vanilla-LSTM：仅将位置信息作为输入，并且没有任何交互模块的LSTM，本文将此设为基准模型，作为参考标准。

（2）Social-LSTM：采用一个社会池化层对人与人之间的相互作用进行建模的LSTM。

（3）PV-LSTM-NA（没有注意力模块）：取消注意力模块之后的PV-LSTM。

实验运行在Ubuntu20.04 LTS的操作系统上，GPU为NVIDIA GTX 2060，采用的是Pytorch 1.7.1的深度学习框架，CUDA 11.0的运行环境。

2.2 实验结果与分析

第一组实验是各个实验模型在短道速滑运动员日常训练的数据集（DET）上训练并测试,旨在判断本文模型对速滑运动员轨迹的有效提升性。具体的实验结果如表1所示。

综合表1可以得出，各种网络模型在DET数据集下实验结果均较为理想，但是，PVLSTM在两个指标下的性能结果均优于Vanilla-LSTM、Social-LSTM和PV-LSTM-NA。结合具体场景情况而言，短道速滑运动的场地分为两段直道和两段弯道。对于直道，轨迹多成线性状态，各个网络模型均能预测较为精准，差距并不大。因此，图2分别表示的是各个网络模型下场地左侧和场地右侧对于同一名运动员运动预测轨迹对比可视化。可以清晰地看出本文模型在弯道比Vanilla-LSTM和Social-LSTM的精准性更高，对于短道速滑轨迹分析具有关键性的作用。综上表明，PV-LSTM相对于基准模型，其ADE和FDE精度分别提升22.86%和21.95%，均优于其他模型，在短道速滑轨迹预测，尤其是弯道的轨迹预测更精准，更具有实际的应用价值。

图2 赛道左右两侧弯道预测轨迹可视化

表1 各种模型在DET数据集下ADE和FDE结果对比

第二组实验是各个实验模型在ETH和UCY上训练，即分别在4个场景上训练，在剩下的一个场景上测试，依次循环5次，旨在判断本文模型对轨迹预测的不同场景的泛化性。具体实验结果如表2所示。

综合表2可以看出，Vanilla-LSTM、Social-LSTM和PV-LSTM-NA在ETH和UCY的各个数据集的表现各有千秋。本文提出的PV-LSTM在各个数据集上虽具有良好的效果，但是性能结果相比Vanilla-LSTM、Social-LSTM和PVLSTM-NA并不具备明显的优势，这是因为行人的速度比运动员的速度慢太多，速度变化也不是很明显。结合实际场景分析，ETH场景下的行人进出建筑物的运动轨迹大多都是非线性的，因此各个模型的预测效果均不理想。在HOTEL，ZARA1和ZARA2场景中的行人密度稳定，行人轨迹大多呈直线性状态，各模型的预测结果较为理想。本文提出的PV-LSTM在各个数据集训练和测试的结果与基准模型相比，ADE和FDE平均精度分别提升了6.67%和6.52%，均优于其他模型。进一步表明PV-LSTM精度更高的同时具有一定的泛化性。

表2 各种模型在各数据集下的ADE和FDE结果对比

3 结语

针对短道速滑运动员在场地上运动时，因速度快、较拥挤等情况容易导致轨迹紊乱的痛点，本文设计了一种基于注意力机制的编码器-解码器轨迹预测模型，构造一个包含LSTM编码器模块，一个注意力模块，一个LSTM解码器模块的网络模型。实验结果表明，在与文献中现有的模型相比，在真实的运动员训练数据集上，尤其是在关键的弯道轨迹预测中具有更高的精准性，PV-LSTM模型在ETH/UCY上具有一定的泛化性，证明了本文PV-LSTM模型的可行性。