基于深度学习的人群活动流量时空预测模型

2021-04-28刘海砚郭文月

测绘学报 2021年4期

李静，刘海砚，郭文月，陈欣

1. 信息工程大学数据与目标工程学院，河南郑州 450052； 2. 信息工程大学地理空间信息学院，河南郑州 450052

人群活动流量预测是探索人类移动规律的重要环节，也是时空预测的核心问题之一[1]。对人群活动流量的预测研究能够用来分析城市的交通状况，帮助理解城市的功能区域及人口活动分布等，在交通运维[2]、灾难响应[3]、旅游推荐[4]、城市规划[5]等方面均具有重要应用价值。当前对于该问题的研究主要是在对地理区域进行基本单元划分的基础上，通过建立区域间人群流量的时空关联来实现对人群活动流量的预测。然而，这种时空关联包含了人群活动的时间依赖性和空间依赖性，是相对复杂的非线性数学模型。因此，如何对这种复杂的时空关联进行构建是该研究领域的主要挑战之一。

早期研究侧重关注时间依赖性，即区域内人群活动流量随时间的动态变化，包括周期性和趋势性，常用的方法有时间序列模型[6]、线性回归模型[7]和卡尔曼滤波模型[8]等。文献[9]使用历史平均模型(historical average,HA)，将历史时期交通量的平均值作为预测值，该方法不需要任何假设，计算简单快速，但没有顾及时间特征，且预测精度相对较低。文献[10]使用非参数化的自回归移动平均模型(autoregressive integrated moving average model,ARIMA)对兴趣点的人流量进行时序建模，但不能够很好地拟合非平稳性历史时序数据。以上方法均只考虑了时间依赖性，忽略了空间特征对于人群活动规律的影响。空间依赖性是指人群活动与空间之间的相互影响，例如上游道路交通状态通过传递效应影响下游道路交通状态，下游道路交通状态通过反馈效应影响上游道路交通状态[11]。文献[12]根据区域人流情况的相似性，将相邻的城市格网区域聚集来得到城市的功能区域，进而用核密度估计的方式预测每个区域的人流量分布。文献[13]对道路网使用矩阵分解来学习道路连接区域之间的潜在空间以预测流量。这些方法在时间依赖的基础上考虑了空间依赖关系，但却没有将二者同时结合起来，因此无法很好地拟合复杂的时空非线性关系。

由于深度神经网络对于不连续、非线性的问题具有更好的性能[14]，近些年也逐渐被学者用于时空预测问题上，通过循环神经网络(recurrent neural network,RNN)提取时间维度的特征，通过卷积神经网络(convolutional neural network,CNN)提取空间维度特征，然后将二者结合构建时空网络模型。文献[15]同时构造3个相同的卷积结构来提取人群活动时间特征的趋势性、周期性和邻近性。文献[16]提出了一种用于需求预测的多视点时空网络，该网络通过集成长短时记忆网络(long short-term memory,LSTM)、局部卷积神经网络和语义网络嵌入，同时学习时空相关性。文献[17]采用图神经网络用于学习复杂的拓扑结构来捕获空间依赖关系，同时考虑了时间尺度对预测结果的影响。文献[18]将LSTM与注意力机制(attention mechanism)结合的方法用来同时提取时间的短期和长期特征。以上方法尽管能够拟合时空非线性关系，但这些方法多是基于静态的、单一尺度的空间特征，难以顾及动态的空间交互特征以及空间多尺度特征对于深度学习模型的学习能力和预测结果的影响。

针对上述问题，本文提出一种融合空间多尺度特征的时空网络预测模型(multi-scale characteristics spatio-temporal network，MST-Net)，将静态的人群流量和动态的人群交互流作为卷积神经网络输入来提取空间特征，同时使用并联卷积进行空间多尺度特征融合，随后使用门控循环单元(gate recurrent unit,GRU)来提取时间特征。试验结果证明，本文提出的时空网络模型能够提高预测精度和学习效率，实现人群活动流量预测，为感知人类的时空移动规律提供方法支持。

1 融合空间多尺度特征的时空预测模型

时空预测不仅包含时间序列的分析，同样也受到实体空间特征的影响。基于这一假设，本文提出的MST-Net模型主体由两部分组成：①通过局部卷积神经网络提取不同尺度下的空间特征来描述空间依赖性；②通过门控循环单元提取时间特征来描述时间依赖性，网络主要结构如图1所示。首先，为使网络更好地学习位置间的空间依赖性，网络中同时顾及区域内人群活动静态流量和区域间交互人群流量，再将局部卷积神经网络提取的不同尺度下的空间特征进行融合。然后，将融合后的特征输入门控循环单元中。时间序列数据不仅具有短期依赖性还具有一定的周期性，即长期依赖性，通过GRU中单元间的信息传输能够实现长时与短时间特征的提取与表征。此外，网络对于所提取的特征是按照等权的处理方式参与运算，具有显著性的特征则难以在网络中发挥更大作用，基于此，本文进一步引入注意力机制[19]来提取流量数据的长短周期性以增强GRU所提取特征的显著性，从而提升时空预测任务的精度。最后，将学习到的时间特征向量输入到全连接层，经过激活函数进行回归运算，从而得到下一个时刻的流量值。

图1 MST-Net模型结构Fig.1 The network structure of MST-Net

1.1 基于局部卷积神经网络的静态和动态空间特征提取

根据地理学第一定律可知，人群活动在空间上存在一定的相关性[20]，区域的人群活动受其邻域空间变量影响，而卷积神经网络能够通过卷积运算捕获局部的空间特征[21]；对于时空预测问题，下一时刻的流量依赖该区域的历史流量，区域间的人群流动能够强化区域间的动态空间关系[22]。基于此，本文采用卷积神经网络提取空间特征，通过规则格网划分将整个研究区域转换为规则格网，将格网内流量视为对应像素的灰度，从而将其转换为图像，利用时间间隔划分人群流量图和人群交互流图作为网络输入，通过人群流量图提取静态空间特征，通过人群交互流图提取动态空间特征。

为了方便空间关系表达，本文采用文献[18]的空间划分方式将区域进行规则格网划分，研究区域G在时间段T内的时空关系。假设区域被划分为n个格网单元G={g1,g2,…,gi,…,gn}，将时间段T内m个等步长时间间隔T={t1,t2,…,ti,…,tm}内，定义如下时空参数以方便后续描述。

(1)

图2 基于格网单元的交互流、输入流与输出流Fig.2 Interaction flow,input flow and output flow based on grid cell

1.2 基于并联卷积的空间多尺度特征融合

尺度是地理信息科学最重要的话题之一[23]。不同空间尺度对模型的预测精度有一定影响。在卷积网络中，每一层输出的特征图上的像素点在输入图片上映射的区域大小称为感受野(receptive-field)[24]。在图像大小一定的情况下，卷积核的尺寸决定了感受野的大小[25]，从而决定了图像内提取特征的范围，对应于参与运算的地理范围，即卷积核对应的空间尺度。由图3可知，当图像比例尺确定时，卷积核尺寸越大对应的视觉感受野越大，特征图能表示的原始图像范围越大，越能表现原始图像更大尺度的空间特征；当卷积核越小，其对应的感受野越小，特征图表示的原始图像范围越小，越能表现图像的局部特征[26]。此外，随着卷积层数的增加，其感受野也越大。例如，图3中尺寸为5×5的卷积核与尺寸为3×3的卷积核串联，其对应的感受野等效于一个尺寸为7×7卷积核的感受野。

图3 当卷积核步长为1时不同卷积核对应的感受野Fig.3 The receptive field corresponding to different convolution kernels when the stride parameter equals 1

本文通过控制卷积核的大小来实现不同空间尺度特征的提取，同时使用并联卷积的方式将不同大小卷积核提取的多维特征向量扁平化为一维特征向量后进行拼接输入下一层网络中，实现不同空间尺度下的特征融合，如图4所示。

图4 基于并联卷积的空间多尺度特征融合Fig.4 Spatial multiscale feature fusion based on parallel convolution

经过并联卷积融合后的输出特征可表示为

(2)

1.3 基于门控循环单元的时间特征提取

目前，应用最广泛的处理序列数据的神经网络是递归神经网络(RNN)[27]。但是，传统的RNN在处理长期依赖问题上存在梯度消失和梯度爆炸等问题[28]。长短时记忆网络(LSTM)[29]和门控循环单元(GRU)[30]作为RNN的改进，通过增加门控机制被证实已能够很好解决长期依赖的问题。LSTM和GRU在训练效果上都有很好的表现，但是由于LSTM结构相对复杂，需要的训练时间较长，且训练参数较多。因此，本文选用结构相对简单，需要训练时间较短且参数较少的GRU来进行时间特征的提取。如图5所示，rt是重置门，用于忽略前一时刻信息的程度；ut是更新门，用于控制前一时刻信息进入当前时刻的程度；ct为当前时刻的候选隐藏状态； GRU将t-1时刻的隐藏状态ht-1，t时刻的空间特征αt作为t时刻的输入，从而获取当前时刻的信息。

图5 门控循环单元模型结构Fig.5 The structure of GRU

2 试验及分析

2.1 试验数据集与数据预处理

本文选取纽约市曼哈顿区人群活动签到数据集(NY)和旧金山市人群活动签到数据集(SFO)两个真实数据集对模型的预测性能进行测试，数据来源于Foursquare[31]社交媒体签到平台。原始数据包含如图6所示的签到时间、签到经纬度等7个字段。根据本文模型，首先需要将矢量的签到点数据通过格网划分、时间间隔划分成时间序列图像后再输入模型，具体流程如图6所示。对不同时间间隔的人群流量进行统计，能够得到人群流量时间序列图像；对于相邻时间间隔用户的区域转移情况进行统计，能够得到人群输入输出流的时间序列图像。具体的人群输入输出流的计算原理如图7所示。假设用户I在t-1时段处于gi，在t时段处于gj，则说明用户I在t时段由区域gi转移至gj。对于区域gj在t时段有一个用户进入，区域gi在t时段有一个用户流出。通过用户编码可以锁定一个用户在不同时段所处区域，从而可以统计得到某一区域在某一时段用户输入输出情况，进而量化为人群输入输出流的时间序列图像。

图6 原始数据详情及数据预处理流程Fig.6 Details of raw data and data preprocessing process

图7 人群活动输入输出流计算过程Fig.7 Calculation process of crowd activity input and output flow

试验分别选取两个数据集2012年1月1日至2012年10月7日共280 d的签到数据，选取前168 d的数据作为训练集、中间42 d的数据作为验证集，后70 d作为测试集。顾及人群签到数据采样时间较长且稀疏，若时间间隔划分过小，则无法展现数据的显著性；若时间间隔过大，则无法反映数据的周期性。因此，为了避免数据过于稀疏，且考虑到时间语义信息，本文将一天的24 h划分为4个时间间隔，即凌晨(0：00—06：00)、上午(06：00—12：00)、下午(12：00—18：00)和晚上(18：00—24：00)。参照文献[18]的格网划分方式，研究将NY数据集划分为20行×10列的规则格网，将SFO数据集划分为20行×20列的规则格网。具体试验数据量及数据安排见表1。

表1 试验数据量及训练、验证、测试数据安排

2.2 模型训练及参数设定

试验的批大小设置为试验设备的显存上限256，加速训练过程。学习率采用常用值0.001[17-18]。GRU隐藏单元数会影响模型的性能和预测精度，研究分别将单元数设置为16、32、64、100和128，并利用式(3)计算不同单元数对应的预测误差，结果如图8所示，当单元数为128时对应的预测误差最小，故将隐藏单元数设置为128。试验将迭代次数设置为55，由图9可知，模型收敛正常。

图8 不同隐藏单元数对应的预测误差Fig.8 Prediction errors under different hidden units

模型采用局部卷积神经网络提取空间特征并将每一个邻域大小设置为7×7。卷积核的尺寸、卷积层数量和连接方式都会影响学习能力和预测结果[32]。为了验证本文所提出的融合空间多尺度特征的时空网络模型的有效性，试验设置了3×3与5×5两种卷积核尺寸，并设计了4种不同的空间特征提取方案：①一层64个5×5卷积核的卷积层直接提取特征；②两层卷积层串联，即先经过32个3×3卷积核，再经过32个5×5卷积核提取特征；③两层卷积层并联后经过乘积运算融合特征，即将经过32个3×3卷积核直接提取的特征与经过32个5×5卷积核直接提取的特征通过乘积运算得到融合后的特征；④两层卷积层并联后经过拼接融合特征，即将经过32个3×3卷积核直接提取的特征与经过32个5×5卷积核直接提取的特征通过拼接得到融合后的特征。其中，方案④为本模型使用的融合方案。

图9 损失值随迭代次数增加的变化曲线Fig.9 Evolution of loss value with increasing number of epochs

2.3 试验结果及分析

2.3.1 模型精度评价指标

试验选用常用的模型预测结果衡量指标均方根误差(RMSE)和平均百分比误差(MAPE)来对模型精度进行评价。均方根误差能够衡量观测值与真实值之间的偏差，平均百分比误差能够考虑预测值与真实值的误差，以及误差与真实值之间的比例。二者的值越小说明模型的精度越高。其计算公式如下

(3)

(4)

2.3.2 不同空间尺度和融合方式的精度对比

根据2.2节中设计的4种空间特征提取方案分别在两个数据集上进行试验，结果见表2。通过对比4种方法在两个数据集上的试验结果发现，本文方法在两个评价指标上都具有更高的精度，主要结论为：

(1) 从卷积核数量来看，单一卷积核精度较多卷积核精度低，说明网络通过增加卷积核及卷积层数量能够提高模型的准确率和稳定性。

(2) 从卷积层连接方式来看，本文中采用卷积层并联的方式比串联的方式百分比误差小1.9%～6.4%，这是因为串联方式增大了感受野(原理如图3所示)，虽然强化了全局特征，但缺失了局部特征。而并联方式同时提取了不同尺度下的空间特征，包含全局特征和局部特征，提升特征的丰富度，从而强化了下一层网络的输入，使输出精度提高。

(3) 从并联卷积层的特征融合方式对比，采用特征拼接比特征乘积方式百分比误差小3.9%～4.4%，特征乘积后会导致特征间的线性关系改变，从而无法完全保留原有特征的特性，而使用拼接方式既能够对特征进行融合，同时也保持了特征间的线性关系，是一种更为合理的融合方式。

此外，通过对比，在相同方案下NY数据集比SFO数据集的预测误差要小19.9%～20.9%。说明在模型结构相同的情况下，数据的特性对于预测的结果也有较大的影响。在数据获取条件相同的情况下，主要考虑数据稀疏度和密度。研究将数据的稀疏度定义为无人群流量的空白格网单元数占总格网数的比例，利用式(5)对数据的稀疏度进行计算

(5)

利用式(6)计算除去空白格网后单元格网的数据密度

(6)

式中,nv=0表示人群流量为0的空白格网数；n代表研究区域的格网总数；v代表单元格网区域的人群流量。

计算结果见表3。从表3可以看出，NY数据集比SFO数据集更稀疏，且单元格网的数据密度更大，这说明NY数据集存在更多无数据的空白区域，使得数据在空间分布上更加聚集，这种聚集效应增加了空间特征的显著性，使得数据的特征明显。

表2 不同空间特征提取方案的精度比较

研究选取某一格网单元在特征提取方案①和方案④(本文模型所采用的融合方案)的真实值与预测值进行了可视化，如图10所示。发现在相同数据集上方案④的拟合效果更好，在不同数据集上，NY数据集的拟合效果更好。对于SFO数据集，在流量峰值附近的预测值与真实值误差较大，说明模型对于峰值的预测有所欠缺。同时，对选取两个数据集上一天中4个时间间隔的人群活动流量的真实图和预测图进行热力图绘制，如图11所示。从预测结果上分析，NY数据集的预测图与真实图更接近，SFO对于流量高的区域预测结果较差；从人群活动区域分析，人群活动主要集中在固定的区域，说明人群活动遵循一定的空间规律；从时间语义上分析，不同时段同一区域的流量不同，比如凌晨的人群活动流量较其他时间间隔流量较少，说明人群活动遵循一定的时间规律。

图10 不同方案人群流量真实值与预测值拟合结果Fig.10 Comparison of real value and predicted value of crowd flow in different schemes

图11 不同时间间隔人群流量真实值与预测值热力图Fig.11 The visualization of real and predicted values of crowd flow at different time intervals

2.4 本文方法与常用时空预测方法精度对比

为验证本文方法MST-Net模型相比于其他方法的有效性，试验选取历史平均模型HA[9]、自回归平均移动模型ARIMA[10]、支持向量回归SVR[33]、门控循环单元GRU[29]和时空动态网络(spatial-temporal dynamic network,STDN)[18]5种方法进行对比，结果见表4。试验结果表明，在均方根误差和平均百分比误差上，MST-Net模型优于其他方法，尤其在NY数据集上的表现更为显著，平均百分比误差最大降低了76.81%，表明了本文提出模型对人群活动流量预测任务上的有效性。传统的时间序列模型(HA和ARIMA)，和基于回归的方法(SVR)，在该任务上表现欠佳，主要因为这些方法一方面依赖于历史数据，忽略了空间因素，另一方面是对于这种具有周期性和趋势性的非平稳的时间序列数据难以很好的拟合；而GRU和STDN在该问题上取得了较好的效果，说明基于神经网络的方法能够较好地拟合复杂的非线性的时空数据。但是GRU在进行预测时，只提取了时间维度的特征，同样忽略了空间特征，STDN虽然考虑了空间特征，却只考虑了单一尺度，而本文方法能够较好地拟合复杂的非线性时空关系且顾及空间多尺度特征，因而具有更高的精度。

表4 本文方法与常用时空预测方法精度对比

3 结论

由于传统时空预测模型大多基于单一尺度的空间特征进行时空预测，难以顾及多尺度空间特征对预测结果的影响，因此，本文提出基于卷积神经网络且通过并联卷积方式融合空间多尺度特征的时空网络人群活动预测模型，并在两组真实的社交媒体签到数据集上来验证模型的有效性。试验结果表明，与基于单一尺度空间特征的时空预测模型相比，基于多尺度空间特征的时空预测模型能够获取更完备的空间特征以提高预测精度，进而更好地提取人群活动在空间上的动态变化，实现人群活动规律的探索。

但是本文提出的方法是基于规则格网上的，受格网单元形状和大小的限制。一方面，时间尺度对于模型的边界效应和影响程度需要进一步试验和论证；另一方面，本文仅采用社交媒体签到数据，存在不能充分反映人群流量的问题。下一步可融合其他类型的感知数据，例如GPS轨迹数据等来反映人群流量；此外，人群活动还包含有丰富的空间语义信息，如何融合空间语义信息，实现人群活动规律的可解释性也是下一步研究的重点。