APP下载

基于大数据的城市轨道交通出行站外OD 位置点识别方法研究

2022-08-11刘海洲张敬宇

铁道运输与经济 2022年8期
关键词:信令遗传算法站点

刘海洲,张敬宇

(1.重庆交通大学 交通运输学院,重庆 400074;2.重庆市交通规划研究院 道路交通所,重庆 401147)

0 引言

为构建优质的城市轨道交通运营体系,需要精准掌握城市轨道交通内部客流的实时走向,明确客流OD 分布特征,分析城市轨道交通客流出行行为机理。依靠传统的轨道自动售检票系统(Automated Fare Collection,AFC),只能通过轨道闸机刷卡数据采集乘客上下车站点信息,完成粗粒度的进出站客流分析,而对于完整的出行链信息,如乘客的来源去向分布等,采集能力不足,常存在误差或遗漏。分析城市轨道交通站外客流来源与去向特征,把握站点吸引周围客流的实际范围分布,有助于分析站点周边环境对客流需求的影响,为城市轨道交通站点选址、站点周边设施建设等提供规划设计依据。

随着手机信令数据的普及,越来越多的学者开始尝试利用真实信令数据进行研究。2010 年,Zhang 等[1]研究利用移动通讯设备网络信号切换及位置更新信息,获取手机的轨迹,并利用手机轨迹获取OD 信息,同时,利用数学模型将获得的手机数据量转化为车辆数,并结合软件仿真验证结果与随机抽样得到的数据进行比较。该研究虽然使用真实信令数据,但仅有信令数据中基站切换数据,样本量较小。冉斌[2]利用手机信令数据进行信息预处理、匹配分析、交通模型分析处理、数据去噪、扩样等一系列数据处理,从而得到居民出行特征数据。Tan 等[3]通过使用手机信令数据,将不同的出行方式轨迹与交通分析区域进行匹配,通过对轨迹的时空特征进行聚类来确定停留点,从而提取OD 矩阵,分析OD 需求分布。戚新洲等[4]利用手机信令数据,识别出行链停留点和提取出行链。杨玉冬等[5]融合和挖掘高速公路收费数据、微信电子问卷数据和手机信令数据等多源数据,对过江通道的交通量进行OD 分析和出行特征分析。高兴等[6]以杭州市为例,基于手机信令数据识别短期驻留人口与常住人口,进一步对短期驻留人口的出行特征进行计算。王蓓等[7]利用手机信令数据,基于密度的聚类(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)算法,识别具有居住-就业关系特征的职住空间。田万利[8]基于DBSCAN 算法,对手机信令定位点在空间上聚类,提取手机用户出行链。于泳波等[9]使用手机信令数据,抽取用户在轨道网络上的轨迹。丁敬安等[10]利用用户信令数据和站点经纬度数据来识别地铁基站,从而过滤出乘客在轨道交通线网中的位置数据。

国内外学者针对城市内居民出行OD 进行大量研究,然而由于早期信令数据的低定位准确性,该类研究方法均是从城市层面,在具体OD 位置点等微观层面的研究相对较少。同时,国外算法大多利用出行时间、距离阈值进行判别,经验性较强,不同研究中的阈值差异明显,方法普适性不强。例如,对于出行端点判别,不同研究分别采用120 s,180 s 和300 s 等作为时间阈值;对于地下出行段识别,分别采用150 m,200 m 或500 m作为距离阈值,这些经验阈值通常只是对研究所在的特定地区有效,当交通环境发生变化时,方法普适性不理想。

城市轨道交通出行站外OD 是乘客每次出行的最终起讫点,为轨道出行需求分析、站点覆盖范围分析等管理决策提供支持。研究采用手机信令数据、AFC 数据等大数据,借助志愿者的真实出行信令数据与出行日志数据,结合遗传算法优化时空密度聚类参数,精细化识别个体城市轨道交通出行站外OD 位置点,并针对其应用效果开展实证研究。

1 基于大数据的城市轨道交通出行站外OD识别方法构建

1.1 研究框架

城市轨道交通出行站外OD 位置点主要借助时空密度聚类算法进行识别。提取乘客进站前与出站后的信令数据,利用时空密度聚类算法识别停留点,进而识别乘客出行站外位置点(乘客出行的来源地与去向地)。其中,时空密度聚类算法参数,结合遗传算法与志愿者信令数据进行校核。城市轨道交通出行站外OD 位置点识别研究框架如图1 所示。

图1 城市轨道交通出行站外OD 位置点识别研究框架Fig.1 Research framework for identifying OD points outside urban rail transit stations

1.2 进站前与出站后信令数据提取

对个体信令数据进行城市轨道交通通信基站匹配后,提取乘客城市轨道交通出行前与出行后的信令数据。进站前与出站后信令数据提取如图2 所示。图2 出行数据中包含2 次城市轨道交通出行,需要分别对2 次出行的来源地与去向地进行识别。通过使用时空密度聚类算法,分别从站外数据段1与2 中提取第1 次出行的来源地与去向地,从站外数据段2 与3中提取第2 次出行的来源地与去向地。

图2 进站前与出站后信令数据提取Fig.2 Extraction of mobile signaling data before entering and after leaving the station

1.3 基于时空密度聚类算法参数优化的城市轨道交通出行OD 识别

1.3.1 时空密度聚类算法

个体用户的信令轨迹具有较好的时空分布特性,且停留区域连接的基站密度较高,因此利用时空聚类算法对用户进站前与出站后的信令数据进行聚类分析,提取停留点。时空密度聚类算法基本概念如图3 所示,主要概念解释如下。①E邻域。定义距离目标点的空间距离为Eps内的区域为该目标点的E邻域。②ΔT邻域。定义距离目标点的时间长度为ΔT内的区域为该目标点的ΔT邻域。③核心点。在目标点的E邻域与ΔT邻域内,样本点的总数大于Minpts,则此目标点为核心点。④直接密度可达。对于样本点集合H,假设样本点k为核心点,样本点i同时满足在样本点k的E邻域与ΔT邻域中,则点k直接密度可达i。⑤密度可达。核心点k到pn(n=2,3,…,M)中可以存在任意个核心点,且pn(n=2,3,…,M)可以是任意对象(核心点或非核心点),则k密度可达pn(n=2,3,…,M)。⑥密度相连。样本点集合H中的样本点i,k与j,如果样本点i与k密度可达且样本点j与k密度可达,则点i与j密度相连。

图3 时空密度聚类算法基本概念Fig.3 Main concepts of spatio-temporal density clustering algorithm

时空聚类算法的主要思路是先遍历整个对象,搜索所有核心点;然后标定一个核心点,并以此为中心,搜索该核心点密度可达的所有核心点,再将符合条件的核心点及其邻域内的点集合成簇;以此进行迭代,直至无法形成簇终止。时空密度聚类算法流程如图4 所示。

图4 时空密度聚类算法流程Fig.4 Flow of spatio-temporal density clustering algorithm

聚类后,由于部分聚类结果存在时间间隔短、聚类中心距离近等问题,因而需要对聚类结果作以下处理。一是按顺序将所有簇排序,计算每一个簇的末个定位点与下一个簇的首个定位点间的时间间隔,如果小于时间合并参数,则将2 个簇合并。重复上述步骤,直至所有簇间的时间距离均大于时间合并参数。二是计算每一个簇中所有定位点的经纬度平均值与下一个簇的经纬度平均值之间的距离,如果小于距离合并参数,则将2 个簇合并。不断重复这一过程,直到所有簇间的空间距离均大于距离合并参数。

1.3.2 遗传算法

时空密度聚类算法包含E邻域、ΔT邻域与Minpts3 个输入参数,识别效果对输入参数的敏感性较强,因而在实际应用中需要根据具体情况来选择算法的输入参数组合。遗传算法在解决复杂组合优化问题时具有求解速度快、优化效果好的优点,因而选择遗传算法对时空密度聚类算法的输入参数进行优化。

1.3.3 基于遗传算法优化的时空密度聚类参数

基于时空密度聚类算法对城市轨道交通出行OD 进行识别,其中时空密度聚类算法识别停留点包含5 个重要参数,即聚类半径阈值Eps、聚类时间阈值∆T、最小样本点数Minpts、时间合并参数以及距离合并参数。由于参数取值对城市轨道交通出行OD 的识别结果精度存在较大影响,因而结合遗传算法与志愿者信令数据,对时空密度聚类算法中的参数取值进行寻优。遗传算法优化参数流程如图5 所示。

图5 遗传算法优化参数流程Fig.5 Parameter optimization flow of genetic algorithm

该优化算法以时空密度聚类算法的5 个参数作为遗传算法的初始种群,将时空密度聚类识别结果与志愿者出行日志记录数据的误差作为遗传算法的适应度函数指标,通过选择、交叉、变异等遗传操作,最终输出满足误差要求的最优参数结果,并作为时空密度聚类算法的参数输入,实现城市轨道交通出行OD 提取。具体步骤如下。

(1)时空密度聚类算法的参数标定。根据时空密度聚类算法原理,需要确定聚类半径阈值Eps、聚类时间阈值∆T、最小样本点数Minpts、时间合并参数、距离合并参数等5 个主要参数,以将信令样本点集合成簇,提取出行停留点,进而识别乘客城市轨道交通出行OD。

(2)基于遗传算法的参数寻优。使用标准遗传算法对上述时空密度聚类算法的参数进行寻优。标准遗传算法(Simple Genetic Algorithm,SGA)以群体中的所有个体为对象,只使用基本的遗传算子。标准遗传算法的数学模型SGA如下。

SGA=(C,E,P0,N,Φ,Γ,Ψ,T) ⑴式中:C为个体的编码方法,二进制编码;E为个体适应度评价函数,以时空密度聚类的识别结果与出行日志记录数据的误差作为适应度评价函数;P0为初始种群,包括聚类半径阈值Eps、聚类时间阈值ΔT、最小样本点数Minpts、时间合并参数以及距离合并参数;N为种群大小;Φ,Γ,Ψ 分别为选择、交叉和变异算子;T 为遗传算法迭代终止条件。

2 案例分析

2.1 实验数据整理

以重庆市为实证对象,首先基于志愿者信令数据完成对重庆市城市轨道交通全线网通信基站序列的标定,然后结合志愿者出行日志数据与GPS 数据,验证志愿者城市轨道交通内部出行路径识别精度与出行站外OD 位置点识别精度,最后分析重庆市手机信令数据,识别重庆市城市轨道交通进站与出站客流,并与AFC 数据进行对标,验证精度。

通过与重庆市联通公司合作,得到每日产生的信令数据共计186 466 991 条,包含5 921 526 位手机用户,平均每人每天信令数据产生量为31 条。研究区域内共计4 186 个基站,平均间距为278.40 m,最大为2 386.19 m,最小为26.83 m。研究共获得2020 年6 月1 日—30 日共计30 天10 条线路的AFC 数据,包括城市轨道交通1 号线、2 号线、3 号线、4 号线、5 号线、6 号线、10 号线、环线、国博线及空港线。出行行为数据采集实验的具体执行时间为2020 年9 月14 日—20 日。数据获取分线上获取与线下获取2 种渠道。其中,线上数据获取通过“问卷星”在网络上发放与回收问卷完成;线下数据获取通过安排志愿者在重庆市观音桥站、较场口站、小什字站、临江门站等轨道站点进行问卷的发放、指导填写与回收。共发放问卷1 125 份,回收有效问卷1 000 份,问卷回收有效率为89%。

出行日志数据记录是数据采集实验中的重要内容,其记录精度直接关系到实证研究的效果。出行日志数据的采集主要集中在研究范围内所设计的4 条出行线路里进行,所选取的线路均包含换乘点和地上站点、起终点等信息。出行实验线路信息如表1 所示。志愿者在完成每日出行路径后,需要完成个人出行日志数据的梳理,标定在出行过程中的停留点、移动点、停留位置、途径站点数、地上站、地下站等出行信息。

表1 出行实验线路信息 个Tab.1 Route information from travel experiments

2.2 城市轨道交通出行站外OD 位置点识别精度

2.2.1 参数校核结果

遗传算法属于启发式算法,其搜索过程具有随机性,因而寻优出来的结果具有一定波动性,当遗传算法迭代次数为20~40 代时,误差结果趋于收敛,误差收敛范围为600 m 左右,结合4G 信令基站覆盖范围,该误差范围不会对识别效果产生较大影响。遗传代数与误差如图6 所示,可以发现基于遗传算法的时空密度聚类算法参数优化,能够在较大程度上改善结果精度。

图6 遗传代数与误差Fig.6 Genetic algebra and error

研究以11 位二进制编码表示时空密度聚类半径,时空密度聚类半径区间为(0,2 000)。在完成参数编码后,对初始参数种群的数量进行设定,理论上种群规模越大越好,但在兼顾聚类半径参数多样性与算法计算时间的情况下,常用的种群数量取值为20~ 100 个,基于既有研究并经过重复测试,研究选取100 作为种群数量。适应度函数主要用来衡量参数解集中每个参数的优劣程度,研究将不同聚类半径下,志愿者站外停留位置点的识别误差作为适应度函数。遗传操作主要包括选择、交叉与变异,其中选择操作采用轮盘赌算法,交叉与变异操作分别设置为20%,0.01。为避免误选局部最优解,进行多次寻优。多次寻优最优值结果如表2所示,共计进行10 次寻优,并对每个最优参数取10 次结果的平均值,可以得聚类半径阈值Eps、聚类时间阈值∆T、最小样本点数Minpts、时间合并参数和距离合并参数分别为301 m,302 s,4 个,384 s 和206 m。

表2 多次寻优最优值结果Tab.2 Results of multiple optimization

2.2.2 城市轨道交通出行站外OD 位置点识别精度

城市轨道交通出行乘客OD 平均识别精度为633.75 m,OD 识别误差如表3 所示。参考杨飞等[11]基于手机信令数据的出行端点识别精度的最新结果,4G 密集信令数据环境下,数据定位频率较高,端点识别精度约在200~ 400 m 之间,而研究所使用的信令数据集平均每位用户每天仅产生31 条信令数据,信令数据较为稀疏,导致识别精度大约在600 m 左右,精度有所下降,但常用的四阶段模型中交通小区的规模通常大于500 m×500 m,可以满足实际分析精度并在较大交通小区划分尺度下得到应用。

表3 OD 识别误差 mTab.3 Errors in identifying OD points

2.3 应用效果

小什字站外OD 分布主要集中在小什字站的西北方向,且站点西边OD 分布与临江门站点东边OD 分布相连。总体而言,小什字站外OD 来源地分布形状较为紧凑,但部分OD 分布超出以小什字站点为圆心、500 m 为半径的范围。结合周围土地性质分析,小什字站点西北方向存在商场及写字楼建筑,拥有大量通勤及购物返程人群,西北方向是重庆洪崖洞景点,大量游客停留在该区域,因而OD 分布情况符合土地利用性质。

临江门站外OD 来源地分布主要集中在站点东侧,站点西侧也有少量聚集,站点南侧OD 分布与较场口站外OD 分布相互交融,站点东侧OD 分布向东北方向延伸至重庆洪崖洞。临江门站外OD来源地分布覆盖范围较大,超出以临江门站点为圆心、500 m 为半径的参考范围,且站外OD 分布较为不对称。从土地利用性质角度分析,临江门站点东侧是重庆国泰广场、环球购物中心、新世纪百货等商场,大量人群购物后乘坐地铁返家,站点西侧是重庆二十九中学,许多走读学生放学乘坐地铁返家。

较场口站外OD 分布主要集中在站点西北方向,少量OD 分布在站点东部,站点南部几乎没有OD 分布,站点OD 来源地分布整体形状较为紧凑。结合较场口站点周围土地利用性质分析,较场口北部存在日月光购物中心、得意潮馆等商场和住宅小区,存在大量人群驻留,较场口站点东部大多为商业用地及住宅小区,而站点南部只有少量建筑,站点OD 分布情况符合用地性质。小什字、临江门、较场口站外OD 来源地分布如图7 所示。

图7 小什字、临江门、较场口站外OD 来源地分布Fig.7 Distribution of OD points outside Xiaoshizi Station,Linjiangmen Station,and Jiaochangkou Station

3 结束语

通过提取城市轨道交通出行站外OD 位置点,能够有效分析客流来源与去向特征,把握站点周围客流吸引实际范围分布,对分析站点周边建成环境、了解不同建成环境对客流需求的影响提供支撑,为城市轨道交通站点选址、站点周边设施建设等提供规划设计依据。经过遗传算法优化的时空密度算法识别站外OD 位置点的误差为633.75 m,算法精度虽满足实际需求,但误差依然相对较大。后续研究中可以改进数据预处理方法,提升手机信令数据精度,采用更精细的算法,提高城市轨道交通出行OD 位置点识别效果。同时,融合车站视频数据等多源数据作为标杆数据进行验证分析,将手机信令数据的城市轨道交通出行特征识别结果与真实数据进行比较评估,进一步分析算法的有效性,完善识别效果评估。

猜你喜欢

信令遗传算法站点
基于改进遗传算法的航空集装箱装载问题研究
基于遗传算法的高精度事故重建与损伤分析
以“夏季百日攻坚”推进远教工作拓展提升
基于遗传算法的模糊控制在过热汽温控制系统优化中的应用
基于遗传算法的智能交通灯控制研究
积极开展远程教育示范站点评比活动
怕被人认出
浅谈JSQ-31 V5数字程控用户交换机NO.7及NO.1信令参数设定及不同
LTE网络信令采集数据的分析及探讨
先进站点应与落后站点开展结对帮扶