APP下载

深度特征提取下城轨客流异常状态识别

2021-03-17姚恩建

哈尔滨工业大学学报 2021年3期
关键词:进站客流样本

郇 宁,姚恩建,薛 飞

(综合交通运输大数据应用技术交通运输行业重点实验室(北京交通大学), 北京 100044)

近年来,中国各大城市地铁线网不断扩张,轨道交通在城市综合交通系统中的作用愈发重要. 在乘客出行需求日趋多样化的背景下,大型文体赛事、庆典活动、道路交通管制等外部因素可能引发大量乘客于短时间内涌入车站,如果组织不当,可能导致乘客服务体验下降、运行风险升高,引发站内、车厢过饱和甚至乘客人身安全事故. 因此,有必要形成一套适应城市轨道交通客流特性的异常状态识别方法,以填补运营管理中异常信息的不对称性,健全客运组织的风险预警机制.

异常识别(又称异常检测)是数据挖掘的一个重要分支,其目的在于发现数据集中与其他数据有显著差异的样本,如入侵检测[1]、医疗诊断[2]、工业损检[3]等. 在城轨运营管理领域,同类技术主要体现在车辆设备和工控系统的硬件安全检查等方面[4-5],客运部门往往以基础的统计分析或阈值判断方法来识别客流的异常状态,存在时间滞后性、误判率高、难以适应客流的长期演化规律等不足. 相关研究中,文献[6]系统地分析了城市轨道交通运营事故的特点及风险因素;文献[7]基于时间序列相似性度量的思想,分析了进站量时间序列中的突发客流现象. 整体上,现有研究尚未形成关于城轨客流异常识别的成熟理论和方法,本研究从自动售检票系统实时采集的刷卡数据中提取分钟进站量时间序列,实现对客流状态异常值的同步量化,主要内容包括特征提取和异常判定两个部分.

广义上的特征提取通常依托于机器学习算法,尤其是深度学习模型,利用深层次的非线性结构网络模型获取观测样本中的高阶相关性信息,现已广泛应用于模式识别领域[8-9]. 典型地,卷积神经网络采用非全连接和权值共享的网络结构,擅长从局部特征逼近整体特征,在图像识别方面应用广泛;堆叠自编码器与深度置信网络(deep belief network, DBN)都是以逐层训练的方式提取训练集特征,前者利用非线性变换寻找主特征方向,后者基于样本概率分布获取高层特征表示,在手写识别、语音识别等方面有较好表现. 在以时间序列为对象的研究中[10-11],通常以多项式曲线拟合、离散傅里叶变换、连续小波变换、分段聚合近似等手段实现时间序列的降维、降噪表示,进而实现对隐含信息的深层挖掘.

异常判定按实现原理可大致分为4类:1)基于统计与数据分布的方法[12],通过假设数据集服从某种分布模式(如多元正态分布)来识别异常点,但对于包含非线性动态特征的复杂问题适用性较差. 2)基于阈值判断的方法[13-14],依据客观规律或人工经验对异常事件的关键特征设置诊断条件,此类方法较为依赖对异常事件及其影响的先验知识. 3)基于划分思想的方法[15-16],如孤立森林算法利用随机超平面切割每个子空间,将落在稀疏区域内的样本判定为异常;单类支持向量机通过学习机制构建一个能够围绕全体正常样本的几何支撑域,将之以外的样本视为异常. 该类方法的建模机理决定其仅适用于特定结构的数据集,且易受到噪音维度或无关维度的干扰;4)基于距离或密度的方法[17],如局部异常因子(local outlier factor, LOF)算法,通过衡量样本点与其邻域内其他样本点的分隔程度来判定异常状态,在方法效率及扩展性能上具有优势,但当样本集内簇群分布过于复杂时,存在灵敏度下降的现象.

本文在综合考虑数据获取条件与检测需求的基础上,提出一种基于DBN和LOF的异常识别方法,实现以数据特征为导向的特征提取与模式划分,为异常判定提供精细、可靠的样本子集,进而实现对异常客流状态的有效判别.

1 城轨客流数据特征

城市轨道交通作为公共交通系统的重要组成,其客流不仅会受到外部异常因素的影响,自身也处于长期的动态变化之中. 因此,异常识别应建立在充分考虑客流常态变化的基础之上,进而准确判定由外部因素引起的异常变化. 以广州地铁某站为例,分别选择工作日、双休日和节假日下的客流样本进行对比,如图1所示.

图1 某站客流常态变化

图1中,该站工作日的晨间通勤高峰强度大、持续时间短,双休日与节假日白天的客流强度相对较高,但节假日不存在晚高峰现象. 上述客流样本均应视为相应场景下的正常客流状态,即异常识别应兼容的常态客流变化. 此外,对于不同车站,在受到节假日等因素影响时,其客流也会呈现出不同的变化规律,此类变化也应为异常识别方法所兼容.

进一步,结合典型案例分析由外部因素引发的客流异常变化. 案例1,2017年6月3日、6月17日,广州国际体育演艺中心举办文艺演出活动,晚间散场客流规模超出预期,萝岗站内付费区发生乘客滞留现象;案例2,2017年8月1日、9月12日,广州天河体育馆举办大型体育赛事,体育中心站呈现不同强度的夜间高峰. 同时,选择与案例日期客流规律相近的正常样本作为参照,如图2所示.

在本质上,客流异常变化源于各类事件对乘客出行行为的影响,映射到客流层面,表现形式往往复杂多变,加之各类影响因素对客流的耦合效应,使得传统的人工检测、阈值判别的识别方法难以应对复杂多变的现实环境,呈现出较高的误检率、漏检率. 由此,本文引入与客流数据特征相适应的深度学习方法,以提升异常识别的精细化、智能化水平.

(a)案例1 (b)案例2

2 客流异常状态识别方法

图3为客流异常状态识别流程图. 首先,建立考虑客流时变规律的滑动时间窗口机制,以追踪进站客流的动态变化;其次,基于深度学习模型实现对窗口内客流特征的提取与模式识别;然后,依据模式划分结果确定历史样本集范围,根据所获取的客流特征对样本的异常状态进行量化.

图3 客流异常状态识别流程

2.1 滑动时间窗口长度确定

滑动时间窗口的长度是影响识别效果的重要因素. 当窗口长度较大时,包含充足的采样信息,但易导致判别滞后;当窗口长度较小时,对客流变化的感知更为细致,但易发生信息不足条件下的误判. 因此,窗口长度应与客流数据的时变规律相适应. 由于进站客流的变化具有时间关联性,故采用相关性分析方法挖掘历史客流的时变规律,以符合关联性约束的最大时间跨度作为窗口长度. 车站分时进站量的自相关性系数计算公式[18]为

(1)

(2)

2.2 异常识别模型构建

针对分钟进站量时间序列特征维数高、分类复杂度高的特点,为提升检测性能,在异常判定前对样本进行特征提取与模式划分处理. 采用预训练和微调相结合的训练机制,构建如图4所示的DBN模型.

图4 DBN结构示意图

DBN模型自文献[19]提出后广泛用于模式识别领域. 具体地,DBN由受限玻尔兹曼机(restricted boltzmann machine, RBM)堆叠而成,RBM包含可视层V和隐含层H,层间采用全连接形式,层内无连接. 定义V层包含M个节点,即V=(v1,v2,...,vm),H层包含N个节点,即H=(h1,h2,...,hn). 对于一组给定状态的(v,h),RBM的能量为

(3)

在给定可视层节点状态时,隐含层节点hn的激活概率可表示为

(4)

同理,在给定隐含层节点状态时,可视层节点vm的激活概率为

(5)

采用对比散度(k-step contrastive divergence)算法进行参数训练[20],权值与偏置的更新规则为

(6)

(7)

(8)

顶端BP层作为一种有监督的分类器,根据预训练获取的隐含特征对样本进行类别划分,并通过误差反向传播微调DBN网络参数. 定义样本z于参数θ条件下的输出为f(z,θ),类别y∈{1,...,i,...,C},预测结果属于第i类的条件概率为

(9)

将fy(z,θ)视为真实类别y的似然函数,通过极大似然估计确定参数. 具体地,以最小化负的对数似然方法来确定参数,即交叉熵损失函数为

L[y,f(z,θ)]=-lnfy(z,θ).

(10)

以独热编码向量y表示目标类别c,yi表示真实类别的分布,即仅存在yc=1,其余向量元素均取0,损失函数可表示为

(11)

如前述客流长期处于动态变化之中,不存在绝对标准的正常样本,故根据样本间的相对分布界定异常状态. 因此,在获得DBN模型输出的样本特征和模式划分结果后,将待检样本与相同模式的历史样本映射至多维特征空间,以样本的特征向量为依据,进行如下基于密度的异常判定[17].

对于特征空间Φ中的任一客流样本p,定义k邻近距离dk(p)为p与距离p第k远的样本q间的欧式距离d(p,q),则q至少存在k个样本x,x∈Φ且x≠p,满足d(p,x)≤d(p,q);且存在至多k-1个样本不满足该条件. 基于此,定义p的第k距离邻域Fk(p)为到p距离在dk(p)以内的全部样本,即

Fk(p)={x|d(p,x)≤dk(p)}.

(12)

(13)

(14)

由此可得样本p的LOF值χk(p)的计算方法,计算公式为

(15)

由式(15)可知,χk(p)为样本p邻域样本的局部可达密度与自身局部可达密度比的均值. 当一组样本的特征向量相等时,χk(p)=1;当χk(p)的取值越大于1,说明样本p的密度越小于其邻域样本密度,即p为异常的可能性越大.

3 案例分析

3.1 数据描述

以2018年3月份至6月份广州地铁早高峰(7:00—9:00)的分钟进站量数据为实验对象. 在前3个月内,采集5 000条样本构成训练集,用于标定模型参数;在最后1个月内,采集1 000条样本构成测试集,用于检验模型精度. 经归一化处理,限制样本振幅于[0,1],即实验所用的分钟进站量时间序列样本.

综合考虑采样时段客流特性、分类命中率以及异常识别准确率等因素,结合实验测试结果,建立样本标签体系见表1,从客流的波动特性和变化趋势两个方面描述样本的形态特征,并采用数值规则与人工判别相结合的方式对样本集进行标注.

表1 样本标签描述

3.2 案例结果

经实验测试,确定DBN模型参数如下:节点结构为{60-30-20-20-15-8},批训练的块大小取100,学习率取0.05,迭代轮次取120. 为评价模式划分效果,定义混淆矩阵H,其元素hij表示属于i类样本被划分到j类的数目,总体精度η表达式[21]为

(16)

经统计,表2为测试样本集的模式划分结果. 此外,对比传统反向传播神经网络以及二、三、四隐含层DBN的模式划分效果,取得的整体精度分别为83.1%,63.7%,92.5%和87.6%. 可见,三隐含层DBN的表现较优,也表明该模型能够在降低样本数据维度的同时,有效提取客流特征,为异常判定匹配合理的参考样本.

表2 测试集分类混淆矩阵

为全面检验异常识别方法的有效性,在测试集中正常样本的基础上,引入不同的干扰策略以模拟典型的客流异常状态,规则见表3. 为直观展示异常识别过程,以测试集中的一组样本为例,按分钟进站量同步计算LOF值的变化情况,如图5所示.

表3 测试集异常样本模拟干扰策略

(a)策略Ⅱ、策略Ⅲ

(b)策略Ⅳ、策略Ⅴ

利用策略Ⅰ下的测试集测试此方法的误检率,利用策略Ⅱ、Ⅲ、Ⅳ和Ⅴ下的测试集测试此方法的准确率. 以训练集中97%可靠度下的LOF值控制限为标准,取反应时间为5 min. 具体地,对于策略Ⅰ,若任意连续5 min内LOF均值超出控制限,则认为发生误判;对于策略Ⅱ、Ⅲ、Ⅳ和Ⅴ,若干扰引入后5 min内LOF均值达到控制限,则认为识别准确. 测试集异常识别结果见表4.

可见,识别效果与异常状态的形式和程度相关,且受到合格条件中反应时效要求的影响. 整体上,该方法的平均误检率为3.98%,对于4类策略下异常样本的平均识别准确率分别为87.53%、91.74%、92.07%和96.17%,能够在保证较低误检率的情况下,实现对各类异常状态的准确识别.

表4 测试集异常识别结果

4 结 论

1)通过分析分时进站量时间序列的自相关性,建立了与客流时变特性相适应的滑动时间窗口机制,确定最佳窗口长度为60 min,为异常状态动态识别奠定了基础.

2)设计了解决待检样本特征提取与模式划分的DBN模型,确定了三隐层的模型结构,实现了精确率为92.5%的客流样本模式划分,为异常判定提供了精细化的样本分类结果.

3)引入了4类干扰策略模拟客流的异常状态,通过计算时间窗口内待检样本的LOF值,实现了对各类异常状态的灵敏识别,平均准确率为91.9%,为城轨车站大客流预警提供了有效的解决方案.

猜你喜欢

进站客流样本
客流增多
高铁地下站内气流流动对空调系统的影响研究
城市轨道交通节假日期间大客流行车组织思考与实践
用样本估计总体复习点拨
基于系统动力学的城市轨道交通车站客流控制仿真与优化
规划·样本
春运期间北京西站共有154.8万人次刷脸进站
地心游记(四)一位向导
随机微分方程的样本Lyapunov二次型估计
基于自学习补偿的室内定位及在客流分析中的应用