APP下载

基于SVM 事故分类的连环追尾事故影响因素分析*

2020-06-17柳本民

交通信息与安全 2020年1期
关键词:连环车道事故

柳本民 闫 寒

(同济大学道路与交通工程教育部重点实验室 上海 200000)

0 引 言

自汽车诞生100多年以来,行车安全一直是交通领域研究的热点问题。为了减少道路交通事故的发生,降低事故中伤亡人数,国内外学者尝试通过交通部门建立的事故数据库构建模型,来探究交通事故的诱因以制定合理有效对策。

近年来,有很多国内外学者对交通事故严重程度与各影响因素之间的关系进行了分析。如Abdel-Aty等[1]通过建立Ordered Probit(ORP)模型分析了不同地点影响交通事故严重性的因素所具有的相同点与不同点。王磊等[2]同时利用有序 Logit和多项Logit模型建立高速公路交通事故伤害程度预测模型,分析限速、路面等 15个变量对事故严重性的影响,并对模型分析精度做了比较。Quddus等[3]建立ORP模型来研究摩托车事故中驾驶员受伤程度以及车辆损毁程度与各影响因素之间的关系。孙轶轩等[4]建立了基于SVM灵敏度的城市交通事故严重程度分类模型,得到灵敏度系数绝对值最大的前3个变量分别为事故类型为人车事故,气候与能见度不佳,涉事车辆载运种类为载货汽车。另外,Riffat等[5]基于ORP模型研究穿越地点与光照条件对交通事故中行人受伤严重程度的影响。胡骥等[6]利用北卡罗来纳州公路上翻车事故样本,基于Ordinal Logistic模型,进行翻车事故严重性影响因素分析。马柱等[7]进行Logistic回归模型拟合,采用混合逐步选择法对城市道路交通事故严重程度影响因素进行了分析。

追尾事故作为最常发生的事故类型,对追尾事故严重程度的研究也层出不穷。刘鑫鑫[8]对高速公路追尾事故分别构建了基于累计Logistic和SVM的严重程度预测模型,分别从驾驶员、车辆、道路、环境4个方面对高速公路追尾事故严重程度影响因素进行了分析。王鹏等[9]采用了北卡罗来纳州公路上事故数据,利用Ordered Probit模型对追尾事故严重性有关的11种影响因素进行了分析。而多车连环追尾事故作为追尾事故的1种,更是高速公路波及范围最广同时也最严重的事故形式之一。张吉光和邵维[10]对高速公路多车连环追尾事故影响因素进行了客观总结。Yau等[11-12]利用Logistic模型分别对单车碰撞和多车碰撞事故的影响因素进行了分析。

综合以上分析,目前通过已有事故数据对包括追尾事故在内的各种事故严重程度影响因素的分析较多,但对多车追尾事故影响因素的分析相对较少,更少有学者考虑将连环追尾事故作为追尾事故的一种更严重形式,对2种事故进行区分和分类,进而对产生连环追尾事故的影响因素进行深入分析。因此,笔者将追尾事故分为2车追尾与连环追尾2种情况,因变量是否产生连环追尾就是1个二元分类变量,通过大量事故数据建立二分类模型,来寻求影响2种事故产生差别的关键特征变量,从而更好的探究多车连环追尾事故的影响因素和产生机理。

1 支持向量机模型

1.1 模型简介

支持向量机(SVM)是一种分类技术,它以训练误差作为优化问题的约束条件,以置信范围值最小化作为优化目标,是基于机器学习理论背景下的结构风险最小化概念[13-14]。支持向量机广泛应用于文本分类、图像分类以及生物序列分析领域,它能够较好的解决传统统计学习理论遇到的高维数据、小样本、非线性和局部极小点等实际问题,尤其在解决二分类问题上发挥着重要作用。同时,支持向量机在事故严重程度的分类中也有广泛应用。Chen等[15]采用SVM模型研究翻车碰撞中驾驶员受伤害的严重程度。汪飞翔等[16]将水上交通事故严重程度划分3个等级,建立了SVM三分类模型,利用SVM-RFE算法筛选出对于事故严重程度影响最大的因素。Li等[17]同时用SVM模型和有序概率模型对事故中的损伤程度进行预测,得出SVM模型在因子影响评估方面优于有序概率模型。Yu等[18]也对比了SVM模型、固定参数Logit模型和随机参数Logit模型在碰撞伤害严重性分析中的应用,认为SVM模型能够较好对事故严重程度进行分类和预测。

基于此,笔者将追尾事故作为一个典型的分类问题,并且在给定训练数据集和测试数据集的情况下,使用SVM分类器对2车追尾事故和连环追尾事故进行分类,在分类过程中利用SVM-RFE算法对特征变量重要度进行排序。并通过一定的准确性评价方法对模型分类效果进行评价。

1.2 模型原理

支持向量机的主要目标就是将线性不可分的数据样本,通过核函数映射到高维数据空间,然后在高维空间进行分类,并构建1个超平面ωT×x+b=0,使不同样本类型间的隔离边缘最大化。其中,ω为最优超平面的权系数向量;b为常量参数;x为输入向量,对于n个训练样本其中xi∈T,T为样本特征参数构成的特征向量集合,yi∈{ }

-1,1为类别标签。满足约束条件的目标函数见式(1)。式中:C为惩罚系数,是1个大于零的常量,影响模型的偏向;(i=1,2,…,n)为松弛变量。模型中的参数都可以在模型的求解过程中进行求解。

SVM模型通常采用核函数来解决高维度问题。高斯核函数是最常用的一种核函数,它可以将数据映射到无限维,也称为径向基函数(RBF)。高斯核函数方程见式(2)[19]。

式中:γ为核函数参数,当核函数K(xi×xj)满足Mercer条件时,能将问题转化为1个凸二次问题规划,将高维空间的分类面计算问题转化为求核函数内积的计算。SVM决策函数为

式中:αi为拉格朗日乘子。

SVM 建模过程中可以通过递归特征消除算法(即SVM-RFE算法[20])给特征重要度进行排序。SVM-RFE算法是一个基于SVM的最大间隔原理的序列后向选择算法。它通过模型训练样本,对每个特征进行得分进行排序,去掉最小特征得分的特征,对保留的特征重新进行SVM建模和特征权重排序,不断迭代,直至只剩最后一个特征。SVM-RFE采用线性核函数,排序系数为

式中:wi为权重向量。

1.3 模型调参

通过以上的模型介绍可知,支持向量机是由参数C和γ构成的超参数函数,γ的大小与支持向量的多少有关,而支持向量的数量会影响训练和预测的速度,而对于系数C,其值越大,模型容易过拟合,而过小则导致欠拟合。因此,为使模型具有较好的训练和预测效果,并且避免拟合不当的现象,需要对模型进行调参。常规的调参方法是基于K折交叉的网格搜索法。首先将原始样本分成K个互不相交的子集;然后将每个子集数据分别做1次测试集,其余的K-1组子集数据作为训练集;最后将会得到K个模型分类精度,通过比较不同参数下的模型精度可以选取最优的精度,再通过网格搜索法(GridSearchCV)进行参数调参。网格搜索法是最常用的模型调参方法,即通过对于模型参数自动进行交叉验证,从而得到最优的结果的。

1.4 模型效果评价

SVM的分类精度可以用准确率、ROC和AUC等指标进行评价。

1)准确率。是指样本数据中准确预测的样本占总样本的数量。

式中:A为准确率;TP为正样本中分类正确的样本数,TN为负样本中分类正确的样本数;P为总的正类样本数,N为总的负类样本数。

2)ROC曲线(receiver operating characteristic curve)即受试者操作特性曲线。ROC曲线是1个重要的指标,通常用于评估二元分类器。ROC曲线有个很好的特性:当测试集中的正负样本的分布变化的时候,ROC曲线能够保持不变。在实际的数据集中经常会出现类不平衡(class imbalance)现象,即负样本比正样本多很多(或者相反),而且测试数据中的正负样本的分布也可能随着时间变化。ROC曲线能够很好的解决这个问题。ROC可以通过2个指标来计算,即真阳性率和假阳性率。

真阳性率和假阳性率的计算见式(7)~(8)。

式中:FN为将正类误报为负类的样本数;FP为将负类误报为正类的样本数。

3)Area Under Curve(AUC)。AUC表示ROC曲线下的面积,它可以用定量值评估支持向量机的分类效果,对于完美的分类器,AUC的值应为1。对于随机猜测分类器,AUC的面积为0.5。

2 数据准备

2.1 数据来源

笔者筛选了美国国家公路交通安全管理局(NHTSA)采样系统(NASS)通用估算系统(GES)采集并记录下的美国公路2013~2015年所有的追尾碰撞事故数据,将其分为2车追尾事故和连环追尾事故2种,将碰撞类型为追尾碰撞且涉及车辆为2辆的定义为2车追尾事故,涉及车辆超过2辆的定义为连环追尾事故。最终筛选出完整的事故数据共有:连环追尾事故7 877起;2车追尾事故30 660起。各年事故数量见表1。

表1 事故数量Tab.1 Number of accidents

2.2 数据筛选

由于原始数据在采集和录入的过程中可能存在各种问题,导致数据集中包含信息丢失、记录错误或异常的数据,进一步影响论文研究分析的准确性,因此需要对问题数据进行筛选、剔除,具体处理方法见表2。

表2 数据筛选方法Tab.2 Screening method

2.3 特征筛选

在处理完成的追尾事故分析数据中,以经验认知为基础,根据可能影响到2车与多车事故区别的相关因素,并结合国内外相关学者的研究现状,初步选取包括时间(季节、星期、1 d内的时间段)、驾驶人(年龄、性别、饮酒情况、避撞行为、与驾驶人有关的安全因素)、车辆(首车运动情况、碰撞后车辆的稳定情况、偏离车道情况、车辆类型)、道路(车道断面情况、车道数、限速、道路线型、路表情况、坡度情况)、环境(天气情况、照明情况、交通控制设备)这5种特征类型下的21个特征变量。

这21个特征变量,由于不同的特征属性及取值分布不同,每个特征对分类结果的贡献度不同。而对于分类问题来说,各个类别的差异与选取的特征有关,因此为降低无关特征对分类问题的影响,需通过特征筛选剔除冗余特征。基于决策树的特征选择算法常应用于数据挖掘中的特征筛选过程中,而随机森林作为一种集成分类树算法,该算法可以实现低偏差和低方差的分类结果,可通过改变样本特征,计算分类误差来评估特征对分类结果的贡献度[22]。因此,采用随机森林的方法剔除冗余特征。

运用Matlab软件编程,对上面21个变量进行随机森林特征贡献度计算,贡献度数值越高,表明特征对结果的影响越大。按贡献度从大到小排序,并求得累计贡献度,得到表3。根据前14个变量累积贡献率达到了0.902>0.9,剩下7个特征变量(驾驶人不安全因素、路表情况、年龄情况、是否有车辆偏离车道、道路线型、是否有车辆不稳定、是否涉及饮酒)对样本分类的累计贡献度不及0.1,相对较小,故将其剔除。最终,以贡献度较大的前14个特征作为SVM模型的输入变量,具体变量设置见表4。

表3 特征贡献度排序Tab.3 Sorting of feature contributions

表4 追尾事故影响因素及变量设置Tab.4 The factors affecting the rear-end accident and the setting of variables

3 模型构建与结果分析

3.1 基于SVM的事故分类模型的构建

通过将筛选出的14个变量作为输入变量,并选取了训练集和测试集以7:3的比例进行划分,构建SVM核函数,该模型选取径向基函数(RBF)作为SVM的核函数,训练过程K-CV折数为5折。通过网格搜索法对核参数寻优,设定C和g选择范围均为2-8~28,迭代的步长取0.5。经过反复调试后,最后确定核函数的2个最优参数组合γ=9和惩罚参数C=0.9。

训练SVM模型,并输入测试集进行模型测试,得到了支持向量机模型分类的结果见表5,通过2种事故的准确率对比可以发现,2车追尾事故的分类准确率高于连环追尾事故,这可能与2种事故数据量差距悬殊有关,2车追尾事故数(30 660起)约是连环追尾事故数(7 877起)的4倍,对模型的训练和测试能起到更好的效果。也可能是因为连环追尾事故涉及车辆数不一,从3辆到十几辆均有涵盖,数据统一性较差,特征相对不明显,对模型的训练效果相对不好。但模型总体识别精度(准确度)较高:训练集97.42%,测试集80.32%。这表明连环追尾事故和2车追尾事故之间存在显著差别,而且通过这14个特征变量能够较好的将2种事故区分开来,也就说明选取的特征参数是影响2种事故产生差别的原因。

同时,还得到二分类结果的ROC曲线,见图1。二分类结果的效果较好,ROC曲线下的面积AUC较大,其值为0.70,这表明在SVM对于连环追尾事故和2车追尾事故能够很好的进行分类和预测。

表5 模型准确率Tab.5 Model accuracy (%)

3.2 影响因素分析

由于模型能对2种事故较好的分类,根据SVM-RFE算法将影响分类效果的特征变量的相对重要度(以影响分类效果最大的特征的重要度为100%,计算其余特征相对其的重要性占比)绘制见图2。根据相对重要度排序,对分类结果影响较大的4个影响因素分别是碰撞前首车的运动情况、道路的限速、季节、车道数,其相对贡献度均超过25%,说明不同的首车运动情况、不同的道路限速、不同的季节及车道数都是影响2种事故产生差异的主要因素,为了了解具体在哪种情况下更容易发生连环追尾事故,还需对这4个主要影响因素进一步分析。

图1 二分类ROC结果Fig.1 ROC results

图2 相对重要度Fig.2 Relative importance

3.2.1 碰撞前首车运动状态

根据原始数据绘制碰撞前不同首车运动状况下2种事故的事故百分比对比图,见图3。折线为连环追尾事故占比与2车追尾事故占比的差值,虚线是差值为0时的分界线;虚线以上部分代表在此情况下连环追尾事故发生的比例要高于2车追尾事故在该种情况下发生的比例。

图3 碰撞前不同首车运动状况事故百分比Fig.3 Percentage of accidents in different first car sports conditions before accidents

从图3可以明显看出2种事故在不同首车运动状况下发生的比例有很大区别。连环追尾事故中发生在首车停车或减速的情况占极大比重,约为75%;发生在稳定直行时占比约19%;有6.3%发生在其他情况。而2车追尾事故更多的发生在稳定直行的情况下比约65%;发生在停车或减速的比例约为20%;有约15%发生在其他情况下。可以见得当首车急减速时更容易导致连环追尾事故的发生,这也与实际情况相吻合。当首车停车或减速时第2辆车追尾前往往也会紧急制动,导致第3辆车、第4辆车等因为反应时间过短而相继追尾。而当首车稳定直行时发生的追尾事故,更多的可能是因为后车加速或操作失误引起的,不易波及到后方车辆。

3.2.2 限速

图4 不同限速事故百分比Fig.4 Percentage of accidents in different speed limit

绘制2种事故在不同限速下的事故百分比对比图,见图4。由于原始数据是用英里每小时做为单位记录的,换算为国际标准单位(km/h)再取整,得到横坐标所示的数值。根据图4可见,2种事故在不同限速下发生的比例分布情况基本相一致,但观察2种事故占比的差值可以发现,连环追尾事故发生在限速大于80 km/h情况下的比例要普遍高于2车追尾事故发生的比例。2车追尾事故更多的发生在限速较低的情况下,其中发生在限速为72 km/h及以下的情况占比约71%,而发生在限速大于80 km/h的事故比例仅占29%。说明相比2车追尾,连环追尾更容易发生在速度较高的情况下,尤其容易发生在高速公路上。所以速度过高、驾驶人反应时间过短、需要的停车制动距离较长,也可能是由2车追尾演变成连环追尾事故的主要原因。

3.2.3 季节

根据图5可以看出,秋季2种事故的发生率都相对较高,冬季相对较低,这与不同季节人们的出行频率有关。另外,根据事故占比的差值发现,连环追尾事故仅在夏季发生的比例高于2车追尾事故,其他季节2车追尾事故发生比例均高于连环追尾事故,说明夏季多雨、炎热等气候特点可能是导致连环追尾事故频发的原因之一。

3.2.4 车道数

根据图6可以看出,在2车道上2种事故的发生率最高,这与美国公路的车道分布情况有关。根据事故占比的差值发现,当车道数大于2时连环追尾事故发生的比例均高于2车追尾事故,这说明连环追尾事故的发生与周围车道及交通量情况有关,更大的交通流密度及周边车道上车辆换道等行为的影响也会增加连环追尾事故发生的概率。

图5 不同季节事故百分比Fig.5 Percentage of accidents in different season

图6 不同车道数事故百分比Fig.6 Percentage of accidents by number of lanes

4 结 论

1)以美国公路3年的追尾事故数据为样本,以经验认知为基础,并通过随机森林累计贡献度进行特征筛选,最终选取了与时间、驾驶人、车辆、道路和环境有关的14个相关因素作为SVM的输入变量,建立了2车追尾事故与连环追尾事故二分类的SVM分类模型。模型得到了较好的分类准确率,表明连环追尾事故和2车追尾事故之间确实存在显著差异。

2)使用SVM-RFE算法得到影响分类效果的特征变量的相对重要度排序,根据相对重要度大于25%,得到4个对2种事故产生区别影响较大的因素,包括碰撞前首车的运动情况、道路的限速、季节、车道数。进一步分析发现,在首车停车或减速、道路限速超过80 km/h、夏季炎热多雨的气候以及车道数大于2车道的情况下都更容易发生连环追尾事故。驾驶人在车道数较多、限速较高的高速公路上行驶时更应该规范自身车辆的行为,尽量避免紧急制动,也不要随意变更车道,不影响后车和旁车的正常通行。同时驾驶人也应该保持警惕,一方面同车道上要注意保持车距,防止因前方车辆减速或停车没有足够的反应时间和减速制动距离而引起连环追尾事故的发生;另一方面要注意周边车辆的行为,防止其他车辆的突然换道而措手不及。

3)笔者从连环追尾与2车追尾的差别着手分析连环追尾事故的影响因素,为多车事故的分析提供了新角度、新思路,同时也为日后多车协同避撞研究及制定相关安全管理措施提供了参考和依据。但由于2种事故数据量差距悬殊、不平衡,分类结果不够理想,仍有完善的余地。另外,由于篇幅有限没有对导致连环追尾事故发生的几个因素进行更具体、更微观的分析,数据还有待深入挖掘。

猜你喜欢

连环车道事故
北斗+手机实现车道级导航应用
学中文
避免跟车闯红灯的地面车道线
浅谈MTC车道改造
五连环(三)
废弃泄漏事故
恼人的连环信
小恍惚 大事故
三连环
低速ETC/MTC混合式收费车道的设计与实现