APP下载

基于广义加性模型的高速公路交通事故影响因素分析

2020-07-13赵伟宁霍晓艳谷方德罗丽君

公路交通技术 2020年3期
关键词:交通量货车路段

赵伟宁,霍晓艳,谷方德,罗丽君

(1.哈尔滨工业大学 交通科学与工程学院,哈尔滨 150090; 2.哈尔滨工业大学(威海) 汽车工程学院,山东 威海 264209)

随着我国道路基础设施的不断完善,运输服务业飞速发展,但交通安全问题也日益严峻。在各等级公路中,高速公路的行车安全性尤其值得关注,高速公路事故总次数虽不及其他等级道路,但事故致死、致伤率高,单次事故造成的生命财产损失大。因此,深入研究高速公路事故,准确把握各因素对事故的作用规律,对提高高速公路安全性至关重要。

各类事故影响因素中,道路设计要素对事故的影响最为直接和显著,一直受到国内外学者的广泛关注。Ma等[1]证实了道路宽度、纵坡坡度与平曲线半径对事故有显著影响;Yu等[2]发现曲线路段、陡下坡将导致事故次数上升;孟祥海等[3]基于线形因素对追尾事故进行分析,得到了竖曲线半径对事故的突出影响;段萌萌等[4]将“桥隧比”引入高速公路事故预测模型。

事故分析目前常用统计分析法,可分为参数模型与非参数模型。由于非参数模型,如神经网络模型[5],无法直观地解析和量化各因素对事故的影响,因此在事故分析中的应用比较受限。参数模型主要以广义线性模型GLM(Generalized Linear Model)[6]为主,模型具体形式根据连接函数的不同又可分为:泊松模型[7]、负二项模型[8]、零膨胀负二项模型[9]等。GLM模型虽然形式简单且通用性较强,但模型的线性假设导致该方法难以表现事故与各因素间复杂的非线性关系。

总之,国内外虽从多方面对影响事故的因素进行了分析,然而部分因素对事故的影响到目前为止仍是未知的(如本文中的爬坡车道及隧道路段等)或尚存争议的(如平曲线曲率及大型车比例等[10]),因此有必要对影响事故的因素进行深入研究。此外,目前广泛采用的GLM均假定事故与各因素间呈线性(对数线性)关系,而由于各因素对事故影响的复杂性,该线性假设未必适用于所有的事故影响因素,因此,宜对GLM作进一步拓展以更合理地反映各因素对事故的复杂影响。

综上,本文的研究目的为:1) 从交通运行及道路设计等方面,准确识别事故影响因素并分析其对事故风险的影响,为交通管理及道路设计部门制定安全应对措施提供决策参考;2) 在GLM基础上,构建广义加性模型GAM(Generalized Additive Model)[11-12]以剖析各因素对事故的非线性作用机理,同时GAM的构建也可为事故影响因素分析提供方法借鉴。

1 数据描述

1.1 数据来源

数据来源于广东省与辽宁省境内的8条高速公路,见表1。其中,事故数据来源于高速公路各路段管理处;道路设计数据来源于高速公路设计部门(高速公路各路段均未进行过改/扩建或长时间封闭);历年交通量数据(包括年平均日交通量及货车交通量)来源于高速公路流量观测站及收费站。

表1 高速公路长度及事故数据汇总

1.2 建模样本组织

路段划分是开展事故次数分析及建模的前提。本文利用同质法原理,依据高速公路平曲线曲率、纵坡坡度及横断面设计要素,将高速公路划分成一系列路段单元。为保证建模可靠性及避免出现过多“零事故”观测值,将路段最短长度定义为0.16 km[2],最终得到5 528个路段单元。此外,隧道影响区设定为隧道洞口前后100 m;立交/服务区影响区设定为匝道出入口前后450 m。

本文以年为单位组织数据,即各路段每年数据为一个样本,最终得到了27 774个样本,其中,70%的样本用于标定模型(即训练集),剩余样本(即测试集)用于检验模型预测能力。

建模过程中,因变量为路段的事故次数,解释变量包含暴露变量(年平均日交通量和路段长度)、交通运行及道路设计等多种变量,见表2。

表2 变量描述性统计特性

注:*表示该变量为离散型变量。

2 研究方法

2.1 GAM模型结构

引入GAM之前,首先介绍GLM的结构。GLM实质上是增加了连接函数的线性概率模型:

(1)

式中:Y为因变量;X为解释变量;p为解释变量数量;β0为截距项;βj为解释变量参数;E(Y)为路段事故次数均值;g( )为连接函数,鉴于因变量为事故次数,故本文中的连接函数采用负二项模型。

GAM是GLM的非参数扩展,即使用未知形式的非参数函数项将式(1)中线性项进行替换,依然保留GLM模型的基本框架,其结构为[11]:

(2)

式中:s0为截距项;s( )为平滑函数,以指定因变量对解释变量的非线性依赖关系;m为平滑项数量,即模型中对因变量有非线性影响的解释变量数量。

针对本文构建的GAM说明如下:1) 因变量与各解释变量间并非全是非线性关系,模型中仅有m个解释变量对因变量存在非线性影响,其余变量对因变量为线性影响;2) 对于离散型变量,GAM无法使用平滑函数进行非线性拟合,因此,该类型变量与因变量间依然为线性关系;3) 对任一连续型变量Xj,依据皮尔逊相关系数r判断Xj与Y的线性相关性,且当|r|≤0.5时[11],采用平滑函数sj(Xj)进行非线性拟合;4) 模型标定过程中,采用薄板样条函数作为平滑函数s( )的基本形式,以解决多变量平滑函数估计问题。

综上,本文构建的GAM模型实质上是半参数/部分线性(Semiparametric/Partial Linear)模型,即事故次数与各影响因素间关系为:

(3)

GAM中的参数包括平滑函数s( )的自由度edf,解释变量参数βj以及截距项s0。此外,通过目标函数(由模型误差和模型复杂度组成)最小化保证样条曲线的平滑性:

(4)

式中:‖y-s(x) ‖为残差平方和;积分项为模型惩罚项,表示平滑曲线斜率变化率在某区间的累计值,用于衡量区间整体平滑性;λ为平滑参数,用于控制惩罚项在目标函数中的占比,决定误差与复杂度的作用效果,λ过高/过低将导致模型过平滑/欠平滑,本文采用形式较为稳定的广义交叉验证方法确定最优平滑参数λ[12]。

2.2 拟合优度检验

采用AIC(Akaike Information Criterion)准则评价模型的整体拟合优度,AIC越小,模型的拟合效果越好。

AIC=-2LL(β)+2p

(5)

式中:LL(β)为模型似然函数值。

此外,以Pearson′sχ2统计量评价各因素的平滑函数s( )是否具有统计学意义;以均方根误差RMSE(Root Mean Squared Error)与平均绝对误差MAE(Mean Absolute Error)衡量模型的预测精度,计算方法为:

(6)

(7)

(8)

3 模型标定结果

基于逐步回归法,剔除95%置信水平下的非显著变量后,最终构建的GLM见表3,GAM见表4、表5。

表3 GLM参数估计结果

注:AIC=44 677。

表4 GAM线性项估计结果

表5 GAM平滑项估计结果

注:edf为估计自由度,Ref.df为参考自由度,AIC=44 401。

表3、表4表明,GLM和GAM均识别出了以下10个对事故次数有显著影响的变量,分别为交通量(AADT)、平曲线曲率(C)、纵坡坡度(LG)、连续下坡长度(DDG)、路缘带宽度(MBO)、单向2车道(NL_2)、单向3车道(NL_3)、避险车道(ER)、爬坡车道(CL)以及基本路段(ST_B)。除上述变量外,GAM还识别出货车比例及纵坡坡度对事故次数有显著影响,即相比于GLM,GAM能识别出更多对事故次数有显著影响的因素。此外,由表5可知,GAM还识别出了交通量、货车比例、平曲线曲率、纵坡坡度及连续下坡长度对事故次数的非线性影响,各因素与事故次数间的非线性关系见图1(即GAM图像输出结果)。由图1平滑曲线可知,同一变量在不同取值区间对事故的影响趋势与影响程度是不断变化的,这种非线性关系可以更细致和直观地描述各因素对事故的作用机理。

在拟合优度方面,由AIC值可知,GAM(AIC=44 677)的拟合效果优于GLM(AIC=44 401)。

为对比分析GAM与GLM的预测能力,采用上述模型分别对训练集和测试集样本进行事故预测,并计算相应的均方根误差RMSE与平均绝对误差MAE,见表6。结果表明,GAM的预测能力优于GLM。

(a) 交通量

(b) 货车比例

(c) 平曲线曲率

(d) 纵坡坡度

(e) 连续下坡长度

注:实线表示解释变量的拟合平滑曲线,虚线表示平滑函数的逐点标准差。

图1 各因素对事故次数的非线性影响

Fig.1 Nonlinear impact of factors on crash frequency

表6 模型预测结果对比

4 事故影响因素分析

相比于GLM,GAM能识别出更多事故影响因素,且具有更高的拟合优度和预测精度,因此,该部分主要依据GAM输出结果对影响事故的因素进行分析。

4.1 离散型变量分析

事故次数与单向2车道、单向3车道呈显著负相关,即车道数越少,事故发生的可能性越低,潜在原因是:车道数较少时,车辆受到的约束较大,变道行为相对较少,因而事故风险较低。

路缘带宽度与事故次数呈显著负相关,即相比于路缘带宽度为0.5 m的路段,路缘带宽度为0.75 m的路段上的事故风险更低,表明侧向净空的增加有利于提升路段交通安全水平。

爬坡车道与事故次数显著负相关,即爬坡车道的设置不仅能提高路段通行能力,而且有利于交通安全。由于避险车道设置在连续陡下坡的事故多发路段,即避险车道为事故次数的内生变量,导致避险车道与事故次数呈正相关关系。

此外,基本路段的参数为负值,即高速公路基本路段上的事故风险低于立交路段[13];隧道路段与立交路段上的事故风险无显著差异。

4.2 连续型变量分析

对各连续型变量而言,其平滑函数的edf值(估计自由度)决定了平滑曲线的变化幅度,其值越大,表明解释变量对因变量的影响越显著。由表5可知,各连续型变量对事故的影响程度从大到小依次为:交通量>货车比例>平曲线曲率>纵坡坡度>连续下坡长度,即货车比例对事故存在显著影响,且其影响程度仅次于交通量,是不可忽视的重要影响因素,这也再次验证了GAM在识别事故影响因素方面的优势。

图1(a)中交通量与事故次数呈非线性关系[14],并存在相应阈值。当lnAADT<6,即交通量小于403 veh/d时,曲线较为平缓,交通量在此区间内的增减变化对事故无显著影响;当6≤lnAADT≤7.4,即交通量取值为[403 veh/d,1 636 veh/d]时,事故次数随交通量增大而增大;当7.4

由图1(b)可知,事故次数与货车比例之间同样存在复杂非线性关系:当货车比例为[0.1,0.3]时,事故次数随交通流中货车的增多而增大;当货车比例为(0.3,0.42)时,曲线较为平缓,即货车比例的变化对事故无显著影响;当货车比例为[0.42,0.55]时,事故次数随货车增多而显著上升;随后曲线在(0.55,0.7]区间内单调递减,即事故次数与货车比例呈显著负相关,潜在原因是道路上行驶的货车多于小型车,小型车在货车的压制下被迫减速,因而交通流速度差异变小;当货车比例大于0.7时,受到大货车严重限制的小型车开始不断变道超车,因而事故风险增大。

由图1(c)可知,平曲线曲率小于0.25,即半径大于4 km时,平滑曲线较为平缓,表明此区间内平曲线曲率的变化对事故次数无显著影响;当平曲线曲率为[0.25,0.6]时,事故次数随曲率的增大而增大;当平曲线曲率为(0.6,0.9)时,事故次数随曲率的增大而缓慢减小;当平曲线曲率为[0.9,1.4]时,平滑函数增幅明显,表明事故次数随曲率的减小显著增大;随后曲率达到1.4以上,此时平曲线半径小于0.714 km,路段限速值较低且驾驶员更加谨慎,因而事故风险小。

由图1(d)可知,纵坡坡度在达到0.8%之前,平滑函数单调递减且减幅较缓,对事故次数无显著影响;当纵坡坡度大于0.8%时,平滑函数呈近似直线单调递增,表明事故次数与纵坡坡度呈正相关线性关系。

由图1(e)可知,在连续下坡长度小于1.3 km时,事故次数随路段下坡长度增加而增大;当下坡长度达到1.3 km后,函数单调递减最终趋于平稳,在此区间内,随着坡长增大,事故次数随之减小直至不再随坡长变化,由于坡长已达到一定长度,因此相比于坡长较短的路段驾驶员更加谨慎[15]。

5 结论与展望

1) 针对高速公路建立GLM与GAM,对2种事故预测模型进行拟合优度检验,并分别采用GLM与GAM对事故次数进行预测,结果表明GAM的模型性能优于GLM。

2) 无论是GLM还是GAM,均识别出交通量、平曲线曲率、纵坡坡度、连续下坡长度、路缘带宽度、单向2车道、单向3车道、避险车道、爬坡车道以及基本路段10个显著影响因素,而GAM则在此基础上识别出了货车比例与纵坡坡度对事故次数同样具有显著影响,表明采用GAM进行事故分析能避免遗漏重要影响因素。

3) 事故次数与交通量、货车比例并非始终正相关,当交通量为(1 636 veh/d,4 447 veh/d]时,事故次数随交通量的增加而降低;当货车比例为(0.55,0.7]时,事故次数随货车增加而降低。此外,各因素平滑函数的增减转折点可作为分级研究的标准,且道路设计要素的函数增减阈值可为道路设计或改善路段行驶安全性提供参考。

4) GAM鉴别分析事故影响因素的能力有待进一步研究,例如将路面特性、天气条件及微观交通流条件等更多影响因素以及各因素间的交互作用纳入到建模变量中,模型及其分析结果将能更客观地反映各影响因素对事故次数的作用机理。

猜你喜欢

交通量货车路段
冬奥车道都有哪些相关路段如何正确通行
基于ETC门架数据的高速公路交通量转换探究
基于XGBOOST算法的拥堵路段短时交通流量预测
高速公路重要路段事件检测技术探讨
基于动态差法的交通量监测技术应用
基于元胞自动机下的交通事故路段仿真
基于元胞自动机下的交通事故路段仿真
智能OBU在货车ETC上的应用
高速公路补偿交通量模型研究
货车也便捷之ETC新时代!——看高速公路货车ETC如何实现