APP下载

基于负二项模型区域日度事故预测及影响因素分析*

2020-06-17马社强

交通信息与安全 2020年1期
关键词:交通事故天气规模

何 庆 马社强 李 洋

(1.北京警察学院道路交通管理系 北京 102202;2.中国人民公安大学治安与交通管理学院 北京 100038)

0 引 言

随着我国城市快速化发展、城市规模不断扩大、大型和特大型城市不断涌现、机动车保有量不断增长,城市交通事故处于高发态势,不仅带来了人员伤亡和经济损失,也给城市交通运行带来了巨大的影响[1-2]。某些特殊事件会造成事故规模的急剧上升。如,2016年,西安一场大雪让122事故报警增加了9.7%[3],给城市带来了严重交通拥堵。传统的区域交通安全评价是以年度或者月度数据为基础,但这限制了城市交通安全管理精细化水平。因此,准确预测城市区域日度交通事故规模,并发掘各种影响因素,有助于提升交通管理部门的应急处突水平和事故预防措施的针对性。

Kiran等[4]总结大量的研究后指出,事故预测模型中解释变量主要有人车路基本条件、交通流特性、气象、照明条件和交通管理措施等5个方面。由于城市人车路基本条件和照明条件在短期内(2~3年内)变化不大、而交通管理措施难以量化,因此,对区域交通事故预测模型的解释变量主要是从交通特性和气象条件2个方面考虑。

道路交通流数据容易获得,区域路网交通流数据不易获得。路网交通流与日期性质关系非常密切,因此可以用日期性质代替交通流特性,作为解释变量。其中,月份、一周内各天、节假日等因素,影响城市路网交通运行状态[5],进而影响着城市交通事故规模[6-9]。

气象条件是导致交通事故发生的重要因素,但研究主要集中在气象条件对事故率、事故伤害程度的影响方面。针对提升应急救援水平和交通安全规划,部分文献研究了气象条件对区域交通事故规模的影响。国内在这些研究方面已取一些成果[10-14],国外也有大量此类研究[8,15-19]。纵观这些研究,总体上呈现3个特点:①这些研究表明,影响交通事故的气象条件主要是降雨量、降雪量、气温、能见度等因素;②各气象因素对交通事故规模的影响,不同研究的结论也是不同的,依然存在争议[14,19];③国外部分研究综合考虑气象条件、日期性质对区域交通事故规模的影响[8,15],而国内很少有综合考虑这2个方面因素的研究。

基于此,笔者搜集北京市某区域的交通事故、气象条件和日期性质的日度数据,利用负二项回归模型,对该区域日度事故进行预测,并分析气象条件和日期性质对区域日度交通事故的影响。

1 数据准备和分析模型

1.1 数据准备

1.1.1 事故数据

中国的交通事故采用一般程序、简易程序和当事人协商等3种方式处理。前2种方式处理的事故,被录入到统计系统。而当事人协商处理的事故虽然占总体的绝大多数,但未被录入统计系统,以往传统研究缺少对其分析,使得部分结论不完整或不够准确[20]。但这3种方式处理的交通事故都在122报警台中留存了记录。因此,笔者以122报警记录数作为区域交通事故分析基础,确保研究结论更加全面、准确。

1.1.2 气象数据

通过中国天气网,获得日最高气温、日最低气温、相对湿度、能见度、天气情况等5个因素的数据。由于日最高气温与日最低气温之间存在着高度线性相关,因此对其处理成日平均气温和温度差,日平均气温和温度差之间无相关性。天气情况包括晴、阴、雾、多云、浮尘、霾、扬沙、小雨、小到中雨、中雨、中到大雨、大雨、雷阵雨、阵雨、小雪、小到中雪、中雪、中到大雪、大雪、雨夹雪等20种类型。以晴作为参照组,根据天气情况,生成19个哑变量。选择天气情况而非降雨量或降雪量,一方面受到数据获取渠道的限制,另一方面降雨量、降雪量对交通安全的影响具有非线性[21],将降雨量处理成分类变量,基本满足数据精度需求。因此,所建立的模型共考虑了23个气象方面变量。

1.1.3 日期性质

与日期有关的变量有月份、一周内各天、假日、节日、限行、时间长度等6个变量。

假日是1个虚拟变量,编码时以1表示假日,0表示非假日。

全年有7个影响力较大的节日,分别是:元旦、春节、清明节、五一劳动节、端午节、中秋节、国庆节。节日前1 d和后1 d,特别是春节前后,其交通情况可能异于其他日期。模型中需要考虑到这些情况,按照节日、节日前、节日后进行三分类,共计生成7×3=21个哑变量,以1表示该天处于某个节日中或节日的影响日中,以0表示非该天影响范围内。

月份是1个有12个水平的分类变量,以1月为参照组,生成11个哑变量。

1周内各天是1个有7个水平的分类变量,以周一为参照组,生成6个哑变量。

所统计的范围处于北京限行区域内,限行是存在8个水平的分类变量。这8个水平分别是限行尾号为(1,6)、(2,7)、(3,8)、(4,9)、(5,0)等5种情况,限行尾号分别为偶数、奇数的2种情况,以及不限行这1种情况。以不限行为参照组,根据限行这一分类变量,生成7个哑变量。

为了衡量时间趋势对事故规模的影响,以1 d为单位,设置1个时间长度的连续变量,以2012年1月1日为第1 d,开始计数。

综上,经过变换后,日期性质相关的变量共计47个。

1.2 分析模型

负二项广义线性回归模型是一种最常见的用于交通事故预测的模型,特别是它被用于分析非随机的聚集性的计数资料。负二项分布受到μ和α这2个参数影响,μ为总体均数;α为离散参数,α值越小,分布的方差与均数的比值就越接近1;α值越大,分布的方差与均数的比值就越大。负二项分布的概率函数形式见式(1),其中Y=0,1,2,…。

对于服从负二项分布的离散型随机变量,针对影响因素分析可采用负二项回归。负二项回归模型与Poisson回归模型类似,是针对事件发生数λ建模:或λ=exp(β0+β1×x1+β2×x2+…+βm×xm)。模型中假设各自变量对事件数的影响是指数相乘的,则回归系数β1的解释为当其他自变量不变时,自变量xi改变1个单位,Y平均改变量之对数值。

选择数据分析软件R作为数据分析工具,采用MASS包中glm.nb函数拟合数据,而采用step函数,采用向后逐步回归的方式剔除不显著变量,选择赤池信息量准则(AIC)信息统计量最小的模型作为最终模型。

2 模型分析

2.1 模型拟合

2.1.1 模型拟合效果

以2012—2014年共3年的数据作为训练集,涉及气象相关变量23个、日期性质相关变量47个,同时考虑1 d在星期内分布和尾号限行之间交互效应,建立负二项回归初始模型,模型的AIC值为10 236.84,采用逐步回归剔出不显著因素,得到简化模型,该模型的AIC值为10 208,与原始模型相比较,AIC值小幅下降,这表明不显著因素对模型的拟合效果影响较小。

根据拟合模型的偏差统计量,得到模型的伪R2值为0.645,说明模型拟合效果较好。

2.1.2 模型参数估计

简化模型共有51个显著参数,由于模型参数过多,不列出模型的数学形式,仅展示参数估计结果,见表1。表1中最后1列为模型参数的方差膨胀因子,用来评估各个参数的共线性水平。由表1可以看出,参数的VIF值均小于4,表明各参数之间的共线性较低。

2.2 模型预测效果分析

2.2.1 预测效果

以时间为横坐标,以交通事故数为纵坐标,绘制2015年日度交通事故数的实际值和预测值,见图1。其中,实线表示实际值,而虚线表示预测值,可见模型的预测结果与实际情况基本相同,预测效果较好。

很多文献采用平均绝对误差(MAPE)评价预测效果,但如果预测期内出现异常情况,则平均绝对误差作为评价指标不太合理,且仅以1个平均值作为评价指标不够全面。因此,笔者采用预测期内相对百分误差的4分位数作为预测精度评价指标。

计算绝对百分误差见式(2)。

式中:δ表示绝对百分误差;pred表示预测值;actu表示实际值。

将2015年每1 d的预测结果(百分误差)以时序图的形式绘制出来,见图2。

统计未来1年的绝对百分误差值的4分位数,见表2。其中平均值就是平均绝对百分误差(MAPE)。

2.2.2 预测效果评价

从表2可以看出,预测期内百分误差的中位数为17.04%,平均值为18.57%,均小于20%,第75百分位为23.87%,小于25%,这表明模型预测精度较高,基本满足了应用需求。现有部分交通事故预测模型,预测误差小于10%,优于本模型,但那些模型多用于预测交通死亡事故数或死亡人数,而交通死亡事故数或者死亡人数波动较小,决定了其预测精度较高。而日度事故数波动幅度较大,预测难度高,因此本文所提出的模型的预测精度是可以接受的。此外,需要说明的是,预测期内百分误差最大值为198.43%,出现在2015年9月3日附近。这是因为,此时城市举行阅兵活动,交通出行规模下降幅度较大,事故规模也随之降低,导致实际值远低于预测值,出现特别大的误差。

表1 模型的参数估计结果Tab.1 Estimation of the parameter in the model

图1 对未来1年该区域内日度事故数的预测Fig.1 Prediction for the daily number of road accident about the area in the next year

图2 2015年1年内各天预测效果百分误差Fig.2 The error of the prediction in next year

表2 预测百分误差的概括Tab.2 The summary of the error

2.3 影响因素分析

2.3.1 日期性质对事故规模的影响

从节假日的系数来看,节假日一般会降低交通事故规模。但影响程度由高到低依次为春节、国庆节、清明节、中秋节、端午节、五一劳动节、元旦。春节和国庆节期间居民外出旅游较多,清明节居民外出扫墓较多,区域内交通出行规模明显下降,事故减少。与元旦、五一劳动节相比,中秋节、端午节等传统节日的事故规模更少。但2个节日前的交通出行规模普遍增加,交通事故增加,节日后的交通出行规模普遍下降,交通事故减少。需要注意的是,与预期相比较,春节前事故规模并未明显下降,春节后事故规模也未立即回升。因此,春节对北京市交通事故影响还有待进一步研究。

从模型中月份的相关系数来看,与1月相比较,2月、3月交通事故规模下降,7月、9月、10月、11月、12月交通事故规模有所增加,其他月份事故规模与一月持平。其中9月的交通事故最为突出,是预防重点时段。

从1周内各天的相关系数来看,与周一相比较,周二到周六的交通事故规模都有所增加,而周日的事故规模与周一持平,事故规模较小。该结论与国内很多相关研究指出的周一事故多、周六日事故少的观点相悖。但与文献[7]的结论更为接近。文献[7]指出,在伦敦城区周一事故最少,然后依次增加,至周五事故最多,但周六日事故较少。对此可以解释为,在周六区域内居民出行规模仍然较高,而周日出行规模较低。在周一居民经过休息后,精力更好,更加守交通秩序,事故规模少,而其他时间事故规模有所增加。特别是周五,驾驶人较为疲惫,且整体出行规模高,事故多。

从时间长度的系数来看,系数的值为负数,表明该区域的交通事故规模呈现缓慢下降趋势。

从限行相关参数的系数来看,尾号限行对交通事故规模影响较大。特别是对尾号为偶数或者奇数的车辆进行限制行驶时,事故规模下降最大。但当限行尾号为4和9时,事故规模没有下降。这与国人对4忌讳有关,尾号为4和9的车辆保有量较小有关。

2.3.2 气象条件对事故规模的影响

从模型中天气的相关参数的系数来看,在22种天气中,大雪、中到大雪、浮尘和扬沙等4种天气下事故规模与晴天持平,高于其他16种天气下事故规模。同时,在7种雨天天气和8种雪天天气中,随着雨量和雪量的增加,事故规模逐步下降,但随后又都会所上升,转折点为中到大雨和中雪。

非晴朗天气会增加事故规模,这也得到了很多研究的支持[8,13]。但也有研究表示不同观点,文献[16]指出与欧洲多雨地区不同,少雨的雅典地区事故规模会随着降雨的出现而减少。究其原因,首先,非晴朗的天气,城市居民更倾向于选择公共交通[22],城市整体交通量下降;其次,非晴朗天气使得驾驶人更加小心谨慎;最后,交通安全管理水平也会干预非晴朗天气对事故的影响,如,文献[17]指出在发达国家,随着管理水平提升,降雨量对事故的负面影响逐步降低。

综上可以认为北京市该区域针对非晴朗天气,采取了有效管理措施。如,通过交通安全宣传,提示驾驶人高度重视非晴朗天气的交通安全问题,鼓励居民采取公共交通出行等。但需要注意的是,浮尘、扬沙、中到大雪、大雪等4种天气下,事故规模与晴朗天气相等。而中到大雨、大雨、中到大雪、大雪相对其他雨雪天气对事故成正向影响。因此,这6种天气值得关注。

从气温的相关参数的系数来看,日平均气温越低、温度差越大,事故规模都会增大。这个结果与文献[10]一致,而未见于其他文献,值得关注。究其原因,是在全年尺度上,随着温度下降,更容易发生降雨、降雪和结冰等情况,导致事故增加;而温度差大,则是伴随着天气剧烈变化而产生,这使得人们不太适应,也会导致路面冻融交替以及形成冷凝水等情况的出现,增加事故发生。文献[15]指出,在旱季和雨季交替之际事故多发,也从侧面佐证了本文的研究结果。

3 结 语

在考虑气象和日期性质的影响下,基于负二项回归技术,建立了对北京市某个地区日度交通事故预测模型。从对2015年的预测效果和伪R2值来看,模型预测精度初步满足了应用需求。

从影响因素分析来看,限行、月份对事故规模的影响,与经验认识基本一致,但更加准确。节假日会使得事故规模下降,与经验认识基本一致,但端午节、中秋节以及国庆节3个节日的前1 d事故规模上升,值得关注。受到大城市生活节奏影响,1周内,周一、周日事故规模小,而从周二到周六,事故规模逐步上升。特别是周六的交通安全形势值得关注。与现有国内研究不同,研究表明,与晴天相比较,多数非晴朗天气事故规模更低。这表明,管理水平可以有效控制非晴朗天气对事故规模的影响。但浮尘、扬沙、中到大雨、大雨、中到大雪、大雪等6种天气影响仍然会相对较高,特别值得关注。而气温下降以及温度差增加,都会导致事故规模增加。从事故与时间长度关系来看,事故规模整体上呈现下降趋势。这表明该地区的交通管理水平正在稳步提升。

猜你喜欢

交通事故天气规模
对上下班交通事故工伤认定的思考
50亿元!目前规模最大的乡村振兴债券发行
天气冷了,就容易抑郁吗?
谁是天气之子
预防交通事故
盛暑天气,觅得书中一味凉
Weather(天气)
规模之殇
Mentor Grpahics宣布推出规模可达15BG的Veloce Strato平台
一起高速交通事故院前急救工作实践与探讨