APP下载

基于OLAP的道路交通事故影响因素分析

2018-10-22惠宝锋冯桂莲王咏宁

软件工程 2018年7期
关键词:交通事故数据挖掘

惠宝锋 冯桂莲 王咏宁

摘 要:本文通过数据挖掘相关基础进行数据库搭建,选取2002—2016年数据进行OLAP分析,通过数据切片及数据向下钻取,将二维数据转换成三维数据进行深度剖析,结果显示全国道路交通事故影响因素主要集中在机动车超速行驶及逆向行驶中,其中驾驶人行为尤为突出。在Eviews软件中对数据进行预测分析发现道路交通事故存在非线性关系,并且预测了未来三年的道路交通事故数量及伤亡数量,数据显示出道路交通事故呈逐年下降趋势。

關键词:数据挖掘;联机分析处理;交通事故;预测分析

中图分类号:TP319 文献标识码:A

文章编号:2096-1472(2018)-07-21-03

1 引言(Introduction)

随着社会的发展与进步,汽车已经成为人们生活中必不可少的交通工具,目前汽车总量已经达到2017年中国大概有2.45亿辆,随着汽车与交通运输给我带了便捷的同时,也带来了事故频发的交通事故。早在1994年瑞典推出了交通“零伤亡愿景”计划,力争在2020年前实现道路交通事故零死亡和零重伤率[1]。国外的许多学者运用线性回归、Logistic回归、神经网络等手段分析交通事故严重程度与人的特性、车辆速度、道路条件和交通环境之间的关联性[2]。

本文通过数据挖掘基本理论[3],建立道路交通事故数据库[4,5],通过OLAP(OnLine Analytical Processing,联机分析处理)及经济计量视图软件Eviews,对2002—2016年交通事故数据进行抽取分析,切块与切片等数据处理,试图通过交通事故数量及类型分析[6],来揭示对道路交通事故影响的主要因素,通过制定相关法律、法规等政策,最终进行道路交通事故预测及分析[7,8],试图从数据挖掘的角度来预测交通事故未来的走向。

2 道路交通事故分析系统构建(System construction)

通过《中国统计年鉴》中的“交通事故”相关内容分别对全国各要省及直辖市从2002—2016年道路交通事故数据进行收集与整理,并建立了交通事故基本数据库(Traffic Accident),其内容主要涉及内容包含地区表及交通事故分类表,地区表包含32个省及直辖市的交通事故总发生数、总死亡人数、总直接财产损失,如图1所示。类表是全国数据汇总数据包括事故总数、特大事故、重大事故、机动车、非机动车,以及行人等导致的交通事故总和,如图2所示。

本文根据Traffic Accident数据库所建立的基本数据模型,分别建立表之间的关系试图,将全国各地区所发生的道路交通事故数据进行对比和分析,将其中交通事故较高的地区的具体数据引入SPSS统计软件进行线性分析,如图3所示。

从图3结果中可以看出大部分地区的道路交通事故发生频率在逐渐减少,只有个别地区故数量在上下波动,但大致呈现出递减趋势,且经济发达地区高于不发达地区,死亡人数也更多,北京地区受到严格的交通法规及政策的影响,交通事故发生率相对较低。

3 道路交通事故数据分析(Analysis of road traffic accident data)

我们通过OLAP对所获得、加工后的数据进行切片和钻取,对交通事故的各个影响因素进行分析和构建,从中得到影响交通且造成交通事故的影响因素主要包括:行人和乘客的因素、环境因素、驾驶人及车辆因素等。其中主要是驾驶人的因素最为直接。通过对驾驶人因素进行切块与切片分析,影响原因包含了超速、酒后驾驶、违法变道、不安规定路线行驶、违反交通信号灯、违法占道、占用公交专用道、无证驾驶、毒驾等多种因素,我们将选取一些典型的因素进行三维数组分析。如图4所示。

在进行分析处理上我们首先对驾驶人数据进行了二位数组的采集,在建立的二位表的基础上向下进行钻取数据,通过在多层数据中来进行更详细的数据分析,最终得到以车类型(机动车与非机动车)、时间(2014—2016)、事故具体因素为三维数组图。如图5所示,从图中可以看出超速行驶与违法逆行造成的交通事故较多,监管部门应当加强监管。

在行人及乘客因素中通过切片可以看出行人主要是由于违反交通信号和其他影响安全的行为所导致的交通事故,环境因素中导致交通事故的主要因素是道路总体路况,气候环境及行人为按信号灯过马路和道路信号灯故障等。

4 道路交通事故预测分析(Prediction analysis)

由于道路交通事故数量随时间变化是非线性相关的,我们将数据引入Eviews中,对给定区间的交通事故数据进行非线性测量,预测2018—2020年道路交通事故结果如表1和表2所示。

根据表1和表2预测数据在Eviews进行校验,在具体应用中我们利用所获得的数据对数据进行分析,再此基础上利用间接代换方法对对数函数进行非线性模型预测,分别得出预测期内的道路交通事故数量分布图、全国道路交通事故受伤人数数量分布图、全国道路交通事故死亡人数数量分布图及预测数据图。如图6—图9所示。

从以往数据及进行OLAP分析图中我们明显看出,随着社会发展与道路交通规则及相应的法律约束,及其宣传等工作,交通道路事故的总体事故发生率、交通事故死亡认识、其受伤人数及财产损失都有明显下降趋势,在进行预测的基础上对分析结果进行了间接替换法进行模型校验,表明符合非线性相关关系,证明所用分析方法可以进行道路交通事故数据的预测分析。

5 结论(Conclusion)

本文利用数据挖掘基础进行联机数据处理,建立相关数据库,并全国各个主要省份交通事故进行统计,在此基础上通过OLAP进行系统分析,取得影响交通安全的主要影响因素,通过对数据的切块及切片处理,向下钻取了三维数据表,显示出影响交通安全的因素主要来自机动车,在机动车分类中驾驶人成为主要因素,而且形成交通事故因素为超速驾驶和逆向行驶,在最后我们利用经济计量视图软件Eviews对全国交通事故进行了三年的预测分析,通过间接代换方法进行预测,结论符合非线性对数函数模型,符合预测分析要求。预测发现在未来三年随着时间的推移,交通事故发生数量在逐渐缩短,同时伤亡和死亡数量也呈下降趋势。

参考文献(References)

[1] GUO Hongling,QIAO Ting,SONG Xiaojiao,et al.The Application of Inductively Coupled Plasma Mass Spectrometry in Trace Evidence Examination[J/OL].刑事技术,2016(06):470-475.

[2] 《中国公路学报》编辑部.中国交通工程学术研究综述2016[J].中国公路学报,2016,29(06):159-161.

[3] PEI Yu-long,MA Ji.Countermeasures for traffic accidents due to road conditions in China[J].Journal of Harbin Institute of Technology,2005,12(4):358-364.

[4] 惠宝锋,管庆春.物联网分布式数据库系统优化研究[J].无线互联科技,2016(06):14-15.

[5] 许劭庆,马彪,安海英.基于数据挖掘的网管告警处理方法研究[J].软件工程,2016,19(12):17-19;9.

[6] 章胤,赵文慧,包恒玥,等.基于k-means和关联度分析的网络招聘信息数据挖掘[J].软件工程,2017,20(05):10-14.

[7] 王元卓,贾岩涛,刘大伟,等.基于开放网络知识的信息检索与数据挖掘[J].计算机研究与发展,2015,52(02):456-474.

[8] 张亚军,刘宗田,周文.基于深度信念网络的事件识别[J].电子学报,2017,45(06):1415-1423.

作者简介:

惠宝锋(1977-),男,硕士,讲师.研究领域:信息管理与信息系统,大数据基础应用.

冯桂莲(1979-),女,硕士,副教授.研究领域:软件工程,图像处理.

王咏宁(1971-),男,硕士,副教授.研究领域:虚拟仪器技术及应用.

猜你喜欢

交通事故数据挖掘
对上下班交通事故工伤认定的思考
探讨人工智能与数据挖掘发展趋势
不同寻常的交通事故
预防交通事故
基于并行计算的大数据挖掘在电网中的应用
一起高速交通事故院前急救工作实践与探讨
一种基于Hadoop的大数据挖掘云服务及应用
傍晚是交通事故高发时段
数据挖掘的分析与探索
基于GPGPU的离散数据挖掘研究