基于极限学习机的交通事故严重程度预测

2018-10-09王立晓

交通科技与经济 2018年5期

李涛，王立晓，左志

(新疆大学建筑工程学院,新疆乌鲁木齐 830047)

随着经济的发展和城市机动化水平的飞速提升，道路交通事故日益增多，对人们的生命财产安全产生了巨大威胁，交通事故研究逐渐成为交通领域重点关注的问题之一。交通事故的研究目的除了减少交通事故数量以外，同时也需要降低交通事故的严重程度。

近年来，国内外研究人员对于交通事故严重程度的研究做了大量工作。人工神经网络方法因其在模式识别及预测方面的优势受到了学者的青睐，在交通事故严重程度预测方面的应用十分广泛。Dursun Delen[1]利用国家汽车抽样系统通用评估系统，考虑人、车、环境、事故及其他信息，建立了严重程度五分类和二分类的BP神经网络模型，结果二分类的模型较五分类预测要好。C. OH[2]利用行人发生事故的数据，考虑行人的年龄、车辆的类型以及碰撞速度等因素，将事故严重程度分为两类，建立了行人致死概率神经网络预测模型。Darçin Akin[3]将因变量分为致命事故、受伤事故及财产损失事故三类，建立事故类型与事故属性(例如时间、天气、照明和路面状况、司机和车辆特性等)之间的BP神经网络模型，预测美国密歇根州的马科姆县交叉口事故的严重程度。F. Rezaie Moghaddam[4]考虑网络结构(采用一层隐含层或两层隐含层)和学习规则的不同，建立了不同的BP神经网络模型，考虑到伊朗德黑兰公路的人、道路、车、天气及交通特征因素(包括交通量、速度)，预测城市道路事故的严重程度。Mehmet Metin Kunt[5]将事故严重程度分为三类，利用德黑兰-库姆高速公路的相关事故数据，分别建立遗传算法、遗传算法与模式搜索的组合、BP神经网络模型，预测司机受伤的严重程度，且比较了三种模型的预测性能。易富君[6]建立了遗传算法优化的径向基(RBF)神经网络，预测西汉高速公路隧道群的交通事故严重程度(即安全等级)。Qiang Zeng[7]提出一种凸组合(convex combination)算法用于快速稳定地训练神经网络，用N2PFA算法优化网络结构的神经网络模型。利用佛罗里达州公路安全局提供的双车碰撞数据集建立新的神经网络模型，并且与传统BP神经网络比较，结果表明，改进的神经网络比BP神经网络预测要好。Dahai Liu[8]利用佛罗里达州的两车事故数据集，建立了BP神经网络，预测是否发生受伤事故，并对模型进行了灵敏度分析。Liu Wenjun[9]将胸部受伤程度分为六类，车辆撞击速度和行人年龄作为输入变量，建立BP神经网络模型，预测重庆人车事故中行人胸部受伤程度。L. Mussone[10]利用城市道路交叉口的数据，以5 min间隔考虑交通量对交通事故的影响，建立了BP神经网络预测模型。

综上所述，对于交通事故严重程度的预测，学者们研究了不同区域，并采用多种类型的数据，考虑了各种相关影响因素建立预测模型。在方法上，众多学者采用BP神经网络及改进的BP神经网络等多种神经网络模型。但在这些研究中，涉及城市交通事故的整体数据(包括人车数据和多车数据等)，或分别采用人车数据、多车数据建立神经网络进行交通事故严重程度预测的研究很少，同时尚未发现将较新的机器学习方法应用到该领域的研究中。

本研究拟采用极限学习机方法对交通事故严重程度进行预测，该方法是基于传统神经网络上的一种重要改进。BP神经网络作为在人工神经网络中使用最广泛的网络，因为其独特的优点，非常适合应用在多输入、存在非线性复杂关系的交通事故严重程度预测的建模中。极限学习机作为对单隐层BP神经网络的改进，克服了BP神经网络需要设置大量网络训练参数和容易产生局部最优解问题，在交通事故严重程度预测中有着潜在而广泛的应用空间。本研究利用某城市的道路交通事故数据，将事故集分为整体事故(未按事故状态分类)、人车事故、多车事故，分别用BP神经网络和极限学习机建立模型，并对模型结果进行比较，以验证极限学习机方法的有效性及该方法相比于BP神经网络在预测性能等方面的优劣。研究结果表明，极限学习机作为一种新兴方法在交通事故严重程度预测上是一种有意义的探索，并且可为事故严重程度的预测提供一种新思路。

1 模型的影响因素

交通事故的严重程度预测受到多种因素的影响，从国内外研究来看，交通事故严重程度的预测主要考虑人的因素、车的因素、道路因素以及环境因素。对于交通事故严重程度的划分，国内外学者根据实际情况，将事故严重程度划分为二分类、三分类以及五分类等。本文将事故严重程度作为二分类变量，分为死亡事故和非死亡事故；借鉴国内外学者对事故严重程度预测所考虑的影响因素，将难以量化的变量剔除，本文的影响因素考虑及自变量设置如表1所示。

表1 模型使用影响因素及自变量设置

续表1

当某个变量有k(k>2)个分类时，模型引入(k-1)个虚拟变量，将变量变为0-1变量。以时间段的变量为例，变量分为4类，需要引入3个虚拟变量，如表2所示。

表2 时间段的虚拟变量

2 BP神经网络和极限学习机简介

BP神经网络结构的选择十分重要，网络结构选择是否合理直接关系到网络能否收敛。结构选择合理可减少网络的训练次数，提高网络的预测精度。BP网络结构的选择主要涉及到网络输入层神经元个数、输出层神经元个数、隐含层神经元个数、学习算法的确定等。

2.1 BP神经元个数的确立

输入层神经元个数：输入层神经元个数为19。

输出层神经元个数：输出层神经元个数为1。

隐含层神经元个数

式中：n为输入层神经元个数，m为输出层神经元个数，a为1～10之间的常数，M为隐含层神经元个数。

2.2 BP神经网络的学习算法和简介

为克服传统的标准BP神经网络算法本身收敛速度慢、模型训练容易陷入局部最优的问题，本文采用收敛速度快、计算精度高的LM算法(Levenberg-Marquardt)训练网络。

选定3层形式的BP神经网络，LM算法的计算过程参照文章[11]。

2.3 极限学习机理论

极限学习机属于单隐层前馈神经网络。设p，M，q分别为极限学习机网络的输入层神经元个数、隐含层神经元个数和输出层神经元个数，则存在N个不同样本的(xi，ti)，其中xi=[xi1,xi2,xi3…,xip]T∈Rp，ti=[ti1,ti2,…,tiq]T∈Rq，激活函数为g(x)的单隐层极限学习机的统一数学模型可表示为

j=1,…,N.

(1)

式中：wi=[wi1,wi2,…,wip]T为连接第i个隐含层神经元和输入层神经元的权重；βi=[βi1,βi2,…,βiq]T为连接第i个隐含层神经元和输出层神经元的权重；ci为第i个隐含层神经元的阈值；wi·xi为wi和xi的内积。

激活函数有Sigmoid函数、径向基函数等。隐含层M个神经元和激活函数为g(x)的极限学习机在网络理论上可无限逼近N个样本，也就是说存在βi，wi和ci能够使

(2)

进一步可表示为

Hβ=T.

(3)

其中

H(w1,…,wM,c1,…,cM,x1,…,xp)=

(4)

矩阵H为网络样本的隐含层输出矩阵；矩阵H的第p列为受输入层输入变量x1,…,xp影响的第p个隐含层神经元的输出。

满足

(5)

相当于使网络输出值与期望值得到的误差最小

(6)

如果隐含层神经元个数M与训练样本的数量N相一致，即M=N，当输入权重wi和隐含层神经元阈值ci任意选择时，矩阵H为方阵并且是可逆的，所以，该单隐层极限学习机可以无误差地学习这些样本。

3 实例分析

为比较两种模型的预测性能，并验证两种模型的可靠性和计算精度，将两种模型的网络结构设置为一层隐含层，然后以从某市取得的道路交通事故数据为例进行实例分析。

3.1 数据来源

选择某市2010—2015年道路交通事故数据，以事故形态将事故数据划分为整体事故数据、人车事故数据、多车事故数据三大类，其中整体事故是所有事故形态的数据。整体事故数据3 744起；人车事故数据1 442起；多车事故数据2017起。为比较BP神经网络与极限学习机的预测性能，参照相关文献[12]，随机选取80%的样本作为训练集，随机选取20%的样本作为测试集。数据集汇总如表3所示。

表3 数据集汇总

3.2 网络学习和检验

由于数据是分类变量，经过对变量的合理赋值后，将影响因素作为输入、事故严重程度作为输出，BP神经网络使用LM算法，极限学习机使用sigmoid激活函数。以训练集和测试集的误差在0.3以下、训练集准确率高于测试集的准确率、训练集准确率较高为准，经过对BP神经网络和极限学习机的训练，得到BP神经网络三类事故的合适隐含层神经元个数，均为10个，而极限学习机整体事故数据的隐含层神经元个数为2 995，人车事故数据隐含层神经元个数为30，多车事故数据隐含层神经元个数为20。两者的网络结构如图1所示。

BP神经网络整体事故的网络训练误差变化曲线如图2所示。

图2 BP神经网络的整体事故误差变化曲线

图2中，纵轴是均方误差，横轴是迭代次数，图例中Train表示训练集的误差曲线，Validation表示验证集的误差曲线，Test表示测试集的误差曲线，Best表示验证集取得的最小均方误差，Goal表示设定的网络训练误差目标值。从图2可以看出网络开始时训练集的均方误差接近0.5，经过训练后网络的均方误差下降到0.2以下，说明网络学习在改善。Validation用于验证网络的推广性能，当推广性能停止提高时，表示网络已达到最优状态。从图2可以看出网络的最佳验证性能是在迭代次数为2的时候取得。

图3 BP神经网络的人车事故的误差变化曲线

人车事故的网络训练误差变化曲线如图3所示。图3中可以看出网络开始时训练集的均方误差接近0.8，经过训练后网络的均方误差下降到0.2以下，说明网络学习在改善。Validation用于验证网络的推广性能，当推广性能停止提高时，表示网络已达到最优状态。从图3可以看出网络的最佳验证性能是在迭代次数为3的时候取得。多车事故的网络训练误差变化曲线如图4所示。

图4 BP神经网络的多车事故的误差变化曲线

从图4可以看出网络开始时训练集的均方误差接近0.4，经过训练后网络的均方误差下降到0.2以下，说明网络的学习在改善。Validation用于验证网络的推广性能，当推广性能停止提高时，表示网络已达到最优状态。从图4可以看出网络的最佳验证性能是在迭代次数为3的时候取得。

为抵消随机因素的影响，取相同的训练和测试样本运算20次，统计准确率。BP神经网络和极限学习机训练集的均方误差(MSE)和准确率相比较，如表4所示。

表4 BP与极限学习机训练集的误差与准确率比较

测试集的均方误差和准确率比较如表5所示。

表5 BP与极限学习机测试集的误差与准确率比较

从表4、表5的结果可以看出，在整体事故中极限学习机的训练集准确率相比于BP神经网络提高了14.28%。另外，测试集中极限学习机的均方误差比BP神经网络的要大，但模型的预测精度反而提高，说明极限学习机的容错性较好。在人车事故训练集中，BP神经网络比极限学习机准确率要高的情况下，测试集中，极限学习机比BP神经网络的准确率反而要高。在多车事故训练集中，同样地BP神经网络比极限学习机的准确率要高，在测试集中极限学习机的准确率反而比BP神经网络的要高。另外，在人车与多车事故中，测试集中极限学习机比BP神经网络误差小的情况下，测试集的准确率有所提高。在极限学习机模型中，整体事故与人车事故、多车事故相比，需要更多的隐含层神经元个数，说明在整体事故中，影响因素与事故严重程度之间存在更复杂的非线性关系。最后，总体上极限学习机网络要比BP神经网络预测的性能要好。

4 结论与展望

本文在某城市交通事故数据基础上，将其分为整体事故、人车事故及多车事故三类。考虑时间、气候、道路物理几何条件等影响因素，用极限学习机方法构建了预测交通事故严重程度模型，同时构建基于经典BP神经网络的交通事故严重程度模型，并将极限学习机的预测结果与BP神经网络的预测结果在预测精度上进行比较。两种模型的预测结果表明：极限学习机方法构建的预测模型，在整体事故、人车事故、多车事故分类数据下，其预测精度优于BP神经网络模型。该方法应用于交通事故预测研究尚属首次，可为交通事故严重程度预测提供一种新的思路和研究方法。

本研究中，由于数据内容等原因，没有将人、车的影响因素加入到模型中进行考虑，未来需要加入该方面的内容，以期对交通事故严重程度影响因素进行更为全面的考量。此外，从本文的预测结果可知，模型预测的精度有待进一步提高，未来研究可考虑将极限学习机方法与其他方法进行混合，进一步提高模型的预测精度。