一个基于大数据频率分析的统计推理模型
2019-10-31刘惠华樊志伟利雅琳段春雨
刘惠华,樊志伟,利雅琳,段春雨
(广东电网有限责任公司中山供电局,中山528400)
0 引言
在人工智能应用研究中,使用大数据分析方法解决机器学习问题,实际上是一个求解目标函数(模型)的优化问题。如使用θ∈Θ(Θ是参数空间)表示模型的参数,则机器学习问题便转化为求θ的问题。
现代数理统计理论是大数据分析的理论基础,目前存在频率学派和贝叶斯学派两大主流学派,它们的差异表现在对研究对象认知层面上的不同。频率学派认为参数θ是固定的,模型数据是随机的;贝叶斯学派认为参数θ是具有某种分布的随机变量。对参数θ的认知不同,导致建立基于统计理论机器学习推理模型的方法也有差异。
频率学派使用研究对象的总体信息和样本信息进行建模;贝叶斯学派除了利用总体信息和样本信息外,增加了一个模型参数θ的先验分布概率信息进行建模。
频率学派统计建模的理论依据是大数定律,它是概率论与数理统计中描述当对研究对象的观察次数足够大时所表现出来的概率性质定律:随着样本容量n的增加,样本平均数将接近于总体平均数。大数定律为统计推断中依据样本平均数估计总体平均数提供了理论依据,大数定律有严格的数学证明。
本文是笔者在研究电力作业违章事故事件预控模型时,使用基于频率学派观点进行大数据分析建模的成果。选择基于频率分析的大数据分析建模方法,对电力作业违章事故事件这一研究对象是适合的,因为,到目前为止,我们还无法给出电力作业违章事故事件模型参数的先验分布概率信息。
本文工作成果解决了电力作业违章事故事件预控模型的建模问题。基于频率分析的大数据分析方法,揭示了人的不安全行为与电力事故事件的某种内在关系及规律,直接支持电力事故事件预控模型的开发。本文工作对其他行业研究开发基于大数据分析和数据挖掘的统计推理机器学习模型,同样具有直接和间接的参考借鉴意义。
1 基于频率分析的大数据分析方法
设刻画研究对象的特征向量为:(T1,T2,…,TM),特征Ti(i=1,2,…,M)的取值向量为:(Xi,1,Xi,2,…,Xi,ik),大数据分析的目标为:(G1,G2,…,GN),则使用表1 定义基于频率分析的大数据分析方法。
本文所述的大数据研究对象是广东某地市的电力作业违章事故事件大数据,刻画大数据使用了5 个维度77 个特征,5 个维度及特征分别是:作业维36 个特征、人员维18 个特征、环境维3 个特征、气象维8 个特征以及分析维12 个特征。
应用表1 定义的基于频率分析的大数据分析方法,对电力作业违章事故事件大数据进行分析,得到电力作业违章事故事件大数据分析表2。
表2 电力作业违章事故事件大数据分析
2 基于频率分析的统计推理模型
2.1 大数定律的应用
设电力作业违章事故事件大数据案例Wi有M 个特征Ti,1,Ti,2,…,Ti,M,各特征Ti,1,Ti,2,…,Ti,M彼此独立取值且对应违章、事故事件及正常工单的概率分别为:P1i,1,P1i,2,…,P1i,M,P2i,1,P2i,2,…,P2i,M及P3i,1,P3i,2,…,P3i,M,使用表2 的频率分析结果代替对应的概率,如下是定义案例Wi对应违章、事故事件及正常案例概率的计算公式。
(1)案例Wi第j 个特征对应违章概率P1i,j的计算公式
(2)案例Wi第j 个特征对应事故事件概率P2i,j计算公式
(3)案例Wi第j 个特征对应正常案例概率P3i,j计算公式
其中,k=1,2…,jk,jk 为案例Wi第j 个特征的取值个数,i=1,2,…,N,N 为案例数,j=1,2,…,M,M 为案例特征数。
2.2 电力作业违章事故事件大数据信息熵
信息熵是人们对客观世界研究对象某种认识(信息量)的度量,信息理论的开创者香农把信息熵定义为离散随机事件的出现概率。应用2.1 小节定义的概率计算公式,定义电力作业违章事故事件大数据案例Wi对应违章、事故事件以及正常案例的信息熵计算公式如表3 所示。
表3 电力作业违章事故事件大数据案例信息熵
表3 中Qj是案例Wi第j 个特征的权重,Qj=Kj/N,Kj 是第j 个特征的取值个数,N 是案例Wi所有特征取值个数之和,N 是一个常数。
2.3 基于频率分析信息熵推理机模型
可以选择K 均值聚类算法和最近邻算法设计基于频率分析信息熵的推理机模型。
下面是选择K 均值聚类算法设计基于频率分析信息熵推理机模型的步骤:
(1)计算电力作业违章事故事件大数据案例信息熵均值表,如表4 所示。
表4 电力作业违章事故事件大数据案例信息熵均值
(2)分别选取K=2,3,4,5,…,P,对表4 的所示的大数据案例进行均值聚类,可以得到P 个聚类模型。
(3)对上述P 个聚类模型进行交叉验证或使用实际电力作业案例进行验证,从P 个聚类模型中选出最优分类的聚类模型作为推理机模型。
3 应用实例
3.1 电力作业大数据案例资源
电力作业大数据案例数据资源由六类数据组成,第一类是正常作业工单数据,第二类是违章作业工单数据,第三类是事故事件作业工单数据,第四类是广东电网某地市自2016 年1 月1 日至2018 年3 月31 日的气象资料数据,第五类是广东电网某地市电网设备地理环境数据,第六类是广东电网某地市作业人员资料数据(含第三产业作业人员)。
第一类和第二类数据来自于广东电网某地市2016年1 月1 日至2018 年3 月31 日的工作票作业工单数据,第三类数据来自于国内自2003 年到目前为止公开发表的电力行业事故事件数据。第一、二、三类数据资源的分布情况如图1、图2 及图3 所示。
图1 正常作业案例分布
图2 违章作业案例分布
图3 事故事件作业案例分布
3.2 实际应用结果
本文使用电力作业大数据案例资源训练的基于频率分析信息熵推理机模型(以下简称模型),对广东电网某地市电力作业数据进行验证,如下是验证结果小结。
(1)对人工监管发现的违章工单识别能力的验证
将广东电网某地市提供的2018.4.1 到2018.7.31人工监管发现的349 个违章工单作为作业工单输入模型,得到模型输出的结果如表5 所示。
表5 模型识别人工监管发现的违章工单能力验证
(2)对同期作业工单发现违章工单能力的验证
将广东电网某地市提供的2018.4.1 到2018.7.31的7243 个作业工单输入模型,与同期人工监管发现的198 个违章工单进行比对分析,比对结果如表6 所示。
表6 对同期作业工单发现违章工单能力比对
表5 同期人工监管发现的违章工单数量是349宗,而表6 同期人工监管发现的违章工单数量是198宗。注意,表5 与表6 中同期人工监管发现的违章工单数量是不一致,表6 剔除了其中的人工监管发现的151 宗违章工单,因为这151 宗违章工单不包含在模型输入的7243 个作业工单里面。
4 结语
本文讨论了目前大数据分析两大主流学派(频率学派和贝叶斯学派)对客观世界研究对象认识层面的差异,指出在人们对客观世界研究对象的先验知识不足并可以得到足够多的样本数据情况下,应用基于频率分析的大数据分析方法,可以挖掘出隐含在大数据资源中有价值的信息,进而建立基于统计推理的机器学习模型。
本文为基于频率分析的大数据分析方法及数据挖掘提供了一个可以直接借鉴的案例,同时也对进一步探讨基于频率分析的大数据分析方法的理论和应用提供了实际应用的支持。本文的研究工作对其他行业的大数据分析及数据挖掘也具有参考借鉴的意义。