APP下载

基于主成分分析的多变量决策树在接线方式识别建模工程化实用化应用探讨

2016-07-06侯广松孟会增吴翠娟国网菏泽供电公司山东菏泽74000山东安信源信息技术有限公司山东济南5000

电子测试 2016年12期
关键词:决策树

高 军, 侯广松, 孟会增,吴翠娟(.国网菏泽供电公司,山东菏泽,74000;.山东安信源信息技术有限公司,山东济南,5000)



基于主成分分析的多变量决策树在接线方式识别建模工程化实用化应用探讨

高 军1, 侯广松1, 孟会增1,吴翠娟2
(1.国网菏泽供电公司,山东菏泽,274000;2.山东安信源信息技术有限公司,山东济南,250100)

摘要:本文提出一种用于电网接线方式识别的工程化实用化技术,该技术基于主成分分析的多变量决策树,利用机器监管学习的决策树原理,建立电力系统接线方式智能识别软件结构。采用决策树的思想训练接线方式特征模型样本,生成分类器,实现了未知情况下的接线方式识别,且能够不断进行接线方式特征模型学习,对新出现接线方式进行精准的分类识别。

关键词:主成分;多变量;决策树

0 引言

接线方式识别在电力系统主要的基础软件都有体现,例如EMS,PAS等。主要通过人工识别和程序判据条件两种方式实现,但效率十分低下,识别判据十分不灵活,没有很好的归类和反馈,鲁棒性不好,容易出现无法识别,甚至是误判和漏判,维护的成本很高,且工作量巨大。

本文利用机器学习中的监管学习的决策树原理基于主成分分析的多变量建立了接线方式智能识别软件结构,并采用决策树的思想训练接线方式特征模型样本,生成分类器,能够进行未知情况下的接线方式识别,具有较好的鲁棒性,且能够不断进行接线方式特征模型学习,对新出现接线方式进行精准的分类,维护成本低。

1 数据准备

数据准备模块根据电网模型数据构建接线方式特征模型,对模型特征数据进行处理,优化模型特征,为构建决策树提供模型数据,提高决策树的分析精度。

1.1 电网模型与接线方式基础特征

本文根据CIME电网模型文件构建电网模型,建立结构化设备树形台账,然后在电网模型中查找连接关系设备集合API,实现电力系统中重要设备的统计,最后通过搜索统计电网特征的接口,构建接线方式基础特征模型。

1.2 模型样本数据标准处理

此环节在上一步建立的模型基础上,训练样本的抽样,对抽样之后的电网模型导出相应的接线方式及其特征模型。为了满足决策树学习的要求,本环节将考察样本模型能否覆盖所有可能出现的情况。

1.3 接线方式属性特征转换

本文通过获取原始接线方式属性特征,并考察已有原始数据集属性特征中必要的信息,自动地进行接线方式属性特征构造,利用设置特征条件、设置设备特征配比、设置设备连接特征条件的方法构造接线方式属性特征,完成新旧属性特征转换。

1.4 特征模型优化

本步骤主要是训练模型优化,是业务分析的难点,建立的模型维度和训练的可靠性直接影响着识别器识别结果的准确性。

接线方式特征模型的属性间往往存在关联关系,如果不加选择模型特征,直接使用,大量混杂的特征,会使分类决策条件冗余,因此在决策树无法计算时信息增益差异不明显,导致决策树过于简单或过拟合。在模型维度选取的时候,本文采用特征向量,正交矩阵等分析方法,选取最优特征。具体实现方案采用主成分分析(PCA)的思想将n维特征映射到k维上(k

维度选取分析过程通过利用主成分分析找到最大方差理论、最小错误理论和坐标轴相关度理论,寻找各维度因素线性无关的标准正交特征向量,这样获得的模型特征选取减少了噪音、冗余、过度拟合的可能性。

1.5 重新归一化

在筛选模型特征时候,主成分分析会形成数据模型标准化与归一化,形成连续数据区间(0,1)和无量纲的数据。类似二分法的办法有自己的特点,但在现实中假定分类与属性取值存在几何分布概率的情况并不通用,会大大降低分类精度。为了便于理解结果,更好的反映数据分类与属性值的关系,有必要对数据反归一化,本方案选用基于属性变换的多区间离散化方法将连续数值属性转换为类别的概率属性,这样在决策树环节按照信息增益率划分的指标就转换成了寻找最大概率指标,而寻找最大概率的指标存在一个变化的区间之内,这样的情景更加符合现实情况。通过以上步骤接线方式特征模型建立完毕,下面进行决策分析。

2 决策分析

2.1 构建决策树

选用算法 C4.5 构建决策树(Decision Tree),决策树由算法划分样本直接产生,每个叶子节点表示一个特定的训练数据子集,训练数据集中的每个样本只属于一个叶子节点,也就是说,任何一个给定的样本通过决策树只能得到一个预测结果。C4.5模型对大量的输入数据非常有效,训练时间短并且较其它模型更容易理解。

2.2 决策树修剪

决策树构建过程中,随着递归深度的增加,剩余属性的减少和算法支持的样本数量不断减少终止,降低了算法的时间复杂度,保证了收敛性,但是也使得算法在较深层次的样本划分中,过于使用于样本集合中某个子集的统计特征,而忽略了各类样本的整体分布情况,造成了对噪音数据的敏感。因此,一个完整的决策树构造过程还应包含对决策树的剪枝处理,其目的就是为了消除由噪音数据生成的分支所引起的过度拟合现象。

构造过程中,需要对决策树进行修剪,这样做是为了将一个过于特殊的或合身的树一个更一般的形式,以提高未知样本数据集其预测能力,主要采用两种方法,预先修剪和事后修剪。

用ID3算法对接线方式流失问题进行分析时,可以区分不同流失接线方式的群组及每一群组的潜在流失因素。

决策树正确识别率统计表

3 决策预测

本文通过模型学习获取相关信息构建决策模式,通过决策树模型学习相关信息,输入预测模型,根据模型中样本数据进行预测,并将其记录,反复学习,完成决策模式构建。基础的决策预测中样本数据与数据准备步骤相同,具有完全相同的数量,顺序,类型和角色属性,唯一不同的就是不需要对于预测列进行设置,所有所需的参数都存储在模型对象中。

决策预测可以使用以IF—Then形式形成分类规则,组成规则集。沿着给定路径上的每个“属性——值”对形成IF部分的一个合取项,叶节点包含的类预测,形成Then后的部分,将规则存入规则库,生成分类器,实现未知接线方式识别。

4 模型解释和校验

本方案采用K一折交叉确认方法对决策树进行评估,K-折交叉验证就是把数据分成K份,然后用K-1份(训练集)去训练模型,剩下的一份(测试集)去测试模型的效果。因为有K份,所以测试集可以有K份。

由训练数据集生成决策树模型后,再使用测试数据集进行验证得下表:

从表中可看出,采用阈值系数为0.3的时候,系统自动识别效果较好。

5 结论

本文的分类器在已知接线主要特征判定各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,这样就避免了传统软件的中的固定判据的思路,而且针对数值类型的属性,自动断定判断判定系数阈值。针对重复出现的问题图形和特殊图形,有较好自动适应能力,识别率非常高,针对是误判和漏判通过数学概率的方式,无须修改判据和程序扩充升级等,解决了识别接线的时候的鲁棒性,提高了识别的效率和准确性。并且用图形的方式展示确定的决策判定条件,可动态调整判定系数,满足工程化使用要求。

参考文献

[1]王玉珍.基于数据挖掘的决策树方法分析[J].电脑开发与应用. 2007(5).

[2]赵翔,刘同明.基于主成分分析的多变量决策树构造方法[J].计算机应用研究,2005,(9): 37-38.

[3]魏晓云.决策树分类方法研究[J].计算机系统应用,2007(9).

Based on principal component analysis of multivariate decision tree in the connection mode identification modeling engineering practical application

Gao Jun1,Hou Guangsong1,Meng Huizeng1,Wu Cuijuan2
(1.State Grid Heze Electric Power Company, Heze of shandong province,250012,2.Shandong AnXinYuan Information Technology co., LTD., jinan of shandong province,250100)

Abstract:This paper presents an engineering practical for grid connection mode recognition technology,the technology is based on principal component analysis of multivariate decision tree,using supervised learning machine principle of decision tree based power system connection mode structure of intelligent recognition software. Connection mode characteristic model by adopting the idea of decision tree training samples,the generated classifier,realized the connection mode identification of unknown circumstances,and able to ongoing connection mode feature model to study,to identify the precise classification of emerging connection mode.

Keywords:principal component;multivariate;decision trees

猜你喜欢

决策树
基于决策树和神经网络的高血压病危险因素研究
基于梯度提升决策树的量子科学实验卫星光学实验预测
基于节点匹配代价优化的随机森林算法
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
面向分布式数据流大数据分类的多变量决策树
决策树多元分类模型预测森林植被覆盖
基于决策树的出租车乘客出行目的识别
基于模糊关联规则和决策树的图像自动标注
基于肺癌CT的决策树模型在肺癌诊断中的应用