APP下载

基于两级结构的电网运行断面特征选择与在线生成

2020-11-09吴云亮邓韦斯姚海成苏寅生周毓敏

科学技术与工程 2020年27期
关键词:特征选择准确性断面

吴云亮, 邓韦斯, 姚海成, 苏寅生, 周毓敏

(中国南方电网电力调度控制中心, 广州 510000)

电网运行断面是电力系统调度运行监控的重要内容。美国大停电、加拿大大停电、印度大停电等电网事故表明,及时、准确地生成与监控电网运行断面,对确保系统安全稳定运行,防止事故扩大具有重要作用[1-2]。

传统模式下,电网运行断面生成主要是从电网物理特性出发,采用图论、复杂网络理论等相关理论对电网分区,从而实现对运行断面的辨识[3-5]。文献[3-4]以系统中厂站地理位置为初始状态,形成初始分区,利用图论中割集算法生成分区间运行断面。文献[5-6]则利用复杂网络理论,利用社团发现方法中的GN分裂算法对网络实施深度分区,以提高网络分区与网架特征的匹配程度;文献[7]在传统复杂理论分区方法基础上进一步优化,提出了线路枢纽性评价指标,改进提升分区效果。

近年来,随着电网发展,特别是新能源大规模接入和电力现货市场的改革深化,电力系统对运行断面在线生成的需求日益迫切[8-10]。而上述传统运行断面生成方法由于需要对电网物理特性进行大量复杂的分析判定,耗时较长,难以满足实时运行需要。为此,采用机器学习等人工智能算法实现运行断面的在线自动生成成为当前电网运行控制领域研究的热点[11-12]。文献[13]提出了一种电网运行仿真大数据架构,在此基础上提出了一种基于改进支持向量机模型的关键断面是否生效判定方法,通过将运行断面与电网运行特征参数校验,判断运行断面是否起作用。文献[14]利用机器学习中的聚类算法,提出了一种基于改进K-means算法的运行断面相似性匹配方法,通过电网特征参数聚类,定位相似运行场景,从而为运行断面生成提供参照。文献[15]则采用K-邻近法,利用选定的电网特征参数对运行断面进行聚类分析,在线生成运行断面。

由于现代大电网规模庞大,利用机器学习有关算法解决运行断面生成问题时,将面临规模庞大的运行状态参数。准确高效地实施特征选择,不仅是避免“维数灾”、提升计算效率的必然途径,也是消除干扰因素、提升判定准确性的有效方法[14]。

为此,针对电网运行断面在线生成问题实际特点,提出了基于两层模式的特征选择与在线生成方法。第一层采用过滤式特征选择,剔除大量无关的干扰因素,输出基础因素集。第二层采用包裹式特征选择,在基础因素集中进一步利用序列后向搜索算法,输出生成准确性最佳的在线生成智能体。并基于中国某地区电网数据构造算例,验证所提出方法的有效性。

1 两层结构实施框架

1.1 特征选择实施框架

利用机器学习算法解决电网运行断面在线生成的核心思路是通过对电网运行历史数据挖掘,研究电网运行状态参数与运行断面之间的对应关系,据此训练形成运行断面生成智能体,并将其用于在线分析。然而电网运行状态参数规模异常庞大,表1列举了文献[14]所提出的13个方面运行断面生成中所需要考虑的电网运行状态参数类型。参照该类型划分,以中等规模的地市级电网220 kV主网架为例,其电网运行状态参数将超过500项。不加区分地将所有运行状态参数均用于机器学习训练,将导致出现参数“维数灾”问题。

表1 电网运行状态参数类型

为此,提出一种基于两层结构的电网运行断面特征选择与在线生成方法,其实施框架如图1所示。基本思路是从电网运行历史数据出发,利用所提出的两级结构运行断面特征选择与生成方法逐一分析各运行断面的在线生成特征因素集,并输出对应的在线生成智能体;从电网实时运行数据中提取特征因素集中各因素的实时参数,由各智能体输出其对应运行断面的状态,并生成该状态下的运行断面集。

两级结构的运行断面特征选择与在线生成方法是上述实施流程的核心。在该框架下,第一层为

图1 实施框架Fig.1 Implementation framework

基于过滤式结构的特征选择层。在该层中,庞大的电网运行状态参数将构成初始因素集,过滤式特征选择层将从消除重复因素和无关因素两个维度出发过滤初始因素集,输出基础因素集。将采用Fisher分和信息增益两种过滤式特征选择方法,分别从特征类别距离角度和概率统计角度对电网运行参数进行特征选择;并将两类选择结果交叉处理,取其交集作为输出量,以获得同时满足两方面要求的因素。第二层为基于包裹式结构的特征选择与智能体训练层,该层中将采用序列向前算法动态调整所选择的基础因素集,通过跟踪调整基础因素集中的因素,同时得到满足训练精度要求的运行断面特征因素集和与之匹配的运行断面生成智能体。

1.2 生成智能体算法选择

机器学习是一种多学科交叉专业,其根本特征在于利用计算机对历史经验的学习实现对人类分析判断过程的模拟,以解决聚类、选择、判断等实际问题。典型的机器学习算法包括神经网络算法、决策树算法、强化学习算法、支持向量机算法等。

与其他算法相比,支持向量机算法具有较为严格的统计学理论基础,能够较好地解决非线性、小样本下的数据分析问题,具有较好的数据泛化能力[16-18]。为此,选用支持向量机作为运行断面生成智能体的核心算法,其模型和算法可参考文献[16-18]。

1.3 智能体训练评价指标

对于单个运行断面,仅存在生成或不生成两个输出状态。因此,其智能体训练中采用准确率指标评价智能体训练效果,可表示为

(1)

式(1)中:AC_R为评价结果准确率;N为智能体校验环节中样本数;N1为智能体输出结果正确的样本数。

2 过滤式特征选择

2.1 基于Fisher分的过滤式特征选择

所谓Fisher分本质上是一种对不同类样本离散程度的量化评价指标,其公式为

(2)

在利用Fisher分进行运行断面特征选择时,其实施流程如图2所示。其包括以下实施要点。

(1)Fisher分计算与因素排序。根据待分析运行断面在训练集中是否生成,将样本划分为正类、负类两个类型,其中正类为该运行断面生成的训练样本集合,负类反之。利用式(2)依次计算初始因素集中各因素的Fisher分值,并将其按照从大到小的顺序排列。

(2)依次构建运行断面生成判定支持向量机智能体,并计算准确性评价指标。先给定一个空集合Ω。按照Fisher分值排列后的因素顺序,依次将因素添入集合Ω中。以训练集数据为基础,构建基于集合Ω的支持向量机智能体;将智能体用于校验集,计算其准确性评价指标。

(3)选定准确性最高的分类器,并输出其对应的因素集Ω。待遍历所有因素后,统计并定位所有组合方式下验证集准确性指标最大的支持向量机智能体。该智能体对应的集合即为基于Fisher分法选定的基础因素集H。

图2 基于Fisher分的过滤式特征选择流程Fig.2 Filter feature selection process based on Fisher score

2.2 基于信息增益的过滤式特征选择

所谓信息增益是指某项因素加入因素集合后,该集合信息熵的增加幅度。信息增益可表示为

J(A)=Info(D)-InfoA(D)=

(3)

利用信息增益进行过滤式特征选择时,其实施流程与Fisher分方式下流程基本一致,区别在于因素排序的依据是其信息增益,而不是Fisher分。规定利用信息增益法所得的基础因素集为K。

2.3 交叉处理

Fisher分和信息增益法分别从两个维度对初始因素集中因素进行了特征选择。Fisher分侧重于从因素相关性角度出发,筛选出与待分析运行断面联系最紧密的因素集;而信息增益法更侧重于因素变化过程分析,筛选出于待分析运行断面变化模式最接近的因素集。

过滤式特征选择需要兼顾两个方法选择的差异。为此,将两种方法选定的基础因素集作交集,输出最终的基础因素集,即

L=H∩K

(4)

式(4)中:L为第一层过滤式特征选择层所输出的基础因素集。

3 包裹式特征选择与智能体训练

经过第一层过滤式特征选择,能够剔除大量非相关的“噪声”因素。为进一步降低因素维度,提高其生成准确性和有效性,第二层将采用序列后向包裹式特征选择算法实施特征选择。

序列搜索算法是一种经典的包裹式特征选择算法,按照搜索方向不同,可分为序列后向搜索和序列前向搜索。序列后向搜索是指基于给定的因素集合,每次剔除一项因素,直至集合所对应的智能体评价指标能达到最大。序列前向搜索则与之相对,是指每次增加一项因素,直至获得最大评价指标。考虑到经过第一层过滤,基础因素集中的因素数量已经较少,因此选用序列后向搜索算法。

基于序列后向搜索的第二层过滤式特征选择与生成智能体训练实施步骤如图3所示。该实施过程包括如下实施要点。

(1)计算基础因素集下的准确性评价指标。将第一层所输出的基础因素集作为特征集,利用历史数据训练支持向量机智能体;并统计训练完毕的支持向量机智能体在验证数据集的准确性评价指标。

(2)遍历基础因素集中所有因素,计算并统计剔除一项因素后新因素集的准确性评价指标。遍历基础因素集中所有因素,逐一将其从基础因素集中剔除,并基于剔除一项因素后的因素集训练智能体,计算其准确性评价指标。统计所有因素剔除后的准确性评价指标。

(3)判定新因素集下准确性评价指标变化情况。将上一步中所得的准确性评价指标最大值与原基础因素集对比。若新因素集准确性评价指标更大,则将该因素集替代原基础因素集,返回步骤(1),重复上述过程;否则,搜索结束,输出基础因素集和训练所得的运行断面生成智能体。

图3 基于序列后向搜索的包裹式特征选择流程Fig.3 Wrapped feature selection process based on sequential backward search

4 算例分析

4.1 基础数据

截取南方某省区一地区电网,在其基础上简化构造算例,以验证所提出方法的有效性。简化后该地区电网220 kV网架结构如图4所示。该网架结构图中共有变电站节点10座,发电厂节点6座,输电线路26条。

图4 算例网架Fig.4 Power grid in the case

算例中选取了2018年全年逐日运行状态作为基础数据,将1—11月逐日运行参数作为训练数据集,并将12月上半月数据作为校验数据集,下半月数据作为测试数据集。

采用文献[4]所提出的运行断面生成方法,对全年数据分析共得到运行断面5项,分别为:①线路12→13双回+线路11→6双回;②线路12→13双回+线路6→7双回;③线路13→14+线路6→7双回+线路13→15;④线路16→15双回+线路16→7+线路16→8;⑤线路16→15双回+线路16→7+线路8→7。

4.2 特征选择分析

按照表1中介绍的电网运行断面生成中所需要考虑的运行状态参数类型,该算例中所涉及的初始因素集共142项。

以运行断面①为例,提出的运行断面特征选择各阶段所选择的因素数量变化如图5所示。经过第一层过滤式特征选择,基础因素集共有14项因素。其中,经过Fisher分过滤后剩余20项,信息增益过滤后剩余19项,两者取交集后剩余14项。在此基础上进一步利用包裹式特征选择对14项因素甄别,经过5轮逐次后向搜索剩余7项特征因素。

图5 特征因素数量变化Fig.5 The changes of numbers of characteristic factors

进一步观察各阶段所筛选出来的因素集,表2中分别给出了特征因素集、基础因素集独有、H独有、K独有四个类型集合中的因素。可以发现所选择的因素均与该运行断面所形成的封闭分区有关,包括该分区内发电厂发电功率、变电站负荷和线路运行状态。最后所得的特征因素集为该分区与主网相连的线路运行状态和分区内的发电厂有功功率,与传统调度经验所得的直观结论相一致。

表2 各环节特征选择结果

4.3 在线生成效果分析

进一步利用所生成的运行断面在线生成智能体对测试数据集计算分析。统计逐日各时段测试分析结果,并计算当日均值。如图6所示,当月准确性评价指标达95%,最低准确率为80%,也即最多存在1个运行断面判定不准;而每次计算耗时不超过10 s,完全能够满足调度运行在线分析决策要求。

图6 测试情况分析Fig.6 Test analysis

5 结论

提出了一种基于两层结构的电网运行断面特征选择与在线生成方法,能够通过对历史数据的挖掘分析,在线生成电网运行断面,对支撑电力市场改革不断深化下系统运行控制具有重要作用。展望后期还有如下研究内容有待进一步研究。

(1)研究基础数据高效修正方法,解决智能体训练过程中由于基础数据质量不足导致训练失败的问题。

(2)研究适应规模小样本的智能体训练算法,以提升智能体的训练效果。

(3)研究特征选择中的专家库算法,在特征选择过程中引入专家经验,提高训练效果。

猜你喜欢

特征选择准确性断面
正交基低冗余无监督特征选择法
一种精确的轮胎断面束缚方法
高深度大断面中深孔一次成井技术探索与应用
浅谈如何提高建筑安装工程预算的准确性
理解语境与名句的关系,提高默写的准确性
超大断面隧道初期支护承载力学特性及形变研究
茂名市开展全面攻坚劣Ⅴ类国考断面行动!
基于词向量的文本特征选择方法研究
基于特征聚类集成技术的在线特征选择
Kmeans 应用与特征选择