基于电厂工况划分的模糊C-均值聚类算法研究

2016-12-07王惠杰李鑫鑫许小刚

电力科学与工程 2016年11期

关键词：均值蒸汽能耗

王惠杰, 李鑫鑫，许小刚，王品

(1.华北电力大学能源动力与机械工程学院，河北保定071003；2.大连发电有限责任公司，辽宁大连116021)

基于电厂工况划分的模糊C-均值聚类算法研究

王惠杰1, 李鑫鑫1，许小刚1，王品2

(1.华北电力大学能源动力与机械工程学院，河北保定071003；2.大连发电有限责任公司，辽宁大连116021)

火电机组在运行过程中产生大量的历史数据，而目前所使用数据分析方法仅仅对这些历史数据进行简单的分类和统计，并不能对这些数据所隐含的规律进行挖掘。利用相关性分析对某电厂的实时数据进行研究，从大量的机组运行参数中筛选出对机组能耗影响较大的重要参数:负荷、循环水入口温度、主蒸汽温度、再热蒸汽温度、主蒸汽压力、循环水流量。然后，介绍了模糊C-均值聚类算法的相关理论及其应用，利用此方法对以上6个参数进行工况划分。实际应用结果表明，在对电厂大量实时进行数据聚类和合理工况划分过程中，模糊C-均值聚类算法起到一定作用，并且对优化运行和机组节能优化有重大的意义。

热耗率；相关系数；工况划分；模糊C-均值聚类

0 引言

电厂机组在复杂的运行过程中产生大量的历史数据，而这些数据背后不仅蕴含着大量丰富的信息和知识，同时还具有维数高、复杂非线性和强耦合性等特点[1-3]。影响机组能耗指标的因素就有几十个甚至上百个，并且这些影响因素会随电站机组设备特性、运行边界和运行状态的变化而发生改变。相关性分析法可以将这些热力系统参数之间复杂的非线性关系简化为线性相关性问题来进行处理；然后根据相关性系数来筛选出与机组能耗关系较大的重要参数[4，5]。

目前，国内电站机组普遍面临着外界环境温度和机组负荷大幅度变化等问题，这不仅会造成机组运行工况变化较大，火电机组在不同运行工况下的特性差异也很大，对应的最优值也是不同的。为了使各个工况点都对建模过程的数据起到作用，避免一些典型工况的冗余或一些非典型工况的缺失，而导致算法的结果偏向于典型工况，因此产生了机组的运行工况划分问题[6，7]。目前对电站机组进行工况划分的方法通常有等频率法、等密度法、等宽度法和K-均值聚类算法等[8]。而以上这些传统的聚类算法往往只是将某个样本对象生硬地划分到唯一的某一个类属中，但对于现实的电站机组运行数值对象，它们的数值之间都存在一定的联系，因此为避免划分过硬等问题，本文引入利用了模糊集理论。在电厂机组模糊离散化过程中，模糊C-均值聚类算法(Fuzzy C-Means,FCM)的运用最为成功普遍。1973年，FCM最先是由Dunn提出，随后由Bezdek改进并发展起来的一种模糊聚类算法。FCM不仅具有重要的基础理论，而且在实际应用中有一定的实用价值，目前已经成功地用于解决包括特征分析、数据分析和分离器设计在内的很多问题，并同时成功应用在农业工程、图像分析、医学诊断、天文学、化学、地质学、形状分析及目标识别等多种领域。随着该算法应用的不断深入发展，模糊聚类算法的研究也得到了不断的改进。该算法是将各个类的隶属度从只能取1或0扩展到[0，1]，从而来表示样本数据属于不同的类，从而解决了数据划分过硬的问题，为进行软划分提供了有力的分析工具[9-11]。

本文基于电站机组大量的历史运行数据，基于这种相互联系特点，应用相关性分析方法得出热耗率与各参数间的相关系数，根据相关系数的判定，从大量的电厂机组运行参数中确定对机组能耗影响较大的重要参数。然后，介绍了模糊C-均值聚类算法的基本理论及应用，利用此方法对已筛选好的重要参数实时数据划分成相似的工况簇，以同一工况簇为基础，利于建模以后的分析和进行运行参数最优目标值的研究。

1 机组能耗指标的相关性分析

相关性分析是用来分析两个变量(或变量组)之间相互依存关系的一种统计学方法，可以通过相关性系数这一指标来衡量两变量之间的关系[12]。对于两个参数x，y之间的相关性系数的计算公式，如式(1)所示：

(1)

判断两变量之间相关关系的方向和密切程度的强弱，可以利用相关性系数数值的符号和大小。若r>0，即为正相关，表示相关参数的变化方向是相同的；r<0，即为负相关，表示相关参数的变化方向是相反的。而r=0，表示不相关；r=+1，表示完全正相关；r=-1，表示完全负相关。

当|r|越趋近于1时，其相关程度越高；当|r|越趋近于0时，其相关程度越低。当|r|≥0.8时，可视为两个变量高度相关；当0.5≤|r|<0.8时，可视为中度相关；当0.3≤|r|<0.5时，可视为低度相关；当|r|<0.3时，可视为两个变量之间的相关程度极弱[13]。通常认为r≥0.5的变量有分析的必要,即两个变量之间的相关程度为高度相关或中度相关。

2 模糊C-均值聚类的基本原理

FCM应用于工况划分的基本计算思路是：(1)首先要选取对样本X进行划分的聚类个数c和初始化各聚类中心数值，以及样本属于不同类别的初始隶属度矩阵和权重系数；(2)然后根据距离最小原则将各样本划分到c类中的某一类，经过不断地迭代计算聚类中心和隶属度矩阵，从而调整各样本所属类别；(3)最终使类内距离平方和达到最小时停止循环，从而来确定样本所属的类。最终达到对样本数据进行分类的目的[14-16]。

令目标数据集X={x1,x2,…xn}∈Rm表示给定的已知样本集合，m是样本空间的维数，n是样本个数，c(c>1)是对X进行划分的聚类个数。FCM算法可以描述如下：

(2)

(3)

(4)

(5)

(6)

式中：m>1是模糊系数；U=uij是一个c×m的模糊划分矩阵，uij是第j个样本xj属于第i类的隶属度值；V=[v1,v2,…vn]是由c个聚类中心向量构成的n×c的矩阵；dij=‖xj-vi‖表示从样本点xj到中心vi的距离。

FCM算法先选取初始化类中心(或者隶属度矩阵)，然后利用式(5)和式(6)进行迭代直至满足设定的终止条件。FCM算法的具体步骤如下：

(1)设定聚类个数c(2≤c≤n)和模糊指数m(1≤m≤+∞)；初始化矩阵U(0),初始化各类中心V(0)；设置收敛的精度ε>0；设置循环次数s=0。

(2)用式(6)计算U(s+1)。

(3)用式(5)计算V(k+1)，令k=k+1。

重复步骤(1)和(2),直到满足如下的终止条件：

(7)

3 实例分析

3.1 进行相关性分析

本文对某电厂提取的从2015年8～11月的历史运行数据进行分析，经数据选择与数据检验得到稳定运行工况数据。对影响机组能耗的历史运行参数进行相关性分析。

根据经验常识，本课题选取负荷、主蒸汽温度、主蒸汽压力、再热蒸汽温度、汽包压力、给水温度、给水流量、循环水入口温度、循环水流量等来分析与机组热耗之间的相关性，计算得出各参数与机组热耗的相关性系数如表1所示。

表1 相关性系数计算结果

根据表1可以得出。相关性系数为正时，意味着机组热耗随运行参数的增大而增大；相反，相关性系数为负时，意味着机组热耗随参数的增大而减小。根据表1中相关性系数大小排序，可以分析得出对热耗影响较大的前6个因素是负荷、循环水入口温度、主蒸汽温度、再热蒸汽温度、主蒸汽压力、循环水流量。

3.2 对各参数进行工况划分

利用模糊C-均值聚类算法对各参数进行工况划分时，对于C值的选择，可能会严重影响工况划分的结果，如组数太多会导致数据离散化太强，每组之间的前后关联性降低；如果组数太少又会导致代表性数据模糊，都会对以后的建模结果造成影响。因此组数的选取是一个重要的过程，鉴于上述原因，本文选择将每个参数划分为10组，这样就对6个参数划分出106个区间。通过上文的相关性分析结果，本文选择与机组能耗相关性强的6个参数进行工况划分。根据模糊C-均值聚类算法将各参数进行聚类划分，其结果如图1～6所示。

图2 主蒸汽温度的聚类划分结果

图3 再热蒸汽温度的聚类划分结果

图4 循环水入口温度的聚类划分结果

图5 主蒸汽压力的聚类划分结果

图6 循环水流量的聚类划分结果

根据图1～6的工况划分结果，经过聚类后得到的各参数区间，呈现出一定的聚类特性。由各图聚类后得到的10个类，区间所包含的个数是不均匀的，如机组在低负荷和高负荷运行的负荷点较少，而在稳定运行时较多。将每个参数分为10组,则可将所有参数分为106种不同工况, 这样分组结果也许某些组中会有几百条甚至更多的数据，其他的数据忽略，这样就能有效防止数据冗余。经过工况划分后的数据不一定将所有工况全部填满，并且可能有些工况的数据量过少，避免影响计算结果删除不具有代表性的数据。随着机组运行参数的不断积累，工况划分各工况中的数据不断完善。模糊C-均值聚类算法不仅具有快速简洁，并且避免划分过硬等问题。

综上所述，本文使用模糊C-均值聚类算法在进行电厂生产过程的工况划分，对每个参数进行划分成相似的工况簇，该方法克服了传统聚类算法的硬划分和不稳定等缺点，具有更好的划分效果。机组运行工况划分对以后的电站数据挖掘优化目标值和机组运行参数优化等生产实践有一定参考价值。同时为挖掘电站设备的节能潜力以及耗差分析、指导运行和维修提供依据和有利的前提条件。

4 结论

(1)对各参数进行相关性分析，根据相关性系数的判定，最终筛选出与机组能耗具有较强关联性的6组参数：负荷、循环水入口温度、主蒸汽温度、再热蒸汽温度、主蒸汽压力、循环水流量。

(2)利用模糊C-均值算法对与机组能耗具有较强关联性的6个参数进行工况划分，将每个参数划分为10组，最终得出106个不同工况。最后将分组后的数据重新组合，得到了能全面反映设备特性和运行特性的工况，为后续建模及参数优化提供了有代表性的数据。

(3)计算结果表明，模糊C-均值聚类方法在机组工况划分中取得较好的效果。另外对以后的数据挖掘电站优化目标值和机组运行参数优化等具有一定实践价值。该方法不仅有效地解决了数据划分过硬的问题，而且使得机组运行工况的构建可行性更强。

[1]李正哲,马燕峰,娄雅融,等.基于电力节能减排双目标调度优化模型及方法的研究[J].电力科学与工程,2012,28(6):44-50.

[2]王宁玲.基于数据挖掘的大型燃煤发电机组节能诊断优化理论与方法研究[D].北京:华北电力大学, 2011.

[3]王惠杰, 张春发, 宋之平.火电机组运行参数能耗敏感性分析[J].中国电机工程学报, 2008, 28(29):6-10.

[4]宋小敏, 张国防, 邢淑兰,等.基于数据挖掘的课程相关性分析方法[J].山西财经大学学报, 2012,34(3):240-241.

[5]马瑞, 康仁, 罗斌,等.基于改进主成分分析法的火电机组能耗特征识别方法[J].电网技术,2013, 37(5):1196-1201.

[6]杨婷婷, 曾德良, 刘吉臻,等.基于工况划分的火电机组运行优化规则提取[J].华北电力大学学报(自然科学版), 2009, 36(6):64-68.

[7]翟少磊, 黄孝彬, 刘吉臻.基于工况划分的电厂经济性指标挖掘[J].中国电力, 2009, 42(7):68-71.

[8]王秋平, 陈志强, 魏浩.基于数据挖掘的电站运行参数目标值优化[J].电力科学与工程, 2015,31(7):19-24.

[9]LI J Q, NIU C L, LIU J Z.Application of data mining technique in optimizing the operation of power plants[J].Journal of Power Engineering, 2006, 26(6):830-835.

[10]HAN J, KAMBEER M, KAMBER M.Data mining: Concepts and techniques [J].Morgan Kaufmann Publishers, 2006, 5(4):394-395.

[11]石琴, 仇多洋, 吴靖.基于主成分分析和FCM聚类的行驶工况研究[J].环境科学研究, 2012, 25(1):70-76.

[12]张建鼎.电站辅机运行参数劣化分析的研究[D].北京:华北电力大学, 2011.

[13]王开明, 束洪春, 曹立平,等.基于相关性分析的OLTC运行状态评价方法研究[J].电力系统保护与控制,2015,43(19):54-59.

[14]刘宝玲, 何钧.基于数据挖掘及SIS的工况划分方法研究[J].南昌工程学院学报, 2009, 28(6):36-39.

[15]王宁玲, 杨勇平, 杨志平.多变边界条件下火电机组能耗基准状态诊断[J].中国电机工程学报, 2013,33(26):1-7.

[16]孙晓霞, 刘晓霞, 谢倩茹.模糊C-均值(FCM)聚类算法的实现[J].计算机应用与软件, 2008, 25(3):48-50.

Research on Fuzzy C-mean Clustering Algorithm Based on Power Plant Operating Conditions

WANG Huijie1, LI Xinxin1, XU Xiaogang1, WANG Pin2

(1.School of Energy and Power Engineering, North China Electric Power University, Baoding 071003,China;2.Dalian Power Generation Co., Ltd.，Dalian 116021, China)

Thermal power unit produces a large number of historical data during the operation process, and the currently used methods for data analysis classify these historical data and carry out statistics in a rather simple way, which cannot reveal the hidden rules beneath these data.The correlation analysis is applied for the study of real-time data for a power plant.Some parameters, such as the load, circulating water entrance temperature, main steam temperature, reheat steam temperature, steam pressure, and circulating water flow, are selected and considered as important ones who have great influence on the energy consumption of the unit.Then, the related theory of fuzzy C- mean clustering algorithm and its application are introduced, and by using this method, six parameters mentioned above are divided according to the working condition.The results obtained during practical application show that during the reasonable working condition division and data clustering process, fuzzy C- means clustering algorithm works and is of great significance to the optimization of the operation and energy saving of the group.

heat consumption rate; correlation coefficient; working condition classification; fuzzy C- means clustering

2016-07-19。

中央高校基本科研业务费专项基金资助项目(12NQ40)。

王惠杰(1979-)，男，副教授，主要从事能源利用节能技术、热力发电厂系统、设备及运行节能在线监测等工作，E-mail:ncepuwhj@163.com。

TK01+8

10.3969/j.issn.1672-0792.2016.11.010