基于双层聚类与GSA-LSSVM的汽轮机热耗率多模型预测

2016-10-13牛培峰李国强张维平陈科

电机与控制学报 2016年3期

牛培峰，刘　超，李国强，张维平，陈科

（1.燕山大学工业计算机控制工程河北省重点实验室，河北秦皇岛066004；2.国家冷轧板带装备及工艺工程技术研究中心，河北秦皇岛066004；3.秦皇岛职业技术学院机电工程系，河北秦皇岛066100）

牛培峰1，2，刘超1，李国强1，张维平3，陈科1

针对单模型难以精确描述具有复杂非线性特性的汽轮机热耗率的问题，提出一种新的热耗率多模型建模方法。首先应用GK算法分析出最优聚类个数以及初始聚类中心，避免了聚类数确定的盲目性；然后利用核模糊C均值算法对热耗率样本集做出聚类划分，在每个子空间中利用最小二乘支持向量机（LSSVM）辨识出相应子模型，同时，为了保证子模型精确度，采用引力搜索算法来解决LSSVM参数优化问题；最后，将子模型通过隶属度值加权融合得到精确的热耗率预测模型。以某600MW超临界汽轮机组为研究对象，基于现场数据建立汽轮机热耗率预报模型，仿真结果验证了提出的多模型建模方法具有较高的预报精确度和泛化能力。

多模型；热耗率；引力搜索算法；最小二乘支持向量机；聚类

0　引言

精确的汽轮机热耗率值对于火电厂安全、稳定、高效运行具有重要意义。针对热耗率及其影响因素之间的非线性关系，一种可行的方法是采用回归方法来计算热耗率。文献［1］采用偏最小二乘算法预测热耗率值，文献［2］采用BP神经网络分析汽轮机特性，王雷等人提出基于支持向量机的热耗率预测模型［3-4］，这些方法在一定程度上取得了较好的预报精确度。然而，随着机组工作在变负荷状态下，且具有周期性重复运行特点，单一模型很难精确描述其特性［5］。近来，基于分解-合成的多模型建模策略在解决复杂工业过程控制问题中取得了成功应用［6］。因此，采用多模型建模策略建立热耗率模型无疑是非常适宜的。

核模糊C均值（kernel fuzzy c-means，KFCM）是一种常用的聚类方法［7］，然而，KFCM一般要求事先给定聚类个数c，c的大小和初始聚类中心直接影响聚类精度。由于Gustafson-Kessel（G-K）算法是基于协方差矩阵加权的自适应距离度量，它对初始聚类中心敏感性较差。基于此，本文提出基于G-K算法的KFCM双层聚类算法，以解决KFCM的不足。

针对各个子系统，采用最小二乘支持向量机（least square support vector machine，LSSVM）［8］建立局部模型，然而，正规化参数和核参数是影响LSSVM模型精度的关键参数。引力搜索算法（gravitational search algorithm，GSA）［9］是一种新的智能优化技术，因其具有结构简单、易于实现、优化速度快的优点而得到广泛应用［10-11］，因此，本文采用GSA算法解决LSSVM参数优化问题。最后，建立了某600MW超临界汽轮机组热耗率，仿真结果验证了该方法的有效性。

1　双层聚类方法分析与设计

1.1核模糊C均值聚类

假设样本集xi∈Rm，（i=1，2，…，N），样本分类数为c，利用高斯核函数将样本从输入空间映射到特征空间F进行聚类。高斯核函数定义为

式中，σ为核函数宽度，其K（x，x）=1。

在F空间，聚类损失函数定义如下

式中：vi为第i个聚类中心；m＞1为常数；μik表示第k个样本属于第i类的隶属度，满足约束条件

以式（3）为约束条件，利用拉格朗日乘数法求解minJ，得到隶属度μik和聚类中心v的迭代式

1.2双层聚类算法

KFCM对聚类个数和初始聚类中心比较敏感。而G-K算法是基于协方差矩阵加权的自适应距离度量，它对聚类中心初始值敏感性较差。因此，提出基于G-K算法的双层聚类。首先利用G-K算法根据聚类有效性指标初始分析数据样本，计算出最优聚类个数c和初始聚类中心vi；然后，利用KFCM算法将整个样本集划分为不同工况的子系统。聚类性能指标partition idex（SC）［12］和Xie-Beni（XB）［13］可以定义为

式中：SC指标反映了分类簇的紧凑程度，SC越小意味着划分越紧凑；XB指标反映了簇内的紧致性和簇间的分离性；分子用于评价簇内的紧致性，分母用于评价簇间的分离性；XB越小，表明聚类效果越好。

2　LSSVM子模型

2.1模型结构

采用LSSVM建立子模型，模型表达式为

式中：K（xi，x）为核函数，b为偏置。

常见核函数有多项式核函数、sigmoidal核函数、RBF核函数等。选用RBF核函数，其表示为

式中σ为核宽度。

2.2GSA优化的LSSVM

正规化参数C和核参数σ2是影响LSSVM模型精确度的关键参数，采用GSA算法解决LSSVM参数选择的问题，其具体优化步骤如下：

2）计算质点的适应值fiti（t），i=1，…，N；

3）选取fitness=｛fiti｝向量中值最小的质点，并记录其位置Lbest和适应值Fbest；

4）依据式（10）计算每个质点的质量

5）计算质点的加速度。t时刻，在第d维上，质点j对质点i的引力为

式中：Mi（t）和Mj（t）为质点i和j的质量；ε为较小常量；Rij（t）=‖Xi（t），Xj（t）‖2；G（t）为引力常量。

质点i在d维空间受到总的引力为

式中：randj的范围是［0，1］。质点i的加速度为

6）各质点按式（14）、式（15）进行位置更新

7）返回步骤2），直到达到最大循环次数max_it结束循环。Lbest中保持着最优的C和σ2。

3　多模型建模算法

考虑热耗率样本集：D=｛Xk，Y|Xk∈Rm｝，Xk为第k个输入向量，m为向量的特征数；Y为热耗率。图1为热耗率建模流程图，其建模步骤如下：

1）初始化聚类参数c和vi。vi为KFCM的初始聚类中心，其值为GK聚类得到的聚类中心；

2）通过KFCM优化聚类中心和隶属度μik，进行热耗率样本的聚类划分：按式（4）、式（5）更新隶属度和聚类中心，直至隶属度稳定，并保存隶属度μik；

3）建立局部模型。对聚类子样本Cluster samples采用引力搜索算法优化的LSSVM建立c个子模型；

4）采用隶属度值ui融合子模型。

5）利用多模型建模方法对测试样本进行辨识。

图1　热耗率多模型建模流程Fig.1　Flow chart of multi-models modeling for heat rate

4　热耗率多模型建模实验

4.1热耗率数据

汽轮机热耗率是指汽轮发电机组每发1kWh的电能所消耗的热量。影响汽轮机热耗率有两大因素：1）汽轮机“健康状况”，2）机组的运行参数。汽轮机运行数据中充分包含了在不同工况范围内的动态特性信息，也蕴含有汽轮机“健康状况”信息。以某火电厂600 MW超临界汽轮机组（CLN600-24. 2/566/566 MW）为研究对象，其中289组数据样本是由集散控制系统中每隔1小时采样一次而得，数据样本是在312.4 MW到564.9 MW之间，表1为部分数据列表。将其中覆盖机组各种典型运行工况的217组样本用来训练模型，另外72组样本用来预测模型。汽轮机热耗率非线性模型为：

Hr=f（Pe，Pzk，P0，T0，D0，Pzl，…，Tzj，Dzj）。（17）其中，Hr为热耗率，KJ/kWh；Pe为发电机输出功率，MW；Pzk为凝汽器真空值，KPa；（P0，T0，D0）、（Pzl，Tzl，Dzl）、（Pzr，Tzr，Dzr）、（Pfw，Tfw，Dfw）、（Pgl，Tgl，Dgl）和（Pzj，Tzj，Dzj）分别为主蒸汽、再热蒸汽入口、再热蒸汽出口、给水、过热减温水和再热减温水压力（MPa），温度（℃），流量（t/h）。

4.2数据聚类

通过聚类有效性指标来优化确定最佳聚类数c，即给定样本的聚类数范围c∈［2，14］，针对不同聚类数c分别对热耗率样本进行聚类，并计算出相应指标SC和XB。在G-K算法中，设定m=2，ε= 0.001，图2为有效性指标曲线。

表1　热耗率回归建模部分原始数据Table 1　Part of the original data of heat rate regression modeling

图2　有效性指标曲线Fig.2　Curve of validity index

图3　损失函数J的曲线Fig.3　Curve of loss function J

从图2中可知，当c=5时，有效性指标SC趋于稳定，XB几乎没有下降，于是确定最优聚类个数c=5，并保存初始聚类中心v。图3是损失函数J的曲线，在循环60次时，J基本保持稳定。最终将热耗率数据集按负荷聚类为 488 MW、527 MW、440 MW、375 MW、320 MW 5种子集。

4.3热耗率预测结果分析

采用提出的多模型建模方法预测汽轮机热耗率，图4为多模型建模方法预测热耗率结果，不难发现该方法能够较好的预测多工况热耗率。图5为多模型与单一LSSVM模型预测误差，多模型误差范围在［-40，40］/（kJ/kWh），波动比较小；单一模型误差范围在［-70，70］/（kJ/kWh），误差比多模型大，并且离散程度也大于多模型，很明显热耗率多模型建模方法优于单一LSSVM模型。

图4　多模型辨识输出曲线Fig.4　Multi-model identification output curve

图5　基于多模型与单一LSSVM模型的热耗率预测误差Fig.5 Heat rate prediction errors based on the multimodel and the single LSSVM methods

为了进一步验证建模方法的有效性，采用标准LSSVM与双层聚类多模型预测热耗率，记为多模型A；采用GSA优化的LSSVM与KFCM进行热耗率多模型建模，记为多模型B；同时，LSSVM单模型和BP神经网络也用于热耗率建模。将提出的多模型建模方法与上述4种建模方法进行仿真实验对比，结果如表2、表3所示。其中mre/%为最大相对误差、maxe/（kJ/kWh）为最大绝对误差、mse/（kJ/kWh）为标准差。

表2　针对训练集的模型测试结果比较Table 2　Comparison of the model test results for training set

表3　针对测试集的模型测试结果比较Table 3　Comparison of the model test results for testing set

针对训练集，从表2中可以看出多模型三个性能指标分别为0.434 9%、35.682 1 kJ/kWh、5.650 9 kJ/kWh，均优于其它4个热耗率预测模型，尤其是最大绝对误差maxe指标，未经GSA优化的多模型A为54.566 1 kJ/kWh，未经双层聚类分析样本的多模型B为51.445 59 kJ/kWh，单一LSSVM模型为66.895 1 kJ/kWh，BP网络高达97.498 5 kJ/kWh。

表3为5个模型辨识测试样本的性能指标，多模型预测误差最小，特别是mse仅为9.33 kJ/kWh，泛化能力最好；由于多模型A没有经过GSA优化处理，多模型B没有经过双层聚类事先分析出最优聚类个数，其泛化能力次之；单一LSSVM模型和BP网络模型的预测能力较差。表3中多模型预测的3个误差指标分别为0.489 4%、37.571 7 kJ/kWh和9.33 kJ/kWh，与表2中数据比较，并未有较大增加，从而说明提出的建模方法更适合复杂非线性热耗率建模。

为更好说明双层聚类和GSA优化LSSVM参数的优越性，采用三种多模型建模方法分别预测72组测试样本，结果如图6所示。可以看出，在子模型建模中，如果没有采用GSA优化LSSVM参数（多模型A），或者采用模型B预测热耗率，其预测误差均明显大于多模型建模方法。从图6中看出多模型预测误差的波动范围也是最小的。因此，提出的多模型建模方法能够有效的预测汽轮机热耗率。

图6　热耗率预测误差曲线Fig.6　Curves of heat rate prediction errors

5　结论

针对汽轮机热耗率建模中的多变量、非线性、工况范围广的特点，提出一种基于双层聚类与GSA优化的LSSVM汽轮机热耗率多模型建模方法。该方法的优化建模过程如下：1）基于G-K双层聚类算法将热耗率样本集划分为5类子系统；2）对各个子系统，采用GSA优化的LSSVM建立局部模型；3）根据隶属度值，将各局部模型进行加权组合便得出汽轮机热耗率的辨识模型。最后以某600 MW超临界汽轮机组热耗率为建模对象，仿真结果验证了提出的多模型建模方法的有效性，该方法为复杂非线性、多工况的热耗率建模提供了一个可行思路。

［1］张文琴，付忠广，靳涛，等.基于偏最小二乘算法的热耗率回归分析［J］.现代电力，2009，26（5）：56-59. ZHANG Wenqin，FU Zhongguang，JIN Tao，et al.Heat rate regression analysis based on partial least squares algorithm［J］.Modern Electric Power，2009，26（5）：56-59.

［2］李勇，王海荣.基于BP网络的汽轮机运行特性方程［J］.热能动力工程，2002，17（3）：268-270. LI Yong，WANG Hairong.Steam turbine operation characteristics equation based on BP neural network［J］.Journal of Engineering for Thermal Energy&Power，2002，17（3）：268-270.

［3］王雷，张欣刚，王洪跃.基于支持向量回归算法的汽轮机热耗率模型［J］.动力工程，2007，27（1）：19-23. WANG Lei，ZHANG Xingang，WAHG Hongyue.Model for the turbine heat rate based on the support vector regression［J］.Journal of Power Engineering，2007，27（1）：19-23.

［4］NIU Peifeng，ZHANG Weiping.Model of turbine optimal initial pressure under off-design operation based on SVR and GA［J］. Neurocomputing，2012，78（1）：64-71.

［5］孙建平，苑一方.复杂过程的多模型建模方法研究［J］.仪器仪表学报，2011，32（1）：132-137. SUN Jianping，YUAN Yifang.Multi-model modeling approach for complex process［J］.Chinese Journal of Scientific Instrument，2011，32（1）：132-137.

［6］李卫，杨煜普，王娜.基于核模糊聚类的多模型LSSVM回归建模［J］.控制与决策，2008，23（5）：560-563. LI Wei，YANG Yupu，WANG Na.Multi-model LSSVM regression modeling based on kernel fuzzy clustering［J］.Control and Decision，2008，23（5）：560-563.

［7］WANG Ping，TIAN Jinwen，GAO Chenqiang.Infrared small target detection using directional highpass filters based on LS-SVM［J］. Electronics Letters，2009，45（3）：156-158.

［8］张晓平，赵珺，王伟，等.转炉煤气柜位的多输出最小二乘支持向量机预测［J］.控制理论与应用，2010，27（11）：1463 -1470. ZHANG Xiaoping，ZHAO Jun，WANG Wei，et al.Multi-output least squares support vector machine for level prediction in Linz Donaniz gas holder［J］，Control Theory&Applications，2010，27 （11）：1463-1470.

［9］RASHEDI E，NEZAMABADI-POUR H，SARYAZDI S.GSA：A gravitational search algorithm［J］.Information Sciences，2009，179（13）：2232-2248.

［10］DUMAN S，YUSUF S.Optimal power flow using gravitational search algorithm［J］.Energy Conversion and Management，2012，59：86-95.

［11］HOSSEINABADI A R，YAZDANPANAH M.A new search algorithm for solving symmetric traveling salesman problem based on gravity［J］.World Applied Sciences Journal，2012，16（10）：1387 -1392.

［12］BENSAID A M，HALL L O，BEZDEK J C，et al.Validity-guided （Re）clustering with applications to image segmentation［J］. IEEE Transactions on Fuzzy Systems，1996，4（2）：112-123.

［13］李超顺，周建中，肖剑，等.基于引力搜索核聚类算法的水电机组振动故障诊断［J］.中国电机工程学报，2013，33（2）：98 -104. LI Chaoshun，ZHOU Jianzhong，XIAO Jian，et al.Vibration fault diagnosis of hydroelectric generating unit using gravitational search based kernel clustering method［J］.Proceedings of the CSEE，2013，33（2）：98-104.

（编辑：贾志超）

Multi-model for turbine heat rate forecasting based on double layer clustering algorithm and GSA-LSSVM

NIU Pei-feng1，2， LIU Chao1， LI Guo-qiang1， ZHANG Wei-ping3， CHEN Ke1
（1.Key Lab of Industrial Computer Control Engineering of Hebei Province，Yanshan University，Qinhuangdao 066004，China；2.National Engineering Research Center for Equipment and Technology of Cold Strip Rolling，Qinhuangdao 066004，China；3.Department of Electromechanical Engineering，Qinhuangdao Institute of Technology，Qinhuangdao 066100，China）

Aiming at the issue that the characteristic of complex nonlinearity of heat rate for steam turbine which was difficult to be descript accurately by the single-model，a new multi-model modeling method for heat rate was presented.Firstly，the initial cluster centers and optimized cluster numbers were obtained by the G-K algorithm.Then，the data set was clustered into several local regions with kernel-based fuzzy C-means clustering algorithm.In addition，the sub-model was built by least square support vector machine（LSSVM）.Moreover，in order to guarantee accuracy of each sub-model，gravitational search algorithm was employed to solve parameter optimization problem of LSSVM.Finally，towards obtaining accurate predictions over the entire operating range，a degree of membership composition strategy to aggregate the local model predictions was proposed.A 600 MW steam turbine unit was used as the identification object，and multi-model for heat rate was established based on field data.Simulation results show that the multi-model modeling method has well regression precision and generalization ability.

multi-model；heatrate；gravitationalsearchalgorithm；leastsquaresupportvector machine；cluster

10.15938/j.emc.2016.03.014

TP 18

1007-449X（2016）03-0090-06

2014-07-18

国家自然科学基金（61403331，61573306）；河北省自然科学基金（F2010001318）

牛培峰（1963—），男，教授，博士生导师，研究方向为复杂工业系统的建模、控制与燃烧优化；

刘超（1986—），男，博士研究生，研究方向为复杂工业系统的智能建模与优化控制；

李国强（1984—），男，博士，研究方向为人工智能与燃烧优化；

张维平（1980—），女，博士，研究方向为汽轮机运行优化；

陈科（1990—），男，硕士研究生，研究方向为汽轮机初压优化。

刘超