APP下载

基于重要特征分析的水电站运营成本回归

2022-12-07闫孟婷罗立军黄炜斌

水力发电 2022年10期
关键词:互信息水电站阈值

金 艳,闫孟婷,肖 杨,罗立军,莫 凡,黄炜斌

(1.国家电投集团水电产业创新中心,湖南 长沙 410004;2.四川大学水利水电学院,四川 成都 610065)

0 引 言

近期,随着习近平总书记提出把碳达峰碳中和纳入生态文明建设整体布局,我国能源转型加快,可再生能源迎来了快速发展的新时代。据统计,截至2021年年底,我国的水电总装机容量约为3.91亿kW,仍居世界第一。到2035年,预测可再生能源电力装机容量占比将达到65%以上,常规水电装机对应需求为4.5亿kW;在可再生能源电力年发电量中,预计2025年、2035年、2050年水电发电量占可再生能源电力将达到31%以上[1-2]。可见,水电开发在中国能源转型升级,实现碳减排和碳中和目标中仍将发挥重要作用;但仍需看到的是,目前常规水技术开发程度过半,水电站深入发展受限,水电发展的中心需要从开发新水电转向对已建水电站的精细化管理。而成本支出作为反映水电站运营水平的重要因素,对其进行研究评价有利于实现存量水电的对标管理,促进水电行业的持续发展。

本文针对四川地区几十座水电站重点探索了对水电站应支出成本回归计算,对不同规模、不同特性的水电站定义了其标准支出成本值,为水电站考核管理提供新思路。

1 水电站标准支出成本

水电站具有个性化较强的特点。由于不同的电站机组、水工建筑物、地理地质条件等造成的运行复杂程度不一,很难形成一套评价标准考核水电站的成本管理水平;但由实际运行经验可知,水电成本支出与水电站的运行复杂程度一般成正比分布。故本文针对水电站成本值进行研究,探索在既定规模下水电站的标准支出成本值。首先对成本进行解构,扣除税收、折旧等无法通过人工努力改善的成本,着重研究能够反映水电站运行期间的管理行为的人工成本、检修成本、材料成本等软性运营成本。定义水电站标准支出成本值为:在水电站机组、水工等已建条件一定的情况下,通过人工运营管理,水电站应该支出运营成本的平均水平值。通过对比实际运营成本值与标准支出成本值,可以体现水电站的运营管理水平。

2 重要特征识别

为了使各水电站有统一可比基础,目前国内外多采用以装机容量为分母、水电站考核年总成本支出为分子进行计算;但单一的影响因素选择忽略了水电站其他因素对成本的影响,如大坝维护、闸门防腐等都是水电站运行费用中重要组成部分。

目前,运用较广泛的选取因子方法有3种:一是先验判断法,其缺点在于易受人为主观意识的影响,在应对变量间数学关系的衡量上缺乏客观性;二是逐步回归法[3];三是相关系数法[4]。后2种方法适用于变量间呈线性关系的情况;而实际上,影响水电站成本的许多因素间存在非线性关系。信息论中的互信息(Mutual Information,MI)作为衡量变量相互含有信息量的度量,可运用于影响因素的选取中。各个影响因素实际上就是信息的载体,其中所含有有效信息的大小就是衡量其是否被选取以及选取顺序的依据。互信息的值越大,说明输入因子中有效信息越多,在建立相关关系时要优先选取。目前已有部分学者将互信息理论应用于水文当中,赵铜铁钢等[5]将互信息用于选取预测模型输入变量;陈璐等[6]采用Copula熵计算偏互信息,并将其运用于径流预报模型当中;纪昌明等[7]研究了基于联合和条件互信息(Joint Mutual Information,JMI)的因子选取方法,以信息增长率最大准则对多个输入因子进行选取,构建了JMI-BP模型进行预报。

本文首先采用皮尔逊相关分析,识别与水电站运营成本具有较强相关关系因素,采用皮尔逊相关系数及最大互信息识别与水电站运营成本相关关系较强的重要特征。

2.1 皮尔逊相关系数

PCCs(Pearson correlation coefficient)即皮尔逊相关系数,在空间上表示为两向量夹角的余弦值[8]。其内涵可从多种数学角度进行解释,经过了长时间实践检验,已得到广泛认可。当变量为服从正态分布时,Pearson相关系数(积矩相关系数)描述线性相关效果好,其计算如下

(1)

对于观测样本,其统计值为

(2)

式中,xi、yi分别为对应样本的第i个观测值。

2.2 互信息

互信息定义为已知Y值而造成X不确定性的减小量。其基础理论为信息熵,以“系统越无序(难以预测)、信息熵越大”作为数据信息容量判别标准[9]。

设2组随机变量X、Y,由互信息定义可知:两变量互信息可通过X信息熵与变量Y已知X信息熵的差值求解得到

(3)

式中,H(X)为随机变量X的信息熵;H(X|Y)为已知Y条件下X的信息熵;p(x)为X的概率分布;p(x,y)为X、Y的联合概率分布;p(x|y)为X在Y条件下的概率。

对于离散化变变量,其互信息可写为

(4)

需要注意的是,由于信息熵是基于变量概率分布计算,有p(x)=[0,1],对于xlog2x当x→0时,利用求极限值的数学方法可得此时xlog2x等于0。

2.3 最大互信息

最大互信息(MIC)最初是由Reshef等人在《Science》上发表论文并提出的,其能有效刻画大多数线性、非线性关系,且给予等值MIC的不同函数等量噪音,变化后的MIC仍保持一致。该方法通过识别数据集不同网格划分情况下的互信息,并对互信息进行归一化,使其范围落于区间[0,1](当最大互信息值为0时,说明两变量相互独立,两者相关性越强其值越接近1),最终筛选出最佳划分方式,利用该条件下的归一化互信息刻画两变量相关关系(见图1)。对于随机变量X、Y的最大互信息识别具体流程如下:

(1)对随机变量X、Y形成的数据集合D进行划分,在集合D的阈值中将x、y轴等分为i列j行形成初始网格划分。

(2)由于网格总数在满足ij

(5)

令i=i+1并更新j值。

(3)重复步骤(2),直至j=2,筛选出最大互信息值MIC(D),此时最大互信息系数为

MIC(D)=optimal{M(D)i,j}

(6)

3 算 例

选择位于西南地区的65座水电站为研究对象,对其进行水电站标准支出成本的计算。在重要特征的筛选过程中,将影响水电站标准支出成本的因子称作解释变量X,运营成本数据序列作为因变量Y,对于水电站聚类集H={H1,H2,…,Hk};按照研究目的,将影响因素分为机组特性、坝型特征、水位特征、库容特征、劳动力特征、调节性能,每类特性用至少1个因子进行描述,形成i电站影响因素数据集Xi={X1,X2,…,Xp},根据现有资料,设定15个因子(p=15),X1为装机容量,X2为机组台数,X3为正常水位,X4为死水位,X5为总库容,X6为有效库容,X7为坝高,X8为坝长,X9为职工人数,X10为平均单机容量,X11为水位差,X12为平均机组利用小时数,X13为投产时长,X14为坝面积,X15为调节性能。其中,X1至X9为单因子,单因子与水电站参数直接相关;X10至X15为复合指标,复合因子与水电站参数间接相关,通过多个参数计算得到。按照因子所属特性,X1、X2、X10、X12为机组特性因子,X3、X4、X11为水位特征因子,X5、X6为库容特征因子,X7、X8、X14为坝型特征因子。

输入解释变量序列X、运营成本数据序列Y,Pearson相关结果如图2所示。图2中右上部分的椭圆愈狭长代表对应变量间相关系数愈大,“×”代表未通过显著性检验(P>0.05),左下部分展示PCCs的具体数值。

将PCCs值大于0.6定义为关系紧密,形成显著相关变量对(见表1)。观察解释变量相互间关系可知,机组特性与大坝特征、劳动力特征相关关系显著,库容特征与机组特性、坝型特征线性相关,调节性能与水位特征线性相关,解释变量与因变量运营成本的显著相关性主要表现在机组特性、坝型规格、劳动力特征。

表1 PCCs大于0.6的影响因子、成本关系对

针对65个水电站的成本特性数据集C={Y1,Y2,…,Y65},15个影响因素的数据集X={X1,X2,…,X15},计算典型集中特征向量(影响因素数据集)X={X1,X2,…,X15}与(成本特性数据集)C={Y1,Y2,…,Y65}之间的互信息。

对于第e个影响因素,其与成本特性的平均互信息为

(7)

将因素数据集X={X1,X2,…,X15}分别与运营成本数据序列Y形成15个数据集(D1(X1,Y),D2(X2,Y),…,D15(X15,Y)),利用MIC分析各项影响因素与运营成本的相关关系。

以X10与Y的MIC计算过程中两类网格划分(见图3)为例,说明不同划分形式对同一数据集均一化互信息值的影响。图3显示,对单机容量与成本数据集而言,6行2列的网格划分大于4行3列的均一化互信息值。观察数据分布,图3a中当已知均一化Y值落入[0,0.5)区间,有80%以上的把握可以认为均一化X位于区间[0,017);图3b假设Y值落入[0,0.33)区间,X位于区间[0,0.25)的概率为52%,仍有大于20%的概率位于区间[0.25,0.5)。基于互信息的概念,即可解释图3a的均一化互信息大于图3b的原因。

为进一步了解各影响因素与运营成本的关系,利用PCCs、MIC总结描述影响因素与运营成本的内在关联,将PCCs绝对值大于MIC的称为线性关系强势;反之,为非线性关系强势,需要说明的是,这里的“强势”并不等同于“显著”,只是两变量间线性关系与非线性关系的比较,对于显著关系仍用显著来表示,具体如表2所示。

表2 影响因素与运营成本内在关联描述

设定不同阈值PCCs、MIC筛选影响因素(特征值),认为线性关系强势的影响因素与水电站标准支出成本的关系形如ax+b,而MIC值较大影响因素应呈非线性关系,则水电站标准支出成本模型

(8)

式中,xk为与运营成本非线性相关关系fk更显著的第k个影响因子;xi为与运营成本线性相关性更强的第i个影响因子。由表2可知,正常蓄水位X3、投产时长X13、装机容量X1、平均单机容量X10与运营成本非线性关系更明显,其中装机容量X1、平均单机容量X10非线性关系显著;剩余11个影响因子呈线性关系,其中坝高X7、职工人数X9、坝面积X14线性关系显著。

在拟合过程中,分别选择相关系数大于0.1、0.2、0.3、0.4、0.5、0.6、0.7的影响因子,利用Levenberg-Marquardt算法开展回归计算。Levenberg-Marquardt算法是牛顿法的一种改进,在计算时能够避免牛顿法由于Hessian矩阵奇异而导致算法无法继续迭代的情况,常用于非线性最小二乘问题的最优化实现[11-12]。分析计算发现,相关系数低限阈值<0.4时,由于变量较多,导致拟合关系无法收敛,故仅将拟合收敛的3种结果(相关系数>0.5、0.6、0.7)绘于图4。从图4可以看出,无论实际运营成本的高低,拟合值都与实际值较为贴近。由标准化残差分布可知,当选择相关系数>0.6的影响因子进行拟合时,其残差最接近正态分布。

同时,对3种结果拟合性能进行量化,得到表3。分析训练集的拟合性能发现,调整后R2在相关系数阈值为0.6时取值最大为0.930。此时,被选择的自变量有装机容量X1、坝高X7、人力X9、平均单机容量X10、坝面积X14,反映出运营成本主要与发电机组、大坝、劳动力特征有关;而MAPE和合格率均在阈值为0.5时最优。从测试集结果看,除了在相关系数阈值为0.7时最优,其余各指标均在调整后R2在相关系数阈值为0.5时取得最优。

表3 不同阈值相关系数下的特征数与拟合性能

然而,当相关系数阈值取0.5、0.6时,序号为42、55、60这类实际运营成本较小的水电站拟合值为负,严重违背运营成本含义。故认为,选择影响因素与运营成本相关系数大于0.7的特征变量做非线性回归时,拟合效果佳且结果更可靠,此时特征变量为装机容量X1、平均单机容量X10、坝面积X14,水电站标准支出成本模型为

(9)

式中,Yul为非线性回归模型拟合的水电站标准支出成本;其余符号含义如前述。

分析表3发现,当相关系数阈值取大于0.5时,无论对于训练集或是测试集,非线性回归拟合效果均较优。因此,通过PCCs、MIC值分析影响因素与响应变量是否呈线性相关,对模型构建具有一定指导意义。

4 结 论

本文通过对成本的结构及对成本和水电站运行复杂程度的关系分析定义了水电站标准支出成本,为了保证选取的自变量更大程度反映水电站运行特性,利用PCCS、MIC挖掘出于水电站运营成本关系相对密切的因素,针对不同表现关系,利用L-M回归方法构建水电站标准支出成本模型,并对模型回归效果进行分析。结果显示该方法具备合理性,可为水电企业对标评价提供新思路。

猜你喜欢

互信息水电站阈值
里底水电站工程
土石坝坝体失稳破坏降水阈值的确定方法
基于小波变换阈值去噪算法的改进
白鹤滩水电站有多“牛”?
水电站水轮机制造新工艺的探析
采用红细胞沉降率和C-反应蛋白作为假体周围感染的阈值
改进小波阈值对热泵电机振动信号的去噪研究
基于改进互信息和邻接熵的微博新词发现方法
基于互信息和小波变换的图像配准的研究
基于互信息的图像分割算法研究与设计