合赋权-系统聚类算法在用能企业分类中的应用研究

2021-12-28赵云鹏郭彦周润智刘博中国石油天然气股份有限公司规划总院

石油石化节能 2021年12期

赵云鹏郭彦周润智刘博（中国石油天然气股份有限公司规划总院）

1 背景

国家“十三五”规划《纲要》明确全国“双控”目标任务，提出了实施重点用能单位“百千万”行动。将纳入行动范围的企业根据能耗总量划分了类别，其中能耗总量大于300 t(标煤)的列为百家企业，耗能总量50～300 t(标煤)的列为千家企业，耗能总量小于或等于50 t(标煤)的列为万家企业，分类管理分别施策。以往评价评级用能企业，一般根据某一用能指标排序或依赖专家判断，不能全面、客观、灵活地制定管理措施。

聚类方法是机器学习中无监督学习的一种，它将数据对象根据某种相似度进行分类，希望类内个体相似度越大越好，类间个体相似度越小越好[1]。基于不同对象特点和学习策略，设计出多种类型的聚类算法，常见的有K-MEANS、DBSCAN、层次聚类、均值偏移聚类算法等[2]。对于多属性决策问题，王中兴等[3]根据优化理论提出了一种集成方法——组合赋权法，该方法既充分利用客观信息，又反映决策者的主观偏好，从而使确定的属性权重更加合理、实用。

2 组合赋权法

考虑到纳入到分类的重点用能企业，涉及到勘探开发、炼油化工、工程建设、工程技术等不同业务类型。为保证参考指标的普适性，结合中国石油现状，拟选择综合能源消耗总量、新鲜水消耗量、节能量、节水量等总量规模类指标，用于节能管理分类研究。

主观赋权法是根据决策者的主观经验和判断，用特定方法计算出的指标权重，常见的有层次分析法（AHP）、德尔菲法和灰色关联分析等；客观赋权法是根据决策矩阵提供的客观信息计算确定的权重，常见的有熵值法、主成分分析法、离差及均方差法。以上两种方法在某种程度上都有局限性，主观赋权法在确定指标权重时主观性较大，易受专家经验限制，而客观赋权法不能针对具体问题进行判断，具有盲目性。

而组合赋权法综合体现了主观赋权的主观意愿和客观赋权的客观性[4]，分别采用AHP法和熵权法分别赋予主、客观权重，通过组合赋权法计算最优权重，使聚类结果更加科学。

2.1 计算客观权重（熵值法）

熵值法是根据熵值提供的信息值来确定权重的一种研究方法。熵越大说明数据越混乱，携带的信息越少，效用值越小，对评价的重要性越小，因而权重也越小。

利用熵值法计算求得的指标客观权重见表1，综合能源消耗量、新鲜水消耗量、节能量、节水量四个指标的客观权重分别为32.05%、28.87%、26.59%、12.49%。从熵值计算结果来看[5]，用能企业的用能量、用水量、节能量指标的客观权重较平均，均高于节水量的客观权重12.49%。综合能源消费量的客观权重最大，信息效用值最大。

表1 指标客观权重

2.2 计算主观权重（AHP法）

进行专家咨询后，对各指标间重要程度进行两两比较，利用Saaty[6]提出的1-9标度法，将人的主观判断转换为定量的判断矩阵。为避免AHP法在一致性检验调整的操作，引入最优传递矩阵，使判断矩阵一开始就满足一致性的要求，直接计算出权重值[7]。计算求得矩阵的最大特征值为6.3，特征向量归一化后得到综合能源消耗量、新鲜水消耗量、节能量、节水量四个指标的主观权重分别为43.12%、18.72%、28.80%、9.36%。

2.3 计算组合权重

结果显示两种方法得到的权重赋值存在一定差异，最终基于AHP法和熵值法的线性组合赋权法[8]确定指标权重：

式中：ηj为组合赋权法计算综合权重；wj为熵值法确定的客观权重；χj为AHP法确定的主观权重；μ为偏好因子，代表决策者对AHP法和熵值法的偏好程度，μ∈[0 ,1]，μ取0.6。

指标权重变化见图1，由于主观偏好的原因，综合权重相比于客观赋权，显著放大了用能量的评价权重，显著缩小了用水量的评价权重，导致节能量与用水量排序换位。最终用能企业综合能源消耗量、新鲜水消耗量、节能量、节水量四个指标的组合权重分别为36.478%、24.81%、27.474%、11.238%，重要性由大到小排序为综合能源消耗量、节能量、新鲜水用量、节水量，符合公司现行节能节水考核评价的侧重性。

图1 指标权重变化

3 系统聚类方法

系统聚类又称层次聚类，是一种采用自下而上聚合策略的层次聚类算法，将每一个样本对象看做一个初始聚类簇，然后根据选取的簇间（类间）距离算法，找到距离最近的两个聚类簇合并，重复过程直至合成一个聚类簇。一般用谱系图或树状图加以表示，可形象直观地观察整个聚类过程和聚类效果[9]。

经典K-MEANS聚类算法需要预先给定聚类数目或聚类中心；DBSCAN聚类算法对高密度（集中）的数据空间分类结果较好；均值偏移聚类算法对异常值识别为噪声的能力较差；系统聚类不用预先指定聚类数目，且对不同类间距离度量方法选择不敏感，试用于量不大且具有层次属性的分类样本问题。确认评价指标后，分别利用客观法和主观法计算各指标权重，综合二者形成组合权重。选择不同类间计算方法对用能企业进行聚类计算，比较分析得到最优聚类结果。最后根据分类原则划分类别，并解释分类结果。

3.1 数据处理

以“十三五”末2020年全年数据为例，进行聚类方法的试验。为消除指标变量量纲和数量级的影响，对样本数据进行标准化处理，使变换后的数据均值为0，标准差为1。

式中：x∗ij为标准化处理后数据；n为指标个数；m为对象个数；xˉi为i指标数据的均值；Si为i指标数据的标准差。

3.2 系统聚类模型搭建

运用IBM SPSS软件，并将计算好的参考指标主客观组合权重以Python脚本编入SPSSStatistics相关模块，优化原有系统聚类算法。其原理：首先令m个对象自成一类，计算类间距离，把最小的两类合并为一类，然后按照组间连接法计算类间距离，根据最小距离准则并类，持续操作直至最终归为一类。

不同类间计算方法意味着不同的聚类结果，适用于不同实际问题。选用通用的平方欧氏距离，它衡量了两个向量在每个维度上的差距，即每个变量差的平方和，表示聚类簇两两间的整体距离。

式中：dist(x，y)为两类类间距；ηi为各参考指标权重；xi、yi为i指标下两类平均值。

系统聚类的树状谱系见图2，图中横轴代表类间距离，数值为标准化后值，不具有实际含义；纵轴代表标记的重点用能企业，以英文字母表示（数字1-60不代表数学含义）。谱系图的分类结果直观地展示出了整个聚类过程和量化结果，初始阶段为每家企业自成一类，根据类间平均距离差异逐渐合并，最终合为一类，其中横向线段表示并类时的类间距离。

图2 系统聚类树状谱系

对于系统聚类方法无确定的聚类数目，需要根据聚类结果和实际需要来划分。Demirmen[10]曾提出三条最优分类原则：任何类都必须在临近各类中是突出的（各类间距极大），确定的类中所包含的元素不要过分的多，分类类别数目要符合使用目的。60家重点用能企业在聚类过程中共有3次类间距较大的并类，以红线为界向左观察划分成4个类别。最后一次并类尤其突出（A与其它59家），A（大庆油田）并非异常值，而是中国石油的特大用能用水单位，其四项指标在中国石油地区公司中均极其突出，是需要重点对待的，但不需专门对待，所以将其降级与C、E、R并类即可。综上分析，确定用能用水企业分成3类：第一类A、R、E、C；第二类G；U；D；V；T；S；Q；第三类为统计的其它49家用能企业，以上类内企业无先后顺序。

3.3 聚类结果评价

3.3.1 主成分分析

由于四个分类指标均为正向特性，即指标越大企业分类等级越高。运用主成分分析方法，更科学地评价和判断聚类结果。主成分分析法是一种降维方法，用于对数据信息进行浓缩，将多个分析指标浓缩成一个或几个关键概括性指标。利用SPSS Statistics软件对四个用能用水指标进行标准化处理，求出方差解释率见表2。

表2 方差解释率

对四个指标进行分析，根据特征根大于1的原则，提取了一个主成分，累计方差解释率为85.983%，即提取的一个主成分变量表达了四个指标85.983%的信息量，意味着将原先四个维度的变量降至一维，并保留了相当的可信度。将提取的新变量结果作为参考，对上述直接分类结果进行评估和排序。

根据2020年12月（“十三五”末）E7中60家重点用能企业数据，提取的主成分分析见图3。降序排列后发现A的指标十分突出，是排在第二R的两倍之多，从第2到第13的数值迅速下降，第14家开始缓慢降低至平稳。将聚类法分类结果分类1～3的11家用能企业与主成分法的前13家用能企业横向对比，主成分分析法比较验证见表3。

图3 主成分分析

表3 主成分分析法比较验证

两种方法列出梯度变化较大的用能单位相比较，分类结果大致相同。由于系统聚类方法采用结合了主观赋权的组合赋权法，对四个参考指标重视程度不同，顺序为综合能源消耗量、节能量、新鲜水用量、节水量。而产生差异的的B和AF两家企业，均存在用能量较小、用水量较大或节水量较大的情况，因此将其排在“较低水平”用能用水企业类别相对科学合理。

3.3.2 外部模型验证

根据国家“百千万”行动划分标准，彼时中国石油共有9家百家重点用能企业上榜，根据能耗总量大于300 t(标煤)的百家划分标准，现中国石油在原先9个百家企业基础上增加了T和D两家，与系统聚类法的前2类11家企业吻合，再次验证了基于组合赋权法-系统聚类方法的用能企业分类方法和结果的可靠性。

4 总结与发展

开展节能管理分级分类研究，是加强中国石油节能管理的重要举措，将有效支持总部及专业公司节能工作部署、考核指标下达等，为“双控”考核达标提供管理支撑。从用能企业节能分级分类管理的目的出发，以60家重点用能用水企业为例，筛选4个评价指标，综合主观和客观两种指标赋权方法，运用系统聚类算法对历史数据进行挖掘，得出了相对准确、合理的分类结果。根据分类结果，将中国石油所属各企业按照“关键影响类、重点关注类、一般关注类、其他类”进行分类，对其实施不同节能指标考核要求和节能管理活动要求。整体上，分类方案对“关键影响类”和“重点关注类”企业提出了更多的节能指标考核要求和节能管理活动要求。

组合赋权-系统聚类方法既兼顾指标数据本身信息价值，又考虑了决策者对评价指标的偏好，克服了单一赋权法的片面性。另外此方法可随企业用能水平变化整体调整类别划分，形成了一套用能企业动态分类算法，精准施策，避免“一刀切”问题。随着中国石油不同业务类型企业的快速发展和低碳转型工作的逐步开展，需要利用深度学习、时间序列预测、知识图谱等现代成熟计算方法深挖已有数据价值，以数据驱动更科学、高效地指导企业生产管理。