基于数据挖掘的行业客户用电信息研究

2022-10-27深圳供电局有限公司方力谦

电力设备管理 2022年18期

深圳供电局有限公司龙干方力谦

1 引言

电力行业是支撑我国经济发展与群体生活需求息息相关的行业，随着国家电网建设规模的提升，各个地区纷纷响应号召，投入了大量的资金用于建设与改造电网工程。在这种发展趋势下，供电单位在市场内的竞争越发激烈，行业需要不断在此过程中提高自身的社会发展能力，加强对用户信息的挖掘与分析，掌握更多用户的需求，才能为电力企业创造更高的效益与经济价值[1]。

目前，电力行业已将现行工作重点转移到了市场营销发展层面，如何实现对电力行业客户用电信息的深度挖掘，成为电力单位的工作重点，也成了电力行业市场经营的重心与核心。但在深入此项工作的研究时发现，大部分电力企业对于客户的研究仍存在深度不足、技术使用偏差等问题。例如，现有的行业客户用电信息分析技术包括卷积神经网络技术、大数据技术等，提出的技术在实际应用中尚存在短板。

因此，本文将在现有研究成果的基础上，引进数据挖掘技术，对行业客户用电信息展开详细的研究[2]。通过获取大量行业客户用电信息作为支撑，深度挖掘用户需求与用户用电行为规律，以此种方式，为企业电力设备的规范化管理与行业客户用电负荷预测提供进一步的技术决策作为支撑，保证我国电力相关行业在经济市场内的规范化发展。

2 基于数据挖掘的行业客户用电信息研究

2.1 客户用电信息挖掘与归类

为实现对行业客户用电信息的深度分析，本文引进数据挖掘技术，进行用户用电信息的挖掘与归类研究。在此过程中，需要先进行业客户用电信息的获取，在电力企业终端管理数据库中，提取行业客户用电行为数据信息，将此部分数据作为支撑，建立用户类别细分指标[3]。处理流程如下。

2.1.1 信息的采集

全面采集用电情况，可采集所有电力用户用电信息，电压、电流等交流模拟量运行信息，开关、机械设备工况使用信息，终端、电能表记录，预付费采集时间信息。上述信息需要不同部门根据不同业务、不同需求对采集的用电数据进行综合利用，通过计算机自动编制、计算、分析，实现对任务的管理和执行。在使用过程中，需要通过定期自动采集、随机来电测试、主动上报等采集方式获取所需的相关信息和数据。

2.1.2 分析处理功能

数据采集完成后，进入数据合理性检查、计算分析、存储、管理、查询等步骤。在数据分析过程中，能够快速及时地发现问题，合理补充不同的问题，确保数据完整、可用。通过设计的程序，自动对负荷、电量和电能质量进行科学的统计分析。线损计算完成后，提供给营销管理部门作为运维和管理决策的参考。

将用户用电行为数据作为挖掘数据，按照下述图1所示的步骤，对客户用电信息进行挖掘。

图1 客户用电信息挖掘

挖掘过程中，将电力企业中的营帐数据、计费系统统计数据、客服终端统计数据与结算数据，按照标准导入挖掘终端，通过对数据的抽取与加载，提取数据的自然属性与行为属性，划分数据属性维度，匹配用户用电行为，以此种方式，进行客户用电信息归类[4]。对此过程进行描述，如下计算公式所示：

公式（1）中：E 表示为基于数据挖掘的客户用电信息归类过程；P 表示为电能表统计数据；m 表示为用户类别；i 表示为数据簇；C 表示为簇族之间的相速度。按照上述方式，完成客户用电信息挖掘与归类。

2.2 基于K-means 算法的行业客户用电信息聚类

为实现对用户用电信息的深度分析，掌握不同类型用户的用电习惯，在完成上述研究后，引进K-means 算法，进行行业客户用电信息聚类[5]。本次研究的K-means 算法是一种基于样本相似度的聚类算法，可以通过对数据的聚类实现对终端电力企业管理过程的优化。在此过程中，考虑到行业客户用电信息收集过程中，可能存在多种因素导致用电信息出现损坏或缺失，此类数据会直接对电力设备管理与电力企业运营造成影响。因此，需要在聚类数据前，对行业客户用电信息进行修复，此过程如下计算公式所示：

公式（2）中：X 表示为修复后的行业客户用电信息；X(γ)表示为修复前的行业客户用电信息，其中γ 表示为行业客户用电信息缺失程度；Xd表示为数据横向分布相似度；q 表示为电力企业运营产生的电力生产数据。完成对数据的填充与修复后，选择一个指数KL 作为数据聚类中心，确定聚类K参照值后，按照下述计算公式，进行聚类次数的设定。

公式（3）中：k 表示为聚类次数；h 表示为数据聚类维度，其中KL（h）可用下述计算公式计算得到具体数值。

公式（4）中：DIEF 表示为空间数据内距的平方和。按照上述计算公式，完成信息聚类准备工作。在此基础上，选择负荷曲线上任意一个数据点作为中心点，根据空间点之间的距离，进行数据聚类。对行业客户用电信息聚类过程进行描述，如下计算公式所示。

公式（5）中：density 表示为行业客户用电信息聚类过程；u 表示为目标数据收敛系数；Dist 表示为数据列表与数据清单；d（X）表示为空间数据欧式距离。按照上述计算公式，进行行业客户用电信息的聚类。为确保聚类后的数据可以达到预期效果，在完成上述研究后，对聚类结果进行检验，检验过程如下计算公式所示。

公式（6）中：I 表示为聚类结果检验系数；V表示为数据聚类与集成速度；K 表示为聚类参照值。按照上述方式，对聚类结果检验系数进行量化，I 的计算值越小，说明聚类后数据越紧凑，反之，I 的计算值越大，说明聚类后数据越分散，以此完成基于K-means 算法的行业客户用电信息聚类。

2.3 行业客户用电负荷风险预测与管理

完成上述研究后，根据行业客户用电信息聚类结果，进行行业客户用电负荷风险的预测。预测过程中，将聚类相关数据统计到SPSS 软件中，构建一个针对行业客户用电信息的Logistic 模型，以此种方式，掌握用户缴纳电费的履约率。对用户缴纳电费的履约率进行计算，计算公式如下：

公式（7）中：ψ 表示为用户缴纳电费的履约率；ψ1表示为用户缴纳电费的履约次数；ψ2表示为电费催缴次数；ψ3表示为用户主动缴纳电费的次数。ψ 计算结果越高，说明行业客户用电信誉度越高，与此同时行业客户用电负荷风险越低，反之，ψ 计算结果越低，说明行业客户用电信誉度越低，与此同时行业客户用电负荷风险越高。根据用户历史用电行为，实现对行业客户用电负荷风险预测。以此方面数据为依据与参照，进行电力企业用电设备的管理，包括多次催缴但用户并未及时或按时缴纳电费，电力终端将采取措施进行此用户终端电力设备的停用；当用户未用电但出现终端电能表统计用户用电量超额的现象时，可以结合实际情况，进行电力设备的安检，检查设备是否存在漏电、接线错误等方面的故障。通过此种方式，实现对电力企业中设备的规范化运营管理。

3 对比试验

上文从三个方面完成了基于数据挖掘的行业客户用电信息研究。但此项研究成果在科研单位内仍处于理论开发阶段，仍没有可靠的成果为此项研究提供支撑。因此，下述将以某地区电力企业为例，通过设计对比试验的方式，对本文设计的方法进行检验研究。

本次试验选择某地区大型电力企业作为试验单位，通过与此单位相关负责人的合作可知，此单位在近1年的市场运营与电力营销过程中一直存在亏损问题。获取此单利单位的电力运营数据，将其作为此次研究的样本测试样本。选择该企业中8名用户在2021年1月的主要用电数据作为试验数据，每间隔15min 进行一次数据采样。

在确保数据量充足的条件下，使用本文设计的方法，对行业客户用电信息进行获取，同时深度挖掘行业客户用电信息，掌握不同信息的价值，对信息进行归类处理。处理后，引进K-means 算法，对行业客户用电信息进行聚类与归一化处理。根据现有的数据，建立用户用电行为模型，通过此种方式，实现对行业客户用电量的预测。可将此过程表示为下述计算公式：

公式（8）中：D 表示为行业客户用电量预测结果，计算单位为kWh；ε 表示为电能表统计数据补偿系数。

试验中，随机选择一名行业客户作为研究对象，按照上述步骤，建立用户用电信息模型，预测此名用户在近10天内的用电量，将其作为试验结果。在此基础上，获取电力企业记录的该用户用电量实测结果，对比预测结果与实测结果，如下图2所示。

图2 用户用电量预测结果

图2中，虚线代表本文方法预测行业客户用电量；实线代表电力企业使用电能表统计得到的用户用电量。从两个曲线的变化趋势可以看出，本文此次研究设计的方法在实际应用中，可以实现对行业客户用电量的精准预测，保证预测结果与实测结果之间的偏差在一个相对较低的数值范围内。

在上述研究内容的基础上，引进基于多数据融合技术的行业客户用电信息研究方法作为传统方法，使用传统方法与本文方法，对行业客户用电负荷风险进行预测。在使用传统方法进行客户用电负荷风险预测时，应先按照上述方式进行客户用电信息的获取，根据所获取的信息，构建用户用电信息模型。同时，使用多数据融合技术，对具有相同用电特点的数据进行集成与融合，辅助大数据决策，对客户用电负荷风险进行预测。风险预测值可用公式（7）计算得出。

根据电力企业现存的用户用电数据，评估用户用电行为，计算客户用电实际负荷风险，将其作为对比实验结果的参照值。将两种方法计算得到的客户用电负荷风险预测值与参照值进行计算，将得到的差值作为客户用电负荷风险预测偏差。统计试验结果见表1。

从表1所示的试验结果可以看出，本文方法预测值与参照值的偏差，明显小于传统方法预测值与参照值的偏差。由此可以证明，本文此次设计的基于数据挖掘的行业客户用电信息研究方法，可以在实际应用中，不仅可以实现对客户用电量的精准推算，还可以实现对行业客户用电负荷风险的精准预测，通过此种方式，为电力企业终端供电设备与电力服务综合管理提供决策依据。

表1 客户用电负荷风险预测值偏差统计结果

4 结语

本文从客户用电信息挖掘与归类、基于K-means 算法的行业客户用电信息聚类、行业客户用电负荷风险预测与管理三个方面，完成了基于数据挖掘的行业客户用电信息研究。完成设计后，以某地区大型电力企业作为实验单位，设计对比试验，试验结果证明，本文此次研究设计的方法在应用中，可以实现对用户用电量与用电负荷风险的精准预测。但通过本次研究后，也发现了现有研究成果存在的一些不足，如仅选择了一个电力服务单位作为试验研究对象，试验范围较小，可能会导致试验结果存在一定的偶然性，也没有明确提出后续电力企业在市场内的发展方向。因此，在后续的研究中，将持续进行本文此次研究成果的深化，为本文研究方法在市场内的推广使用提供进一步的指导与帮助。