APP下载

基于电力用户信用评价模型的电费回收风险管控应用

2023-11-09薛峪峰罗红郊马晓琴

微型电脑应用 2023年10期
关键词:特征选择蝙蝠电费

薛峪峰, 罗红郊, 马晓琴

(国网青海省电力公司信息通信公司,青海,西宁 810008)

0 引言

电能是不可储存的特殊商品,生产与销售需同时进行,因此一般采用“先使用、后付费”的信用销售模式[1-2]。由于社会信用建设相对滞后,给电费回收的风险管控带来较大压力。为规避电费回收风险,及早发现欠费风险用户,建立电力用户信用管理制度,迫切需要在历史数据集上应用信用评价模型识别欠费风险用户。因此,构建高效、准确的电力用户信用评价模型是开展电力用户信用管理工作的基础。

信用评价模型通常基于机器学习算法构建[3]。研究显示,综合特征选择、分类等算法步骤的混合算法是保证用户信用评分模型性能的有效方法,这是因为用户信用评价数据集中包含大量和冗余的特征,需要通过特征约简降低计算复杂度和提升分类准确度[4-5]。

由于“自我优化”“灵活性”和“简单的基本规则集”等特性,元启发式算法可有效解决特征选择问题[6]。文献[7]将GA应用于ANN的图像特征选择,加快了网络收敛速度。文献[8]提出了一种基于PSO的特征选择与基于SVM的分类相结合的信用风险识别及预警模型,提升了分类精度。文献[9]使用蝙蝠算法优化了基于SVM的故障分类算法,有效防止了局部收敛,取得了较好的预测精度。

本文基于结合数据预处理、特征选择和分类器的混合算法,设计了一种电力用户信用评价模型,以识别存在欠费风险的电力用户。在模型构建方面,使用改进蝙蝠算法提高特征选择质量,使用优化的适应度函数提升分类精度和降低计算成本,使用径向基函数网络(RBFN)基于所选特征子集进行电力用户的分类。在模型应用方面,基于模型计算结果制定个性化电费催缴措施,从而主动应对电费回收风险,确保电费回收风险可控、能控、在控,保障电费回收管理规范高效。应用结果证明,该模型能够有效支撑电费回收管理工作的高效开展。

1 电力用户信用评价模型

电力用户信用评价模型的主要目标是确定电力用户属于信用良好或信用较差(可能在不久的将来做出欠费行为)用户群体。该模型主要由数据预处理、特征选择和分类器三个主要流程组成,如图1所示。

图1 所提电力用户信用评价模型架构

1.1 数据预处理

电力用户可分为居民生活用户、工业用户、商业用户以及农业生产用户。依据用户分类,信用指标(即特征)又可分为商业信用指标(企业形象、资产负债率、缴纳电费占比等)、安全信用指标(安全检查记录、安全事故记录等)、合作信用指标(综合能源服务记录、配合检查记录、调度合作记录等)以及法律信用(违章用电、电费缴纳情况等)[10]。如果不根据对属性不同、数值差异较大以及包含缺失值的庞杂数据集进行适当处理,将难以直接进行分类计算。

数据预处理的第一步是剔除具有缺失值的数据样本。其次,对非实数类型的特征属性进行处理,将其属性值转换成唯一的实数,因为神经网络分类器只支持实数的输入向量。最后,由于在信用评分数据集中特征取值差异过大,为防止具有大数值范围的特征支配具有小数值范围的特征,使用式(1)进行数据标准化,

(1)

其中,x表示具有N个特征值的数据样本,Nvalue表示新分配的特征值。

1.2 特征选择

为从原始特征集中确定一个最小规模的特征子集,且该特征子集足以描述给定数据集中电力用户的信用特征,设计基于改进蝙蝠算法的特征选择算法。

1.2.1 改进蝙蝠算法

蝙蝠发出一个短脉冲的声音并等待,在接收到回声返回后估计物体的距离。借鉴蝙蝠这种特殊的回声定位能力,文献[11]设计了一种新的元启发式优化算法,即蝙蝠算法(BA)。在BA中,一群蝙蝠利用回声定位能力追踪食物。基于蝙蝠回声定位行为和捕食行为,BA给出了蝙蝠的短脉冲频率、位置和速度的计算规则[11]如式(2)、式(3)和式(4):

Freqi=Freqmin+(Freqmax-Freqmin)×β

(2)

Vli(t+1)=Vli(t)+(Posi(t)-Gbest)×Freqi

(3)

Posi(t+1)=Posi(t)+Vli(t+1)

(4)

式中,Freqi表示每次迭代更新的第i个蝙蝠的短脉冲频率,β∈[0,1]是0到1之间的随机生成数,Gbest是得到的最佳解,Vli(t)和Posi(t)表示第t次迭代时第i个蝙蝠的速度和位置。

式(2)、式(3)和式(4)已可以保证BA正常迭代运行,但为增强BA的收敛性能,在正常迭代过程中添加了一个随机游走过程,如式(5)~式(7):

Posnew=Posold+ε×Lt

(5)

Li(t+1)=α×Li(t)

(6)

Ri(t+1)=Ri(0)[1-e-γt]

(7)

式中,ε∈[0,1]是0到1之间的随机生成数,Li和Ri表示第i个蝙蝠在第t次迭代时的脉冲幅值和脉冲发射率。在算法迭代过程中,Li和Ri分别按照式(6)和式(7)进行更新。

在BA中,蝙蝠位置在连续搜索空间中变化,但是在本文的二分类问题中,需要在离散空间或二进制空间中对蝙蝠位置进行搜索,蝙蝠位置需要用1或0表示。因此,使用二进制蝙蝠算法(BBA)在离散空间中更新蝙蝠位置[12]。BBA将连续搜索空间映射到离散搜索空间,如式(8):

(8)

在完成搜索空间的映射后,使用式(9)更新蝙蝠位置,

(9)

式(8)和式(9)通过阈值限制将蝙蝠位置值转换为1或0。这导致当蝙蝠速度增加时,蝙蝠位置不会改变。为解决该问题,修改空间映射函数和位置更新方法如式(10)、式(11):

(10)

(11)

1.2.2 特征选择

在特征选择算法中,将数据集分为训练数据集和测试数据集两部分,分别表示Tr和Ts。前75%的数据样本指定为Tr,其余25%的数据样本指定为Ts。在特征选择算法中,首先初始化蝙蝠的种群、位置、脉冲响度和脉冲发射率。蝙蝠初始位置是随机选择的,其值为0或1。蝙蝠种群大小与该数据集中的特征总数相同。如果位置值为1,则表示该位置对应特征存在,否则不存在。此外,根据蝙蝠位置从Tr和Ts中生成新的训练和测试数据集,即D1和D2。分类器在D1上进行训练并在D2上进行测试,以计算每个蝙蝠的适应度值。此外,如果已经接受了新的位置,则分别根据式(6)和式(7)更新幅值Li和脉冲发射率Ri。一般来说,蝙蝠捕捉到猎物后,脉冲发射率会增加,幅值会降低。特征选择算法步骤如下。

(1) 初始化蝙蝠的种群和位置。蝙蝠种群大小与数据集特征数量相同,蝙蝠位置随机取值1或0。其中,1表示对应位置特征存在,0表示不存在。

(2) 初始化蝙蝠的速度、幅值和频率。

(3) 从原始数据集创建训练集和测试数据集。

(4) 为每个蝙蝠生成具有选定特征的训练和测试数据集(D1和D2)。

(5) 计算每只蝙蝠的适应度值,并根据适应度值找到局部最佳值。

(6) 更新蝙蝠的速度、响度和频率。

(7) 重复步骤(2)直到迭代次数和适应度值分别小于最大迭代次数和或阈值。

(8) 找到全局最优Gbest,并将Gbest对应的位置作为选择特征。

1.2.3 适应度函数

提升分类精度和降低所选特征集的计算成本是设计适应度函数的主要目标。在电力用户信用评价数据集中,可能有一些特征比其他特征更有价值,例如对于居民生活用户而言,电费缴纳情况比缴纳电费占比更有价值。因此,针对每个特征的准确性、特征数量和权重,设计如式(12)所示的适应度函数,

(12)

式中,Wa表示分类精度的权重系数,Acc表示分类精度,Wf表示所选特征成本的权重系数,Fi表示第i个特征,Wi表示第i个特征的权重系数,N表示数据集中特征的总数。

在式(12)中,准确度与预定义的权重系数Wa相关,如果准确度是信用评价中最重要的问题,则可以调整其为1。此外,每个特征都与权重系数Wa相关联,这表明该特征对信用评价的价值,即最有价值特征被分配最大的权重系数。

为了在迭代过程中使得具有更高适应度值的蝙蝠被保留概率更高,可根据不同的电力用户类型优化调整准确度权重系数和特征集的计算成本权重系数值。

1.3 分类器

分类是指输入向量到某个输出类的映射。主流的分类器有“多层前馈神经网络(MLFN)”“多层感知器网络(MLPN)”等。这些分类方法采用迭代的方法训练,需要较长时间来进行网络收敛。与MLFN和MLPN不同,径向基函数网络(RBFN)是非迭代模型,需要单次迭代进行训练,因此训练时间较短。研究表明,RBFN的分类性能也优于MLFN和MLPN模型[13]。因此,本文基于RBFN设计的分类器如图2所示。

图2 所设计的RBFN结构

所设计的RBFN具有四层前馈架构,第一层是输入层,第二层是隐藏层,第三层是求和层,第四层是输出层。RBFN使用径向基函数作为激活函数。在输入层,神经元的数量与输入特征向集上的特征数量相同。该层完全连接至隐藏层。隐藏层包含M个神经元,M等于训练数据集中的数据样本数。该层完全连接到求和层。求和层中神经元的激活函数为径向基函数,如式(13)所示。求和层有少量神经元,相当于训练数据集中类标签的数量。最后,输出层只有一个输出神经元,代表分类的类别标签。

(13)

式中,φ(x)是隐藏层的输出向量,x是隐藏层的输入向量,σi是第i个隐藏神经元的输出,μi是中心向量。

(14)

式中,R是径向基矩阵,T是训练数据集的目标向量。

α=[R′×R]

(15)

W=α-1×R′×T

(16)

式中,R′是矩阵R的转置,α是方差矩阵。

Yi=Wi×φ(x),i=1,2,…,M

(17)

式中,Yi是第i个求和层神经元的输出,Wi是式(16)所计算得出的第i个求和层神经元的权重系数。

2 基于信用评价模型的电费回收风险管控应用

根据某市级供电公司从2020年1月至7月于试点区域收集的历史数据,使用本文所提出的模型计算信用较差的电力用户,并将该计算结果与8月欠费用户进行比对,以验证模型的性能。按此方法,依次计算9~12月的存在欠费风险的电力用户。

收集的历史数据包含120个居民生活用户、40个大工业用户、100个一般商业用户以及60个农业生产用户,一共3840个数据样本。数据集中的信用指标分为商业信用、安全信用、合作信用以及法律信用4大类,共16个特征指标。模型应用结果如下。

2.1 模型应用结果

对信用评价模型输出的信用较差用户与实际发生欠费用户进行对比,用准确率、完整率、有效率三个评价指标来评估电力用户信用评价模型实施效果。准确率即在模型输出的信用较差用户中,真实发生欠费的用户占比,该指标用以衡量模型的准确性;完整率则是在模型输出的信用较差用户中,真实发生欠费的用户占全体信用较差用户的比例,该指标用以衡量模型的全面性;有效率指模型输出结果的准确率与随机筛选的准确率的比值,该指标用以衡量模型的有效性。

将所输出信用较差用户与实际欠费用户对比,发现工业用户的识别准确率最高,表1显示8~11月准确率平均为75.9%,完整率为63.5%。在12月,为了提升模型完整率,准确率有所降低。

表1 工业用户识别结果

商业用户识别较为准确,表2显示8~11月准确率平均为70.8%,完整率为 43.2%。在12月,为了提升模型完整率,准确率有所降低。

表2 商业用户识别结果

居民生活用户识别准确率类似一般商业用户,表3显示8~11月准确率平均为70.0%,完整率为43.0%。在12月,为了提升模型完整率,准确率有所降低。

表3 居民生活用户识别结果

农业用户预测准确率稍低,表4显示8~11月准确率平均为66.9%,完整率为44.1%。在12月,为了提升模型完整率,准确率有所降低。

表4 农业用户识别结果

2.2 基于计算结果的风险管控

根据电力用户信用评价模型的输出结果,结合具体业务应对策略,按照电费风险防控管理流程,将相应业务策略推送至相应岗位,主动开展电费催缴。

对于工业客户,模型计算结果的准确率最高,因此可依据模型结果制定完备的电费回收风险管控措施,包括风险用户信息发布、风险用户信息收集、用户信用评估报告生成、电费催缴措施确认、电费催缴措施执行与催缴措施执行效果评估等环节,对已实施催缴措施的用户进行催缴成效追踪,催缴结果可纳入案例库,完善催缴策略。

对于一般商业用户、居民生活用户以及农业用户,模型计算结果不够准确,且这部分用户数量极大,因此需要将模型计算结果整理分发给相关电费催缴责任人,由责任人依据具体情况定期开展针对风险用户的催缴、专项核抄等,确定具体的真实的欠费风险用户,为提高欠费催缴的效率提供必要的数据支撑。

2.3 模型应用

根据模型计算结果,于2021年1月份对信用较差电力用户采取针对性的应对策略,试点区域电费回收率得到提升。

试点区域中工业用户欠费数减少2%,欠费率降低0.81%;商业用户欠费数减少8.2%,欠费率降低6.64%;居民生活用户欠费数减少8.6%,欠费率降低4.06%;农业用户欠费数减少4.6%,欠费率降低0.09%。

将试点区域应用结果与其他区域对比,试点区域欠费率总体下降2.9个百分点,其他区县下降0.05个百分点。其中,工业用户欠费率试点区域下降 0.81 个百分点,其他区域上升0.02 个百分点。具体见表5和表6。

表5 试点区域应用结果

表6 其他区域对比结果

3 总结

研究表明,基于电力用户信用评价模型电费风险管控策略能够快速响应业务需求,帮助业务人员从海量电费数据中预测潜在的风险用户,提高欠费催缴效率。本文以信用评估与电费风险防控主题为例,证明了电力用户信用评价模型能有效预警电力缴费信用较差人群,推动催缴工作的主动开展,提升试点区域电力用户总体电费回收率。该模型在青海等地试点应用,取得了较好的效果,为精准实施电费回收风险管控,提高客户服务的个性化、精准度提供了有力支撑。

猜你喜欢

特征选择蝙蝠电费
基于ε-SVR模型的日电费回收预测
基于大用户电费回收的风险管控
蝙蝠
Kmeans 应用与特征选择
联合互信息水下目标特征选择算法
关于县级供电企业电费对账的研究
蝙蝠女
蝙蝠为什么倒挂着睡觉?
第三方密码网银支付预收电费探讨
基于特征选择和RRVPMCD的滚动轴承故障诊断方法