结构化用电客户互动需求信息的比对库设计

2016-08-11董俐君朱新山

电力系统及其自动化学报 2016年6期

窦　健，董俐君，朱新山

（1.中国电力科学研究院，北京 100192；2.天津大学电气与自动化工程学院，天津 300072）

结构化用电客户互动需求信息的比对库设计

窦健1，董俐君1，朱新山2

（1.中国电力科学研究院，北京 100192；2.天津大学电气与自动化工程学院，天津 300072）

摘要：为提升电力系统服务效率与水平，该文对结构化用电客户互动需求信息提出了新颖的比对方案和比对库设计方案。比对方案以客户互动需求信息的一组统计量作为特征向量，结合特征向量的距离和相关系数构造单一用户之间的差异性指标，对用户集则采用高斯混合模型为统计特征向量集建模，并引用Kullback-Leibler （K-L）散度测量用户集的差异。利用客户互动需求信息、特征统计量以及差异性量化指标设计了一个三级的比对库。文中的比对方案可有效衡量单一用电客户和用电客户集的差异程度，改善比对效率和可靠性，三级比对库可全方位地反映客户互动需求数据的差异，有利于数据的分析和处理。

关键词：互动需求；比对库；差异性指标；高斯混合模型

随着我国经济的持续快速发展，电力需求不断增长，能源瓶颈问题变得越来越突出。为了满足电力的供需平衡和供电的可靠性，电力公司除了增加电力基础设施的投资以外，还必须实时调整营销策略与服务方案，鼓励用电客户进行需求侧响应和节能。对用电客户的互动需求信息进行分析与比对，建立比对库，可为制定合理的营销策略与服务方案提供支持，从而实现电力系统资源配置优化，提升服务效益，提高系统的可靠性［1-2］

经典信息分析方法主要可分为3大类：统计分析、关联分析和推理分析［3-6］。在用电客户互动需求信息分析中，利用数据统计和分析方法对某类客户互动需求信息进行分析，可在时间与空间上对客户需求有个整体把握，为电力公司的资源配置提供支持［3］。在时间上，通过对用电客户每年、每个季度、每月甚至每天的用电量的统计分析，可发现客户的用电规律，电力公司根据这些规律制定合理的供电方案以实现电力资源的合理配置与有效利用［4］；在空间上，各区域用电客户的用电量是有差异的，如天津市南开区各住宅小区的用电量是不同的，电力服务与维修人员的人数配置可根据此差异来进行［5］。

利用关联分析方法把客户的用电情况与季节、天气、气温、节假日等信息关联起来［6］。这些信息对用电情况有一定的影响，如夏季和冬季，出于降温与供暖的需要，居民用户用电量一般有所增加。通过关联分析，供电公司可根据实时情况对供电和人员分配有一个合理的调整。在用电客户互动需求信息分析中，基于大量用电客户的互动需求信息，利用归纳推理分析方法概括和抽象出各种类型用电客户互动需求信息的特点，如居民用户的用电环境与用电要求和其他类型的客户有较大差别，其互动需求将侧重于电价、用电量等。

本文针对结构化用电客户互动需求信息提出了比对算法和比对库的设计方案。首先描述了用电客户类型，并设计了用电客户互动需求信息的统计特征量；在此基础上，研究了单一用户的比对和用户集的比对问题，提出了新的差异性量化指标和两种新的比对算法。最后设计了一个3级比对库，以全方位的反映用户之间或用户集之间的差异。

1　客户互动需求信息的统计特征描述

1.1用电客户类型

客户互动需求信息，是指用电信息采集系统采集的供电单位与电力用户共同关心的信息，其内容与客户的具体用电需求紧密相关。在电力系统中，根据用电需求的差异，常常将用电客户分为A、B、C、D、E 5种类型。A类型为大型专用变压器用户，用电容量在100 kVA及以上；B类型为中小型专用变压器用户，用电容量小于100 kVA；C类型为三相一般工商业用户，是执行非居民电价的低压三相电力用户；D类型为单相一般工商业用户，是执行非居民电价的低压单相电力用户；E类型为居民用电，执行居民电价的城乡居民及居住区公用设施医院学校等用户。这五类用电客户主要关心的互动需求信息的指标如表1所示。

表1　五种类型用电客户的互动需求信息指标Tab.1　Interactive demand information indices for five categories of electricity customers

客户互动需求信息在数据形式上可分为结构化和非结构化两类数据。结构化数据，即行数据存储在数据库中，可以用二维表结构逻辑来表达实现的数据。而不方便用二维逻辑表来表现的数据即称为非结构化数据，其形式包括文本、图像、视频、网页等。结构化数据，可直接按照数据库中数据项的属性进行比对与分析。非结构化数据，则需要增加数据的预处理操作。本文研究结构化数据的比对方案。

1.2互动需求信息的统计量

随着用电信息采集系统的应用，电力企业各类信息系统纷纷建成投运，客户互动需求信息量也在急剧增长。简单地按照数据属性进行比对，不仅效率低，而且难以反映客户互动需求信息的差异和特征。因此，本文采用一组互动需求信息的统计量来表达其特征，并以此为基础建立比对方案。

方便描述统计量，令u=｛u1，u2，…，un｝T表示某个用户U关心的一个指标在t1，t2，…，tn时刻获得的数值，其中，n代表互动需求信息的样本总数。所关心的指标可以是电压、电流、功率等。如果需要同时比对多个指标，可以采用矩阵U表达客户互动需求信息，矩阵U的每一行对应一个用户关心的指标。为了充分表达用户U关于某种需求指标的特征，提出计算向量u的最小值ub、最大值uc、中位数um、众数uf、样本均值ue、样本标准差ud，形成一个统计向量s作为用户U关于某种需求指标的特征描述，s=｛ub，uc，um，uf，ue，ud｝T。表2给出了上述统计量的定义，其中，符号1表示一个元素皆等于1长度为n的向量，符号量u′是将向量u的元素按照从小到大的顺序排列后形成的向量，函数||·||q表示计算输入向量的q-范数，函数I（∙）是指示函数，定义为

表2　互动需求信息的统计量Tab.2　Statistics of interactive demand information

所给出的统计量可从多方面描述用户U所关心的某一指标数据的特征。最小值、最大值可描述数据出现的范围。中位数表示用电客户互动需求信息数据序列中处于中间位置的数据项，可剔除极端值的影响。众数表示用电客户互动需求信息中某一项指标的数据出现次数最多的数据项（可以不存在或多于一个），代表数据的一般水平。样本均值反映用电客户互动需求信息中某一项指标的数据集中趋势，是数据整体水平的一个体现。样本标准差可以度量数据相对均值的波动情况，样本标准差越大说明数据的波动越严重。

2　基于统计量的比对方法

2.1单一用电客户的比对

当进行比对的双方都是单一用电客户时，称为单一用电客户的比对。采用的比对方法是先计算用电客户的各个指标的统计特征量，之后就每一个指标进行差异性分析，最后将每种指标的差异性进行综合产生总体差异性。

假设U1和U2表示需要比对的用电客户，s1和s2分别表示二者的一个指标的统计特征量。特征量s1和s2的相关系数可以描述二者的相似度，其误差向量的范数可以描述二者间的距离。结合二者，提出一种新的差异性度量方法。首先，定义特征量s1和s2的归一化的均方误差γe为

显然，γe和γc满足，0≤γe≤1和0≤γc≤1。然后，利用γe和γc定义s1和s2的差异性δ为

特征量s1和s2的相关系数γc可表示为

式中，权重因子we和wc皆大于零，并满足we+wc= 1。权重因子we和wc可根据向量的相似度与距离的重要程度进行选择，一般可取为0.5。由式（4）可见，单项指标的差异性δ的定义中包含了对特征量s1和s2的距离和相关性的考虑，δ越大表明s1和s2的差异性越显著，δ满足0≤δ≤1。

如果客户U1和U2共有l个指标需要比对，利用式（4）计算每个指标对应的差异性，得到δ1，δ2，…，δl，度量总的差异性δT可用所有单项指标差异性的闵可夫斯基距离，即

2.2用户集的比对方法

当比对的双方都包含多个用电客户，甚至用电客户的类型也有多种，称为用户集的比对。此时，单一用电客户的比对方案无法使用。为了从整体上度量用户集的用电需求信息的相关性和差异性，本文提出利用混合高斯模型GMM（Gaussian mix⁃ture model）描述用电需求信息的分布，并引入K-L散度KLD（Kullback-Leibler divergence）度量分布之间的差异。

假设集合U1和U2表示两组用电客户，U1=｛U,U,…,U｝和=｛U,U,…,U｝，其中，Mi（i=1或2）代表客户的个数，也就是集合U1和U2的势。针对某个需求信息指标，为每一个参与比对的用户建立特征统计量，得到 s,s,…,s和s,s,…,s两个序列。如果将这两个序列分别视为随机变量S1和S2的样本序列，那么可分别用概率密度函数 pS1（∙）和 pS2（∙）来描述其统计分布。进一步，考虑到每个用电客户集合里可能包含多种类型的用户，一般不同类型的用户的用电信息差别较大，同一类型的用电客户的用电信息差别较小，因此，采用GMM描述随机变量S1和S2的分布［7］。具体地，设随机变量Si（i=1或2）的样本序列含有Ki个目标，每个目标类的样本服从高斯分布φ（x|θik），

式中：θik为分布参数，即表示第i个目标类的高斯分布的均值μik和方差Σik，θik=（μik，Σik）；Θi为GMM的参数矢量，Θi=（πi1,…,πiKi,θi1,…,θiKi）T。因此，随机变量Si的概率密度函数可以写作式中，p是一个整数，p＞0一般可取p=4。

该比对方案可用于纵向比对，即比对同一用电客户在不同阶段的互动需求信息的差异，也可用于横向比对，即比对不同客户在同一阶段的互动需求信息的差异。基于统计量的比对方法可以看出用电客户的用电数据的变化，通过分析数据的变化来调配电网的工作，以达到优化电网服务质量的效果。

式中，πik为混合系数，表示随机变量Si的第k个目标类的先验概率。显然，此特征统计量的分布为六维GMM。

上面给出了统计特征量的GMM描述，该模型完全由其参数Θi确定。极大似然估计是一种常用的估计概率分布参数的方法。但是，由于分布模型式（7）的复杂性，直接求解极大似然函数的解很困难，这里采用经典的期望最大化EM（expectationmaximization）算法求其最优解。EM算法的第j+1次叠代公式［8］为

由于特征统计量是随机的，欧拉范数不能直接用于测量随机量之间的差异。为此，引入一种统计测度，K-L散度KLD（Kullback-Leibler divergence），也称为相对熵（relative entropy）［9］。对于概率密度函数pS1（∙）和pS2（∙），KLD计算式为

KLD可用于度量两个统计模型的差异程度，但它不具有对称性。一种对称的KLD具有如下形式

许多文献中将对称KLD也称为距离，显然，λ （S1，S2）是对称的，且可以证明λ（S1，S2）是半正定的［10］，但是λ（S1，S2）不满足三角不等式，因此它不是严格意义的距离。理论上，将随机变量S1和S2的概率密度函数表达式（7）代入式（13），就可计算出λ （S1，S2）。

如果客户集U1和U2需要从l个需求信息指标方面进行比对，则根据上述过程可以计算出l个对称KLD，得到λ（S11，S21），λ（S12，S22），…，λ（S1l，S2l），总的差异性λT计算式为

用户集的比对方案适用于包含用户数量大、用户类型多的电力客户组，例如城区之间的比对、城市之间的比对、以及国家之间的比对等，能清楚地反映用电客户集的用电数据的变化情况，分析用户集的用电数据的相似性和差异性，为电网的合理调配提供依据。

3　比对库设计

对A、B、C、D、E 5类客户互动需求信息的比对分析往往要牵涉到大量的用电客户数据，因此有必要构造比对库来对该5类客户互动需求信息进行比对。比对库和一般的数据库区别不大［11］，只是里面存储的是用于比对的互动需求信息或者通过上述比对方案得到的比对分析结果。本文分3级构建比对库，分别是指标数据级、统计数据级和差异分析级。

3.1指标数据级的比对库设计

指标数据级比对库是一种最基本形式的比对库。在这一级中，只是将被比较对象的一些互动需求信息数据按照不同指标以及给定的时间区间分别列举出来。表3以表格形式描述了指标数据级比对库的一般结构。可见，该级比对库一般由用户名称、用户类型、时间区间、用户需求信息指标和数据等项构成，其中用户类型Qi是A、B、C、D、E 5类客户中的一个，用户需求信息指标主要有电压、电流、用电量、用电负荷和负荷报备信息等。

指标数据级比对库显示了在一时间范围内客户互动需求信息的具体数值，因此，能够从细节上反映客户之间的差异。例如，通过观察用电量数据可以了解到，A、B、C、D、E 5类客户的用电量满足A＞B＞C＞D＞E，电力公司可据此在电力维护人员人数的分配上将倾向于A、B、C类客户。C、D、E类客户也有对用电质量的需求，不过远没有A、B类客户需求的强烈。这些可作为电力公司在资源配置时的重要参考。

指标数据级比对库可以清楚地显示报备日期、负荷等级、负荷位置、负荷容量等负荷报备信息，进而可以观察到A、B、C类客户的用电负荷具有时间持续性，负荷量较大，负荷成分多样，大部分是1、2级负荷等特性；D类用户的用电负荷具有时间不规律，负荷数量较大，负荷成分比较简单，大部分是2级负荷等特性；E类用户的主要用电负荷为热负荷，与D类用户的用电负荷特性相反。电力公司可根据客户的用电负荷特性，制定相应的方案（如错峰用电方案）［12］。

表3　指标数据级比对库Tab.3　Information-level CD

3.2统计数据级的比对库设计

虽然，指标数据级比对库可以从细节上反映用电客户的差异，但是，从该比对库中很难直接测出单个用电客户或一类用电客户的互动需求数据具有的统计特征和变化规律，因此，设计了第2级比对库，即统计数据级比对库。在该比对库中，将被比较对象的一些互动需求信息的统计量按照不同指标以及给定的时间区间进行存储。表4以表格形式描述了统计数据级比对库的一般结构。表中互动需求信息的统计量即指统计特征量，包含最小值、最大值、中位数、众数、样本均值和样本标准差，其定义如表2所示。

统计数据级比对库能够显示客户互动需求信息在统计意义下的差异，可相对准确的获得用电客户的特征。例如，通过观察用电量的最大值数据项可以了解到，A、B、C、D、E 5类客户的用电都有最大需量的要求，而且满足A＞B＞C＞D＞E。据此，电力公司应多关注最大需量较大的用户，利用其用电规律，通过协商调整，以分时段或其他方式在满足其最大需量的情况下，而不影响其他用户。

表4　统计数据级比对库Tab.4　Feature-level CD

从统计数据级比对库中可获得用电客户的互动需求信息的统计规律，实现对互动需求数据的分类和预测。例如，通过观察电流的样本平均值将该数据项相近的用电客户合为一类，可获得比A、B、C、D、E 5类客户更精细的分类方式，据此，电力公司对每类客户制定相应的供电方案，以提升服务效益。另外，结合电流的样本平均值和样本标准差值可预测用电客户的未来用电需求，或者给出电流值的置信区间，据此，电力公司可优化资源配置。

3.3差异分析级的比对库设计

虽然，前两级比对库可反映单一用电客户的互动需求信息的差异，但没有差异程度的量化数据，而且，难以观测到用电客户集之间的差异。为此，设计第3级比对库，即差异分析级比对库。在该库中，存储了两个被比较对象的互动需求信息的差异性数据。表5和表6分别针对单一用电客户和用电客户集描述了差异分析级比对库的一般结构。表中互动需求的差异性量化值既有单指标的，也有多指标（即总差异），既有针对单一用户的，也有针对用户集的，其定义见式（4）、（5）、（13）和（14）。

表5　单一用户的差异分析级比对库Tab.5　Difference-level CD for the case of two single customers

表6　用户集的差异分析级比对库Tab.6　Difference-level CD for the case of two customer sets

差异分析级比对库能够清楚地反映不同用户在同一时间段的用电客户互动需求信息数据的差异程度。例如，通过观察电压指标对应的差异性，可以获得A类客户之间差异程度与A类客户和其他B、C、D、E类客户之间差异程度的比较，从而为电力公司进行差异化供电提供指导。利用差异分析级比对库可对电力客户进行更精细的分类。例如，选择所关心的3个指标电压、电流和用电量，利用他们对应的差异性数据通过K-means聚类方法［13］，将差异性较小的用户聚在一起，更便于电力公司进行资源配置和供电规划。差异分析级比对库能够显示包含多种类型的用电客户集之间的客户互动需求信息差异。例如，通过观察西北某城市与东北某城市的用电客户互动需求信息的差异性量化数值，不仅可以清楚地了解这两个地区总的差异程度，也可以获得在各个分项指标上的差异程度。

可以说，差异分析级比对库是在相对比较宏观的层面上反映客户互动需求数据的差异，它不能像指标数据级比对库那样能够从细节上反映客户之间的差异，也不能像统计数据级比对库那样适于表现客户互动需求数据具有的统计特征和变化规律。因此，只有将这3种级别的比对库相结合，才能从微观到宏观，从细节到整体，全方位地反映客户互动需求数据的差异。这对于客户互动需求数据的分析和处理是有利的。

4　结语

本文建立了面向结构化用电客户互动需求信息的比对方案和3级比对库设计方案。单一用户的比对方法中采用了新颖的综合统计特征量的距离和相关系数的差异性指标，可更好地衡量二者的差异程度；客户集的比对方法中通过GMM为二者的统计特征向量集建模，并引用K-L散度测量其差异性，可有效应对用户集中含有多种类型客户的情况。上述两种比对方案都建立在对客户特性的统计特征描述基础上，有利于改善比对效率和可靠性。

提出的比对库由指标数据级比对库、统计数据级比对库和差异分析级比对库构成，可分别从细节、统计规律、差异性量化值3种层次反映客户或客户集之间的差异。三者结合可全方位地反映客户互动需求数据的差异，有利于客户互动需求数据的分析和处理。

参考文献：

［1］余贻鑫，栾文鹏（Yu Yixin，Luan Wenpeng）.智能电网述评（Smart grid and its implementations）［J］.中国电机工程学报（Proceedings of the CSEE），2009，29（34）：1-8.

［2］赵洪山，王莹莹，陈松（Zhao Hongshan，Wang Yingying，Chen Song）.需求响应对配电网供电可靠性的影响（Im⁃pact of demand response on distribution system reliabili⁃ty）［J］.电力系统自动化（Automation of Electric Power Systems），2015，39（17）：49-55.

［3］张东霞，苗新，刘丽平，等（Zhang Dongxia，Miao Xin，Liu Liping，et al）.智能电网大数据技术发展研究（Re⁃search on development strategy for smart grid big data）［J］.中国电机工程学报（Proceedings of the CSEE），2015，35（1）：2-12.

［4］陈国初（Chen Guochu）.文化微粒群神经网络在用电量预测中的应用（Application of cultural particle swarm op⁃timization neural network in electric load forecasting）［J］.电力系统及其自动化学报（Proceedings of the CSU-EP⁃SA），2011，23（2）：31-37.

［5］郑永康，陈维荣，蒋刚，等（Zheng Yongkang，Chen Weirong，Jiang Gang，et al）.电力市场条件下年用电量混沌模型分析（Annual electricity consumption analysis us⁃ing chaotic model under power market）［J］.电力系统及其自动化学报（Proceedings of the CSU-EPSA），2006，18 （5）：95-98.

［6］袁斌，方芩璐，罗滇生，等（Yuan Bin，Fang Qinlu，Luo Diansheng，et al）.短期负荷预测中对输入-输出关联度的改进（Improvement of input-output correlations of shorttime power load forecasting）［J］.电力系统及其自动化学报（Proceedings of the CSU-EPSA），2011，23（3）：9-73.

［7］乔少杰，金琨，韩楠，等（Qiao Shaojie，Jin Kun，Han Nan，et al）.一种基于高斯混合模型的轨迹预测算法（Trajec⁃tory prediction algorithm based on Gaussian mixture mod⁃el）［J］.软件学报（Journal of Software），2015，26（5）：1048-1063.

［8］王爱萍，张功营，刘方（Wang Aiping，Zhang Gongying，Liu Fang）.EM算法研究与应用（Research and applica⁃tion of EM algorithm）［J］.计算机技术与发展（Computer Technology and Development），2009，19（9）：108-110.

［9］王欢良，韩纪庆，郑铁然（Wang Huanliang，Han Jiqing，Zheng Tieran）.高斯混合分布之间K-L散度的近似计算（Approximation of Kullback-Leibler divergence between two Gaussian mixture distributions）［J］.自动化学报（Acta Automatica Sinica），2008，34（5）：529-534.

［10］李晓艳，张子刚，张逸石，等（Li Xiaoyan，Zhang Zigang，Zhang Yishi，et al）.一种基于KL散度和类分离策略的特征选择算法（KL-divergence based feature selection al⁃gorithm with the separate-class strategy）［J］.计算机科学（Computer Science），2012，39（12）：224-227.

［11］张逸，杨洪耕，叶茂清（Zhang Yi，Yang Honggeng，Ye Maoqing）.基于分布式文件系统的海量电能质量监测数据管理方案（A data management scheme for massive power quality monitoring data based on distributed file system）［J］.电力系统自动化（Automation of Electric Pow⁃er Systems），2014，38（2）：102-108.

［12］程宜风，陈中伟，安灵旭，等（Cheng Yifeng，Chen Zhong⁃wei，An Lingxu，et al）.智能小区用电的排队论模型及控制策略（Queuing theory model and control strategy for electricity of intelligent community）［J］.电力系统及其自动化学报（Proceedings of the CSU-EPSA），2014，26（7）：7-10，50.

［13］黄毅成，杨洪耕（Huang Yicheng，Yang Honggeng）.改进遗传K均值算法在负荷特性分类的应用（Application of improved genetic and K-means algorithm on load char⁃acteristic classification）［J］.电力系统及其自动化学报（Proceedings of the CSU-EPSA），2014，26（7）：70-75.

窦健（1987—），男，硕士研究生，工程师，研究方向为用电信息采集技术。Email：doujian@epri.sgcc.com.cn

董俐君（1983—），女，本科，工程师，研究方向为电力需求侧管理技术。Email：donglijun@epri.sgcc.com.cn

朱新山（1977—），男，通信作者，博士，副教授，博士生导师，研究方向为机器学习理论与应用。Email：xszhu126@126. com

中图分类号：TP3

文献标志码：A

文章编号：1003-8930（2016）06-0080-06

DOI：10.3969/j.issn.1003-8930.2016.06.014

作者简介：

收稿日期：2015-11-02；修回日期：2015-12-31

Design of the Comparative Database for Structured Interactive Demand Information of Electricity Customers

DOU Jian1，DONG Lijun1，ZHU Xinshan2
（1.China Electric Power Research Institute，Beijing 100192，China；2.School of Electrical Engineering and Automation，Tianjin University，Tianjin 300072，China）

Abstract：To improve the service efficiency and quality of the electric power company，this paper proposes the new com⁃parative techniques and constructs the comparative database for structured interactive demand information（SIDI）of electricity customers.With a set of statistics of SIDI as a feature vector，the difference between two single customers is measured by combining the distance and correlation coefficient between their statistical feature vectors，however，for the case of two customer sets，the statistical feature vectors of each set are stochastically modeled by the Gaussian mix⁃ture model and the Kullback-Leibler divergence（KLD）is used to measure their difference.The three-level comparative database（CD）is established for SIDI，which consists of information-level CD with SIDI being shown，feature-level CD taking use of the statistical feature vector and difference-level CD showing the difference metrics.The proposed methods measure the difference of customers of customer sets with the improved comparative reliability and efficiency，and the designed CD reflects the difference of SIDI completely，which is in favor of the analyses and processing of SIDI data.

Key words：interactive demand；comparative database；difference index；Gaussian mixture model

电力系统及其自动化学报

2016年6期