APP下载

基于自编码的电力信息通信资产数据清洗算法

2020-01-01王慧卿张建亮任学武

关键词:编码器正确率误差

赵 敏,王慧卿,张 超,李 洋,张建亮,高 枫,任学武

1.国网山西省电力公司信息通信分公司,山西 太原030001

2.北京谦润和科技有限公司,北京100190

大数据技术作为新一代技术,其隐藏的价值将会给很多行业带来颠覆性的改变[1]。近年来,中国电机工程学会信息化专委会正式发布《中国电力大数据发展白皮书》,国家电网公司也开展了各类智能电网大数据应用的科研项目[3],智能电网中的大数据来源宽泛,如智能电表测量用电数据等[4]。

当前智能电网领域数据量总体呈现指数增长,因此可通过合理、高效利用大数据技术,分析电力领域数据潜在价值[5]。当前智能电网领域数据量总体呈现指数增长,因此可通过合理、高效利用大数据技术,分析电力领域数据潜在价值[5]。

对于电力领域的大数据,由于行业特殊性,对数据的完整性有一定的要求。文献[6]基于Spark框架对电力能源大数据的数据清洗模型进行研究,该模型未考虑数据集中的短时相关性,不考虑时间关联,数据异常点的判断偏差会增大。文献[7]中提出了将栈式自编码器网络应用于电力大数据的清洗与恢复中,在训练中随机加入噪声信息,通过对噪声数据的特征进行解析,消除噪声还原数据。

本文结合电力信息通信资产对数据质量有较高要求的特点,提出了一种基于栈式自编码器的数据清洗算法(Data cleaning algorithm based on SDAE,DCbS),DCbS 算法可以辨别异常数据,恢复重构奇异点和缺失数据,通过引入滑动窗口来保存数据之间的短时相关性并从残差的角度训练模型,以减少模型辨别异常数据点所需的训练数据。针对电力信息通信资产运行异常的情况,该方法可以有效的过滤干扰数据。

1 基于栈式自编码器的数据清洗算法

1.1 自编码网络

降噪自编码器(Denoising auto encoder,DAE)作为自编码器的改进,两者具有相同的网络结构和目标,降噪自编码器是一类接受损坏数据作为输入,并训练来预测原始未被损坏数据作为输出的自编码器。DAE 在训练时会主动向样本数据中随机添加噪声数据,在训练的过程中主动学习消除噪声干扰重构污染数据,以增加系统的稳定性[8]。

输入数据为d,在训练过程中数据d经过破坏,得到d0,经过编码d0的隐藏层表示如下:

此为数据的编码模型,式中:W为m×n阶的编码权重矩阵,b为m阶的偏置向量;s函数表达式为:

Sigmoid 函数对边缘进行抑制,对中间的细微变化较为敏感,因此对特征识别度更好,故而选取Sigmoid 函数作为激活函数。

经过解码,隐藏特征F的重构表示如下:

此为数据的解码模型,式中W′为m×n阶的解码权值矩阵,b′为m阶的反偏置向量。

重构数据的结果F并不能完全精确的与原始结果相同,为了计算误差函数RH表示为:

式中d为原始数据集合,F为恢复之后的数据集合,在进行处理之前需要进行归一化处理。损失函数说明训练的效果,当损失函数最小时,输入数据d与重构数据F所具有的共性特征被最大化的提取。将DAE 组合成深度学习的层级结构,可以最大化的提取细致抽象的特征,将残差学习的方法引入进而得到DCbS 算法。

1.2 DCbS 算法

由于电力信息通信资产的状态数据异常主要来自于两个方面,一是数据记录异常,此种情况为DCbS 算法所需清洗的对象,另一种为由于资产运行状态异常所引起的运行数据异常。因此在训练过程中,将样本误差和误差持续时间作为数据类型的判断标准,将最大误差函数预置设为RMAX,最大误差持续时间为TMAX,将数据中误差超过RMAX且误差持续时长低于TMAX的数据判定为一类异常数据,这些数据为数据异常点;将数据中误差超过RMAX且长期为0 或者某一特定值的数据判定为二类异常数据,此数据为数据缺失,在数据中如误差超过RMAX且存在一定变化规律,判定为三类异常数据,此数据为设备状态异常数据。DCbS 算法清洗目标为一二类异常数据。

电力信息通信资产的状态参量信息间具有非线性相关性,且各监测参数为时间序列数据,具有短时相依特征,若直接采用电力信息通信资产原始监测数据训练SDAE 模型,虽能学习获得各参数间的非线性关系,然而各监测参数固有的短时相依性会被忽略,影响机组状态监测结果的准确性[9]。具体滑动窗口处理方法的具体步骤为:

记X={x(j)i}为电力信息通信资产状态参数数据集,其中,i=1,2,…,n,j=1,2,…,m,n为监测变量数,m为采集的样本数据数量。则数据X的第i个分量表示机组第i个监测变量样本数据,即。设滑动窗口的宽度为β(即滑动窗口内包含β个时间点数据),窗口每次移动一个时间点,对于m个样本数量的数据X共有m-β+1 个滑动窗口,记为第l个滑动窗口采集的第i个监测参量的数据,则:

第l个滑动窗口采集的数据为:

因此,由公式(5)、(6),对电力信息通信资产状态参数数据采用滑动窗口处理得到SDAE 模型的输入数据增广状态数据矩阵:

此外,当β=1 时,Y=X,此时增广状态数据矩阵即为原始状态参数数据。采用滑动窗口技术处理,SDAE 的输入数据由原始数据X的n维增至增广状态数据矩阵Y的n·β维,样本数据量也相应由m变为m-β+1。

训练过程为对DAE 进行逐层无监督的预训练,在预训练过程中,误差进行反向传播。传统的堆式降噪自编码器的优化目标为对原始数据d和破坏数据d0之间进行端到端的优化,这种优化方法需要较多特征,并且计算量较大。但是如果从残差的角度出发,原始的函数映射则变为d和d+n,n表示数据中的噪声,DCbS 算法的目标为d和n之间的映射,误差函数则变更为:

式中n为噪声,为了防止模型的过拟合,通过引入重衰减项(正则项)防止模型出现过拟合现象,式中为权值衰减项。

λ为权值衰减系数,λ=3e-3;表示连接l层第j个神经元与l+1 层第i个神经元的权值参数;s1、s2、s3分别为第一、二、三层的节点数,即网络输入层、隐藏层和输出层的节点数。

2 算例分析

算例采用某地区部分变电站交换机2014 至2015 的状态检测信息作为训练及测试数据,测试数据中,对交换机吞吐量这一指标人为的加入噪声以检测算法性能。选取正常运行状态训练,得到初始模型;选取包括异常运行状态的真实信息进行训练,得到故障数据模型。其中模型输入层规模为80,包含3 个隐藏层,规模分别为70、50、70,学习周期为1000,训练样本数量为10000 组。

表1 DCbS 数据清洗部分结果Table 1 Cleaning partial results of DCbS data

表1 中展示了部分增加噪声之后进行清洗的数据集,可以看出经过DCbS 算法清洗的数据与真实值基本一致,对于污染数据也具有较好的恢复能力,经过处理的无损数据与原始数据的偏差保持在5%之内,对于设备状态异常数据,也能进行良好的识别,设备状态异常数据经过处理之后,依然保存其特征,方便后续进行继续的处理,对于第一类和第二类数据异常点,DCbS 算法也保持了良好的识别特性,并对其进行了预测恢复,变化4 和5 的数据为缺失数据,人为将真实数据置零,DCbS算法将器恢复至真实值水平,与真实值误差最大相差3.26。编号8 和9 的数据为人为造成的奇异点,即数据产生较大偏差且持续时间较短,DCbS 算法对于奇异值的恢复也较为理想。可见,通过DCbS算法对电力信息通信资产大数据进行清洗,清洗结果负荷真实数据分布特点。

图1 为将某一连续时刻的检测数据输入CDbS 算法、SDAE模型以及DAE 模型中的数据清洗结果,时刻点13、37、122 和187 为测试数据设置的奇异点,时刻点65、150 和166 为设置的数据缺失点,时刻20 至26 为设备状态异常点。从图2 中可以看出,三种降噪编码器数据清洗模型都可以对异常数据进行一定程度上重构,其中本文提出的CDbS 算法重构效果最优,SDAE次之,整体上SDbS 算法的重构数据与无损数据保持在5%以内。

图1 不同样本时间点下路由器吞吐量Fig.1 Router throughput at different sample time points

表2 错误检测率仿真结果Table 2 simulation results from error detection rate

表中可以看出,随着测试样本数量的上升,CDbS 算法检测的正确率有所下降,但是错误的检测率可以保持在90%以上,检测的正确率也能保持在82%以上,可见CDbS 算法可以较好的发现数据集中存在的异常点。随着检测数据量的上升,CDbS 算法的错误检测率和检测正确率有所下降,但是均保持在一个合理范围之内,说明CDbS 算法可以通过对于数据集中存在异常的检验,发现数据集中存在的误差,为后续的资产状态评估提供有力的数据支持。

图2 为训练样本数量与检测样本数量为500 的错误检测率和检测正确率之间的关系,随着样本训练数量的上升,错误检测率和检测正确率也随之上升,可见CDbS模型随着训练样本的上升,性能也在上升。样本数量为2.5 万时,CDbS 模型的错误检测率为93.01%,检测正确率为86.73%,错误检测率提升2.54%,检测正确率提升4.13%。随着训练样本的增加,更多的噪声特征被CDbS 算法模型所学习,故而检测正确率有所提高。

图2 错误查找准确率Fig.2 Accuracy of finding error

3 结论

文中提出了一种基于栈式自编码器的数据清洗算法(Data cleaning algorithm based on SDAE,DCbS),通过滑动窗口保存数据之间的短时相关性以及含噪数据与无损数据之间的残差分析,以减少模型辨别异常数据点所需的训练数据。针对电力信息通信资产运行的异常情况,该方法可以有效地过滤干扰数据。实验结果表明所提算法提高了对于数据异常点的辨别和恢复能力,最终从数据的恢复以及异常值的辨别两方面凸显算法的优越性

猜你喜欢

编码器正确率误差
融合CNN和Transformer编码器的变声语音鉴别与还原
门诊分诊服务态度与正确率对护患关系的影响
角接触球轴承接触角误差控制
Beidou, le système de navigation par satellite compatible et interopérable
压力容器制造误差探究
基于双增量码道的绝对式编码器设计
生意
品管圈活动在提高介入手术安全核查正确率中的应用
生意
九十亿分之一的“生死”误差