APP下载

变压器在线监测数据异常值检测与清洗

2020-11-30钱宇骋甄超季坤赵常威付龙明张亚静

哈尔滨理工大学学报 2020年5期
关键词:时间序列变压器

钱宇骋 甄超 季坤 赵常威 付龙明 张亚静

摘 要:在线监测数据能够实时监测变压器状态,然而经调查发现存在数据不可靠的问题,直接关系到后续状态评估的准确性。针对在线监测数据中异常值特点,以及一般的异常状态检测方法是基于阈值,噪声数据难以及时甄别的问题,提出了一种基于灰色关联度和K-means聚类的方法。利用灰色关联法对在线监测的多元时间序列数据进行关联度挖掘,提取出关联性强的序列为后续多元序列异常数据检测提供依据;其次建立基于k-means聚类的方法建立数据的异常检测模型;最后研究了时间序列预测方法,完成趋势预测并填充缺失值和噪声值,保持数据完整性。通过某变电站的在线监测数据对此算法进行验证,结果表明该方法可及时完成异常检测及清洗,清洗后准确率93.9%,完备率可达98.6%,有较高使用价值。

关键词:变压器;在线监测数据;K-means聚类;异常值检测;时间序列

DOI:10.15938/j.jhust.2020.05.003

中图分类号: TM411

文献标志码: A

文章编号: 1007-2683(2020)05-0015-08

Abstract:The online monitoring data can monitor the status of the transformer in real time. However, it is found that there is a problem of unreliable data, which is directly related to the accuracy of the subsequent status assessment. In view of the characteristics of abnormal values in online monitoring data, and the general abnormal state detection method is based on the threshold, it is difficult to distinguish the noise data in time, so a method based on gray correlation and K-means clustering is proposed. The gray correlation method is used to mine the degree of association of online multivariate time series data, and the strong correlation sequence is extracted to provide a basis for the subsequent multivariate sequence anomaly data detection. Secondly, an anomaly detection model based on k-means clustering method is established. Finally, the time series forecasting method is studied, the trend forecast is completed and the missing values and noise values are filled to maintain data integrity. The algorithm is verified by the online monitoring data of a substation. The results show that the method can complete abnormal detection and cleaning in time. The accuracy rate after cleaning is 93.9%, and the completion rate can reach 98.6%, which has high use value.

Keywords:transformer; online monitoring data; K-means clustering; outlier detection; time series

0 引 言

近年來,电力系统是否能安全稳定运行等问题引起用户广泛关注,电力公司不断推进智能电网建设,逐步扩大变压器实时监测的广度与深度,利用传感器装置不间断地测量反映设备运行状态的关键特征参量。针对变压器的状态监测手段在国内外已有较多的研究,主要包括变压器的绕组温度[1]、顶层油温、局部放电、油中气体含量分析(dissolved gas analysis,DGA)[2]等。 然而数据的质量不高会影响状态评估时准确率,因此诊断分析之前,进行异常数据检测与清洗十分必要。

现阶段针对变压器的油中溶解气体分析、基于频率响应的绕组状态监测[3]以及基于油中糠醛、纸聚合度[4]等单一系统的设备信息异常数据的检测,通过设定阈值[5]进行分析,方法简单但准确率不高。

聚类方法作为大数据中的一项成熟技术[6],通过将聚类方法与神经网络[7]、滑动窗口[8]、层次分析法[9]、支持向量机等方法结合,实现参数优化或样本转换,有许多用于变压器检测的程序。 但是,分离的噪声数据会被直接删除,这会破坏状态数据的连续性。上述研究导致数据清理过程中的数据丢失,这不利于后续状态评估。 近年来,国内外研究人员也将时间序列模型(auto regressive moving average,ARMA)引入电力应用[10],主要应用于电路故障诊断及阶段故障率预测[11]、发电量预测[12]、电力负荷预测[13],通过ARMA时间序列分析模型将去除的噪声数据补足以提高状态评估时的准确性。总的来说,应用在负荷预测中较多,但在状态监测方面很少,由于时间序列能够表征状态监测的数据流,将成为状态监测中大数据技术的一个发展趋势。

基于以上分析,提出一种基于K-means和时间序列分析的变压器异常值检测与清洗的方法。通过灰色关联法从多维的在线监测数据流中筛选关联度高的相关序列,然后基于K-means方法对在线监测数据进行异常检测,利用时间序列预测方法完成噪声数据清洗及趋势预测。本文方法可完成在线监测数据异常检测,完成修正噪声点填补缺失值的清洗工作,祛除外界噪声值或突变值的影响,并且对后期时间序列數据预测分析,及时发现趋势异常。

1 异常数据检测模型的建立

变压器在线监测状态信息数据,通过传感器采集、传输后集成在数据信息平台上。按时间先后顺序排列的特征量数据,可认为采集的在线数据形成了一个连续而完整的时间序列。但由于传感器短时失效、通讯端口异常、装置老化以及一些人工失误等多种因素的存在,收集的状态信息数据会不可避免出现多种状态的异常值[14]。在线监测异常数据的产生有多种原因,噪声值,这部分数据是与变压器自身无关,数据测量或传输系统受到外部环境因素的干扰而意外失灵包括缺失值、不变数据值、孤立噪声值、短时有变数据值。由装置异常引起的异常数据,持续性缺失值,高噪声或高方差异常数据,关联性性强的状态量同时出现突变,关联性强的检测量上升趋势异常。因此,提出基于灰色关联分析与K-means聚类方法对在线监测数据异常检测。

1.1 多元时间序列关联挖掘

在线监测数据类型繁多,实现特征提取显得十分必要,本节将对在线监测数据的多元时间序列进行关联度挖掘,提取出关联性强的序列为后续多元序列异常数据监测提供依据。实时状态信息中提取关键参量不仅能缩减处理时间,降低在线监测数据的复杂性,更能有力保证状态数据处理高效性、有效性,为电网运行实时提供检修、调度决策。

在线监测参量大都是随时间发生连续变化的数据[15],灰色关联分析非常适合于历史动态分析,可以提供发展和变化情况的定量度量,因此使用灰色关联方法来度量相关序列。该分析法衡量关联程度是根据变量间发展趋势的相似程度,若两条曲线同步波动变化相似,则关联度较高,反之较低[16]。下面给出灰色关联分析模型计算的5个步骤。

1)确定分析的序列矩阵

2)对变量序列进行无量纲化

由于在线监测数据属性差异不同,导致度量标准也亦不同,会对最后的结论造成一定的影响。因此根据式(1)无量纲化,采用极值化的方法,即每一个变量值除以该变量取值的最大值,标准化后使变量的最大取值为1得到新的无量纲化矩阵:(y′0,x′1,x′2,x′3,…,x′i)。

3)求灰色关联系数

式中:|x0(k)-xi(k)|为k时刻xi与x0的绝对差,min|x0(k)-xi(k)|为极小差,max|x0(k)+xi(k)|为极大差,ρ为分辨系数。ρ值对关联系数的影响很大,根据因素间的关联分析可以选择不同的分辨系数,一般取ρ=0.5可以得到满意的分辨率。

4)计算关联度

求各个时刻关联系数的平均值,将其集中为一个值即关联度。

5)灰色关联度排序

将比较序列对同一参考序列的关联度,按降序排列组成关联序。与参考序列关联度较大的序列可以作为异常数据检测时多元序列的参考。

1.2 异常数据检测模型

变压器正常运行时的各状态参量数据具有较稳定的波动范围,因此可利用基于K-means聚类方法的数据异常识别及分类,对正常的历史运行数据进行聚类得到聚类中心,计算新输入的数据到聚类中心的距离是否超过阈值,从而判断数据是否异常。

首先将在线监测数据X的样本分成K类,聚类中心为C={c1,c2,…cj,…,ck},样本xi与cj的距离用dij(xi,cj)表示,目标函数J是X中dij(xi,cj)的总和,由下式计算目标函数J的值与聚类效果关系呈现负相关关系,当J越小该聚类效果越好,因此当J到达最小值时,即为最优聚类方案。xi与其相应cj间的相似性指标选择欧氏距离,则目标函数可以定义为:

1)收集变压器大量正常运行的在线监测数据的历史数据,使用K-means方法对其分析,并获得最优聚类中心与聚类结果;

2)针对新数据,计算与聚类中心的距离,并与阈值R相对比;

3)若数据不属于任何一个聚类中心,则数据处于异常状态,若属于某一个聚类中心,则将数据加入历史数据中计算新的最优聚类中心以及聚类结果。

4)根据前两步的输出结果,比较异常数据点邻近的其他时刻数据点是否为异常点,根据周围数据可分析该数据的异常模式。

2 基于ARMA模型的在线数据预测模型建立

上一节对变压器在线监测状态量,利用聚类及关联分析分析出异常数据,并划分了不同类型,本节利用时间序列ARMA分析模型清洗异常数据,并预测后续发展及时发现趋势异常。

2.1 在线监测数据时间序列表征

通过各个传感器完成变压器在线状态量的监测结果,按时间先后顺序排列的特征量数据[15],可认为采集的在线数据形成了一个连续而完整的时间序列。由影响因素发生作用的大小和方向变化不同可分为三类。

平稳时间序列:随着时间的变化,状态变量并不随之变化。波动幅度随时间变化:随着时间变化,状态变量的方差发生变化。非平稳时间序列:有两种,趋势性时间序列,表现为监测变量随着时间的变化呈现出变动趋向,持续性、长期性出现较缓慢的上下。周期性时间序列,表现为监测变量随着季节或者其他周期的交替出现高峰与低谷,周期内的时间序列有相似的特征。由此选取变压器在线监测的实时数据以下几类,作为后续在线数据预测算法的基础。然而闪络放电的电压、电流等突变的数据类型,属于有用的故障信息不能舍去,所以在此不能适用于时间序列分析方法。

1)短期平稳长期缓慢上升序列:该类数据包括微水、氢气、CH4、C2H4、C2H6等。

2)长期平稳序列:无明显下降趋势,仅在设备状态异常时数值会明显升高。该类数据包括铁芯接地电流、C2H2、套管全电流等。

3)短至长期均为缓慢上升序列:监测数据中的CO和CO2数据长期表现为向上的趋势。这类数据可通过差分运算进行变换,对非平稳序列的均值平稳化预处理,通过这种方法可以将趋势性去除,变为平稳性序列。

4)周期性序列,通常以天为单位:包括变压器绕组、顶层、底层等的油温,在实际清洗过程中先用季节差分将这些数据变为平稳时间序列,再进行拟合,以降低计算的复杂度。

2.2 基于时间序列异常数据预测模型

对变压器未来的异常状况进行预测,需要对变压器未来的在线监测数据的情况进行分析。时间序列的趋势会持续到最近的未来,因此通过自回归滑动平均模型ARMA来分析研究时间序列[17],对于一个时间序列{x1,x2,…,xn,…}表达式如下。

3 算例分析

选取某变电站1号变压器为例,对繁多的在线监测数据类型实现特征提取,按照1.1节中灰色关联分析法的计算步骤,对多元时间序列进行关联度挖掘。以将C2H4作为参考序列,CH4、H2、C2H2、CO、CO2、O2作为比较序列为例,建立分析矩阵,对矩阵中的各个序列按式(1)进行无量纲化,得到新的矩阵,计算关联系数后由式(3)即可得到关联度如图3所示。可知C2H4和H2及CH4三种参量关联较高,聚类分析时综合考虑这三种气体。

应用改进的K-means算法进行变压器异常状态快速识别。对此变压器2016年1月2日-2016年8月25日间,以CH4为例将其327组变压器正常历史数据样本输入到聚类算法中,按照正常数据类型的性质取k=3。如图4所示,聚类结果输出3个聚类簇,三个聚类簇中数据与中心距离的最大值分别是209.3751、272.0998与232.7127。

将3个聚类簇中数据与中心距离的最大值乘上常数D作为R。选取该变电站同型号设备100组待检测数据,判断数据是否异常,D取不同值时检测结果有不同准确率,当D取1时检测效果较好。但是D的取值范围并非一成不变,在实际运行中需要根据具体数据或经验进行调整,可选取待测数据进行调试,选取准确率最高时的D值。

将选取的待检测数据根据1.2节K-means聚类分析模型,通过判断数据集里每个时间点的数据与聚类中心间的距離与阈值的大小,来判断是否属于正常簇,结果如图5所示(1表示异常数据,0表示正常数据),关联度分析可知C2H4和H2及CH4的关联较高,所以将这三种气体综合考虑。

以异常数据判断结果图中的CH4聚类结果为例可以看出,主要存在以下种类型的数据:

1)在T=50、T=201等时间点,均不属于3个聚类簇,但是其周围时刻的数据均正常,则此时是噪声点,可能是由于某传感器不稳定造成,可以将此忽略,去除此时的孤立噪声值,并通过进一步的时间序列分析方法,对去除噪声值的部分填充,以免去除值后的空白对后续的变压器状态评估造成影响。

2)在T=100~110,出现连续数据为异常数据点,推断可能是传输设备在该段时间出现了不稳定的运行状态或者受到了干扰,经查验采集设备并未发生状态异常,可能是因为数据录入导致的数据空白,此时需要通过进一步的时间序列分析方法,对空白数据填充,以免空缺值对后续的变压器状态评估造成影响。

3)在T=240之后,大段连续数据均出现异常,由此推断设备在该时刻后出现了可能的异常状态。此时参考C2H4和H2两种气体的聚类结果,两类气体大概在T=255左右均出现连续数据异常,由此可以推断出大概率变压器出现了病变,应该发出告警,并需要尽快安排设备健康状态评估以及相应的检修手段。

对时间T=50、T=201去除了噪声值,T=100~110时为数据缺失值,出现数据丢失的情况,通过ARMA时间序列分析模型拟合在线监测数据,将其补足以提高评估准确性,以CH4为例说明方法的有效性。根据自相关系数和偏自相关系数确定 ARMA(p,q)模型阶数,绘制序列的自相关函数和偏相关函数分别如图 6和图 7所示。

4 结 语

1)本文针对在线监测数据中异常值特点,提出基于灰色关联度和K-means聚类算法对变压器在线监测数据异常检测。可表征关联度高的相关序列,并快速及时完成在线监测数据异常检测并分类,并利用时间序列预测方法完成噪声清洗,祛除外界噪声值或突变值的影响,提高告警准确率,解决了传统阈值判定方法误判情况。但存在一定局限性,如聚类算法对如何选取参数、聚类个数k均没有合适的方法,需要基于训练数据进行参数优化。

2)利用时间序列预测方法针对异常数据中的噪声点,进一步进行补充优化,为后续预测数据趋势打下基础,解决了因数据噪声点引起的数据预测失误问题,提高后续状态诊断的准确率。

3)改进之处在于本文提出的方法目前仅针对变压器的在线监测数据实行了现实应用,并能达到较高效用,但是对于其他的电力设备如输电线路、GIS等设备在线监测数据的异常检测需进一步验证。

参 考 文 献:

[1] 张喜乐,何松坡,王建民,等.换流变压器绕组损耗及热点温升的仿真研究[J].变压器,2019,56(7):24.

ZHANG Xile,HE Songpo,WANG Jianmin,et al. Numerical Simulation of Winding Loss and Hot Spot Temperature Rise for Converter Transformer[J]. Transformer,2019,56(7):24.

[2] 李文志,朱娟.变压器油色谱数据异常的原因分析及处理[J].电工技术,2020(1):115.

LI Wenzhi,ZHU Juan. Cause Analysis and Treatment of Abnormal Oil Chromatographic Data of Transformer[J]. Electric Engineering,2020(1):115.

[3] 陈一鸣,梁军,张静伟,等.基于改进参数辨识的三绕组变压器绕组状态在线监测方法[J].高电压技术,2019,45(5):1567.

CHEN Yiming,LIANG Jun,ZHANG Jingwei,et al. Method of Online Status Monitoring for Windings of Three-winding Transformer Based on Improved Parameter Identification[J]. High Voltage Engineering,2019,45(5):1567.

[4] 李元,张崟,唐峰,等.利用近红外光谱定量评估绝缘纸聚合度的建模方法研究[J].中国电机工程学报,2019,39(S1):287.

LI Yuan,ZHANG Yin,TANG Feng,et al. Investigations on Quantitative Evaluation Modeling for Determining the Degree of Polymerization of Insulating Paper by Near Infrared Spectroscopy[J]. Proceedings of the CSEE,2019,39(S1):287.

[5] 中华人民共和国国家经济贸易委员会.变压器油中溶解气体分析和判断导则:DL/T722—2000[S].北京:中国电力出版社,2001.

[6] 王亚萍,李士松,葛江华,等.等距离映射和模糊C均值的滚动轴承故障识别[J].哈尔滨理工大学学报,2019,24(3):41.

WANG Yaping,LI Shisong GE,Jianghua,et al. Rolling Bearing with Isometric Feature Mapping and Fuzzy C-means Fault Identification Method[J]. Journal of Harbin University of Science and Technology,2019,24(3):41.

[7] 徐京京. 基于聚類和神经网络的异常数据识别算法研究[D].北京:华北电力大学,2019.

[8] 严英杰,盛戈皞,刘亚东,等.基于滑动窗口和聚类算法的变压器状态异常检测[J].高电压技术,2016,42(12):4020.

YAN Yingjie,SHENG Gehao,LIU Yadong,et al.Anomalous State Detection of Power Transformer Based on Algorithm Sliding Windows and Clustering[J]. High Voltage Engineering,2016,42(12):4020.

[9] 王楠,王伟,张鑫,等.改进的层次分析法在变压器油纸绝缘状态评估中的应用[J].高压电器,2019,55(12):187.

WANG Nan,WANG Wei,ZHANG Xin,et al. Application of Improved Analytic Hierarchy Process in Transformer Oil-paper Insulation State Evaluation[J]. High Voltage Apparatus,2019,55(12):187.

[10]李波,林聪,刘清蝉,等.基于时序建模的光纤电流互感器随机噪声卡尔曼滤波方法[J].电机与控制学报,2017,21(4):83.

LI Bo,LIN Cong,LIU Qingchan,et al. Kalman Filter Offiber Optical Current Transducer's Stochastic Noise Based on Time Series Model[J]. Electric Machines and Control,2017,21(4):83.

[11]边宁,许允之.基于ARMA和遗传算法优化的BP神经网络电动机断条故障诊断[J].煤矿机电,2017(3):23.

BIAN Ning,XU Yunzhi. Fault Diagnosis of BP Neural Network Based on ARMA and Genetic Algorithm Optimization[J]. Colliery Mechanical & Electrical Technology,2017(3):23.

[12]范金骥.基于ARMA与ANN模型组合交叉方法的电网日负荷预测[J].浙江电力,2018,37(8):35.

FAN Jinji. Daily Grid Load Forecasting Based on ARMA and ANN Model Combined Crossing Method[J]. Zhejiang Electric Power,2018,37(8):35.

[13]徐桐阳.ARMA模型对山西省火电在全国比重的拟合应用[J].中国市场,2015(34):93.

XU Tongyang. The Fitting Application of ARMA Model to the Proportion of Thermal Power in Shanxi Province in the Country [J]. Chinese Market, 201534): 93.

[14]何尧,梁宏池,连鸿松,等.基于滑动窗口和多元高斯分布的变压器油色谱异常值检测[J].高压电器,2020,56(1):203.

HE Yao,LIANG Hongchi,LIAN Hongsong,et al. Outlier Detection of Power Transformer Oil Chromatographic Data Based on Algorithm Sliding Windows and Multivariate Gaussian Distribution[J]. High Voltage Apparatus, 2020, 561): 203.

[15]FAN Jingmin,FU Chenyang,YIN Hao,et al. Power Transformer Condition Assessment Based on Online Monitor with SOFC Chromatographic Detector[J]. International Journal of Electrical Power and Energy Systems,2020,118:105805.

[16]PRAKASH K Soorya,GOPAL PM,KARTHIK S. Multi-objective Optimization Using Taguchi Based Grey Relational Analysis in Turning of Rock Dust Reinforced Aluminum MMC[J]. Measurement,2020,157:107664.

[17]DING Feng,WAN Lijuan,GUO Yunze,et al. The Filtering-Based Auxiliary Model Generalized Extended Stochastic Gradient Identification for a Multivariate Output-error System with Autoregressive Moving Average Noise Using the Multi-innovation Theory[J]. Journal of the Franklin Institute,2020,357(9):5591.

[18]CHRISTIAN H,WEI B. Regime-Switching Discrete ARMA Models for Categorical Time Series[J]. Entropy,2020,22(4):458.

[19]KIM J Y, SOHN I, LEE K. Bayesian Cumulative Logit Random Effects Models With Arma Random Effects Covariance Matrix[J]. Journal of the Korean Statitical Society, 2020, 49(1):32.

[20]汪磊,楊星月,高杉.基于时间序列模型的民航擦机尾事件预测研究[J].安全与环境工程,2020,27(2):216.

WANG Lei,YANG Xingyue ,GAO Shan. Prediction of the Incidence of Tail Striking Based on Time Series Model[J]. Safety and Environmental Engineering, 2020,272): 216.

(编辑:温泽宇)

猜你喜欢

时间序列变压器
一种换流变压器的异常判据研究
7SJ62在变压器保护上的应用
变压器经济运行分析与应用
变压器经济运行分析与应用
上证综指收益率的影响因素分析
基于指数平滑的电站设备故障时间序列预测研究
基于时间序列的我国人均GDP分析与预测
基于线性散列索引的时间序列查询方法研究
基于组合模型的能源需求预测
理想变压器的理解和应用