APP下载

基于聚类的电网运行监控信息辨识分类方法研究

2016-06-28余振华杨世勇舒征宇李黄强张伟奇

湖北电力 2016年4期
关键词:词条信息熵特征向量

余振华,杨世勇,舒征宇,李黄强,张伟奇

(国网湖北省电力公司宜昌供电公司,湖北 宜昌 443000)

基于聚类的电网运行监控信息辨识分类方法研究

余振华,杨世勇,舒征宇,李黄强,张伟奇

(国网湖北省电力公司宜昌供电公司,湖北 宜昌 443000)

针对电网告警信息的分类与整理完全依赖监控员人工完成的弊端,为辅助监控人员辨识告警信号,提高电网调度响应效率,提出了一种基于聚类的电网运行监控信息辨识分类方法。本方法以大量的电网运行监控信息为基础,采用聚类分析算法,提取电网运行监控信息的聚类规则,从而实现对电网运行监控信息的自动筛选和分类。进而辅助监控人员及时发现电网设备发出的高危信号,保持电网的安全稳定运行。

监控信息;聚类分析;信息熵;智能辨识

0 引言

随着我国电力行业的发展,变电和输电设备的自动化改造不断深入,以往有人值守的运维模式逐渐在向无人值守、集中监控的模式进行转化。目前全国绝大部分110 kV及以上电压等级的变电站都采用集中监控的模式进行管理[1],现场电力设备的异常和告警信号都通过通信设施直接传输到调控中心已文本的形式展示给电网监控人员。

目前,我国关于电网异常信号的监视主要采用人工监屏的方式[2]。然而人工监屏受到外部影响因素较多,当电网正常操作和电网设备异常时都会发出大量的电气量信号、物理量信号,这些异常信号的筛选和辨识会耗费监控人员大量时间,若不能及时判断故障发生情况则会影响事故处理的及时性。而一旦发生信号漏看或辨识错误的现象,则会对电网设备造成不可估量的损失。因此,研究一种适用于电网监控的自动辨识方法,独立于人工辨识之外提供辅助功能,是当前亟需解决的热点问题。

鉴于此,本文提出一种基于聚类的电网运行监控信息智能辨识分类方法,以调度监控收到的告警信号为样本,通过聚类分析的方法形成典型告警信号的特征向量,从而实现对告警信号的自动辨识。最终达到提高电网设备告警信号的辨识效率,保障电网安全稳定运行的目的。

1 数据样本的预处理

1.1 建立电网监控的信息熵模型

电网设备的告警信息是典型的触发式告警信息,即当有设备出现异常时发出告警信息。传递到电网监控后台机上的信息都是带有时间标签的离散信息,例如:2015-10-30 21:56:21 110 kV某某线某某开关断开。并且,当电网发生跳闸时,短期之内会伴随大量的信号,例如XX保护动作、XX开关分闸等。因此,电网正常运行时刻与故障时刻接收到的信号频次存在较大差异。

为在大量信号中快速辨别故障信息,本文以时间尺度为标准搜集监控信息,并整理成可以计算信息熵的数据样本,其具体方法为每隔3 s统计一次最近3 s内发出的监控信息个数。将电网监控告警信息表征为下式形式

式中:S为按时段划分后得到的监控信息文档;t为时长为3 s的时段;cn为3 s以内的告警文本内容;m为对应时段中出现的告警信号个数。其中(tn,mn,cn)被称为一个数据项,表示tn时间段内接收到的告警信息条数mn以及告警文本内容cn。

1.2 告警信号的信息熵计算

电网事故发生时,与事故相关的告警信号一般在10 s以内都会发出。为避免漏掉有效信号,本文以30 s为时间跨度形成对应的告警信号文档S,并计算警信息文档S的信息熵。其计算公式如下

式中:ϕ为常数;n为预先划分的状态数,其数值大小为监控系统在3 s内接收到告警信号条数的最大值;P(k)为该种状态在文档S中出现的概率,

式(3)中Xk为30 s内的10个数据项中告警信号条数为k的个数,为总的样本个数。该集合的监控信息熵越大,其无序程度越高,在该时段内有设备故障的几率也越大。

1.3 基于信息熵的文本处理

本文以30 s为时间跨度,每隔10 s进行一次采样,计算对应的监控信息文档S的熵。将信息熵H(S)<0.3的监控信息文档筛选掉,即排除监控告警信号发出特别规律的时段。自此,信息熵大于0.3的监控信息文档都涵盖有30 s内的告警信息。然而电网故障发生后相关联的监控信息一般在10 s以内传达到监控系统,即有效信息的时间跨度远没有30 s,因此需要对得到的监控信息文档S内的文本进行二次筛选。为此本方法给出文本的筛选方法:1)逐项删除文档S中的数据项,即(ti,mi,ci),并计算删除时间段后的信息熵H'(S);2)将删除前后监控信息熵变化最大的数据项作为中心,从边缘起逐步删除数据项,直至H(S')<H(S),如图1所示。

图1 信息筛选过程Fig.1 The process of Information screening

由以上步骤可以得到任意监控系统在任意时段得到的监控信息文档集合{} Si。其中Si=[(t1,m1,c1), (t2,m2,c2)(tn,mn,cn)]为含有有效告警信息的文档。

2 文本的空间特征向量表示

2.1 文本特征项提取

由于电网告警信息是由一次、二次设备发出的标准化信息,信息集合中文本对同一事物的描述方式都相对固定,因此可以采用基于统计的分词方法对文本进行分词处理和统计。按照下式统计两个汉字的互现信息系数

式中:M(X,Y)为汉字 X和Y的互现信息系数;P(X,Y)为 X,Y相邻出现在文本中的几率;P(X)和 P(Y)分别为汉字 X,Y在文本中出现的几率。相邻的两个字同时出现的次数越多,其可信度越高,由汉字X,Y组成的词组也越有可能成为关键词。将互相系数M(X,Y)>0的词条计入文本特征相集合。

去除平凡词。电网监控告警信息中会存在大量诸如“的”、“了”的平凡词。该类汉字对于文本描述的内容无贡献,因此将这类词排除在外,最终形成文本的特征项集合,其中 δ为筛选后得到的关键词。

2.2 计算文本特征项权重

采用TF-IDF公式计算词条在文本中的权重大小[3-4],其计算公式为

式中:f(δ1,d)为词条δ1在文档中出现频率;N为所有文档的个数;ni为含有词条δi的文档个数。由TF-IDF公式计算得到的权重系数表征了词条的特异性,若wi越大则表明词条δi的特异性越高,在不同文档中出现的比率越低,但在单个文档中出现的频次越高,那么词条δi用于表征文档d的可信度越高。

由此,可以计算得到不同词条在文档中的权重,归一化处理后的权重为

因此任意文档可以表征为一个二维向量,其形式如下式所示,

如果将不同的词条看作一个坐标轴,那么该二维向量可以看作是该空间中的一个向量[5]。

3 基于K-means算法的聚类分析

随机选择k个本文,形成包含k个本文簇的初始簇集合,即{Si…Si+k}。这k个对象均可以表示成 {[δ1,W1],[δ2,W2],…[δn,Wn]},一个二维的特征向量集合。采用夹角余弦公式计算新文本与各个簇空间特征向量的“距离”(即相似度),夹角余弦公式为

根据计算得到的相似度,将新文本归类到最为相似的簇中,并重新计算该簇的平均值,其计算公式为

式中:a为原簇中文本的个数;[Wj,1,Wj,2…Wj,n]为原簇的特征向量;[Wi,1,Wi,2…Wi,n]为新增文本的特征向量。通过式(9)计算将结果作为该簇新的空间特征向量。

在得到簇的空间特征向量后,还需要进行通过“评价”的方式对空间特征向量进行“训练”,从而使得不同空间向量之间有较高的识别度[6-7],评价函数的计算公式为式中:J为评价函数,其大小为任意对象(即文本S)与各个簇特征向量的均方差之和;xn为文本文档Sn对应的特征向量;为第 k 个簇的特征向量;d(,xn)为文档Sn与第k个簇的相似度;Zk为第k个簇中含有的元素个数;K为所有簇的个数。

4 基于聚类分析的告警信号辨识

基于聚类分析的告警信号辨识方法,其具体流程如下。

步骤1每隔10 s统计一次最近30 s的告警信号,形成新增文本S。

步骤2计算文本S的信息熵,对其进行预处理。

步骤3计算经过预处理文本的汉字的互现系数、对本文进行分词处理。

步骤4根据聚类分析得到的特征词,采用TF-IDF公式计算权重,形成空间特征向量。

步骤5采用K-means算法对空间特征向量的样本集进行聚类分析。

步骤6采用评价函数整合空间特征向量簇。

步骤7人工干预,对分类完成的簇进行识别。通过查看不同簇中的文本文档人工识别该簇代表的告警信号的现实意义。从而最终得出聚类分析结果,既不同类型电网故障信号的典型空间特征向量。

步骤8当电网监控后台机收到新的告警信号时,通过步骤1~3计算其空间特征向量。

步骤9通过计算新接收告警信号空间特征向量与典型告警信号的空间特征向量的相似度对告警信号进行分类和辨识。

上述步骤中,步骤1~7是对历史告警信号的聚类分析阶段,用以捕捉典型的电网事故告警信号,步骤8~9是对事实告警信号的处理过程。

5 结语

本文将聚类分析引入到电网监控信息辨识的研究中,在对历史存档的电网监控告警信号进行预处理的前提下,将其转化为有效的告警信号文档集合。并采用聚类分析的方法建立对应的空间特征向量,结合K-means算法计算得出典型的告警信号空间特征向量。当监控后台机有新的告警信息出现时,可通过计算新增告警信息与典型告警信号空间特征向量的相似度对新增告警信号进行分类。从而实现电网监控信息自动分类,达到提高电网设备告警信号的辨识效率,防止信号的漏看和错误辨识,保障电网安全稳定运行的目的。

(References)

[1]王晶晶,刘巍,张勇平,等.华北电网无人值班站和集控中心管理模式的探讨[J].华东电力,2011(10):23-24.

WANG Jingjing,LIU Wei,ZHANG Yongping,et al. Unattended station and control center management mode in north china powergrid[J].EastChina Electric Power,2011(10):23-24.

[2]黄炜,张杰明,綦孝文,等.调度集控一体化系统责任区管理和告警解决方案[J].电网技术,2007,31(S2):264-267.

HUANG Wei,ZHANG Jieming,QI Xiaowen,et al.So⁃lution to Alarming and Management of Duty Region in Integrated System of Dispatching and Centralized Control[J].Power System Technology,2007,31(S2): 264-267.

[3]罗欣,夏德麟,晏蒲柳.基于词频差异的特征选取及改进的TF-IDF公式[J].计算机应用,2012(9):43-47.

LUO Xin,XIA Delin,YAN Puliu.Feature selection based on word frequency difference and improvement of TF-IDF formula[J].Computer Application,2012(9): 43-47.

[4]李镇君,周竹荣.基于Document Triage的TF-IDF算法的改进[J].计算机应用,2015(12):56-60.

LIZhenjun,ZHOU Zhurong.Theimprovementof TF-IDF algorithm based on documenttriage[J]. Computer Application,2015(12):56-60.

[5]陆媛,杨慧中.基于代表熵的基因表达数据聚类分析方法[J].计算机工程与应用,2008(27):77-81.

LU Yuan,YANG Huizhong.The research of clustering analysis method based on entropy of gene expression data[J].Computer Engineering and Application,2008 (27):77-81.

[6]李小梅,郭红.基因表达数据的模糊聚类技术研究[J].信息系统工程,2013(11):36-41.

LI Xiaomei,GUO Hong.The research of fuzzy clus⁃tering gene expression data technology[J].Informa⁃tion Systems Engineering,2013(11):36-41.

[7]柴宝杰,刘大为.基于粒子群优化的蚁群算法在TSP中的应用[J].计算机仿真,2014(8):16-18.

CHAI Baojie,LIU Dawei.The application of ant col⁃ony algorithm in TSP based on particle swarm opti⁃mization[J].The Computer Simulation,2014(8):16-18.

The Research of Smart Identification of Power Grid Monitoring Information Based on Cluster Analysis

YU Zhenhua,YANG Shiyong,SHU Zhengyu,LI Huangqiang,ZHANG Weiqi
(State Grid Hubei Electric Power Company Yichang Power Supply Company,Yichang Hubei 443000,China)

The classification and arrangement of the alarm information of the power network is completely dependent on the manual completion of the monitor,in view of the disadvantages,a cluster-based method is put forward in order to help monitor the alarm signal,improve the efficiency of power grid dispatching.Based on a large number of network operation monitoring information,this method uses clustering analysis algorithm to extract the power grid operation monitoring information clustering rules,so as to realize the automatic screening and classification of network operation monitoring information,and then assist monitoring personnel to detect high-risk network equipment, to maintain safe and stable operation of the grid.

monitoring information;cluster analysis;information entropy;intelligent identification

TM762

A

1006-3986(2016)04-0017-04

10.19308/j.hep.2016.04.004

2016-03-05

余振华(1982),男,湖北宜昌人,工程师。

猜你喜欢

词条信息熵特征向量
二年制职教本科线性代数课程的几何化教学设计——以特征值和特征向量为例
基于信息熵可信度的测试点选择方法研究
克罗内克积的特征向量
一类特殊矩阵特征向量的求法
EXCEL表格计算判断矩阵近似特征向量在AHP法检验上的应用
一种基于信息熵的雷达动态自适应选择跟踪方法
2016年4月中国直销网络热门词条榜
基于信息熵的循环谱分析方法及其在滚动轴承故障诊断中的应用
大数据相关词条
泊松分布信息熵的性质和数值计算