APP下载

基于知识图谱的电厂设备异常检测

2021-04-21贾伟良

河南科技 2021年2期
关键词:知识图谱电厂

贾伟良

摘 要:异常检测是确保电厂安全稳定运行的重要保障。除了电厂本身的状态之外,环境信息对于异常检测来说也是不可或缺的影响因素,如温度、湿度、灰尘等。因此,本文提出一种基于知识图谱的电厂设备异常检测方法,通过应用信号相关算法来判断给定的电厂数据是否异常。试验结果表明,该方法可以整合多种资源中的数据,并对给定的数据异常进行准确度分析。根据测试数据集,基于阈值的传统方法的准确度为64%,而本文方法的准确度为92%,从整体来看,电厂设备异常检测的准确性显著提升。

关键词:电厂;异常检测;知识图谱

中图分类号:TM73文献标识码:A文章编号:1003-5168(2021)02-0015-03

Abnormal Detection of Power Plant Equipment Based on Knowledge Graph

JIA Weiliang

(Huadian Laizhou Power Generation Co., Ltd.,Laizhou Shandong 261400)

Abstract: Anomaly detection is an important guarantee to ensure the safe and stable operation of power plants. In addition to the status of the power plant itself, environmental information is also an indispensable factor for anomaly detection, such as temperature, humidity and dust. Therefore, this paper proposed a method of power plant equipment anomaly detection based on knowledge graphs, which used signal-related algorithms to determine whether a given power plant data is abnormal. The test results show that this method can integrate data from multiple sources and perform accuracy analysis on given data anomalies. According to the test data set, the accuracy of the traditional method based on threshold is 64%, while the accuracy of this method is 92%, on the whole, the accuracy of power plant equipment abnormality detection is significantly improved.

Keywords: power plant;anomaly detection;knowledge map

传统基于阈值的方法被广泛应用在异常检测中。专家为不同的监视器定义了不同的阈值。如果记录值存在这些阈值定义的正常间隔,就认为其属于异常情况。该方法没有考虑不同情况和相关参数,可能会造成异常检测不准确[1-2]。

本文提出了一种基于知识图谱的电气设备异常检测算法。它将来自不同领域的知识与监控数据相集成,并自动识别设备异常的原因和可能性[3]。本文将知识图方法应用于电气设备的异常检测,根据测试数据集上的试验,该方法将检测准确性从64%提高到92%。

1 基于知识图谱的电厂设备异常检测模型

电厂设备异常检测是一项复杂而艰巨的任务,因为它包含许多的影响因素。例如,电厂设备温度可能会受到电气设备运行负载和天气状况的影响。因此,仅通过设定的报警阈值来进行异常状态的发现是不准确的。本文使用知识图谱对传感器进行分组。其间对每组中传感器的实时监控结果与知识图谱生成的参考数据进行比较。假设异常情况只占数据的很小一部分,若与大多数信号不同,则其被标记为异常状态。算法的总体框架如图1所示。

首先收集电厂设备信息,然后采集传感器數据,集成开放资源,如地理位置和天气状况。基于知识数据,本文通过实体识别和关系识别来构建电厂设备知识图谱。为了检测目标传感器数据是否异常,首先从整体知识图中生成一个参考数据集来描述传感器的数据特征。接下来,通过相关算法分析参考传感器的同期监测数据,以计算两个传感器之间的距离。如果从目标传感器到参考传感器的平均距离明显大于参考传感器内部的平均距离,就应将目标传感器标记为异常传感器。参考集不仅可以从现有运行传感器中选择,还可以从历史数据中选择。例如,可以将电厂1 h的温度数据与同一传感器的其他数据进行比较。这样可以扩大参考集,提高异常检测的准确性。

2 知识图谱构建

2.1 知识图谱数据集构建

电厂异常检测知识图谱的构建以三种数据为基础,即传感器数据、电厂设备数据和开放数据。电厂设备数据可以从现有的关系数据库中生成。对于开放数据,本文主要介绍天气(动态)信息和经济(静态)信息。传感器数据包括传感器的历史数据。

2.2 实体识别

为了描述电厂系统的传感器,本文创建了具有动态时间顺序数据结构的新型实体。每个实体不仅定义了静态属性,还关联了动态生成的时间顺序数据。

首先,采用实体检测算法,找出数据集中有意义的对象。对于每个标识的对象,根据其类型,填充属性,并在可用的情况下关联动态数据源。最后,手动重新检测实体,以提高生成的知识图质量。

2.3 关系识别

实体间的关系可以根据三个数据集的特征进行检测。对于结构数据,本文根据数据库中的表列信息直接定义检测到的实体之间的关系。例如,若传感器表含有其生产商列表,则可以从传感器及其制造商生成制造关系。对于公开信息,可以使用语言处理方法从数据集中自动识别关系,然后由专家重新检查,以提高其准确性。

2.4 电厂设备异常检测

异常检测装置可以确定来自目标传感器的数据是否揭示了与其稳定或正常情况不同的状态。本研究基于创建的具有动态信息的知识图谱,生成代表目标传感器特征的特征数据子集,并从知识图谱中选择具有相似特征的参考传感器数据集进行对比,以确定目标传感器是否处于异常情况。

2.4.1 特征数据子图的创建。首先,通过分析不同类型的传感器,创建可以表示目标传感器的特征数据子集。例如,可以描述温度监控传感器及其所属的电厂类型、电压/电流信息以及所定位区域的天气数据。然后,在知识图谱中选择具有相似节点、关系和属性的参考传感器进行比较。

2.4.2 匹配算法。除了静态参数外,还应该比较节点的动态实时数据。本研究在一定时间内检测到传感器S的异常。若S的特征子图包含动态的节点/实体,则该节点将被P分割为多个状态。匹配算法如图2所示,其间需要两个步骤,即静态数据对比和动态数据对比。

2.4.2.1 静态数据对比。静态数据对比是指基于静态属性计算相应节点的距离。其为每种实体定义了相应的距离函数。例如,两个电厂的距离可以通过它们的负载、覆盖面积和设备结构之差来定义。节点之间的关系距离也进行了定义。当前,若两个关系是同一类型,则它们的距离为0,若不是,则它们的距离为1。所有距离都归一化为[0,1]。

2.4.2.2 动态数据对比。动态数据对比是指将动态实体按时间分为多个检测周期,每个细分时段对统计距离与目标子图中的相应实体进行比较。例如,电厂中的温度传感器与电厂的运行负载和天气状况有关。如果要在一段时间内找到参考数据,就要查找与目标传感器运行相似的传感器。因为相似的传感器在相似天气(尤其是温度)下具有相似的负载,只要载荷和天气相似,历史数据就可以用作异常检测的参考数据。

为检测周期P中的传感器是否正常运行,首先将两个信号的相关性定义为式(1)。[CovX,Y]是信号[X]和[Y]的协方差,[Varx]是信号[X]的方差。然后,计算两个信号之间的距离,基于距离矩阵,使用DBscan算法对信号进行聚类。如果目标位于大多数类别中,就将其视为正常信号,否则发出传感器异常警报。

[rX,Y=CovX,YVarxVarY]                   (1)

文中所提的方法不仅可以检测目标传感器异常,而且可以找出历史异常状态和其他异常传感器。但是,该方法在异常传感器占多数时表现不佳,这时可以增加参考传感器,以增加正常节点的数量。

3 测试分析

3.1 测试集构建

本文利用位于两个省份的10个电厂的环境监控系统记录,对本方法进行测试。环境参数包括温度、湿度和光照。电厂设施数据包含每个电厂的电压和电流等,更新频率为1 min。开放数据主要是这些电厂的天气信息,从天气网站获取,并且每小时更新一次。总体数据涵盖电厂30 d的数据。

3.2 知識图谱可视化展示

本研究使用Neo4j图数据库对数据进行可视化展示。它可以使用Cypher Query Language或CQL支持节点选择和子图匹配。测试知识图是根据系统配置直接创建的。

3.3 异常结果检测

笔者选择1 h作为测试时间,其中涉及60条测试记录。温度传感器的已定义功能子图包括电厂面积、电压和电流。在图匹配的第一步后,通常选择最相似的3~4个实体作为参考数据源。然后,将切片窗口方法应用于这些参考传感器,找出与相应动态数据具有静态相似性的周期。例如,应将凌晨01:00至02:00的温度数据与相似的平均天气温度进行比较,切片窗口的设置为10 min,以提高搜索速度。本文选择最相似的50个参考数据并应用dbscan聚类算法进行分析。图3显示了dbscan方法的聚类结果。与参考数据集比较,其可以轻松地识别出异常传感器。图3表示正常组(点)和异常信号(加号)的聚类结果。

根据测试,本文提出的方法可以识别所有定义的异常行为中超过92%的异常情况。即使现有的实现只是带有少量设备的测试演示,但与其他方法(如基于阈值的方法或规则定义的方法)相比,它仍然显示出很高的准确性。不同方法的准确性比较结果如表1所示。未来,人们可以将知识图扩展为更多的相关实体和更大的历史记录,进一步改进现已提出的框架。

4 结论

本文提出了一种基于知识图谱的电厂设备异常检测方法。该方法创建了电厂设备传感器的知识图谱,并应用两步匹配算法来找出异常检测参考数据集,然后根据信号相关性计算目标信号到参考信号的距离,最后使用DBSCAN聚类算法检测异常信号。测试数据集的试验结果表明,与现有的基于阈值的方法相比,该方法可以将异常检测准确率从64%提高到92%。在以后的电厂设备异常检测研究中,人们不仅应使用协方差,还应使用余弦距离及其方差来量化异常。

参考文献:

[1]余贻鑫,栾文鹏.智能电网述评[J].中国电机工程学报,2009(34):1-8.

[2]张之哲,李兴源,程时杰.智能电网统一信息系统的框架、功能和实现[J].中国电机工程学报,2010(34):1-7.

[3]吴智勇.电力系统运行信息的数据挖掘研究[J].杭州:浙江大学,2009:10-15.

猜你喜欢

知识图谱电厂
下饺子喽
电厂热工控制系统中抗干扰技术运用分析
电厂烟气脱硝装置对锅炉运行的影响研究
关于火力电厂电气运行安全管理的思考
国内图书馆嵌入式服务研究主题分析
国内外政府信息公开研究的脉络、流派与趋势
基于知识图谱的产业集群创新绩效可视化分析
基于知识图谱的产业集群创新绩效可视化分析
基于知识图谱的智慧教育研究热点与趋势分析
从《ET&S》与《电化教育研究》对比分析中管窥教育技术发展