APP下载

基于电力数据分析的污水站点监测方法研究

2021-05-07黄彦斌骆德汉蔡高琰

现代信息科技 2021年21期
关键词:智能电表数据分析

黄彦斌 骆德汉 蔡高琰

摘  要:在经济发展日新月异的今天,环境治污已成为确保社会经济健康有序发展的关键。为实现对污水站点的有效管控,需对其运行状态进行实时监测,为此,文章提出一种负荷功率曲线自动化异常检测的方法。对智能电表采集的负荷数据进行离群点分析并提取典型日负荷曲线,采用一种改进的皮尔逊相关系数分析方法,对每个站点的负荷曲线进行异常检测,判断污水站点的运行情况,提高异常检测准确率并减少人为误差和投入,具有较好的实际应用价值。

关键词:智能电表;负荷曲线;数据分析;异常检测

中图分类号:TP399       文献标识码:A文章编号:2096-4706(2021)21-0121-05

Abstract: With the rapid development of economy, environmental pollution control has become the key to ensure the healthy and orderly development of social economy. In order to realize the effective management and control of sewage stations, it is necessary to monitor their operation status in real time. Therefore, this paper proposes an automatic anomaly detection method of load power curve, analyzes the outliers of the load data collected by the smart meter, extracts the typical daily load curve, and uses an improved Pearson correlation coefficient analysis method to detect the anomaly of the load curve of each station, in this way, we can judge the operation situation of the sewage station, improve the accuracy of anomaly detection and reduce human error and investment. It has good practical application value.

Keywords: smart meter; load curve; data analysis; anomaly detection

0  引  言

污水处理是城村生活污水治理的核心环节,但是其异常检测至今尚未达到预期效果。目前,国内外对污水排放的监测主要是在各个治污设备处安装多个传感器,包括以活性污泥法、生物接触氧化法等为核心技术的一体化污水处理设备[1],自动控制系统中的主控模块设备[2](PLC),对各个传感器采集的参数进行分析[3,4]。以物联网技术和网络通信技术为核心的远程监控技术得到了一定的应用[5,6],如构建通用分组无线服务(General Packet Radio Service, GPRS)和基于Internet网络平台的远程污水监控系统[7],或者定期对在线污水水质化学检测仪器进行清理维护[8]。传统的监测手段因存在以下问题而难以推广:传感设备安装困难,多点安装容易出故障,易受外界影响,温度、湿度、水量等因素都可能会使监测结果出现偏差,以及成本投入大[9]。因此寻找一种既能减少(或杜绝)人为因素干扰,又可降低安装运行成本的解决方案是本文的研究重点。本文通过智能电表对电力数据的采集与处理,提出一种负荷曲线异常检测的方法,实现了对污水站点的科学监管,大大减少了人力成本的投入,具有低成本、适用范围广的优势。

1  智能电表采集终端

智能电表是对电子式电表的改进升级,能够对电力数据進行实时采集、分析、存储。具有高性能、低成本、高速率、高精度、高存储的优势。本方法中采用智能电表,核心控制器MCU为HT6501,内核处理器为32位处理器ARM Cortex-M0,Flash为128 K,SRAM为8 K;采用高精度专用计量芯片ATT7022E,采样频率为14.4 kHz[10],脉冲常数为1600 imp/kWh;采用高性能继电器,内置温度补偿时钟,时钟误差小于0.5秒。实验数据来源于广东省佛山市470多个农村污水站点实时采集的平台负荷曲线数据表。上报的数据类型包括三项电流、三项电压、有功功率、无功功率、总功率等参数,本方法用到的只有负荷功率这一参数,监测频率为1分钟上报1个点,共30天的数据。数据集中的数据可能会出现缺值,在数据预处理时进行插值补充。主要采用内插法对原始上报数据进行数据插值。由于电表设备在4G网络通信传输过程中漏报造成的明显缺数,采用结合前后监测数据的方式,取均值,即,提高了负荷曲线的平滑性。本方法工作流程如图1所示。

2  离群点检测

电力负荷数据具有很强的周期性,且流程工艺的改变使负荷曲线的形态特征呈现出比较明显的差异。不同流程设计的站点,可能具有相似的典型日负荷曲线,相同的流程工艺也可能具有不同的特征典型日负荷曲线。由于污水处理站的吨量级设计存在较大的差距,离群点检测之前,先对负荷功率数据样本进行标准化处理,使得处理后数据的数量级差距不会过大。负荷曲线数据的归一化表达式为:

其中,Xm为归一化后的负荷功率曲线在第m分钟的值,Pm为原始数据,PMax和PMin分别为数据的最大值和最小值。在实际污水处理站点的设计中,采用互感器的降压变比方便用于量测和保护智能电表系统,电表采集上报的二次电流、二次功率与实际电流、实际功率为20倍(100/5)的关系,需乘以20才能还原原本的电力数据,将数据集导出为CSV文件(.csv)。污水处理站点工艺流程图如图2所示。

采用机器学习算法孤立森林(Isolation Forest, IForest)进行异常离群值检测[11],筛选排除与其他数据点不同的异常点。IForest是目前最常用的异常点检测算法之一,算法原理是,数据集中的异常值为少量,并且与正常值差距较大,容易被孤立,算法时间效率高,能处理大规模数据样本,通常随机二叉树iTree数量越多,算法越稳定。由于每次切数据空间都是随机选取一个维度和维度的特征,有大量的维度未被使用,算法的可靠性降低。IForest的缺点是不适用于维度很高的数据。本文使用的数据集中,数据类型只有负荷功率(ActivePowerTotal)一个维度,故可采用IForest进行异常检测,下面介绍计算步骤:

(1)对训练集中的数据进行采样并将采样数据作为根节点,递归,不断构造新叶子节点,直至叶子节点无法继续分割或达到树的最大高度(构建t个iTree树)。

(2)对iForest森林中的每个iTree树进行检测,并计算路径长度(path length),根据异常分数(anomaly score)计算公式,计算每个数据点的异常分数,异常分数越接近于1,其成为异常离群点的概率越大;如果分数都比0.5小,可以确定它们都是正常数值;如果大部分分数都在0.5附近,则不存在明显的异常数据点。

假设样本负荷数据有m个污水处理站点,每条典型日负荷曲线有1 440个离散数据点,将数据集中每天的负荷数据构成一个m×1 440的矩阵:

矩阵中第m行数据为第m个污水处理站点的典型日负荷曲线数据,根据实际运行情况,本文设定采样的样本大小Ψ为默认值256,二叉树数t=100,树深度height=8,iTree数据集异常比例为0.01。以某站点2021年10月24日负荷功率曲线为例,检测结果如图3所示。从图3中总共找出9个异常离群点,本文不对异常数据的产生原因做深入研究,直接筛除会造成数据长度发生变化,修改离群点的值为其右邻点,即Pi=Pi+1。处理完的数据规格仍为1 440×1,可以提高站点检测的准确度以及减少计算复杂度。

3  提取拟合典型日负荷曲线

离散点检测可以消除噪声对数据的影响并对不一致的数据进行修正。以下为提取典型日负荷曲线的拟合过程,假设所有站点绝大部分时间是正常的,而运行异常的时间占比小于10%。经过数据检查发现,站点的大功率电器如潜水泵,开机时间较为随机不固定,但是按照设计规范和工艺流程,其处理污水量与开机时间状态积分(用电量)存在映射关系,如图4所示。

除时域上存在偏差之外,整体的负荷特征基本遵循同一规律,如图5所示。

但这种情况下污水站点的运行状态为正常运行。因此本文采用概率统计与自回归分析提取典型日负荷曲线的方法,获取污水处理站点前30天正常运行的历史数据,作为基础数据,对负荷曲线时间序列进行时域处理,进行平移,使启动时间点为同一时间点。设置权重,进而对处理站点各样本日的负荷曲线中每个数据点进行加权叠加,求算数均值得到最终的典型日负荷曲线,Pm计算公式为:

其中,Pm为典型日负荷曲线中第m分钟的负荷功率,P1、P2到P30为30天内对应的第m分钟的负荷功率值,A1到A30为相关权重系数,记权重系数向量为A=[A1,…,Ai,…,A30],0<Ai<1,且满足式(4):

離现在越远的日期权重越小,离现在越近的日期权重越大,从而使提取拟合所得的负荷曲线能够最大限度地反映站点的典型负荷曲线形态。

4  曲线相似度计算

本实验所使用的计算机配置:处理器为Inter(R) Core(TM) i7-8750H,CPU频率为2.20 GHz,内存为8.00 Gb,操作系统为Windows 10(64 bit),程序设计语言为JDK12和Python3.8,集成开发环境为IDEA 2020.1和PyCharm2020.2。由于水泵电机的实际启动有直接启动、降压启动、电抗启动、软启动、变频启动、星三角启动[12]等,因此泵机的运行功率有启动功率和稳定运行功率的区别,启动的一瞬间可能会造成负荷曲线抖动,如果将这部分数据纳入异常检测,将会加大计算量并降低结果准确度。

为了解决此问题,本文提出一种改进的去抖动曲线相似度分析方法,将动态矩形窗口算法与皮尔逊相关系数的相关性相结合。窗口的起始点为负荷功率曲线的第二个趋势上升点/下降点,结束点为倒数第二个趋势下降点/上升点,因为所处站点不同,所以窗口的长度不再固定,只选取最中心的部分进行异常检测,只要在中心时间内站点运行状况为正常,便认为站点正常运行,避免了对整个负荷功率曲线的计算,从而降低零值对计算过程的影响。设置窗口门槛值T,离散点xi的切线斜率如式(5)所示。

当第二次f′(xi)大于T或小于(-T)时,Xi设为窗口的起始点;同理当倒数第二次出现导数的绝对值大于窗口门槛T时,设为窗口结束点,如图6所示。

如果站点以额定负载运行,负荷曲线特征较为平稳,则采用对称中心窗口,如图7所示。

皮尔逊相关系数也称为皮尔逊积矩相关系数,定义一种简单的线性相关系数指标,用于计算两个变量X=[X1,X2,…Xn]T和Y=[Y1,Y2,…Yn]T的线性相关程度,结果落在[-1,1]区间,对于长度为n 的离散序列,计算公式为:

其中,R为皮尔逊相关系数,Xi和Yi为每个数据点的值,和为功率曲线均值。R的绝对值越大,表明相关性越大;R的绝对值越小,表明相关性越小。并且当R为-1时,X和Y为完全负相关;R为0时,X和Y没有相关关系;R为1时,X和Y为完全正相关,相关性区间如表1所示。若污水站点正常运行,则典型日负荷曲线和待检测日负荷曲线之间的相关系数R在[0.5,1]之间较为准确。

其中,R为曲线相似度系数,S为离散负荷曲线积分的比值,S的绝对值≤1。当功率时间的积分比值非常接近1时,说明站点按照设计规范运行,即使相似度较低,也属于正常运行状态;相似度系数较高,即待检测功率曲线和站点的典型日负荷曲线具有同步的特征状态,站点处于正常运行状态。通过对实验数据的统计分析,可以优化提高污水异常站点的检测率。以图5为例,相关系数为0.871 243 5,积分比值为0.975 659 8,所以可以判断出该站点处于正常运行状态。根据实验情况,最终设置模型参数为:相关系数R=0.85,曲线积分比值S=0.9,窗口门槛T=0.01,核心窗口区间=[300,1100],系统的异常检测误差比较低,模型收敛性好,取得较好的检测效果。

基于治污处理站点的实际运行情况,在佛山市农村地区选取了50个均匀分布的污水处理站点,根据它们的运行状况进行异常检测方法的试点验证。所采用的治污设备主要有集水池提升泵、调节池提升泵、回流泵、加药泵、潜水泵、曝气机、风机、搅拌机、鼓风机、中间池等。由于不同规模不同设计的站点所采用的治污设备型号与额定功率不尽相同,部分治污设备的主要用电功率如表2所示。

導出后台MongoDB数据库中DataTime为2021年10月30日这一天的部分系统检测记录,如表3所示,检测记录为当日站点运行情况。除个别站点负荷功率曲线接近于0疑似停运外,有3个站点低于最近七日均线,在曲线特征形态上体现为整体幅度变小,如图8所示。可以看出,工作日期间的功率曲线具有较强的规律性,星期六日期间,站点的污水处理吨数减少,这与农村居民的生活作息规律有一定的关系。

检测结果与系统后台结果基本一致,异常运行的站点都能被检测出来,有少数正常运行的站点被检测为状态异常,总体准确率达到88%,如图9所示。

综上,80%以上的污水处理站点从流程设计上来说是正常运行的,只有少数污水处理站点出现运行异常状况。本文提出的基于智能电表的负荷功率曲线数学分析异常检测方法,在污水处理站的自动化异常监控上具有较好的表现。

5  结  论

为了降低人力成本,构建便于安装的污水站自动化监测体系,提出一种基于智能电表的负荷曲线数学分析的方法,对污水处理站点的运行状况起到科学监控的作用,可以较为准确地判断站点的运行状况,及时发现污水站点运行异常行为。本文所提出的方法对治污管理自动化系统的构建具有一定的现实意义。如何细化污水站点的异常分类是后续研究内容之一;此次研究未将气候、季节,降雨等因素纳入考察范围,只考虑了历史用电量因素,后续研究中会将客观变化因素作为影响用电量变化的因素,并搭建Spark计算框架与机器学习和负荷识别相结合的方法,以提高系统监控识别准确度。

参考文献:

[1] 张婷,王孟珍,曹仲.农村一体化生活污水处理设备应用现状与发展趋势 [J].净水技术,2021,40(S1):107-111.

[2] 石磊.污水处理系统中的自动控制系统设计 [J].集成电路应用,2021,38(9):158-159.

[3] 庄婉婉.污染源在线监测中存在的问题及发展趋势 [J].上海环境科学,2019,38(5):218-219+223.

[4] 李倩.污染源自动监控在污染防治中的作用 [J].环境与发展,2019,31(9):60-61.

[5] 顾浩,徐宏飞,陈卫兵.基于物联网技术的工业污染总量控制系统的研究 [J].物联网技术,2016,6(11):84-86.

[6] 于大伟,钟华,李子梅.基于物联网的城镇污水处理监管系统设计与研究 [J].长春工程学院学报(自然科学版),2015,16(3):94-97+103.

[7] 颜秀勤,韦启信,杨超,等.村镇污水处理设施远程监控系统设计与实现 [J].物联网技术,2018,8(12):58-60+63.

[8] 周智墩.如何提高污水水质检测的准确性及稳定性 [J].资源节约与环保,2019(8):51.

[9] 刘忠辉,蔡高琰,梁炳基,等.基于电力数据分析的污染物排放监测方法研究 [J].信息技术与网络安全,2021,40(2):52-55+73.

[10] 荆永震.非侵入式负荷识别系统研发 [D].广州:广东工业大学,2019.

[11] 黄福兴,周广山,丁宏,等.基于孤立森林算法的电能量异常数据检测 [J].华东师范大学学报(自然科学版),2019(5):123-132.

[12] 曹锡枫.溪洛渡水电站进水口配电设备选择研究 [J].水电站设计,2014,30(1):20-27.

作者简介:黄彦斌(1997—),男,汉族,广东揭阳人,硕士研究生在读,主要研究方向:数据分析、智能电表;骆德汉(1958—),男,汉族,安徽芜湖人,教授,博士,主要研究方向:仿生嗅觉、模式识别与绿色电子技术;蔡高琰(1982—),男,汉族,广东揭阳人,中级工程师,本科,主要研究方向:信号处理。

猜你喜欢

智能电表数据分析
智能电表及集抄技术在线损管理中的应用研究
新常态下集团公司内部审计工作研究
浅析大数据时代对企业营销模式的影响
基于读者到馆行为数据分析的高校图书馆服务优化建议
基于ZigBee的电能无线抄表系统的设计