一种基于一阶差分的异常能耗数据处理方法

2014-10-21李稚春陈岚峰

电子世界 2014年23期

李稚春陈岚峰

【摘要】本文提出了一种新的基于一阶差分法的异常数据检测算法，可以用来发现建筑能耗平台的实时异常数据，详细讨论了方法论原则和准则。仿真结果表明，针对建筑能耗监测过程中的累积能耗异常数据可以通过我们的方法进行识别并予以处理，有效的保证了数据质量。

【关键词】能耗数据;异常数据;一阶差分法

1.引言

目前，建筑能耗监测被普遍认为是实现公共建筑节能量化考评的前提和基础，也是公共建筑节能的迫切要求。截至2013年底，全国范围内已实现对5 000余棟大型公共建筑进行实时能耗动态监测，累计支持210所高等院校开展节约型校园建设试点。然而，通过实际工程调研结果表明，现有的建筑能耗监测系统存在着严重的数据质量问题。因此，进一步提高建筑能耗监测系统的数据质量，就成了现有建筑能耗监测工作急需解决的技术问题。在监测系统运行过程中，仍然会产生部分因现场电磁干扰、信号传输扰动或数据传输故障等引起的异常数据，图1是某建筑能耗监测系统显示的三相有功功率监测界面，如图1所示，用绿色方框选中的点为一个异常数据点。

图1 能耗监测系统中的异常值

2.异常能耗数据辨识

异常数据是指数据采样过程中有明显错误，偏大或者偏小的个别数据，如图2所示的A、B两点。异常数据的出现会导致后期的数据处理过程中误差增大，甚至无法计算，因此必须将其剔除。例如，对于具有非负递增特性的能耗累积量而言，如果出现图2中A点的情形，A点的数值减去上一个采样时刻的数值将会出现负数，A点后面的数值减去A点的数值也会产生一个错误的数据。同理，B点的数据也会造成相应的影响。

图2 数据中的异常点

对于非时变系统测量过程中产生的异常数据，可以通过反复测量的方法降低异常数据出现的概率;对于时变系统，首先是通过已采集到的数据变化趋势对异常数据进行识别，然后补上一个合理的预测值。异常数据的识别需要根据仪表精度和测量过程而定，具体问题具体分析。较为常用的剔除异常数据的方法包括一阶差分法，多项式逼近法和最小二乘法。建筑能耗监测过程中的能耗数据多为一维统计数据，变化趋势相对比较简单，本文采用一阶差分法对异常数据进行识别和剔除。

图3 相邻点数据变化

图4 一阶差分法流程图

3.一阶差分法理论基础

当系统的采样频率满足奈奎斯特采样定理时，在相邻两个采样时间点获得的数据差值相差不大，如图3所示。即：

（1）

由此可知，可以利用和的数值对当前时刻的采样值进行预估，即：

（2）

将（1）带入（2）可得：

（3）

其中，是t时刻的采样值，是t时刻的预测值，为t时刻前1个时刻对应的采样点数值，为t时刻前2个时刻对应的采样点数值。

判定准则：设t时刻的采样值为，预测值为，对于给定的一个误差限，当时，则判定该时刻采样值是异常数据，予以剔除，同时将预测值取代采样值。

由异常数据判定准则可知，一阶差分法的关键是选择合适的误差限和预测的算法，式（3）给出了一阶差分法的预测算法，而误差限的大小则由系统的采样频率和被测物理量的变化特性共同决定。但在实际应用过程中，有两种情况需要注意。

图5 异常点处理

（1）起始点的选取

存在一种极端的可能，即起始点恰恰就是受干扰产生的异常点。为避免这种情况的出现，从一开始就必须选取能够满足一阶差分预测关系的3个连续点，满足公式（4）：

（4）

这时选取的3个点，、、，才可以作为正确的起始点被引用。找到起始点之后，可以沿时间轴负方向（）对以前的数据进行识别及修正，沿时间轴正方向（）对实时数据进行识别及修正，分别如式（5）和式（6）所示。如果最初的3个点，、、就是满足（4）关系的3个点，则直接选用和作为起点，对方向进行判别。

（5）

（6）

（2）连续异常点

当系统连续检测出若干个异常数据点，并用预测值进行替换之后，为避免造成数据偏离正确的趋势，必须重新选择新的起始点，即和的值。对于一阶差分法而言，经验证明，在连续剔除并替换两个异常数据点之后，应选择新的起始点作为和。但是，在实际测量过程中，有的时候会出现连续两个以上的异常点。从而导致所选的初始值和发生畸变，进而产生错误的预测值。为此，当连续代替两个异常数据之后，对以后的点，均要用公式（7）进行再次判断。

（7）

其中，K为常数项，取值是具体情况而定。如果满足式（7）的关系，则保留该值，否则认为该点是异常点，予以剔除，并用预测值替换。一旦找到满足（7）的数据点，就自动选取新的起点，然后重复上述过程。如果一直找不到这个点，当连续处理的点数已达到6个，也会自动的选择新的起点，再次重复上述的过程。

4.算法实现及验证

一阶差分法的算法实现过程不是很复杂，如图4所示。其中，采样数据为x（N），数据个数为N，t为采样数据的计数变量，数据类型为整型变量。为查找起始点，设变量t起始值为3，依据式（4）进行判断从x（N）中找到合适的起始点。找到起始点之后，对后面的数据进行异常数据检测和替换，直到采样数据结束。对于起始点之前的数据可以依据算法进行反推，也可以舍弃。异常值检测和替换的算法流程如图5所示，其中IK为连续处理异常点的计数变量，数据类型为整形变量，为数据的上界，即数据的极值，该参数的选取应根据不同的信息数据区别对待。可以利用设备的额定工作参数计算，一般取5倍的误差限作为数据的上界。若测量值与预测值之差小于误差限，则保留测量值;若差值大于，则判定为异常点，进而通过预测值代替测量值;若差值在于之间，则通过对IK计数大小进行判断是否替换，以此防止数据变化趋势的偏离。

图6 含有异常值的风机累计电量

图6所示的是建筑能耗监测系统中风机的日累计电量监测原始数据，图7所示的是通过一阶差分法对原始数据中异常数据进行剔除和替换后的结果。从图中可以看出，3个采集点因干扰读数为零，偏离正常变化趋势了正常的变化趋势，通过一阶差分法将异常值识别并剔除，处理后的数据反应了该支路的真实的累计电量信息。

图7 处理后的风机累计电量

5.结论

本文提出了一种基于一阶差分法的建筑能耗监测系统异常能耗数据诊断方法，可以直接嵌入在现有的建筑能耗监测平台中，特别是大型公共建筑。通过该方法可以有效地识别能耗数据中不合理的数据点，并进行剔除和替换，为后期的能耗数据处理提供了保障。

电子世界

2014年23期

一种基于一阶差分的异常能耗数据处理方法

杂志排行

电子世界的其它文章