APP下载

基于Prophet-GMM 的大坝监测数据异常检测算法

2024-03-31孙政杰丁勇李登华

人民黄河 2024年3期
关键词:查准率监测数据残差

孙政杰 丁勇 李登华

摘 要:大坝监测数据受环境等因素影响,往往存在异常数据,异常数据的检测对于大坝的正常运行起着不可或缺的作用,但是传统异常检测算法对于大坝监测数据往往达不到精度要求。提出了一种基于Prophet-GMM 的异常检测算法,利用Prophet 算法较好的拟合性能对大坝数据进行拟合,由拟合数据与实测数据求残差序列,再利用GMM 算法对残差序列进行聚类,从而准确识别出异常值。结果表明:Prophet-GMM 法对于不同类型的大坝监测数据都能准确识别出异常值,与传统检测算法相比,在查准率、查全率及准确率3 个检测指标上,均有较为明显的提升。

关键词:Prophet;GMM;大坝监测数据;异常检测

中图分类号:TV698.2 文献标志码:A doi:10.3969/ j.issn.1000-1379.2024.03.024

引用格式:孙政杰,丁勇,李登华.基于Prophet-GMM 的大坝监测数据异常检测算法[J].人民黄河,2024,46(3):132-135,142.

0 引言

大坝监测数据对判定大坝状态,预测大坝安全情况起着重要作用。准确的大坝监测数据有利于提升大坝安全报警精确度,及时预警并解决问题。近年来,随着大坝自动化监测水平不断提升,大坝内测点的不断增加导致监测数据量大幅上升。鉴于自动化仪器本身存在各种误差,且易受其他因素影响,大坝监测数据往往存在异常值,因此识别异常值变得尤为重要。目前,针对大坝监测数据准确性的提升,普遍采用基于聚类[1-2] 和基于模型[3-4] 的异常检测方法,然而上述方法无法有效规避数据异常值的影响,异常值检测效率较低。

鉴于大坝监测数据本身为时间序列数据,由Face?book 开源的Prophet 算法是一种自适应拟合数据的算法[5-6] ,该算法对于时序数据有良好的适应性,对缺失值容忍度较高,拟合速度较快,具有良好的拟合性能[7-8] 。本文在利用Prophet 算法拟合大坝监测数据后,引入数学模型求得残差序列,再结合高斯混合模型聚类(GMM)算法[9-10] 对残差序列进行聚类,通过聚类准确判断出大坝监测数据的异常值,對比仅使用将Prophet 算法预测值上下限[11] 作为异常数据识别区间的方法以及各传统算法,试验表明异常检测精度得到有效提升。

2 案例

2.1 大坝监测数据来源

本文采用某面板堆石坝近10 a 的监测数据进行案例分析,其中包含大坝自动化监测系统投入使用后的数据。该大坝自动化监测系统监测频率为1 次/ d,涵盖各类测点共计大约800 个,包括大坝测缝计、大坝钢筋应力计、大坝渗压计等近20 类不同监测仪器。

本试验将大坝监测数据分为3 类,其中试验模拟序列采用标准正弦波谐波因子的方式模拟以年为周期的大坝周期温度项,其过程线如图2 所示;周期性序列为对于大坝混凝土面板钢筋应力计及测缝计等具有较为显著的单调性和年周期性的序列;非周期性序列为对于土压力计及大坝渗压计等没有较为明显的单调性和年周期性的序列。分别从上述仪器的测点中选取数据质量较好的10 条序列,通过人工检查,序列均无明显较大异常和测量误差,其过程线见图3、图4。

2.2 异常数据的添加

为测试算法检测效果及稳定性,采取在每条序列随机添加人工误差的方式,以达到标记异常点位置的目的,并计算查准率、查全率及准确率。误差的添加方式为:

1)在某个数据点位置独立添加误差;

2)在某几个连续数据点位置添加连续误差;

3)对数据点进行独立和连续两种方式的混合添加。

添加误差值大小分为:1 倍标准差的小数值误差;1~2 倍标准差的中数值误差;2~3 倍标准差的大数值误差;1~6 倍标准差的混合数值误差。误差值添加数量分为:2%左右的少量误差添加;5%左右的中等数量添加;10%左右的大量添加。

对上述异常数据添加方式进行多组试验可以很好地反映大坝数据存在的异常情况以及实际情况中的各种突发状况,本文将在各类传感器中取30 组数据进行误差添加以及算法检测试验。

利用Prophet 算法构建该大坝数据监控模型,由拟合后的数据与实际数据求得残差序列,利用GMM算法对残差序列进行聚类,例如大坝渗压计的聚类结果如图5 所示。

式中:P、R、A 分别为查准率、查全率、准确率,TP 为检测为正的样本实际也为正样本数量,FP 为检测为正的样本实际为负样本数量,FN 为检测为负的样本实际为正样本数量,TN 为检测为负的样本实际也为负样本数量[15] 。

由于Prophet 算法本身可得到预测值上限及下限,并且可以将此区间外的数据点识别为异常点,因此本文也将其作为对比方法。

查准率也称精确率,由表1 中Prophet-GMM 算法与其他方法的查准率可知,由于模拟序列本身是较为理想的序列,因此该算法可以得到很好的效果;对于周期序列而言,查准率均值大都在0.85 以上,且标准差较小,表明Prophet-GMM 算法对于不同的序列均有较好的适应性,对比绝对中位差法和四分位控制法均有较大提升。

查全率也称召回率,传统的绝对中位差法和四分位控制法对于实测序列而言检测效果较差。针对非周期和周期两类实测序列,本文所提出的检测算法相较于Prophet 算法而言,精确性更高(见表2)。

准确率主要表示检测分类正确的样本占总样本的比例,是综合判断检测算法整体检测性能的指标。由表3 中3 类序列的准确率均值及标准差,可以看出Prophet- GMM 算法的检测准确率及稳定性优于Prophet 算法,对于不同周期的实测序列均能有效地检测异常。

由上述试验结果可知,本文算法相较于传统异常检测算法及使用预测最大值上限和最小值下限为检测区间的Prophet 算法,在查准率、查全率、准确率3 个指标上均有不同幅度提升。

3 结论

大坝监测数据受天气、气候等因素影响往往具有周期性和非线性的特征,加之受仪器本身误差的影响,往往会产生突变的极端误差,对后续大坝数据分析工作造成影响,本文提出基于Prophet-GMM 混合算法识别大坝监测数据中的异常值,通过多种异常值添加方式添加异常进行标记来测试算法效果,并进行对比试验,有以下结论:

1)Prophet 算法将本身具有的预测值上限和下限作为异常数据识别区间的异常检测方法,其稳定性受异常数据的较大影响,无法达到满意的异常识别精度。

2)对于Prophet 模型拟合的数据求得的残差序列进行二次处理,使用高斯混合聚类(GMM)算法对残差数据进行进一步聚类,将偏离的异常值进行有效的聚类,求得正常值所在的位置,进一步提高了异常检测识别的精度,同时相较于其他传统异常检测方法有较为明显的提升。

参考文献:

[1] 陆春光,叶方彬,赵羚,等.基于密度峰值聚类的电力大数据异常值检测算法[J].科学技术与工程,2020,20(2):654-658.

[2] 肖勇,郑楷洪,余忠忠,等.基于三次指数平滑模型与DB?SCAN 聚类的电量数据异常检测[J].电网技术,2020,44(3):1099-1104.

[3] 杨志东,丁建武,陈广久,等.基于LightGBM 和LSTM 模型的电力大数据异常用电检测方法研究[J/ OL].电测与仪表,[2022 - 08 - 01]. http:// kns. cnki. net/ kcms/ detail/23.1202.TH.20220713.1958.004.html.

[4] 陳利军,王畅.基于DBSCAN 的地震电离层扰动异常数据检测方法[J].地震工程学报,2020,42(2):410-415.

[5] WAN X L,ZOU Y L,WANG J,et al.Prediction of Shale OilProduction Based on Prophet ALGORITHM[J]. Journal ofPhysics:Conference Series,2021,2009(1):1-7.

[6] SAKIUR M T A R,TAKAHIRO H,OZGUR K,et al.A Min?imalistic Approach for Evapotranspiration Estimation Usingthe Prophet Model[J].Hydrological Sciences Journal,2020,65(12):1397-1417.

[7] 李衡,朱理,郑洁,等.基于Prophet 算法的配电网线路峰值负荷预测[J].浙江电力,2022,41(3):20-26.

[8] 周子琪,周世健,陶蕊.基于EWT-Prophet 方法的地表沉降预测[J].大地测量与地球动力学,2022,42(3):247-252.

[9] 王荣荣.基于迁移学习的高斯混合模型聚类算法研究[D].济南:济南大学,2021:45-50.

[10] 黄咏宁.基于混合高斯模型的面板数据聚类研究[D].广州:华南理工大学,2016:20-24.

[11] 高赫.基于机器学习的连续式风洞马赫数控制[D].南京:南京航空航天大学,2020:42-48.

[12] 刘铭基,田雅楠,张亮,等.基于Prophet-ARIMA 模型的民航周转量预测研究[J].计算机技术与发展,2022,32(2):148-153,160.

[13] 吴文培,宋亚林,魏上斐.基于改进Prophet 模型的用电量预测研究[J].计算机仿真,2021,38(11):473-478.

[14] 王一妹,刘辉,宋鹏,等.基于高斯混合模型聚类的风电场短期功率预测方法[J].电力系统自动化,2021,45(7):37-43.

[15] 况华,何鑫,何觅,等.基于双向长短期记忆神经网络的配网电压异常数据检测[J].科学技术与工程,2021,21(24):10291-10297.

【责任编辑 简 群】

猜你喜欢

查准率监测数据残差
基于双向GRU与残差拟合的车辆跟驰建模
基于残差学习的自适应无人机目标跟踪算法
基于递归残差网络的图像超分辨率重建
GSM-R接口监测数据精确地理化方法及应用
基于数据挖掘技术的网络信息过滤系统设计
大数据环境下的文本信息挖掘方法
基于深度特征分析的双线性图像相似度匹配算法
平稳自相关过程的残差累积和控制图
GPS异常监测数据的关联负选择分步识别算法
基于小波函数对GNSS监测数据降噪的应用研究