APP下载

基于奇异谱分析的大坝安全监测数据异常值识别技术研究

2021-11-12范振东傅春江

水力发电 2021年8期
关键词:谱分析监测数据贡献率

杨 鸽,范振东,傅春江,刘 阳

(1.杭州国家水电站大坝安全和应急工程技术中心有限公司,浙江 杭州 311122;

2.中国电建华东勘测设计研究院有限公司,浙江 杭州 311122;

3.中国电力技术装备有限公司,北京 100052)

0 引 言

近年来互联网、物联网、大数据等技术的快速发展使实现大坝安全实时诊断成为可能。目前应用较为成功的大坝安全诊断信息系统[1-4]都是对大坝安全监测数据进行分析、实时识别异常数据,据此识别大坝异常运行状况。因此,及时有效地识别异常监测数据是大坝安全实时诊断的基础。

目前,在大坝监控领域可见的异常值识别方法按照其原理可以被分为基于包络域的识别法、基于条件相似性的识别法以及基于数学模型的识别法3类。其中,基于统计回归数学模型的异常值识别方法通常能够达到较高的敏感度,同时也不容易将正常值误判为异常,因此应用最为广泛。但是,回归模型的建立通常需要有丰富数据分析经验的人操作完成。当对监测点极多的高坝或群坝进行监控时,人力成本巨大;同时,不同的操作人员可能出现标准不一致、甚至不准确的情况。此外,统计模型中通常还包括水位、温度等环境量,而在实际工程中经常出现环境量与效应量不同时报送的情况,这时将无法采用统计模型得出效应量预测值,因而也就无法判断实测值是否异常。

奇异谱分析(Singular Spectrum Analysis,SSA)是一种融合了传统时间序列分析、多元统计、动力系统以及信号处理等多领域方法的技术。由于无需先验信息和正弦波假定,且具有时间序列趋势分析、周期提取、噪声去除以及预报功能,目前已被广泛应用于气候学、气象学、地球物理以及海洋科学等学科,在机械工程、经济学、勘测等领域也有所应用[5-9]。基于奇异谱分析的预测过程对人工操作的依赖极低,因而很容易通过计算机语言实现自动化;此外,基于奇异谱分析的预测值是对历史数据序列规律的反映,并不需要提供环境量即可得出,因而在环境量没有及时上报时也可进行预测分析。

为此,本文了构建基于奇异谱分析的大坝安全监测异常值识别方法,对该方法对各类型大坝安全监测数据的分析能力进行论证,探讨基于奇异谱的异常值识别技术在大坝安全诊断领域的适用性。

1 基于奇异谱分析异常数据识别原理

基于奇异谱分析的异常值识别的基本流程为:采用奇异谱分析法对历史数据序列进行分析重构后得出预测值,然后,通过检验实测值与预测值之间的残差是否在合理范围内来判断测值是否正常。

1.1 奇异谱分析[5,10-11]

对于长度为n的一维时间序列f0,f1,f2,k…,fn-1,为了了解隐含的时间演变结构,把该序列在时间上滞后排列,得到轨迹矩阵X

(1)

式中,l为窗口长度,且1

然后,对轨迹矩阵进行奇异值分解。令S=XXT,其特征值为λ1,λ2,λ3,…,λl(λ1≥λ2≥λ3,…,λl≥0),对应的标准正交化的特征向量为U1,U2,U3,…,Ul。令

(2)

其中,d为非零特征值总数。于是,轨迹矩阵的奇异值分解为

X=X1+X2+X3+…+Xd

(3)

(4)

可以证明V1,V2,V3,…,Vl是矩阵ST=XTX的对应于特征值λ1,λ2,λ3,…,λL的标准正交化特征向量;矩阵Xi的秩为1,称为基本矩阵,或称第i个重构成分;称(λi,Ui,Vi)为第i个特征组。

可将d个基本矩阵分为m组,各组分别包括I1,I2,…,Im个基本矩阵。于是,可将轨迹矩阵可以写作:

X=XI1+XI2+…+XIm

(5)

分组的规则与序列分析的具体目的有关,例如,对序列进行去噪处理时需将特征值较大的基本矩阵分为一组,进行周期成分提取时可将呈现周期特征的基本矩阵分为一组。

最后,对分解或分组后的矩阵进行重构,得到新的数据系列。具体的,对于L×K的矩阵Y,令其元素为yij,L*=min(L,K),K*=max(L,K),N=L+K-1;若L

(6)

式中,gk为Y中元素的对角平均化,例如,当k=1时,g1=(y12+y21)/2。可以看到,如果Y是某个序列h0,h1,h2,…,hN-1的轨迹矩阵时,得到的序列gk=hk。

(7)

如果式(7)近似成立,则称X“近似可分”。

1.2 基于奇异谱分析的异常值识别

对于轨迹矩阵X,第k个重构成分的贡献率CRk为

(8)

表征序列主要特征的成分的贡献率显著大于噪声及粗差的贡献率。因而,可选用贡献率显著较大的主要成分重构数据序列,然后求出重构序列与实测值的残差,再通过对残差的分析即可识别异常值。一般可选用累积贡献率约为85%的的前k个成分重构数据序列。

残差的判别方法可采用拉依达准则,但为了避免偏离较严重的粗差对均值和标准差的估计造成影响,此处建议采用稳健估计粗差探测的IQR准则。具体的,将残差序列按从小到大排列,求出四分位数Q1,Q2及Q3,对于每个残差Δi,其IQR准则下的稳健比分数统计量Z为[8-9]

(9)

其中,IQR′=0.741 3×(Q3-Q1)。可以认为当|Z|≥3时为异常值,对应的置信水平为99%。

2 奇异谱分析的适用性研究

奇异谱分析最早是针对宽平稳过程开发[10-11],而大多数大坝安全监测数据序列都具有较强的趋势性或周期性,并非简单的平稳过程。因此,对奇异谱分析在大坝安全监测数据分析中的适用性进行验证。

具体为分别用指数函数和线性函数与噪声信号构造数据序列,如图1所示,然后采用奇异谱分析对其进行分析。取序列长度N=500,时间窗口L=100。由图1可知,奇异谱分析能够对非平稳数据序列进行分解和重构。图2为重构成分的贡献率,由图2可知,重构成分的贡献率随阶次的增加急剧下降,并未出现“多个相近的特征值”的情况。前4阶重构成分及其贡献率如图3所示,两个时间序列的第1阶重构成分的贡献率就分别达到了约90%和96%,前4阶重构成分的累积贡献率约达98%和99%;而并未出现需要多个类正弦曲线才能很好重构原序列的情况。

图1 原始及重构数据序列

图2 重构成分贡献率

图3 主要重构成分

综上所述,从实际案例分析结果来看,虽然奇异谱分析最早是针对宽平稳过程开发,但这一方法也将适用于非平稳过程,因而也可以被用于大坝监测数据的分析。

3 基于奇异谱分析的大坝异常监测数据识别技术应用

图4中细线所示为某高拱坝的上下游位移监测成果,采用奇异谱分析对该数据序列进行分解重构和异常值识别,以验证基于奇异谱分析的异常值识别方法对复杂数据序列的有效。所分析数据序列的N=6 800,频率为1次/d,序列的变化周期约为1 a,因而取时间滞后窗口L=400。如图5及图6所示,前3阶重构成分的贡献率显著大于之后的成分,且累积贡献率大于90%。于是选择前3阶成分重构原数据序列,如图4中粗线所示。实测值与重构序列的残差频率分布图所示,计算残差序列的四分位数并利用IQR准则进行判别,取|Z|≥3,对应置信度为99%,得到正常测值的取值范围如图7中虚线及图8中灰色阴影所包围的区域,在上述区域以外的测值即为异常值。

图4 原监测数据及重构数据序列

图5 奇异谱分析主要重构成分

图6 贡献率

图7 残差的频率分布

图8 残差序列及异常值

4 总 结

本文对基于奇异谱分析的大坝安全监测数据异常值识别技术进行了研究,证明了该技术可对趋势性或周期性数据序列进行分析,验证了基于奇异谱分析的异常监测数据识别技术在大坝安全诊断领域的适用性和有效性。与基于回归模型、确定性以及混合模型的异常值识别技术相比,基于奇异谱分析的技术不需要预先人工建立数学模型,在测点数量较多且需要及时反馈的大坝安全智能诊断领域中有较大优势。此外,由于奇异谱分析不涉及对环境量的考察,因此,可用于环境量缺失情况下的大坝安全监测数据检验分析。

猜你喜欢

谱分析监测数据贡献率
非光滑边界条件下具时滞的Rotenberg方程主算子的谱分析
基于飞机观测的四川盆地9月气溶胶粒子谱分析
纳谱分析技术(苏州)有限公司
秦皇岛河口湿地环境在线监测数据应用研究
一种通用的装备体系贡献率评估框架
GSM-R接口监测数据精确地理化方法及应用
关于装备体系贡献率研究的几点思考
基于奇异谱分析的空间环境数据插补方法
基于小波函数对GNSS监测数据降噪的应用研究
北京经济社会发展月度监测数据(2008年11月)