APP下载

综合岭回归和SARIMA方法在桥梁健康监测数据分析中的应用

2023-07-31谌桢文常军

科学技术与工程 2023年20期
关键词:共线性回归系数桥梁

谌桢文,常军

(苏州科技大学土木工程学院,苏州 215011)

在不同位置安装不同类型的传感器以获得桥梁的整体信息。长期处于自然环境中桥梁的稳定性及安装于其上的传感器受到了极大的威胁[1-2]。收集到的数据往往存在大量的异常值或导致大量样本缺失,这将导致样本的数量和信息密度低,因此,在后续桥状态预测时,有必要对缺失值进行填补。这是监控桥梁未来是否安全和健康运行的关键。

随着桥梁服役时间的增加,健康检测系统积累了大量的数据,包括运营环境、运行状态、结构响应等。如何结合大数据分析方法对海量监测数据进行有效处理,从而对桥梁的健康状况进行评估和预警已成为该领域的热点研究。为了确保桥梁健康运行,从现在大数据中精确地预测桥梁未来的健康状态,并设置合适的预警值非常关键。时间序列分析为该问题的解决提供了思路,时间序列分析方法常用于异常检测[3]和数据预测[4]。自回归滑动平均模型(autoregressive moving average,ARMA)是该方法中应用最多的一种。由于桥梁监测数据有一定的季节性,在ARMA模型中引入季节性因子的季节性差分自回归滑动平均模型(seasonal autoregressive integrated moving average,SARIMA)模型自然而然地成了分析桥梁监测数据的优势方法。由于同一桥梁上不同传感器数据之间存在不同程度的关联性[5],监测数据之间的关联性分析在数据融合[6-7]、温度效应分析[8]以及结构状态监测与评估[9-10]等有着良好的应用。多元线性回归是分析变量间相关性的常用方法[11-12],但变量之间的共线性会导致过度拟合,影响分析结果。一般认为剔除变量[13]和机器学习法[14-15]是解决该问题的有效方法。岭回归(ridge regression,RR)是机器学习方法的一种,由于它不具备外推预测能力,而SARIMA模型能够很好地弥补这一缺点。因此,提出二者综合以解决桥梁监测数据缺失和未来健康状况预测的问题。利用岭回归模型解决不同位置处传感器数据之间的共线性,并建立各传感器之间的关系,对已知的样本内数据进行回归预测,再结合SARIMA模型对样本进行外推预测,并设置合理的预警区间。将该模型应用于实桥,研究成果对传感器缺失数据填补和桥梁状态预警具有重要意义。

1 基本原理

1.1 岭回归

岭回归是一种强大的机器学习技术,它是线性回归的优化模型,主要是规避预测变量共线性的问题,由Hoerl等[16]于1962年提出,是一种基于最小二乘估计改进的有偏估计方法。

多元线性回归模型一般的表达式为

yi=β0+β1xi1+β2xi2+…+βkxik+εi

(1)

式(1)中:yi为目标变量,即因变量;xi1,xi2,…,xik为特征变量,即自变量;εi为随机误差项;β0为截距;β1,β2,…,βk为回归系数。

模型的矩阵可表示为

(2)

式(2)记为

y=Xβ+ε

(3)

在多元线性回归中,通过最小化损失函数求解回归系数,定义损失函数Q为

(4)

β=(XTX)-1XTy

(5)

如果使得系数存在解,必须使XTX可逆,当模型自变量存在复合共线时,使得|XTX|≈0,导致系数估计不适用。岭回归通过构造矩阵kI来保证系数估计有效,回归系数估计变为

(6)

岭回归是一个有偏估计,k值的确定需要在偏差和方差之间进行平衡,并不是越大越好,常用岭迹分析[17]或者交叉验证法[18]来确定。

1.2 SARIMA模型

SARIMA模型是ARIMA的发展,其出现是为了提高ARIMA模型在含有季节性数据建模中的性能。式(7)为SARIMA模型方法的一般形式。

φp(B)φP(Bs)(1-B)d(1-Bs)DXt=

γq(B)ωQ(Bs)et

(7)

式(7)中:φp(B)、γq(B)分别为自回归(AR)和移动平均(MA)的阶数;φP(Bs)、ωQ(Bs)分别为季节性自回归(SAR)和季节性移动平均(SMA)的多项式;(1-B)和(1-Bs)分别为非季节性和季节性的差分成分;d和D分别为非季节差分阶数和季节差分阶数;Xt为t时刻的观察值;et为预测误差项;s为季节的长度;B为滞后算子。

SARIMA模型各成分可表示为

(8)

2 RR-SARIMA组合方法

利用岭回归方法建立待求传感器和已知传感器之间的关系,并进行样本内预测,再利用SARIMA模型对已知传感器数据进行外推预测,最后将岭回归和SARIMA模型相结合,可得到待求传感器数据样本外预测值,具体步骤如下。

步骤1 对传感器数据进行预处理,并检验数据之间的共线性。

步骤2 利用岭回归建立起待求传感器数据和已知传感器数据之间的关系,得到岭回归系数βi和岭回归方程,并检验模型。

步骤3 对传感器缺失数据进行填补。

建立多部门联合执法机制,采取公开检查、暗访相结合的方式,加大对I站、M站等场所的执法检查力度;对伪造检验结果、出具虚假报告的检验机构,暂停网络联接和检验报告打印功能,并依照《大气污染防治法》有关条款予以处罚;违反资质认定相关规定的,依据资质认定有关规定对排放检验机构进行处罚,情节严重的撤销其资质认定证书;对不符合规定、标准规范的维护站进行惩处,情节严重的撤销其M站认定证书;将检测站、维护站守法情况纳入企业征信系统,并将有关情况向社会公开。

步骤4 通过对已知样本内传感器数据建立SARIMA模型,检验模型并进行外推预测。

步骤5 将外推预测数据结果结合已建好的岭回归模型进行训练,得到待求传感器样本外的预测数据。

步骤6 将结果与单SARIMA模型进行对比,通过检验指标评价组合模型预测效果。

步骤7 设置合理的预警区间。

3 实例分析

3.1 实桥背景

为了验证上述方法的有效性,将该方法用于上海紫金大桥的健康监测数据中。紫金大桥为钢梁-钢拱下承式系杆拱桥,如图1所示,主跨188 m,全桥长715 m,主拱为提篮式钢箱拱,矢跨比为1/5,内倾角度12°,拱轴线为二次抛物线。主梁为采用新型钢-混凝土组合桥面板的钢梁,全宽40 m。吊杆采用高强平行钢丝束,纵向间距9 m。加速度传感器位置布置如图2所示,南北侧各7个传感器,主要考虑北侧7个传感器。

图1 上海紫金大桥Fig.1 Shanghai Zijin Bridge

图2 加速度传感器布置图Fig.2 Acceleration sensors layout

为了验证模型在传感器数据填补和桥梁状态预测的能力,提取2021年7月28日—8月28日桥梁北测7个加速度传感器数据用作分析,将北1号传感器数据作为待求数据y,其余6个传感器数据x2、x3、x4、x5、x6、x7作为已知传感器数据,用于建立与待求传感器数据y的关系。由于加速度传感器数据量共有32 123个,为了简化计算对传感器数据进行缩样预处理,缩减后的传感器数据量为5 355个,处理过后每个传感器数据如图3所示。

图3 北侧加速度传感器数据Fig.3 North side acceleration sensors data

表1 传感器数据相关性Table 1 Sensor data correlations

由表1可知,桥梁北侧7个加速度数据的相关性均在95%以上,表现出很强的相关性,所以考虑共线性的影响。利用方差膨胀系数(VIF)用于判定系数之间是否存在多重共线性,VIF定义为

(9)

式(9)中:R2为判定系数,在线性回归中用于判断回归方程的拟合程度[19]。

若VIF>10说明变量之间存在共线性。考虑其他6个传感器数据之间的方差膨胀系数VIF如表2所示。

表2 方差膨胀系数Table 2 Variance inflation factor table

由表2中的VIF值可知,其余6个传感器数据VIF值均大于10,说明之间存在共线性。因此考虑用岭回归解决数据之间的共线性。

3.2 岭回归

将加速度数据集按照8∶2的比例划分为样本内数据和样本外数据。将样本内数据按留出法进行划分,按8∶2的比例划分训练集和测试集,以建立待求传感器数据与其他6个传感器数据之间的岭回归模型,用于传感器数据填补。岭迹图如图4所示。

图4 岭迹图Fig.4 Ridge trace

由图4可知,岭参数大概在0.001之后趋近平缓,使用交叉验证法得到岭参数具体值为k=0.002 09,岭回归模型的岭回归系数以及模型检验结果如表3所示。由于自变量个数q的影响,需要对判定系数R2进行纠正,可表示为

表3 岭回归系数及模型检验Table 3 Ridge regression coefficient and model test

(10)

若F>Fα(q,n-q-1),则说明,模型的线性关系显著性成立[20]。其中,α为显著性水平,一般取0.05,Fα是指在给定的显著性水平α下F检验的临界值,Fα需通过查表可知,也可以通过残存函数计算F检验的假设检验参数P值。F检验经查表发现,F0.05(6,451)=2.119

t检验用于检验岭回归系数的显著性[19],定义t检验为

(11)

式(11)中:cii=(XTX+kI)-1;SSE为残差平方和。

t检验的拒绝域为|ti|>tα/2(n-q-1),tα/2是指在给定显著性水平α下,双侧t检验的临界值,tα/2可通过查表可知。

t检验也可通过计算假设检验参数P进行判定,由表3可知,2~6号监测数据的岭回归系数的t检验|ti|i∈(2,6)均大于t0.025(451)=1.645,t检验P≈0.000,但7号监测数据的t值检验|t7|=1.5940.05,说明2~6号传感器对1号传感器有明显影响,7号传感器对1号传感器没有明显影响,但系数仍可用,这是岭回归对于一般线性回归的优势所在。

由待求传感器数据为y,与已知其余6个传感器数据建立的岭回归表达式为

y=-0.197+0.139x2+0.367x3-0.232x4+

0.361x5+0.325x6+0.053x7

(12)

将岭回归拟合结果和SARIMA模型直接预测结果与真实值通过检验指标进行对比,检验指标说明如下。

(1)均方误差(MSE)。

(13)

式(13)表示每个预测值与实际值之间距离的平方和。

(2)均方根误差(RMSE)。

(14)

(3)平均绝对误差(MAE)。

(15)

(4)平均绝对百分比误差(MAPE)。

(16)

在上述4个检验指标反映模型的预测值与实际值的差异,MSE和RMSE可以代表结果的总体误差,该值越小,预测结果整体误差越小;MAE和MAPE值可以表示为拟合精度,该值越小,说明预测结果精度越高,信号损失越小。对比结果如表4所示。

表4 岭回归预测结果Table 4 Ridge regression prediction results

由表4可知,岭回归的回归误差和精度均比SARIMA模型的预测结果好,并且预测误差能降低约50%,传感器数据填补结果对比如图5所示。

图5 传感器数据填补结果Fig.5 Sensor data imputation results

3.3 SARIMA模型

图6 xi的SARIMA模型预测结果Fig.6 SARIMA model prediction results of xi

xi的SARIMA模型的预测结果如表5所示,可以看出,xi的SARIMA模型的误差和精度都很好,预测误差均在约0.025 mm/s2。

表5 SARIMA预测结果Table 5 SARIMA forecast results

3.4 RR-SARIMA模型预测结果

将xi的SARIMA模型的预测结果带入岭回归模型中可得到y的样本外预测值,RR-SARIMA模型的预测结果可知桥梁未来一个星期的监测数据的变化趋势,从而推断桥梁的状态变化,桥梁状态预测结果如表6和图7所示。

表6 桥梁状态预测分析结果Table 6 Bridge condition prediction analysis results

图7 桥梁状态预测结果Fig.7 Bridge condition prediction results

由分析结果可知,结合了岭回归和SARIMA的组合模型在样本外预测的精度方面比单一的SARIMA模型的预测能力要高,并且预测的误差和精度较好,预测误差在0.026 mm/s2。因此,组合模型为桥梁状态预测提供了一个更为精确的方法。组合模型在传感器数据填补和桥梁状态预测的结果如图8所示。

图8 传感器数据填补和桥梁状态预测结果Fig.8 Sensor data imputation and bridge condition prediction results

4 结论

提出了一种综合岭回归和SARIMA的方法,以实现传感器数据回归以及桥梁状态预测。首先利用岭回归建立了传感器之间的联系,并对传感器缺失值进行补充,再基于所有传感器数据采用SARIMA预测桥梁将来数据,最后通过设置预警值,以达到保证桥梁健康运行的目的。结果表明,本文方法能够精确填补传感器缺失数据,较精确地预测桥梁将来的运行数据;基于现在和预测将来数据设置的预警值可以保证桥梁的健康运行;组合模型充分利用了传感器之间的联系,相比于单一模型提高了预测精度。

猜你喜欢

共线性回归系数桥梁
银行不良贷款额影响因素分析
文氏图在计量统计类课程教学中的应用
——以多重共线性内容为例
不完全多重共线性定义存在的问题及其修正建议
手拉手 共搭爱的桥梁
句子也需要桥梁
多元线性回归的估值漂移及其判定方法
电导法协同Logistic方程进行6种苹果砧木抗寒性的比较
多元线性模型中回归系数矩阵的可估函数和协方差阵的同时Bayes估计及优良性
高性能砼在桥梁中的应用
诊断复共线性的特征分析法及其在GEO定轨中的应用