APP下载

融合自注意力机制的Conv-LSTM边坡位移预测方法

2022-12-05郑海青赵越磊宗广昌孙晓云

金属矿山 2022年11期
关键词:注意力卷积边坡

郑海青 赵越磊 宗广昌 孙晓云 靳 强

(1.石家庄铁道大学电气与电子工程学院,河北 石家庄 050043;2.河北金隅鼎鑫水泥有限公司,河北 石家庄 050200)

位移作为表征边坡稳定性程度的重要指标[1-2],对其进行实时可靠地监测、预计,对于及时了解边坡安全状态、准确地进行变形估计具有重要意义。

近年来,不少学者对边坡位移预测方法进行了研究,涌现出了一批理论和方法[3]。如基于经验公式建立的蠕变理论[4-5],主要利用岩土力学相关公式进行运算,无法对边坡位移影响因素的复杂性和多变性进行研究。基于蠕变理论的边坡预测方法主要是针对滑坡现象,但岩质边坡的变形破坏机理有别于滑坡,变形量较小,传统的经验预报模型对于岩质边坡适用性不强。由于统计学模型[6]可以解决经验公式无法结合边坡位移影响因素以实现预测的问题,晏凯等[7]采用自回归求和滑动平均模型(Autoregressive Integrated Moving Average,ARIMA)和Holt-Winters方法分别建立了边坡位移预测模型,试验结果表明预测效果很好,但两种模型的普适性较差且只适用于短时预测。为了得到更理想的预测效果,学者们提出了基于机器学习和深度学习的边坡位移预测模型[8-9],利用其出色的非线性映射能力来提高预测精度。ZHANG等[10]建立了基于长短期记忆网络(Long Short-Term Memory,LSTM)的边坡位移预测模型,并对LSTM网络内部的超参数进行优化从而获得较好的预测效果,但运算时间较长,时效性较差;GUO等[11]将多个稀疏自编码器的误差进行融合,并与LSTM相结合对机械故障时间序列进行了预测;VIDAL等[12]建立了CNN-LSTM混合模型对金价的波动进行预测,相对于LSTM模型,混合模型预测精度有了一定程度提高。以上预测模型主要采用组合模型以提高模型的预测精度,很少考虑在结构上对模型进行优化。

由于卷积神经网络(Convolutional Neural Networks,CNN)在提取特征的过程中,池化层主要通过降低数据维度和减少参数量对特征进行压缩,已有研究结果表明,在某些特定的任务中,去掉池化层能有效提高网络的性能。ZHANG等[13]利用卷积—长短期记忆网络(Conv-LSTM)和全连通长短期记忆网络(FC-LSTM)进行人体动作识别,识别效果较好。AI等[14]采用Conv-LSTM预测方法来解决预测中空间相关性和时间相关性问题。CICEK等[15]利用Conv-LSTM模型预测智能手机剩余电池容量,结果表明,Conv-LSTM模型的预测效果相对于CNN-LSTM模型有一定的优势。

开采中的矿山边坡变形受各种因素影响,基于边坡变形监测数据,并结合工程现场的主要影响因素,建立多因素的位移预测模型,有助于实现对边坡变形规律的可靠分析。本研究搭建了融合自注意力机制的Conv-LSTM位移预测模型,对河北金隅鼎鑫水泥有限公司某开采中的矿山边坡进行位移预测,针对去掉池化层后可能引起的过拟合问题,引入Dropout正则化方法对模型进行优化;为充分提取边坡位移时序中的关系特征,引入了自注意力机制。

1 融合自注意力机制的Conv-LSTM 预测模型构建

自注意力机制(Self-Attention Mechanism)是TREISMAN和GELADE于2014年提出的一种模拟人脑注意力机制的概率模型,能有效捕捉数据的动态变化特征,使得相关性分析更加准确。

传统神经网络在处理预测问题时,每次只会采用独立的数据向量,没有一个类似“记忆”的概念,用来处理和“记忆”有关的各种任务。循环神经网络(Recurrent Neural Network,RNN)的提出,在一定程度上解决了上述问题,但处理长期依赖性问题时容易出现梯度消失的问题。长期短期记忆网络(LSTM)引入了门控结构使网络不仅能记忆过去的信息,同时还能选择性地忘记一些不重要的信息从而实现对长序列的建模。本研究建立了一种融合自注意力机制的Conv-LSTM位移预测模型,对采集的边坡位移时间序列进行建模分析,网络结构如图1所示。

图1 融合自注意力机制的Conv-LSTM位移预测模型Fig.1 Displacement prediction model based on Conv-LSTM and self-attention mechanism

在试验中采集到的每条数据记录包括当日最低温度、最高温度、湿度、降水量和位移值,因此预测模型的输入为由最低温度、最高温度、湿度、降水量和位移值构成的向量,该向量先经过卷积层进行特征提取,然后经过自注意力机制层提取数据内部特征,最后,将提取到的特征输入LSTM模型进行位移时间序列预测。

图1中自注意力机制采用多头注意力机制,其原理是将多个点积注意力机制的计算结果进行拼接,图2为其数据处理示意图,同一输入向量X经过两次点积注意力机制处理,就会得到两组权重矩阵和两组Q、K、V矩阵。如果输入向量X经过h次点乘注意力机制计算,再将h次的结果进行拼接,就得到了多头注意力机制模型的输出[16]。

图2 多头注意力机制数据处理过程示意Fig.2 Schematic of data processing procedure of multi-head attention mechanism

自注意力机制能够很充分地提取特征,得到句子中每个单词之间的关系,应用到边坡位移预测方面能够有效地提取数据集中元素的前后关系。另外,自注意力机制在计算过程中,相比于卷积层提取特征的过程,可以有效降低计算量,减少模型训练的时间成本。

2 试验结果分析

2.1 数据获取

试验采用的数据来自河北金隅鼎鑫水泥有限公司矿山边坡位移监测项目。工程现场点位布置如图3所示。该工程在矿山的5个横断坡面上共设置了13个监测位点,呈网格化分布,有利于分析坡体的整体稳定性。

图3 工程现场点位布置示意Fig.3 Schematic of the layout of engineering site points

结合工程现场所在地理位置,通过对采集数据进行相关性分析,并参考现场工作人员的经验,得出影响该处边坡位移的主要因素有温度、空气湿度和降水量。因此,本研究将最低温度、最高温度、湿度、降水量和历史位移值5个参数作为预测模型的输入。选取监测点G102在2019年6月1日—2020年7月14日所测数据(表1)作为样本集进行试验。

表1 监测点G102的部分数据Table 1 Some data of monitoring point G102

2.2 数据预处理

为消除奇异样本带来的训练时间增大问题,采用极大极小归一化方法对数据进行预处理,即:

式中,x为原始数据;x′为归一化后的数据;max(x)为样本中的最大值;min(x)为样本中的最小值。

采用均方根误差(Root Mean Square Error,RMSE)、均方误差(Mean Square Error,MSE)、平均绝对百分比误差(Mean Absolute Percentage Error,MAPE)和对称平均绝对百分比误差(Symmetric Mean Absolute Percentage Error,SMAPE)作为模型评价指标,各指标计算公式分别为

2.3 预测结果

通过对采集到的边坡数据样本进行分析,并对比不同卷积层层数、卷积核大小及LSTM层数对预测结果的影响,确定了边坡位移预测模型的结构,如图4所示。为改善去掉池化层后可能引起的过拟合问题,引入了Dropout正则化方法。

图4 融合自注意力机制的边坡位移预测模型结构Fig.4 Structure of slope displacement prediction model based on self-attention mechanism

试验中的主要超参数设置见表2。5种模型预测结果见表3,引入自注意力机制的Conv-LSTM模型的预测结果如图5所示,预测误差曲线如图6所示,可以看出预测模型的最大误差为0.05左右。

表2 主要超参数设置Table 1 Setting of main hyper-parameters

表3 不同模型预测结果Table 3 Prediction results of different models

图5 融合自注意力机制的Conv-LSTM模型预测结果Fig.5 Prediction results of Conv-LSTM model combined with self-attention mechanism

图6 预测误差曲线Fig.6 Curves of prediction error

由表3可知:传统BP神经网络运行时间最短,但预测结果较差;引入自注意力机制的Conv-LSTM模型的平均绝对百分比误差仅为0.441,与Conv-LSTM模型相比降低了约1个百分点,与CNN-LSTM模型相比降低了将近3个百分点。同时,引入自注意力机制的Conv-LSTM模型的预测均方根误差仅为0.029,可见其拟合程度较好,而Conv-LSTM模型为0.101,CNN-LSTM模型为0.197。在运行时间方面,引入自注意力机制的Conv-LSTM模型的运行时间相比Conv-LSTM模型进一步缩短,节约了时间成本,模型的泛化性能得到了进一步提升。

综上分析可知:引入自注意力机制的Conv-LSTM预测模型获得了较好的预测结果,而且时间成本较低,其平均绝对误差与 CNN-LSTM模型相比降低了将近3个百分点。引入的多头注意力机制扩展了模型集中于不同位置的能力,使模型的泛化能力得到了一定的提升。

3 结 论

(1)通过对河北金隅鼎鑫水泥厂采集到的边坡位移序列进行分析,在Conv-LSTM边坡位移预测模型的基础上,引入自注意力机制,关注位移时序中关键特征,建立了融合自注意力机制的Conv-LSTM边坡位移预测模型。

(2)通过自注意力机制提取了边坡位移时间序列中的关键时序元素内部特征,并与BP神经网络模型、CNN-LSTM预测模型、LSTM预测模型及 Conv-LSTM预测模型相比,所提出的模型预测精度最好,且运算速度较快。

(3)所提出的预测模型虽然具有一定的自适应能力,但仍存在对初始的学习率不够鲁棒的问题,在某些情况下依然可能陷入局部最优解,下一步可根据方差的潜在散度动态地打开或关闭学习率,从而提升模型的鲁棒性。

猜你喜欢

注意力卷积边坡
让注意力“飞”回来
基于3D-Winograd的快速卷积算法设计及FPGA实现
陡帮强化开采边坡立体式在线监测技术研究
边坡控制爆破施工
二维极限平衡法在高边坡工程中的应用研究
卷积神经网络的分析与设计
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
“扬眼”APP:让注意力“变现”
A Beautiful Way Of Looking At Things