基于长短期记忆神经网络的板裂纹损伤检测方法

2021-06-01张松林马栋梁王德禹

上海交通大学学报 2021年5期

张松林，马栋梁，王德禹

(上海交通大学海洋工程国家重点实验室；高新船舶与深海开发装备协同创新中心，上海 200240)

船舶长期处于复杂恶劣的海洋环境中，受到各种周期性载荷和随机载荷的作用，疲劳裂纹是其主要的损伤形式[1]，而当裂纹扩展到一定程度时，就会导致灾难性事故的发生，造成严重的人员伤亡和经济损失.

为避免船体损伤带来的安全隐患，许多研究者建立了基于结构健康监测(SHM)技术的船体结构应力监测系统.贾连徽等[2]通过建立全船有限元模型，得到船体结构应力响应函数，最后根据高应力区域和海况信息选取应力监测点.这种方法通常需要建立精确的全船有限元模型，以人为施加载荷的方式确定测点位置，而实际情况下船体所受载荷具有随机性，特别是极端海况下的波激振动和抨击颤振很难通过有限元计算进行预测.基于动力响应的结构损伤检测方法重点关注结构在损伤前后的振动特性，不需要施加载荷的过程.该方法通过选取一个对结构损伤敏感的参数，比如固有频率、振型或其曲率、刚度矩阵或柔度矩阵等，分析该参数的前后变化实现结构损伤检测的目标.Yang等[3]分析了板的振动模态，结合数值仿真和实验研究的结果，对裂纹的位置进行了检测.对于更加复杂的结构，采用单一的检测方法往往具有局限性，Mehrjoo等[4]将动力响应检测方法与神经网络相结合，提出了一种基于多层感知器(MLP)神经网络的损伤检测方法.尽管传统神经网络在损伤检测方面取得了一定的成果，但其具有收敛速度慢、预测精度低和算法不稳定等缺点.

近年来，随着人工智能(AI)和深度学习(DL)的发展，利用深度学习模型进行损伤检测得到了许多研究者的关注.在众多深度学习模型中，长短期记忆(LSTM)网络通过将时间序列的概念引入到网络结构设计中，能够有效处理长期复杂的时间序列[5]，在实时损伤检测方面扮演着十分重要的角色.张建付等[6-7]分别采用小波包变换(Wavelet Packet Transformation，WPT)和经验模态分解处理滚动轴承的振动信号，并将所得到的故障特征作为LSTM的输入，最后诊断出滚动轴承的常见故障.以上方法采用了人工提取损伤特征值的方式，虽然去除了部分信号干扰，但也不可避免地丢失了许多重要的信息.此外，多层LSTM神经网络本身就具有提取特征值的能力[8]，通过推理原始数据得到的特征往往更能反映数据的特性.Yu等[9]采用三层LSTM神经网络识别轴承故障，直接将原始信号作为输入，通过与单层LSTM、支持向量机等模型进行对比，证明了该方法具有较好的学习能力和识别精度.Luo等[10]同样采用了多层LSTM神经网络直接处理原始信号，实现了端到端的轴承故障识别.

目前，基于LSTM神经网络的损伤检测方法在滚轮轴承等机械结构的研究较多，但相比之下，船体结构的损伤识别更加复杂，并具有以下特点：一是船舶所处的海洋环境复杂恶劣，背景噪声极大，采集的信号很有可能被噪声所掩盖；二是船舶作为一种大型结构，其初始损伤所带来的安全隐患更为严重，需要及时有效地识别出损伤.本文以船体结构中普遍存在的板结构作为研究对象，将深度神经网络应用于板裂纹的损伤检测，提出了一种基于LSTM神经网络的板裂纹损伤检测方法.该方法的优势是直接将板的加速度响应作为神经网络的输入数据，将损伤特征的提取与分类合二为一，通过LSTM模型学习结构响应和裂纹损伤的内在关系，能够以端到端的模式实现不同位置裂纹损伤的智能分类，极大缩短了裂纹损伤定位的时间，使实时在线检测成为可能.

1 LSTM神经网络模型

1.1 LSTM神经网络

图1 LSTM单元结构Fig.1 Cell structure of LSTM

LSTM神经网络是一种基于传统循环神经网络(RNN)的改进网络，通过引入记忆模块，具有更加复杂的隐层节点激活方式，能够有效学习长期依赖关系，解决了传统RNN梯度爆炸和梯度消失的问题[5]，广泛应用于机器翻译和语音识别等领域.LSTM单元结构如图1所示.图中：t为时刻；xt为当前时刻的输入；ht-1和ht分别是上一时刻的输出和当前时刻的输出；Ct-1和Ct分别是上一时刻的记忆和当前时刻的记忆；σ和tanh分别为signoid激活函数和双曲正切激活函数.每个单元是一个“记忆细胞”，存储着对输入序列的记忆.细胞里面一共有3个门控单元，分别是遗忘门 (Forget Gate)、输入门(Input Gate)和输出门(Output Gate)，三者共同控制LSTM单元有选择性地更新和存储记忆，实现信息的有效流动.

3个门控单元的输入都是ht-1和xt.其中，遗忘门的输出ft控制有多少上一时刻记忆状态的信息流入到当前时刻记忆状态，表示为

ft=σ(Wf·[ht-1xt]+bf)

(1)

输入门的输出it控制有多少当前时刻输入的信息流入到当前时刻记忆状态，表示为

it=σ(Wi·[ht-1xt]+bi)

(2)

(3)

(4)

输出门的输出ot控制有多少当前时刻记忆状态的信息输入到下一时刻，表示为

ot=σ(Wo·[ht-1xt]+bo)

(5)

ht=ot⊙tanhCt

(6)

式(1)～(6)中，Wf、Wi、Wc及Wo为权重矩阵，bf、bi、bc及bo为偏置项，σ和tanh表示为

(7)

(8)

由LSTM单元组成的神经网络可以看成是一个非常复杂的非线性函数，通过数据训练调整内部权重，实现对输入数据的逼近，从而达到识别数据的目的.LSTM是一种监督学习算法，每个训练样本都有一个标签.本文所研究的是板单裂纹位置的检测，将标签设置为1个1×1的向量Q.其中，Q的元素q表示裂纹在板中的对应位置，q=0时表示板不存在裂纹损伤.

裂纹位置的检测需要在结构的诸多响应信号中准确地检测出任何一种损伤位置的信号，因此是一个多分类问题.LogSoftmax函数是多分类问题中常用的分类函数，表示为

LogSoftmax(x[i])=

(9)

(i,j=0,1,…,n)

根据式(9)，LogSoftmax函数将向量x的每个元素x[i]变换为向量P的对应元素P[i](P[i]<0).在本文中，P[i]越大，表示损伤发生在位置i的概率越高，因此P中最大元素P[k]的索引k(即概率最高的位置)表示预测的损伤位置.此外，本文利用损失函数度量LSTM模型的预测值(预测损伤位置)与标签值(实际损伤位置)之间的差异，NLLLoss函数是多分类问题中常用的损失函数，表示为

NLLLoss(P,Q)=-P[q]

(10)

根据式(10), NLLLoss函数返回-P[q]作为损失值，其中P为上文经过LogSoftmax函数变换后的向量.结合式(9)、(10)可知，-P[q]越小，即P[q] 越大，则表示LSTM模型预测损伤发生在位置q的概率越大，因此可以认为NLLLoss函数是一个需要最小化的目标函数.

LSTM模型通过最小化损失函数进行训练，进而调整内部权重，其训练过程采用基于时间的反向传播算法(BPTT)，主要有以下4个步骤：① 通过前向计算得到输出值；② 通过损失函数反向计算得到误差，包括时间反向和网络层级反向；③ 根据误差计算每个权重的梯度；④ 利用梯度优化算法更新每个权重.以下针对板不同位置裂纹损伤的智能分类问题，构建一种基于LSTM神经网络的板裂纹损伤检测方法.

1.2 模型结构设计

图2 LSTM神经网络模型结构Fig.2 Structure of LSTM neural network model

本文LSTM神经网络模型的结构如图2所示，图中a为每个时刻的输入数据，共有1个输入层、6个隐藏层和1个输出层，隐藏层包含3个LSTM层和3个全连接层.输入数据为板的结构响应，数据结构为b×t×d,其中b为批量大小，即每次迭代的样本数量，d为每个时刻输入向量的长度(个数).输入数据首先输入到3层LSTM神经单元中进行计算，将前一层LSTM神经单元的输出作为后一层对应LSTM神经单元的输入，并把第3层各个时刻的输出作为全连接层的输入，然后输入到3层全连接层神经单元，最后通过LogSoftmax函数进行分类，其输出数据为1×n的向量，代表LSTM模型预测的裂纹位置.

为了防止LSTM模型出现过拟合，本文在3层LSTM层之间添加了Dropout层，使模型按照一定概率舍弃部分神经元[11]，从而不会过度依赖某些局部特征.同时，在3层全连接层之间使用LeakyReLU激活函数：

(11)

1.3 模型实现步骤

本文LSTM模型的实现步骤如下：首先，建立LSTM神经网络模型，包括结构设计和相关函数选取；其次，为了验证所提出的LSTM模型的可行性，采用有限元数值模拟的方法计算板的结构响应并进行数据处理，得到LSTM模型的输入数据；然后，多次训练模型并进行超参数选择，优化模型配置；最后，对训练好的具有识别能力的LSTM模型进行测试，得出结果.

2 板裂纹损伤检测研究

2.1 有限元分析与数据处理

本文利用Python语言对Abaqus软件进行二次开发，建立有限元分析模型.该模型为矩形板，长L=3 000 mm，宽B=1 000 mm，厚D=14 mm，网格尺寸为50 mm.本文分别设置了四边简支和四边固支两种边界条件，采用瑞利阻尼[C]=α[M]+β[K]模拟阻尼效应，其中[M]和[K]分别为质量矩阵和刚度矩阵，α和β为阻尼系数，矩形板材料参数和无损状况前8阶固有频率分别如表1、2所示.

表1 矩形板材料参数Tab.1 Material parameters of rectangular plate

表2 矩形板固有频率Tab.2 Natural frequency of rectangular plate

以简支板为例，其数学模型如图3所示.本文所研究的是单裂纹位置的检测，因此设置了5种不同位置的裂纹，裂纹方向为沿板宽方向，如图3(a)所示，同时为了方便网格划分，裂纹形状设置为菱形，最大宽度为0.02 mm.此外，每种裂纹包含4种裂纹长度Lc，分别为0.1B、0.2B、0.3B和0.4B.考虑到传感器技术已经广泛应用于工程实际中，本文选取板的垂向加速度响应作为输入数据，同时设置了11个加速度采集点，如图3(b)所示.综上所述，该矩形板的计算状况一共有21个，包括20个损伤状况(5种裂纹位置×4种裂纹长度)和1个无损状况.

图3 简支板数学模型Fig.3 Mathematical model of simply supported plate

本文采用的动态激励为高斯白噪声激励，其均值为0，标准差为0.01 MPa，同时激励施加频率为104Hz，激励时间为4 s，并通过截止频率为600 Hz的巴特沃斯滤波器进行滤波.此外，本文设置的加速度采样时间为4 s，由于本文主要关注前8阶固有频率，因此采样频率设置为512 Hz，得到每个加速度采集点的数据长度(个数，下同)为 2 048.

为了提高LSTM模型的收敛速度和预测精度，本文对采集到的加速度数据进行高斯归一化处理.同时，考虑到在实际损伤检测中，结构响应不可避免地会受到噪声的影响，因此本文采用均值为0，标准差为0.3的高斯白噪声对噪声进行模拟.

此外，由于板在振动初始阶段存在由初始激励引起的自由振动，因此需要去除该自由振动的影响.通过对简支板施加瞬时激励，得到无损状况下板中心位置采集点的加速度(a)曲线，如图4所示.可以发现，简支板在前0.5 s内的自由振动较为明显，同时在1 s后该自由振动几乎衰减为0，其影响基本可以忽略.

图4 采集点加速度曲线Fig.4 Acceleration curves of collection point

此外，LSTM是一种基于深度学习的神经网络，需要大量的数据进行训练和学习.本文在综合考虑实际硬件条件和计算成本之后，采用以下方法保证LSTM模型能够有效地训练.① 对有限元模型进行多次计算.此方法旨在得到足够的样本，同时保证样本数据的平衡.其原理为对损伤状况和无损状况分别计算了50、80次，最终得到 1 080 个样本(20个损伤状况×50次计算+1个损伤状况×80次计算).② 对有限元计算得到的样本进行数据扩充.数据扩充是深度学习中获得大量数据的有效方法，同时可以提高模型的泛化能力，防止过拟合.

本文采用的数据扩充方法为数据裁剪，其流程如图5所示，分为非随机裁剪和随机裁剪两个部分，图中N为有限元计算得到的原始样本数量.考虑到板的自由振动，本文去除掉板前1 s的加速度，选取后3 s长度为 1 536 的加速度数据生成数据集.非随机裁剪的原理是直接将长度为 1 536 的加速度信号平均裁剪成3份，每份信号的长度为512，如图5(a)所示.随机裁剪的原理是首先从原始数据集中随机抽取b个样本[12]，然后从每个样本中随机裁剪出长度为512的加速度信号，如图5(b)所示.简言之，本文通过数据裁剪得到时间长度为1 s的加速度信号.

LSTM的训练与测试需要训练集(Training Set)、验证集(Validation Set)和测试集(Testing Set).为了保证数据集之间的独立性，首先对有限元得到的原始样本数据按照7∶1∶2的比例分为训练集、验证集和测试集，然后对各个数据集分别进行高斯归一化处理和数据扩充，得到LSTM模型的输入数据集.

图5 数据裁剪流程Fig.5 Data cropping process

2.2 LSTM模型训练与验证

超参数是指在深度学习中，神经网络模型训练之前人为设置的参数，而不是通过训练得到的权重，选择合适的超参数对LSTM模型的性能至关重要.

对于LSTM模型而言，其超参数主要有学习率、时期、批处理大小、输入特征维度、隐藏层维度、LSTM层数和舍弃概率.本文以简支边界条件为例，主要探究了学习率对LSTM模型的影响，其他超参数设置如表3所示.此外，本文采用Adam作为优化器，同时以指数衰减的形式更新学习率.

表3 LSTM模型超参数Tab.3 Hyperparameters of LSTM model

为了选择合适的超参数，本文采用验证集的损失值作为评价指标，对比了4种不同的学习率(分别为0.1、0.01、0.001和 0.000 1)对LSTM模型的影响.图6、7分别是不同学习率下无噪声和有噪声验证集的损失值变化曲线，图中R为学习率.

图6 LSTM不同学习率的验证集损失值变化曲线(无噪声)Fig.6 Validation loss at different learning rates of LSTM (without noise)

由图6、7可知，当学习率为0.01时，LSTM模型的收敛性较好，损失值较低，同时对噪声敏感性较低.因此，本文选取0.01作为学习率，并选择损失值最低的时期对应的模型进行测试.

图7 LSTM不同学习率的验证集损失值变化曲线(有噪声)Fig.7 Validation loss at different learning rates of LSTM (with noise)

2.3 LSTM模型测试结果

图8 MLP、WPT-MLP和 LSTM计算流程Fig.8 Calculation process of MLP, WPT-MLP, and LSTM

为了评估LSTM模型的性能，本文采用了MLP和WPT-MLP两种神经网络模型进行对比.其中，MLP模型采用3层全连接层结构，其直接选取加速度信号作为裂纹损伤特征进行训练.此外，WPT-MLP模型首先将处理得到的加速度信号进行小波包变换处理，提取各频带的能量信息作为损伤特征[13]，然后输入到3层全连接层进行训练.本文在对加速度信号进行WPT处理时，选取的小波基函数为Db2函数，分解层数为4，因此得到长度为16的特征向量.图8显示了MLP、WPT-MLP和LSTM三种模型的计算流程，图中全连接层前后的数字表示向量的长度，同时三者采用相同的数据集、分类函数、损失函数、激活函数及优化器.

图9、10分别是简支边界条件和固支边界条件下MLP、WPT-MLP和LSTM三种模型的测试结果，其中准确率为测试集上预测正确的样本数量占整个测试集的比例，是反应模型性能的重要指标.可以看到，三种模型在两种边界条件下的准确率非常接近，说明边界条件对LSTM模型在板裂纹损伤检测的影响较小.本文以简支边界条件下的测试结果为例，评估LSTM模型的性能.

图9 MLP、WPT-MLP和LSTM的测试集准确率(简支)Fig.9 Testing accuracy of MLP,WPT-MLP, and LSTM (simply supported)

图10 MLP、WPT-MLP和LSTM的测试集准确率(固支)Fig.10 Testing accuracy of MLP,WPT-MLP, and LSTM (fixed supported)

由图9可知，MLP模型的准确率远远低于WPT-MLP模型和LSTM模型，说明进行损伤特征提取能够有效提高检测性能.对比WPT-MLP模型和LSTM模型可知，对于无噪声数据，LSTM模型的准确率为99.59%，近乎完美地检测出了板的裂纹位置，高于WPT-MLP模型97.32%的准确率.而对于有噪声数据，LSTM模型的检测性能有所下降，准确率为94.75%，但相较于WPT-MLP模型86.49%的准确率仍然有明显优势，说明LSTM模型对于噪声的敏感程度低于WPT-MLP模型的敏感程度.

为了对比WPT-MLP模型和LSTM模型对不同裂纹位置q的检测性能，本文对不同裂纹位置的定位精度进行了分析，如图11、12所示.由图11可知，对于无噪声数据，LSTM模型能够较好地对每个裂纹位置进行检测，定位精度均在98.5%以上，而WPT-MLP模型对每个裂纹位置的定位精度都要低于LSTM模型，最大误差达到了5.67%.由图12可知，对于有噪声数据，LSTM模型的定位精度有所降低，但仍然保持在91.5%以上，对比WPT-MLP模型有显著优势.同时可以发现，两种模型对板中心位置裂纹的定位精度要明显高于其他状况的定位精度，说明噪声的存在基本不会掩盖板中心位置裂纹的损伤信息，但容易影响无损状况和其他位置裂纹的检测.此外，对比图11、12可知，噪声降低了每个裂纹位置的定位精度，同时对WPT-MLP模型的影响明显高于对LSTM模型的影响，说明LSTM模型对噪声的敏感程度较低.

图11 WPT-MLP和LSTM不同裂纹位置的定位精度(无噪声)Fig.11 Localization accuracy of WPT-MLP and LSTM at different crack locations (without noise)

图12 WPT-MLP和LSTM不同裂纹位置的定位精度(有噪声)Fig.12 Localization accuracy of WPT-MLP and LSTM at different crack locations (with noise)

为了进一步分析噪声对不同裂纹长度Lc的定位精度的影响，本文对WPT-MLP模型和LSTM模型不同裂纹长度的定位精度进行了分析，如图13所示.由图13可知，两种模型对0和0.1B裂纹长度的定位精度远远低于其他3种裂纹长度的定位精度，说明噪声主要影响无损伤状况和低损伤状况的检测，几乎不影响高损伤状况的检测.同时LSTM模型对0.1B裂纹长度的定位精度为78.89%，远远高于WPT-MLP模型42.86%的定位精度，表现出更好的抗噪声能力.此外，结合图12可知，噪声的存在实际上导致LSTM模型错误预测了少数无损状况和0.1B长度的裂纹损伤状况.