APP下载

神经网络参数对地震类型识别的影响

2022-07-24庞聪江勇吴涛廖成旺马武刚

科学技术与工程 2022年18期
关键词:隐层梯度神经元

庞聪, 江勇, 吴涛, 廖成旺, 马武刚

(1.中国地震局地震研究所, 武汉 430071; 2.地震预警湖北省重点实验室, 武汉 430071; 3.湖北省地震局, 武汉 430071)

反向传播神经网络(back propagation neural network,BPNN)是当前研究地震事件类型辨识频率较高的分类方法之一,取得了明显的应用效果[1-4];但是在实际的地震预警预报或强震动监测中,除了对辨识准确率有极高的要求,辨识算法的稳健性及算法迭代效率也相当重要。传统的BP神经网络采用梯度下降法作为神经元训练函数,激活函数采用S型函数,导致神经网络易陷入局部最优解,且预测结果极不稳健,对训练集规模及判据维度较为敏感。此外,BP神经网络的预测效果还会受到隐藏层数目、学习速率、最大训练次数及初始权值等因素的影响。文献[2-4]在使用BP神经网络时虽然根据经验选取网络参数,但没有系统地阐述各个参数的含义以及对地震辨识效果有何种具体的影响。例如,蔡杏辉等[1]直接使用经验计算公式来确定BP神经网络隐层神经元数目,隐层与输出层的激活函数默认采用线性函数和logsig函数,对训练函数采用Levenberg-Marquardt算法也未明确说明原因;刘方斌等[4]直接使用0.15作为学习速率值,隐层神经元数目定为10个,也并未给定实验数据验证参数选择的合理性。考虑到BP神经网络的结构参数特点与较高的研究热度,详细阐述网络参数对地震类型识别效果的影响,对震源精准识别研究有明显的现实意义。

信号降噪技术有助于得到更可靠的地震波形特征,借助于经验模态分解技术(empirical mode decomposition,EMD)[5-7]具有良好的原始信号自适应分解及去噪特性,近些年已被多位学者应用到地震事件性质自动辨识中,如毕明霞等[5]利用经验模态分解技术将地震信号与爆破信号分解成10个固有模态函数(intrinsic mode function,IMF),进而在每个分量上提取出倒谱方差、自相关函数最大值等特征值;周海军等[6]基于EMD分解,将提取到的8个IMF分量进行梅尔频率倒谱系数(mel-scale frequency cepstral coefficients,MFCC)特征提取,完成高斯混合模型(gaussian mixture model,GMM)地震波形识别。虽然他们都是利用EMD将原始信号分解,进而从IMF中提取必要的特征,但是选择的判据却有较大的差异,如何合理地利用EMD技术从地震波形数据中提取出可靠的地震事件类型判据,是本文的重要研究目标之一。

因此,现基于EMD信号分解技术在归一化后的地震波形数据中提取出若干个IMF分量以及对应的多尺度近似熵,再利用BP神经网络参数测试实验讨论分析训练函数、激活函数、隐藏层数目及学习速率等网络参数对地震类型判别效果的影响,并应用震级存在较大差异的多个天然地震事件数据和人工爆破信号测试与验证上述方法的有效性。

1 研究方法

1.1 经验模态分解

经验模态分解[5-7]是一种用于将复杂信号分解为若干个固有模态函数的数据处理方法,相比于小波变换与快速傅里叶变换(fast fourier transform,FFT),具有基函数选取自适应和自由分解信号的特点。EMD分解原始信号的步骤如下。

(1)扫描原始信号X(t)的局部极大值点和局部极小值点,形成上包络线和下包络线,并计算得到两条包络线的均值曲线,将原始信号减去这条曲线值,得到新的信号波形。

(2)固有模态函数判别条件为:①局部极小值和局部极大值的总数目要与过零点数相等或相差绝对值不大于1;②当包络线均值为0,仅余一个趋势分量时,分解停止。

若不满足以上条件,返回步骤(1)中继续计算。

(3)得到IMF分量,并判断是否满足EMD分解终止条件,如果终止则进入步骤(5),否则进入步骤(4)。

(4)将原始信号减去该层IMF分量作为新的原始信号返回步骤(1),重新计算包络平均值,进而得到下一层IMF分量。

(5)共得到N层IMF分量IMFi(t)及剩余分量c(t)。原始信号经EMD成功分解后,等价为

(1)

1.2 多尺度近似熵提取

近似熵[8-10]是一种描述时间序列数据内部复杂状态的度量参数,计算公式为

ApEn(T,m,r)=φm(i)-φm+1(i)

(2)

式(2)中:m为嵌入维数,常取值为2;φm(i)为当嵌入维数为m时的匹配概率对数形式的平均值;最大欧氏距离匹配阈值r常设定为0.2STD,其中STD为原始信号的标准差;T为该熵的输入信号。

对原始信号经过经验模态分解得到的若干个IMF分量分别提取近似熵值,即得到该条信号的多尺度近似熵特征,该特征可反映信号在不同尺度下的混乱程度。

1.3 BP神经网络

BP神经网络[1]是一种多层神经网络算法,在训练过程中采用有导师监督和服从Delta规则的学习方式,其网络结构分为输入层、隐藏层、输出层等三部分,在地震类型识别领域应用广泛,具有较强的非线性映射能力及网络参数设置灵活的特点。

2 影响因素分析实验

2.1 原始数据选取

为使实验方法能有较广泛的代表性,增强实验结果的合理性与严谨性,选择震级存在明显差异且震中距离相对较远的地震事件数据,实验数据按照类型分为天然地震事件强震动加速度波形数据和人工爆破事件加速度波形数据,分别来自中国地震局工程力学研究所和中国水利水电科学研究院岩土工程研究所。

(1)2021年云南大理州漾濞县Ms5.6级地震:该地震发生于2021年05月21日21时21分,震中位于25.63°N、99.92°E,震源深度为10 km,选取22条地震波形作为实验数据。

(2)2008年5·12汶川Ms8.0级地震:震中位于31.0°N、103.4°E,震源深度为14 km,选取62条地震波形作为实验数据。

(3)2013年四川芦山Ms7.0级地震:发生于04月20日08时02分,震中位于30.3°N、103.0°E,震源深度13 km,选取15条波形作为实验数据。

(4)2021年青海玛多Ms7.4级地震:该震发生于05月22日02时04分,震中位于34.59°N、98.34°E,震源深度为17 km,选取40条波形作为实验数据。

(5)人工爆破事件:事件发生于中国水利水电科学研究院岩土工程研究所试验场,采用1.58倍TNT当量的RDX球型炸药,主要由PCB-350B01型加速度传感器负责记录振动数据,采用39条波形作为实验数据。

上述数据共178条加速度波形记录,其中天然地震记录139条,人工爆破记录39条。截取固定长度的波形作归一化处理,将信号幅值限定在[-1,1]内,并在上述4个天然地震事件和人工爆破事件中,各取一条归一化振幅信号绘制成图1。

2.2 实验设计

影响BP神经网络识别效果的因素主要为神经网络输出层激活函数、隐层激活函数、训练函数、隐层节点数与学习速率等,其中激活函数类型选用常见的4种,即线性函数purelin、双曲正切S型函数tansig、对数S型函数logsig和elliot2sig函数,网络训练函数选定为梯度下降算法、自适应动量GD、RPROP、共轭梯度法、牛顿法(BFGS)、Levenberg-Marquardt 6种,隐层神经元数目选定为分布在区间[20,2 000]内的1 000个整数值,区间值为20,学习速率选择为[0.01,1]内的100个值,变化步长为0.01。

图1 天然地震与人工爆破信号Fig.1 Natural earthquake and artificial blasting signal

在178个样本组成的原始数据集中,将训练样本个数设定为100,测试样本数为78,循环进行100次子实验,均为计算机随机抽取样本,实验结果利用识别准确率、辨识速度及均方误差(MSE)评价。

2.3 特征集准备

EMD分解实验主要参数为:IMF提取个数为6,筛选迭代最大次数为100,柯西收敛阈值为0.2,残差信号极值最大个数为1。原始信号经过数据归一化、EMD分解、多尺度近似熵计算得到的神经网络输入数据为178×7矩阵,部分结果(IMF1~IMF3)如图2所示。

由图2可知,天然地震信号(样本号1~139)与人工爆破信号(样本号140~178)存在明显的熵值变化差异:在样本号1~139区间,天然地震信号的IMF1近似熵值变化最为突出,有14个点的熵值大于1,局部接近于1.8,毛刺现象严重,极差超过1.5以上;在样本号139与140附近,IMF1~IMF3的近似熵值发生显著减小迹象;而样本号140~178区间内的熵值维持相对平稳变化,畸变点较少且增幅不大,该区域的近似熵极差在0.3以下。以上分析表明人工爆信号特征具有较强的相似性,也证明天然地震信号的复杂性远远超过了人工爆破事件。

图2 EMD近似熵结果Fig.2 Approximate entropy of EMD decomposition result

3 影响因素探索与讨论

3.1 激活函数

激活函数又叫传递函数,是模拟生物神经元输入与输出的关系模型,由于激活函数常常为非线性函数,可以增强神经网络的非线性学习能力,处理较为复杂的非线性问题。激活函数如若设置不当,可能造成梯度消失、收敛不稳健、梯度爆炸或神经元“死亡”等现象[11],恰当地选择或改进神经网络激活函数,是当前神经网络发展的热点方向,也是改善地震事件属性辨识效果的有效途径。

常见的激活函数可分为线性函数与非线性函数,也可分为阈值型、Sigmoid型、分段线性函数等类型,常见激活函数如图3所示。一般来说,神经网络的输出值分布会与输入样本标签值区间保持一致,并散落在实际标签值的附近,呈现为小数型,相对应的输出层激活函数必须采用线性函数。

常见激活函数具体定义如下。

(1)对数S型函数(logsig):输入值可为任意数值,输出值范围为(0,1),是ANN领域应用最为普遍的激活函数,即

(3)

式(3)中:α为斜率参数或者压缩系数,常取值为1;σ′(x)=σ(x)[1-σ(x)]。当α趋向于无穷大时,该激活函数可近似为阈值函数,但是与阈值函数最大的不同之处在于,S型函数是连续可微的。

(2)线性函数(purelin):其输入值可设置成任意数值,输出值也可为任意数值,是输出层的常用传递函数,即

图3 神经网络常见激活函数Fig.3 Common activation functions of neural networks

f(x)=x

(4)

(3)双曲正切S型函数(tansig):又名双极S型函数,其输入可为任意数值,输出值范围为(-1,1),其数学形式为

(5)

当隐层神经元数为10、训练函数为梯度下降算法时,不同激活函数组合下的100次辨识效果统计结果如表1所示,评价指标采用准确率(Accuracy)、辨识速度(Speed)与均方误差(mean square error,MSE)的均值表示。就辨识准确率而言,Accuracy较高的隐层-输出层激活函数组合为tansig-purelin、purelin-elliot2sig、tansig-tansig,分别为92.435 9%、91.923 1%、91.025 6%,各组合Accuracy极差达到18%以上,且当输出层激励为logsig时,识别效果均不理想,皆小于76%,该函数不适宜作为输出层激励;在辨识速度方面,效果较理想的隐层-输出层激活函数组合为tansig-purelin、logsig-purelin、purelin-purelin,其值分别为1.199 6、1.220 7、1.237 1 s,各个组合的Speed差距不大,主要分布在1.2~1.3;辨识结果较稳健的隐层-输出层激活函数组合为tansig-tansig、purelin-elliot2sig、elliot2sig-tansig,分别为0.075 6、0.076 8、0.082 9,以阈值0.1为稳健度衡量界值,输出激励采用tansig的各类组合整体辨识效果更加稳健,3/4组合皆在0.1以下。

3.2 训练函数

训练函数又称学习函数[12],是神经网络算法计算中的关键部分,旨在BP神经网络的输入矩阵、输出期望基础上,计算并修改网络的权值与阈值,满足网络收敛条件后,实现预测目标。常见的训练函数包括:①Levenberg-Marquardt(LM算法):其利用雅可比矩阵替换H矩阵,极大提高了收敛速度,但内存消耗较大,用于中型网络预测;②梯度下降算法(GD):收敛速度较快,无需设置学习率:BP神经网络默认训练函数,迭代速度较慢,易陷入局部最小值;③自适应动量梯度下降算法(AdaDeltaGD):迭代速度较快,无需设置学习率;④弹性反向传播算法(RPROP):其利用Resilient更新值直接修改权重和阈值,避免了偏导数数值变化对网络权值的不利影响,内存消耗较小;⑤共轭梯度法:属于收敛速度与内存消耗较均衡的方法,计算速度优于标准梯度下降法;⑥BFGS算法:属于Newton法一种,迭代较依赖Hessian矩阵,运算量相对于共轭梯度算法较大,适合小型网络预测。

表2为输出激励采用purelin、隐层神经元数为10时,不同训练函数下循环100次的辨识统计性结果。由表2可知,训练函数设置对辨识效果有显著影响:采用不同训练函数时的分类准确率排名(以隐层激励采用logsig为例)为:共轭梯度法> RPROP >LM>BFGS>梯度下降法>AdaDeltaGD;辨识速度较快的训练函数-隐层激励组合为LM-purelin、RPROP-purelin、RPROP-tansig;除隐层激励采用purelin函数的组合外,其他组合的辨识误差MSE皆在0.12以下,地震辨识过程较稳健,表明purelin函数不适宜作为BP神经网络隐层激励使用;综合考虑3种指标,不论隐层激励采用何种函数,训练函数采用共轭梯度法的组合识别效果明显优于其他大多数实验组合,其识别率基本稳定在95%以上(除隐层激励采用purelin外,该项为89.294 9%),辨识速度在0.3 s左右,MSE数值也较小,全方位指标都优于BP神经网络默认训练函数——梯度下降法的辨识效果。

表1 不同激活函数组合下的分类识别效果Table 1 The result of recognition under different combinations of activation functions

表2 不同训练函数下的分类识别效果Table 2 The result of recognition under different training functions

3.3 隐层节点数与学习速率

隐藏层节点数[13]与神经网络训练时间和预测精度息息相关,过大的隐层节点数会增加网络训练时间,可能出现过拟合(over-fitting)现象,从而影响预测精度[图4(a)],而过小节点数虽然辨识速度较快,但会使得隐藏层网络汲取的关键信息过少,网络训练量可能大大降低。

学习速率[14]与神经网络学习训练中的权值变化息息相关,过小的学习速率可能导致网络训练时间过长,收敛速度极慢,过大的学习速率可能导致网络训练过程不稳定。学习速率的设定既要保证神经网络的误差能最终趋向于最小误差值,训练过程稳定,也要保证具有较快的收敛速度[图4(b)]。

图4(a)为隐层神经元数目对辨识准确率和辨识速度的影响曲线,横坐标变化步长为20;图4(b)为学习速率对辨识准确率和辨识速度的影响曲线图,横轴变化步长为0.01 s。由图4中拟合曲线可知,随着隐层神经元数目逐渐增加(20→2 000),辨识准确率逐渐下降至60%左右,辨识耗时随之递增至1.6 s以上;随学习速率的增加(0.01→1),辨识准确率变化较平稳,耗时却从2.2 s左右突降至0.6 s附近并逐渐减小至0.28 s上下的相对稳定水平。

表3 辨识率较高的前6种组合结果Table 3 The result of recognition under different combinations of activation functions

3.4 总体评估

由表1~表3及图4可知,本文影响因素试验共设计了40个影响因素组合子实验,在这40组子实验中,识别率整体存在较大差异,识别率最高相差幅度接近23%,最高值超过97%,最低值为74%左右。如表3所示,辨识准确率较高的前6位组合中,输出层激励函数皆为线性函数purelin,隐藏层激励函数为对数S型函数或者正切S型函数,识别率较高时采用的神经网络训练函数类型较为广泛,如BFGS、Levenberg-Marquardt、共轭梯度法及RPROP法等。地震类型辨识实验的最佳参数组合结果为:隐层激励采用对数S型函数,输出激励采用一元一次线性函数,训练函数为共轭梯度法(Powell-Beal复位算法),隐层神经元数为10,学习速率为0.01。在其他影响因素中,学习速率对辨识精度的影响可忽略,隐层神经元数目的选取需要控制在较小范围内,不超过50。

4 结论

在BPNN识别地震类型影响因素分析实验中,5种影响因素——隐层激励函数、输出层激励函数、训练函数、隐层神经元数、学习速率等均对地震事件类型辨识产生了一定影响。其中,组合方式为logsig-purelin-共轭梯度法(隐层神经元为10,学习率为0.01)的辨识效果最佳;隐层激励函数采用tansig、输出激励采用purelin时的各个组合方案辨识效果最稳定,均在90%以上;隐层神经元数应当取较小值,学习速率可随机设置为(0,1)中任意数值。

文中提出了将EMD技术与近似熵相结合的地震类型识别新判据—EMD多尺度近似熵,设计的BP神经网络识别地震参数影响实验,有助于提高天然地震与人工爆破事件的辨识准确率及识别速度,减小地震监测系统误触发率。下一步研究工作的重点将引入ReLU和ArcReLU激活函数,或应用群体智能算法优化现有激活/训练函数的超参数,进一步提高应用神经网络识别地震类型的性能。

猜你喜欢

隐层梯度神经元
基于RTD可编程逻辑门的n变量函数实现算法
一种自适应确定隐层节点数的增量半监督超限学习机算法
一个带重启步的改进PRP型谱共轭梯度法
一个改进的WYL型三项共轭梯度法
随机加速梯度算法的回归学习收敛速度
一个具梯度项的p-Laplace 方程弱解的存在性
基于RDPSO结构优化的三隐层BP神经网络水质预测模型及应用
代价敏感正则化有限记忆多隐层在线序列极限学习机及图像识别应用
跃动的神经元——波兰Brain Embassy联合办公
ERK1/2介导姜黄素抑制STS诱导神经元毒性损伤的作用