基于深度学习的地震震级分类＊

2022-08-23戴志军

地震学报 2022年4期

刘涛戴志军陈苏傅磊

（中国北京 100081 中国地震局地球物理研究所）

引言

人工神经网络（artificial neural networks，缩写为ANN）在过去的三十年中取得了长足的发展，从最开始模仿神经元而建立数学模型发展到如今已经成为广泛应用于众多领域的实用技术（Murphy，2012；Jordan，Mitchell，2015），特别是在地震学领域也有很多应用，例如地震识别和分类（Dysart，Pulli，1990；Ursinoet al，2001；周本伟等，2020）、地震相位拾取（Tiira，1999；Wiszniowskiet al，2014；李安等，2020）等.深度神经网络作为人工神经网络的一个分支，由于需要大量的训练数据和其它约束条件，并未得到广泛使用，但最近十多年里该技术在数据收集、存储、传输和分析等方面的应用得到了突破性的发展.数据的爆炸性增长迫切需要能够对其进行有效分析的方法，而深度神经网络正好可以满足这一迫切需求，而且由于该方法具有对事物或抽象概念建立更复杂模型的能力，因而在处理大样本和复杂函数关系时更为便捷（隗永刚等，2019）.对于运用深度学习方法的地震学研究，其核心是利用深度学习模型分析数据以获取、使用有效的信息.经过地震学研究人员近年来的努力，深度学习技术已成功用于许多挑战性的研究中，例如地震岩性预测（Zhanget al，2018）、地震事件检测与定位（Huanget al，2018）、地震相位检测与拾取（Zhuet al，2019）、相位关联（Rosset al，2019）等.而现阶段，地震的准确预测作为公认的世界性科学难题，还很难实现（张肇诚，张炜，2016）.为了预防地震带来较大的危害和损失，须根据当地的抗震设防标准进行抗震设计.在工程抗震设计、研究和分析中，往往需要选择实际的地震动记录来代表地震对结构的作用，亦或是代表施加于该结构的一种地震荷载（谢礼立，翟长海，2003）.对于工程而言，考虑到路径和场地的影响，实际的地震动应该是当地的大震记录，显然满足此要求的地震动记录很少，甚至很多地方都无大的地震动记录，这就需要对当地的地震动记录进行一定调整以使其满足作为地震动输入的要求.国外对这方面的研究开展较早，美国太平洋地震研究中心（Pacific Earthquake Engineering Research，缩写为PEER）将地震动记录的缩放方法分成五类：①通过震级、断层距将记录在已知结构基本周期处的加速度谱值缩放至目标谱在该周期处的值；② 通过缩放记录幅值，使所选记录的反应谱与危险谱拟合一致；③ 选择的记录谱应很好地拟合条件均值谱（Baker，Cornell，2005；Baker，Cornell，2006）；④ 所选记录的 ε应与预测地震的 ε值相接近，ε是给定周期点的记录谱值与地震动预测方程平均值的差值（Gouletet al，2004）， ε在预测结构反应上有显著表现，是一个谱形的指标（Goulet，2005；Gouletet al，2006）；⑤ 所选记录的位移谱应较好地拟合非线性目标位移谱（Baker，Cornell，2006b）.而在国内，对于地震动输入多是选择比较常用的大震记录，对于地震动记录的处理往往是将加速度记录调整到目标场地、目标设防的规范加速度值（朱晓炜，2011），具有明显的局限性.为了选择一个合适的地震动记录调整方法，本文拟建立一个卷积神经网络（convolutional neural networks，缩写为CNN）来分析地震加速度时程记录的特征，并选择归一化的加速度记录作为样本输入以训练模型对大、小地震进行分类，并基于单方向地震加速度记录来判断地震的震级大小，由此判断小震记录经过调整是否具有一定的大震特性，以提高抗震分析的有效性.

1 数据预处理

在训练过程中，为了提高模型的有效性，确保每个样本数据的规模相当，需先对数据进行归一化处理，使每个地面运动记录输入具有相同的峰值加速度.将每个地震加速度记录定义为一组向量，即

取每个地震记录的绝对加速度最大值为

依次将每个加速度值除以加速度最大绝对值xmax，相应的归一化公式为

卷积神经网络要求每个地震记录样本的输入形状必须一致，但地震记录具有不同的持时和采样频率，因此，在数据预处理阶段，本文以20 s的采样时间和100 Hz的采样频率对每个地震记录进行均匀采样.在每个地震记录截取五段共获取20 s长的输入数据，前0.05%的阿里亚斯强度（Arias，1970）是采样的起点，后0.05%的阿里亚斯强度是采样的终点，起点与终点之间平均取五段，每段的采样时间为4 s，总计20 s，如图1所示.

图1 预处理阶段采样图红线部分是采样频率为100 Hz的五个采样位置，每个位置采样时长为4 s，五个部分共20 sFig. 1 Pre-processing samplingThe red boxes delineate the five sampling positions with a sampling frequency of 100 Hz. The sampling time of each position is 4 s，and the five parts are 20 s in total

2 卷积神经网络模型

近年来，深度学习的飞速发展使其成为智能数据分析的有力工具，而地震学是一门以数据为驱动力的学科，因此构建深度学习模型成为我们的首选，其中卷积神经网络因其特征提取的鲁棒性而被广泛应用.特别是在语音识别领域中（Sainathet al，2013；Tóth，2013；Qianet al，2016；Sercuet al，2016；Yuet al，2016），每个人的发音大不相同，卷积神经网络因为有局部滤波和最大池化技术可以有效地消除这种差异，有利于语音的声学建模，并且可以提高训练效果.考虑到地震动数据在很多方面与语音数据相似，例如都需要介质，都是通过振动传播，都是非平稳时间序列信号等，本文拟采用卷积神经网络模型基于地震动记录识别地震的大致震级.

如图2b所示，模型中卷积层共有三层，每一层只有一个卷积层，没有池化层.每层分为五个部分，分别对应于每个样本的五段输入，也就是采样过程中的五段数据.第一层每段输入数据形状为1×400，核心数为4，卷积窗尺寸为1×5，步长为5；第二层卷积层将第一层卷积层的输出作为输入，核心数为8，卷积窗尺寸为1×4，步长为4；第三层卷积层将第二层输出作为输入，核心数为16，卷积窗尺寸为1×2，步长为2.上述卷积层的所有激活函数都使用ReLu激活函数（Krizhevskyet al，2017），这是因为ReLu激活函数可以有效地避免梯度消失和过度拟合的问题，并且具有样本导数形式，可以加快训练速度.ReLu激活函数如下：

图2 神经网络模型从输入数据到获取分类结果的流程图（a）模型的流程说明；（b）模型的架构Fig. 2 Flow chart of neural network model from data inputting to classfication result acquirement（a）Process description of the model；（b）Model architecture

样本每次经过卷积层时，数据长度都会以卷积步长为倍数而减少，数据宽度会以核心数为倍数而增加.在三层卷积层之后，样本的五段数据形状为16×10.

因为全连接神经网络的输入是线性的，所以需要对卷积层的输出结果进行线性处理.将卷积层输出的结果经过两个全连接层之后合并为一条线性数据，然后在三个全连接层之后输出两个结果，它们分别代表模型判断样本为大震或小震的概率.除最后一层之外，所有层的激活函数均使用ReLu激活函数.最后一层不使用激活函数，但是在计算损失函数时会添加一个softmax ［式（5）］层.Softmax激活函数在规范化过程中使用指数形式，这意味着较大的值更大而较小的值会更小，增加了区分的对比度，可使模型训练更加有效，这对于分类问题尤其重要.

本文使用自适应矩估计优化器（adaptive moment estimation optimizer，缩写为Adam）来训练模型.该优化器针对AdaGrad和RMSProp的缺点弥补而来，具有以下优点：实现简单且计算效率较高，几乎无需调整超参数，可以自动调节学习速度，非常适合大型数据和参数模型训练.

本文模型所用训练集和验证集数据来自K-NET和KiK-net，共有11万9 760个地震记录，涉及1 698个台站.按时间顺序排列，将9万1 488个记录作为训练集，2万8 272个记录作为验证集，共6万8 580个大震记录和5万1 180个小震记录.

3 超参数调整

模型训练过程中，超参数的调整对训练效率和训练结果均会产生影响，本文涉及两个超参数：学习率和批量（batch size）.

1）学习率.学习率是模型每次减小损失函数值的程度，学习率参数值设置得较大，则模型前几次可能会很快收敛，但学习率设置得过大，可能使模型无法达到全局最优，学习率参数值较小对训练效率也会产生较大的影响.在保证其它变量相同的情况下用控制变量法测得模型训练过程中的准确率，结果如图3所示.可见：当学习率为0.001 （橙线）时，随着训练次数的增加，训练集的准确率逐步提高，测试集的准确率反而下降，出现了过拟合现象，也就是模型过度拟合训练集，因而导致该模型在其它数据集上的表现不佳；当学习率为0.01（蓝线）和0.000 1 （绿线）时，训练集的准确率表现基本持平，而学习率为0.01 （蓝线）时模型在测试集更胜一筹，所以面对其它数据学习率为0.01 （蓝线）的模型可能会有更好的效果.因此本文将学习率设置为0.01，每迭代一周学习率乘以0.99，随着训练次数增加，学习率逐渐降低，使模型损失更接近全局最小值.

图3 不同学习率下训练集（a）和测试集（b）的准确率随训练次数增加的变化Fig. 3 The change in the correct rates of the trainings set （a）and the test set （b）with the training time increasing on the condition of different learning rate

2）批量（batch size）.批量是指每次输入模型的样本数量，批量太小容易使模型收敛方向出现偏差，太大容易使模型困在局部最优而无法达到全局最优.根据训练集和测试集准确率的变化（图4），可以看到不同批量情况下均出现了程度不同的过拟合现象.考虑到模型以较强的泛化能力和最低过拟合现象为佳，我们选取批量为400，这种情况下模型在训练过程中过拟合现象最轻且在测试集效果最好，有较强的泛化能力.这样我们就可以选择出现过拟合现象前的模型作为最终结果.

图4 不同批量大小下训练集（a）和测试集（b）的准确率随训练次数增加的变化Fig. 4 The change in the correct rates of the trainings set （a）and the test set （b）with the training time increasing on the condition of different batch size

4 训练结果

本文提出使用CNN识别地震震级大小的方法.在对原始地震数据进行筛选和归一化之后，使用CNN模型对预处理后的地震记录进行识别和分类.经过100次训练后，将验证数据集上精度最高的模型用于分析.模型准确率统计流程如图5a所示，训练准确率随训练次数的变化如图5b所示，部分记录的识别结果展示在图5c中，图中的四个记录分别来自AIC010，A0M013，AKT021和AKT002台站，地震分别发生于2006年9月24日，2015年3月6日，2014年10月11日和2012年8月14日.结果显示：基于11万9 760个记录进行训练，以M5.5作为分界线进行分类，该模型在训练集上的平均准确率达到93.6%，在测试集上的平均准确率达到92.3%.根据统计，当地震震级处于5.0—5.9范围内即在M5.5附近时，模型的准确率仅为79.7%，这与平均准确率之间的差距较大，因此以M5.5作为地震震级分类界限是可行的.

图5 （a）计算模型精度的流程；（b）准确率；（c）模型对于部分记录的识别结果Fig. 5 （a）The flowchart of calculating model accuracy；（b）Training accuracy；（c）The recognition results of the model for some recordings

5 讨论与结论

本文以归一化的地震动记录为数据集来构建卷积神经网络，分类效果良好，初步得到以下结论：① 模型进行了多次对比训练，均出现了不同程度的过拟合现象，可采用文中提到的早停法等策略解决；② 超参数中的学习率大小宜适中，学习率过大，模型不易收敛，过小则训练较慢，批量过大容易造成局部最小，过小则训练过程中波动太大；③ 模型能够识别经过归一化的地震动记录的震级大小，说明地震的加速度时程记录带有一定的地震震级信息.

尽管该模型具有比较好的训练效果，但仍有一些问题需要解决，还有需要优化的方面：

1）如何选择分类分界线来区分大地震与小地震.我们使用M5.5作为模型的分类标准，仅基于简单的统计信息，且M5.0—5.9地震记录在模型中的平均准确率为79.7%，远低于整个数据集的平均准确率，所以我们初步判断M5.5作为分类界限有一定可行性，但可能会有更合适的震级界线来区分大小地震，应该也在M5.5左右，未来我们会不断尝试优化模型，找到一个最优震级作为分类界限；

2）本文使用的数据来自K-NET和Kik-net，尚需验证该模型是否适用于其它地区.下一步会将来自其它国家地区的数据添加到训练数据中，以提高模型的泛化能力；

3）未来我们会不断优化模型，并基于该模型测试常见的地震动模拟以及调整方法所得的模拟地震动或者经调整的小震记录能否被模型识别为大震，为这些方法的选择及模拟或调整效果提供参考.另一方面，基于该模型深入研究，不拘泥于二分类，可以做成大、中、小地震的三分类问题，甚至可以直接识别出大致震级等延展性工作.