APP下载

基于PCA-ISSA-BP 模型的矿井突水水源判别

2023-11-29刘梦琪王来斌

煤矿安全 2023年11期
关键词:突水适应度水源

刘梦琪 ,王来斌 ,林 征

(安徽理工大学 地球与环境学院,安徽 淮南 232001)

煤炭作为一种重要的资源,对我国经济发展起着很大的作用[1]。矿井突水不但影响煤炭资源的正常开采,而且会造成人员伤亡和财产损失[2]。由于煤矿所处的地质环境较为复杂,煤炭开采深度和强度不断增加,导致煤矿水害事故发生的机率越来越大[3-5],因此,矿井发生突水时,如何快速判别突水的来源成为众多学者研究的重点[6]。

国内众多学者在矿井突水水源识别方面做了大量富有成效的工作。侯恩科等[7]在分析地下水化学特征的基础上,构建了Piper-Logistic 回归模型;赵伟等[8]选用8 个判别因素,建立了基于Fisher 判别法和质心距理论的突水水源识别模型;琚棋定等[9]在数据降维后建立了基于PCA-Bayes的水源判别模型,并对模型的准确率进行对比验证;王心义等[10]通过熵权法计算判别指标的权重,再结合模糊可变集理论计算水样的相对隶属度,为水源识别模型的建立提供了新的思路。虽然这些方法取得了一定的成效,但矿井突水水害涉及的因素较多,模型的判别精度还有待提升。一些学者尝试基于神经网络建立水源识别模型,通过模拟自然界生物神经网络结构而产生的人工神经网络模型,不仅能够进行高度非线性映射,而且还具有一定的容错性和稳定性[11-12],为矿井突水判别提供了新的研究思路。徐星等[13]建立了BP和Elman 神经网络模型,模型对参数要求较低,但需要不断调节参数来提高模型的准确性;施龙青等[14]建立了基于PCA-PSO-ELM 的煤矿突水判别模型,提高了模型的泛化性和准确性,但模型容易陷入局部极值点中;温廷新等[15]利用因子分析来减少数据之间的信息冗余,再通过量子遗传算法对最小二乘支持向量机进行参数寻优,提高了模型的准确率,但算法的迭代收敛速度较慢。

综上,利用PCA 降低数据之间的相关性,归一化处理水样数据的差异,使用Sine 混沌映射初始化种群,通过融合正弦余弦算法和Lévy 飞行策略,分别改进发现者和跟随者的位置公式,最后用改进的麻雀搜索算法对BP 神经网络进行参数寻优,并通过多模型间相互对比验证模型的准确性。

1 模型的理论原理

1.1 麻雀搜索算法(ISSA)

麻雀搜索算法是薛建凯于2020 年模拟麻雀生存机制而提出的1 种群体优化算法,该算法具有寻优能力强、收敛速度快以及稳定性好等优点,将其应用到矿井突水判别是1 种新的尝试[16-18];但是种群初始化具有随机性,全局搜索能力以及跳出局部最优的操作较弱,容易陷入局部最优。

为改善此问题,在种群初始化时引入Sine 混沌映射模型,如式(1):

式中:Ck+1为k+1时 的混沌映射值;k为非负整数;b为(0,4]之间的随机数。

随机模型与混沌映射模型种群初始化对比如图1。图中圆形和五角星分别为随机模型和混沌模型初始化值。

图1 随机模型与混沌映射模型种群初始化对比Fig.1 Population initialization comparison between random model and chaotic mapping model

由图1 可以看出:随机模型(圆)在一些区域分布集中,在另一些区域取值却出现空白,而Sine 混沌映射(五角星)则分布比较均匀;因此,Sine 混沌映射模型对种群进行初始化,能够增强种群分布的多样性和均匀性。

引用非线性正弦学习因子以及融合正弦余弦算法(SCA)来更新发现者的位置,从而增强算法跳出局部最优解的能力[19],学习因子公式和改进后的发现者位置更新公式如式(2)和式(3):

Lévy 飞行是从一个范围结束搜索跳到另一个范围开始搜索的策略,优点在于搜索范围广,将其应用在跟随者位置更新公式中,可以提高种群的全局搜索能力[20]。改进后的公式如式(4):

1.2 BP 神经网络和主成分分析

BP 神经网络作为多层前馈神经网络,其模型由输入层、输出层及隐含层构成[22];在BP 神经网络中需要调节许多的参数,参数的适用性与否将直接影响模型的准确率;其中,权值和阈值的选取尤为重要。但是,在模型训练过程中,这2 种参数的取值比较随机,最终判别结果的准确率也忽高忽低;为此,通过ISSA 对这2 种参数进行优化,实现BP 神经网络判别能力的提升。

主 成 分 分 析(Principal Component Analysis,PCA)是1 种将线性相关变量降维成不相关变量的统计方法,降维后的变量基本可以反映整个数据的信息[23]。综上,对7 种指标进行主成分分析,不仅可以降低判别指标的维数,而且还可以减少数据之间的相关性对模型判别结果的影响,进而提高模型的判别准确率。

1.3 基于PCA-ISSA 优化的BP 模型

考虑到SSA 算法的局限性,引用Sine 混沌映射、融合正弦余弦算法和Lévy 飞行策略对麻雀搜索算法进行改进,利用改进的SSA 优化BP 神经网络,最终将降维和归一化后的数据代入优化后的模型,完成突水水源判别,基于此建立了PCAISSA-BP 矿井突水水源判别模型。PCA-ISSA-BP模型判别流程图如图2。

图2 PCA-ISSA-BP 模型判别流程图Fig.2 PCA-ISSA-BP model discriminant flow chart

2 研究区概况

2.1 水文地质概况

孙疃煤矿位于淮北煤田临涣矿区,总体上为一走向近于南北,向东倾斜的单斜构造[24]。矿井含煤地层为石炭–二叠系,厚度约990 m,其中二叠系下石盒子组的72和82煤、山西组的10 煤为主采煤层,总厚约5.82 m。矿井主要充水水源为新生界松散层孔隙水、煤系砂岩裂隙水、太原组和奥陶系灰岩岩溶裂隙水[25]。

1)新生界松散层孔隙含水层。总厚度153.70~246.00 m,其中第四含水层(“四含”)直接覆于含煤地层隐伏露头之上,钻孔单位涌水量0.000 78~0.028 3 L/(s·m),渗透系数为0.005 1~0.278 m/d,富水性弱,可通过煤系地层浅部风化裂隙与采动裂隙垂直渗入井下,成为矿井的间接充水水源。

2)煤系砂岩裂隙含水层。总厚度为65~140 m,单位涌水量为0.002 2~0.87 L/(s·m),渗透系数为0.006 6~2.65 m/d,富水性弱-中等,为矿井直接充水水源。

3)太原组灰岩岩溶裂隙含水层。总厚度47~135 m,单位涌水量为0.003 4~11.4 L/(s·m),渗透系数为0.015~36.4 m/d,富水性弱-极强,断层和采动裂隙为导水通道,在断层落差较大的情况会导致部分区域的煤与太灰之间的距离缩短,直接威胁煤层的安全开采。

4)奥陶系灰岩岩溶裂隙含水层。总厚度约500 m,单位涌水量为0.006 5~45.56 L/(s·m),渗透系数为0.007 2~60.24 m/d,富水性弱-极强,可通过断层等导水通道与煤层发生水力联系。

2.2 水化学特征

Durov 图可以直观地反映各含水层的水质特征以及水力联系,由各含水层水样水质Durov 图(图略)可知:①四含水中阳离子以Na++ K+、Mg2+离子为主,阴离子以SO42-、HCO3-离子为主,矿化度为1 000~1 500 mg/L,水质类型为HCO3· SO4–Na · Mg 型;②煤系砂岩水中Na++ K+、HCO3-离子所占比例较大,Ca2+、Mg2+和SO42-离子含量较少,矿化度为1 250~1 900 mg/L,水质类型主要为HCO3·Cl – Na 型;③太灰水中阳离子以Na++K+离子为主,阴离子中HCO3-、Cl-离子含量较高,矿化度为1 000~1 250 mg/L,水质类型为HCO3·Cl – Na · Mg 或HCO3·Cl · SO4– Na · Mg 型;④奥灰水中阳离子以Na++ K+、Ca2+离子含量为主,阴离子含量相近,矿化度为1 100~1 500 mg/L,水质类型为SO4·HCO3·Cl – Na·Ca 型。

4 种含水层水的pH 值存在规律性,整体呈碱性。其中,砂岩水的pH 值较高,在8.7 左右;太灰水的pH 值较低,在7.3 左右。煤系砂岩水分布比较集中,太灰水与四含水、奥灰水之间存在混合分布情况,即存在着水力联系,4 种水样区分相对明显。

3 水源判别模型建立及应用

3.1 判别指标选取及样本确定

选取孙疃矿区39 组数据,共4 类水源类型,分别为:四含水、煤系砂岩水、太灰水和奥灰水;选取Na++ K+、Ca2+、Mg2+、Cl-、SO42-、HCO3-和pH 作为识别指标,对4 种突水水源分别编码,其中(1 0 0 0)、(0 1 0 0)、(0 0 1 0)、(0 0 0 1)分别对应四含水、煤系砂岩水、太灰水和奥灰水。突水水源原始样本数据见表1。为了减少数据之间的冗余信息,对表1 中的数据进行主成分分析,各判别指标相关性矩阵如图3,各判别指标总方差解释如图4。

表1 突水水源原始样本数据Table 1 Original sample data of water inrush source

图3 各判别指标相关性矩阵Fig.3 Correlation matrix of discriminant indexes

图4 各判别指标总方差解释Fig.4 Total variance interpretation of each discriminant index

由图3 可知:Ca2+和SO42-的相关性为0.950,Na++ K+和HCO3-,Mg2+和Ca2+等相关性较高,说明判别指标之间存在信息重叠,因此有必要对数据进行降维处理。

由图4 可知:前2 种成分的特征值大于1,并且累计方差贡献率在85%以上,基本反映数据的总体情况,即可将7 种指标降维到2 种指标。

2 种主成分的浓度差别较大,如果不对数据进行处理,最终判别的结果可能进入饱和区,导致模型判别的效果较差。因此,考虑对数据进行归一化,将数据变换到[-1,1]范围内[26],如式(7):

3.2 基于PCA-ISSA-BP 的突水水源判别

选择经过主成分分析后的训练样本进行训练,之后将测试样本代入训练好的模型进行识别;将PCA 提取的前2 项成分作为模型的输入层,突水水源的类型作为输出层,由此建立基于PCA-ISSABP 的突水水源判别模型。

SSA 参数设置如下:麻雀种群规模设置为50,发现者的比例设置为0.7,意识到危险的麻雀比例设置为0.2,进化次数设置为50,预警值设置为0.6,将测试集范数误差作为适应度函数。

神经网络参数设置如下:网络最大训练次数为5 000,目标误差为1×10–4。根据突水水源模型选择输入输出神经元的个数,模型有2 个判别指标,4 种突水水源,即输入神经元为2,输出神经元为4。隐含层神经元个数通过经验公式和试错法确定[27],由公式得出隐含层节点为7,在其它条件相同的前提下,当隐含层为5、7、8、9、10、11、12 时,各隐含层节点输出误差分别为0.127、0.073、0.042、0.025、0.021、0.021、0.032。

可见:节点误差呈先减小后增大的趋势,当隐含层节点为10 时,误差最小,因此隐含层节点设置为10;同理,根据误差最小原则,学习率设置为0.04,训练函数选择traingdx 函数。

在完成数据选择和参数设置之后,借助Matlab 软件编写代码,最终得出模型的判别结果。PCA-ISSA-BP 模型识别结果见表2。

表2 PCA-ISSA-BP 模型识别结果Table 2 PCA-ISSA-BP model identification results

由表2 可知:9 组测试样本的水样类型均判别正确,且正确率达到了100%,说明该模型的判别效果较好。

3.3 模型判别结果对比

根据单一模型的识别结果难以得出确切的结论,通过多方面的对比分析可以充分展示模型的优劣。因此,在样本数据相同的基础上,分别建立PCA-ISSA-BP、ISSA-BP、PCA-SSA-BP、PCAPSO-BP 和PCA-BP 这5 种对比模型,从适应度曲线、识别准确率、误差等方面对比5 种模型的准确性和适用性。

适应度曲线能够展示模型全局搜索以及跳出局部最优值的能力,侧面反映出模型识别的精度。适应度迭代曲线如图5。

图5 适应度迭代曲线Fig.5 Fitness iterative curves

由图5 可知:随着迭代次数的增加,4 种模型的适应度值均呈下降趋势,达到最小值之后保持不变。从适应度曲线可以看出:PCA-ISSA-BP 模型多次跳出局部最优解且在迭代29 次后便逐渐趋于平稳状态,比其他3 种模型更早的达到最小适应度值,表明经过主成分分析和改进的麻雀搜索算法优化BP 神经网络能够更快地达到最优状态。此外,在4 种模型达到稳定后,PCA-ISSA-BP 模型的适应度值更小,表明该模型判别的误差最小,即准确率最高。

模型训练完成后,将测试样本代入模型,5 种模型的判别结果如图6,5 类模型判别结果对比见表3。

表3 5 类模型判别结果对比Table 3 Comparison of discriminant results of five models

图6 5 种模型的判别结果Fig.6 Discriminant results of five models

由 图6 可 知: PCA-ISSA-BP、 ISSA-BP 和PCA-SSA-BP 这3 种模型的判别结果与实测值完全符合,误判率为0;PCA-PSO-BP 模型在样本1 上发生了误判,PCA-BP 模型误判了2 个,分别为样本1 和样本2。分析可知:相比其它模型,PCAISSA-BP、ISSA-BP 和PCA-SSA-BP 这3 种模型的准确率最高。

由表3 可知:前2 种模型的识别准确率达到100%,但PCA-ISSA-BP 模型的误差相对于ISSABP 模型较小,说明主成分分析降低了数据之间的相关性,减小了判别的误差;将后3 种模型对比可知:经过算法优化的神经网络准确率较高,误差较小;将第1 种和第3 种模型对比可知:改进的算法优化神经网络效果较显著。

综上所述,无论是在准确率还是识别误差上,本次建立的模型均优于其他模型,可以大幅提升矿井突水水源判别的准确率。

3.4 模型验证

为了防止数据选择的偶然性对判别结果造成影响,对数据重新分组,选择31 组作为训练集,8 组作为测试集,重分组后5 类模型判别结果对比见表4。

表4 重分组后5 类模型判别结果对比Table 4 Comparison of discriminant results of five types of models after regrouping

由表4 可知:前2 种模型的识别准确率相对于后3 种模型较高,第1 种模型的均方误差和平均绝对误差相对于后4 种模型较低。综上所述,PCA-ISSA-BP 模型在准确率和误差方面要优于其他4 种模型,进一步说明了样本数据具有分类的统计规律。

为了验证模型的适用性,引用文献[28]中的水化学数据作为判别指标,选择30 组作为训练集,10 组作为测试集,按照流程建立基于PCA-ISSABP 的判别模型,并与其他4 种模型对比。引用文献后5 类模型判别结果对比见表5。

表5 引用文献后5 类模型判别结果对比Table 5 Comparison of the discriminant results of the five types of models after citing the literature

由表5 可知:PCA-ISSA-BP 模型不仅准确率较高,而且误差较小,进一步验证了模型的适用性和准确性。

4 结 语

1)利 用Sine 混 沌 映 射、Lévy 飞 行 策 略 和SCA 改进麻雀搜索算法,建立了基于PCA-ISSABP 模型的矿井突水水源判别模型。选取孙疃矿4种含水层水的6 种常规离子和pH 值作为判别指标,使用主成分分析和归一化处理数据,测试结果表明:模型判别准确率达到100%。

2)将PCA-ISSA-BP 模 型 与ISSA-BP、PCASSA-BP、PCA-PSO-BP 和PCA-BP 模型在适应度曲线、判别准确率、均方误差和平均绝对误差等方面进行对比,结果表明:PCA-ISSA-BP 收敛速度快,准确率较高,误差较小;PCA-BP 准确率较低,误差较大。因此,PCA-ISSA-BP 模型可更精准实现矿井突水水源的判别。

猜你喜欢

突水适应度水源
改进的自适应复制、交叉和突变遗传算法
保护水源
矿井突水水源的判别方法
矿井滞后突水机理探讨
南水源头清如许
李雅庄矿滞后突水主控因素分析
寻找水源
基于空调导风板成型工艺的Kriging模型适应度研究
大相岭隧道高压突水机理与预测分析
少数民族大学生文化适应度调查