APP下载

无机-有机综合指标在煤层顶板涌水水源判别中的应用

2023-12-29孙钧青尚宏波王甜甜

煤矿安全 2023年12期
关键词:水化学第四系无机

孙钧青 ,王 皓 ,杨 建 ,尚宏波 ,王甜甜 ,乔 伟

(1.煤炭科学研究总院,北京 100013;2.中煤科工西安研究院(集团)有限公司,陕西 西安 710077;3.陕西省煤矿水害防治技术重点实验室,陕西 西安 710077)

我国西部地区煤炭资源十分丰富,在国家的能源供保中发挥着重要作用[1],但由于水文地质条件的复杂性,西部煤炭的开采长期面临着顶板水害事故的发生[2]。而对涌水水源的判别是水害防治工作的基础[3],因此,煤层顶板涌水水源的准确判别对西部煤炭安全开采具有重要意义[4-5]。

传统用来进行水源判别的指标为水中主要离子、pH 和总溶解固体(TDS)等无机指标。实际上,不同含水层中总有机碳(TOC)、紫外吸光度(UV254)和溶解性有机质(DOM)也存在较大差异的[6],荧光指纹技术直观地反映了样本的特征与差异[7];杨建等[8]通过观察荧光指纹图,从理论上证明了有机-无机联合判别的可靠性;杨勇[9]在建立判别模型时使用寻峰法对荧光图谱进行了分析。平行因子法(PARAFAC)作为1 种多路数据分析技术,能够从数学角度解释DOM 的荧光组分[10-11],杨毅等[12]、张溪彧等[13],YU[14]等均利用PARAFAC 对水体DOM 的光谱特征和主要来源进行了分析。随着数学理论和计算机的发展,多元统计法[15]和机器学习算法在水源判别中得到了广泛应用,秋兴国等[16]、纪卓辰等[17]使用主成分分析法(PCA)对水化学数据进行了降维处理;董东林等[18]、冯冬梅等[19]分别使用改进的极限学习机(ELM)和支持向量机(SVM)对矿井水源进行了判别;黄敏等[20]、胡友彪等[21]分别使用群体优化算法对随机森林(RF)算法进行了优化;郝谦等[22]将RF 与SVM、ELM 进行了比较,证明了RF 算法更高的预测精度和鲁棒性。

但是地下水成因复杂,对于一些成分相近的水源,无机水化学指标较难做出准确判断。而PARAFAC 可以对水样的荧光组分进行量化,克服人为经验和寻峰法中重复峰的干扰。有机指标的加入增加了判别指标的维度,而RF 算法能够有效处理高维数据和特征之间的复杂关系,拥有较高的准确性和鲁棒性。为此,以榆横矿区某井田为研究区,将TOC、UV254与DOM 作为有机指标融入水源判别中,使用PARAFAC 对水样的荧光组分进行量化,在对数据集进行降维后,利用RF 算法分别构建无机指标判别模型和无机-有机综合指标判别模型,为提升煤层顶板涌水水源判别准确率提供新的思路。

1 研究区水文地质条件

研究区位于陕北黄土高原北端,毛乌素沙漠东南缘,地表绝大部分被第四系松散沉积物所覆盖,以风蚀风积沙漠丘陵地貌为主。研究区水系不发育,区内大部地表无完整水系分布且受大气降水影响较大。研究区地层综合柱状图如图1。

图1 研究区地层综合柱状图Fig.1 Comprehensive histogram of strata in study area

由图1 可知,研究区含煤地层延安组,其主要含(隔)水层自上而下包括:第四系松散孔隙含水层、白垩系孔隙-裂隙含水层、安定组相对隔水层、直罗组和延安组砂岩裂隙含水层。第四系孔隙发育与大气降水的联系密切,富水性强;白垩系与第四系无稳定隔水层,易于接受其补给,富水性较好;直罗组与白垩系之间有相对隔水层安定组,其裂隙不发育,富水性较弱;延安组裂隙不发育且随着埋深增加,渗透性逐渐变差。

2 研究区矿井水水化学特征

2.1 水样采集与测定

本次研究共采集研究区地下水水样73 组,分别用于水质全分析和有机物分析,使用2.5 L 塑料桶采集水样,严格执行装水、密封、贴标等采样步骤,采集后及时进行分析检验。

参考GB/T 14848—2017 地下水质量标准[23]对水样的20 项常规指标进行检测,选取K++Na+、Ca2+、Mg2+、Cl-、SO42-、HCO3-和TDS 共7 项无机指标进行后续分析。

需要测定的有机指标为TOC、UV254和DOM三维荧光数据(EEMs)。使用multi N/C 2100 专家型总有机碳/总氮分析仪进行TOC 的检测;使用Evolution 60 紫外可见光度计检测254 nm 处的紫外吸收值。使用荧光分光光度计(HITACHI F-7000)进行DOM 荧光数据的提取,设置仪器扫描速度为1 200 nm/min;激发波(EX)波长为200~420 nm,间隔为5 nm;发射波(EM)波长为240~600 nm,间隔为2 nm。为去除环境噪声,使用超纯水作为空白校正水的拉曼散射。

2.2 无机水化学特征

测得各项水化学指标原始数据见表1。

表1 73 组水样水化学特征Table 1 Hydrochemical characteristics of 73 groups of water samples

对水样检测结果进行分析可知:随着含水层埋深的增加,K++Na+、SO42-和TDS 浓度不断增加。第四系阳离子以Ca2+为主,其次为Mg2+和Na+;阴离子以HCO3-为主,其次为SO42-和Cl-;经过分析,主要表现为HCO3-Ca 型水,说明大气降水能够很好地对这个含水层进行补给;但是个别水样的Na+含量较高,这表明区域内第四系水的补给和运移条件存在较强的不均一性。白垩系水中Na+浓度有所升高,以HCO3-Ca·Na 和HCO3-Na·Ca 型水为主,这与沉积岩风化水解、交代作用和阳离子交替作用有关;直罗组和延安组阳离子开始以Na+为主,其次为Ca2+;阴离开始以SO42-为主,其次为HCO3-;水质类型为SO4-Na·(Ca)型水,说明直罗组含水层中地下水循环时间较上部含水层增加,逐渐形成深部滞留型地下水。

综上所述,可以根据无机水化学指标对这4个含水层的水样进行初步辨别,但是第四系和白垩系、直罗组和延安组两两之间不易区分,特别是直罗组和延安组的水样,水化学类型相似,且各指标浓度差异不大。因此使用UV254、TOC 和DOM 这3 种有机指标,对水样来源进行进一步区分。

2.3 有机水化学特征

根据表1 的测试结果,绘制的各水样TOC 和UV254浓度如图2。

图2 各水样TOC 和UV254 浓度Fig.2 TOC and UV254 concentration histogram of each water sample

由图2 可知:第四系水样的有机质含量高于直罗组和延安组,主要是由于第四系直接接受地表水补给,容易受到含有机物的沉积物和工农业污染的双重影响;白垩系和直罗组水样中溶解性有机质含量相对较低,表明这2 个含水层水几乎未受到人类生产生活的影响。理论上,随着含水层埋深的增加,DOM 有机质与溶解氧、硫酸根等电子受体发生反应,含量会不断降低[24];但延安组一些水样中UV245和TOC 的浓度却明显高于直罗组,这主要是受含煤地层的影响;当地下水流经含煤地层时,部分有机物会从煤层溶解到地下水中。

虽然不同类型水样的TOC 和UV254含量存在差异,但总体含量较低,且水中部分有机物在紫外光下无明显吸收峰[13],因此需要利用荧光指纹技术对水样中的DOM 进行更加深入的分析。根据得到荧光数据绘制出每个水样的三维荧光图谱,部分水样的DOM 荧光图谱如图3,其中横坐标为激发波波长λEX,纵坐标为发射波波长λEM。

图3 部分水样的DOM 荧光图谱Fig.3 DOM fluorescence spectra of some water samples

经过分析与对比,研究区水样的DOM 三维荧光光谱图中出现了文献[25]中所列出的5 类天然有机质。第四系水样中主要出现了2 个荧光峰:Ⅰ区—酪氨酸,Ⅲ区—疏水性有机酸。其中Ⅰ区的荧光峰强度较强。白垩系位于第四系下部,水循环时间更长,与第四系有所差异,主要出现了Ⅱ区—色氨酸和Ⅴ区—海洋性腐植酸的荧光峰。总体来说,白垩系水中溶解性有机质浓度小于第四系,标志性荧光峰位置出现在Ⅴ区。直罗组和延安组的水样中主要出现的是Ⅱ区、Ⅳ区—含色氨酸的类蛋白质和Ⅴ区的荧光峰。但是延安组水样的荧光强度相对较高且个别水样中还出现了Ⅰ区的荧光峰,这表明深部含水层存在其他来源的腐殖质类DOM。

3 判别模型构建

判别模型基本框架如图4。

图4 判别模型基本框架Fig.4 Basic framework of discriminant model

由图4 可知:测定的无机指标组成数据集data1,使用PARAFAC 对EEMs 进行处理后得到主要组分(C1、C2、C3)的荧光强度,与TOC、UV254、无机指标共同组成数据集data2;使用主成分分析法(PCA)对数据进行预处理,该过程分为数据标准化和主成分提取2 步;data1 和data2 经PCA 处理后分别进入RF 模型中进行训练。

3.1 荧光组分提取

虽然可以从荧光图谱通过荧光峰观察出水样DOM 的差异,但在样本量大的情况下操作不便且容易带来人为误差。PARAFAC 提供了数据的定量和定性模型,因此采用PARAFAC 对水样DOM荧光数据的主要组分进行量化和提取,该过程使用Matlab 中的DOMFluor 工具箱进行实现。

为保证结果的可靠性,使用拆半检验对各分量模型进行验证,根据代码运行结果,2 组分模型和3 组分模型均是有效的。为最大限度地反映数据信息,使用误差平方和对不同组分数量下的模型进行对比,绘制出的DOM 组分数目与残差关系图如图5。

图5 组分数目与残差关系图Fig.5 Relationship between DOM fraction and residual error in mine water

由图5 可知:当组分数由2 增加到3 时,激发波(EX)和发射波(EM)的残差已大幅减小,当组分数由3 增加到4 时,残差变化不大,因此考虑选取3 组分模型。

PARAFAC 的计算结果中包含了每个样品各组分的荧光强度,根据导出数据绘制出各组分荧光图谱及对应的荧光载荷图,并且列出了4 类水各组分荧光强度的平均值。各组分荧光强度平均值见表2,DOM 各组分三维荧光图谱及荧光载荷如图6。

表2 各组分荧光强度平均值Table 2 Average fluorescence intensity of each component

图6 DOM 各组分三维荧光图谱及荧光载荷Fig.6 Three-dimensional fluorescence spectrum and fluorescence load of DOM components

PARAFAC 共鉴别出3 种组分:组分1(C1)具有1 个激发峰(250 nm)和1 个发射峰(425 nm),包含了疏水性有机酸和类腐植酸的成分并以后者居 多;组 分2(C2)具 有3 个 激 发 峰(225 nm/280 nm/305 nm)和1 个发射峰(340 nm),包含了类色氨酸和含色氨酸的类蛋白质;组分3(C3)具有2 个激发峰(245 nm/285 nm)和1 个发射峰(310 nm),主要为酪氨酸和含色氨酸的类蛋白质。

通过PARAFAC,用提取出来的3 种组分荧光强度代替原样本中出现的5 种荧光区域,达到数学量化和组分降维的目的,为后续判别提供了数据基础。

3.2 数据集构造与降维

利用主成分分析法(PCA)对数据进行降维分析,该过程在SPSS 软件实现。

分 别 记K++Na+、Ca2+、Mg2+、Cl-、SO42-、HCO3-、TDS 为X1、X2、X3、X4、X5、X6和X7,组成的数据集记为data1。对data1 进行PCA 分析,得到各指标的总方差解释。无机指标总方差解释见表3。

表3 无机指标总方差解释Table 3 Inorganic index total variance interpretation

由表3 可知:前3 个主成分F1~ F3的方差累计贡献率已达到了96.422%。因此选取主成分个数为3,根据成分得分矩阵得到前3 个主成分的数学表达式如式(1)。

式中:Fi为 第i个主成分。

在data1 的基础上,加入UV254、TOC 和荧光组分C1,C2,C3,分别记K++Na+、Ca2+、Mg2+、Cl-、SO42-、HCO3-、TDS、TOC、UV254、C1、C2、C3 为X1、X2、X3、X4、X5、X6、X7、X8、X9、X10、X11和X12,组成的数据集记为data2,利用SPSS得到各指标总方差解释。无机-有机指标总方差解释见表4。

表4 无机-有机指标总方差解释Table 4 Inorganic-organic index total variance interpretation

由表4 可知:前6 个主成分F1~ F6的方差累计贡献率达到了94.811%。因此,这里选取主成分个数为6。同理,根据成分得分矩阵可以得到前6个主成分的表达式,这里不做展示。

3.3 算法实现

记第四系水、白垩系水、直罗组水、延安组水分别为Ⅰ、Ⅱ、Ⅲ、Ⅳ类水,分别使用data1、data2 进行无机判别模型和无机-有机综合指标判别模型的训练。采用K折交叉验证来进行模型评估,因此无需人为划分训练集与测试集,这种方法可以有效避免欠拟合或过拟合状态的发生;在小样本中能得到具有说服力的结果,这里在K值取2~7 时进行寻优。在RF 算法中,对样本集进行有放回地抽样来构建树,这里设置决策树的个数为100,对每颗决策树的深度不做限制。用平均精度、平均查准率、平均召回率和f1 score(f1 调和指数)衡量模型的性能。整个过程在pycharm2021环境中使用python 语言实现。

通过不同指标体系性能对比可知:综合判别模型的平均精度、平均查准率、平均召回率和f1 score 分别达到了93.14%、94.79%、95.08%、93.73%,较无机模型分别提高了9.71%、11.84%、12.25%、11.5%。

通过回代判别结果可知:无机判别模型出现了5 个误判,回代准确率为93.15%,综合判别模型仅出现了1 个误判,回代准确率为98.63%。

利用8 个分别属于Ⅰ、Ⅱ、Ⅲ、Ⅳ类水的待测样本对判别模型的效果进行检验,待测样本水化学特征见表5,待测样本判别结果见表6。

表5 待测样本水化学特征Table 5 Hydrochemical characteristics of samples to be tested

表6 待测样本判别结果Table 6 Discrimination results of water samples to be tested

由表6 可知:在无机指标训练的模型下,8 个样本中出现了2 个误判,分别将样本3(Ⅱ类水)和样本7(Ⅳ类水)误判为Ⅰ类水和Ⅲ类水,总体判别准确率只有75%。而在无机-有机综合指标训练的模型下,对8 个待测样本的类型都进行了正确的判别,这进一步证明了无机-有机综合指标能够显著提高判别准确率,可以为煤层顶板涌水水源判别提供新思路。

4 结 语

1)分析了不同来源水样的无机水化学指标及TOC、UV254和荧光光谱等有机指标,初步确定出了第四系含水层、白垩系含水层、直罗组含水层及延安组含水层水化学特征之间的差异,但仍无法准确区分出各水样的来源。

2)利用PARAFAC 从荧光图谱中提取并量化了3 种组分,使用PCA 分别将data1 和data2 的判别指标维度降至4 和6,结合RF 算法分别构建了无机判别模型和无机-有机综合指标判别模型,后者的平均精度达到了93.74%,较前者提高了9.71%。

3)利用无机-有机综合指标判别模型对训练样本进行回判,回代准确率达到了98.63%,该模型对8 个来自不同含水层的待测样本也进行了正确的判别,这充分说明无机-有机综合指标可以显著提高煤层顶板涌水水源判别的准确率,未来可以考虑扩大样本集和寻找优化算法来提高模型的性能。

猜你喜欢

水化学第四系无机
第四系胶结砂层水文地质钻进技术研究初探
秦皇岛北部地表水和地下水水化学特征及水质评价
无机渗透和促凝剂在石材防水中的应用
加快无机原料药产品开发的必要性和途径
河北平原区第四系(200m以浅)岩土体综合热导率特征综述
衡水市新近系馆陶组地热水水化学特征与分布规律研究
有机心不如无机心
北疆第四系覆盖层上明渠结构优化研究
筠连煤层气井产出水化学特征及意义
一种微生态制剂对鲫鱼养殖水化学指标的影响