基于人工智能技术的矿井水害来源识别模型库的建立方法研究

2017-11-15阴宁宝余生晨

华北科技学院学报 2017年4期

阴宁宝，郝军，余生晨

(1.山西潞安环保能源开发股份有限公司，山西长治 046000；2.山西潞安环保能源开发股份有限公司余吾煤业有限公司，山西长治 221000；3. 华北科技学院计算机学院，北京东燕郊 065201)

阴宁宝1，郝军2，余生晨3

为了建立合理的矿井水害识别模型库，以便提高水害来源识别的准确率，提出了建立水害识别模型库(水的水化学模型)的原则和方法技术。这个原则是各类水害来源模型内部的类内离散度尽可能小，使其具有代表性；各个模型之间的类间离散度尽可能大，以便清楚的区分各个水害来源的总原则。给出了描述这个原则的数学公式以及实现上述原则的方法技术。在山西潞安环保能源开发股份有限公司的多个煤矿进行了生产性验证。生产实践证明提出的原则和方法技术是可行的、识别矿井水的来源(判定水的类型)的准确率可达到95%。

矿山水化学模型库；水源识别; 类内离散度; 类间离散度

0 引言

我国煤矿水害严重，急需准确度高的识别水害来源的方法技术。在识别水害来源的过程中，建立各种类型水的水化学模型是必需的一个重要环节[1]。待识别的水样要与模型库中的水样进行比对、匹配，以便分类识别。在比对匹配后，待识别的水样与模型库中相似度最大的水样具有同样的来源[2,3]。在实际中，由于钻井和切割上下地层的导水断层和导水陷落柱使得地下各层水相互混合，奥灰水通过导水陷落柱和大断层侵入到第四纪砂岩水中，导致采集纯净的砂岩水样发生困难。地表水通过导水断层下侵(或下渗)到奥灰水层中，导致采集纯净的奥灰水发生困难。由于各层水的相互混合，需要人们确定所采集的水样是否纯净？或纯净度是多少？对分类识别水害来源的影响程度如何？为了解决这些问题，也为了建立合理的矿井水害来源识别模型库，以便提高水害来源识别的准确率[4,5]，提出了建立水害来源识别模型库(水的水化学模型)的原则和方法技术。这个原则是各类水害来源模型内部的类内离散度尽可能小，使其具有代表性；各个模型之间的类间离散度尽可能大，以便清楚的区分各个水害来源的总原则。给出了描述这个原则的数学公式以及实现上述原则的方法技术。在山西潞安环保能源开发股份有限公司的多个煤矿，例如，余吾煤业有限公司所属煤矿进行了生产性验证。生产实践证明提出的原则和方法技术是可行的、识别矿井水的来源(判定水的类型)的准确率可达到95%。

1 建立水害识别模型库(水的水化学模型)的原则

为了建立合理的矿井水害识别模型库，以便提高水害来源识别的准确率，提出了建立水害识别模型库(水的水化学模型库)遵循的原则如下：

(1)各类水害来源模型内部的类内离散度尽可能小，使其具有代表性；

(2)各个模型之间的类间离散度尽可能大，以便清楚的区分各个水害来源。

1.1 原则及意义

离散度的定义：

(1)

某个类的离散度σ越小，则该类的样本越密集，反之，离散度σ越大，则该类的样本越分散。

(1)各类水害来源模型内部的类内离散度的定义是：

(2)

其中，(2)式中各符号的意义同(1)式。

(2)各个模型之间的类间离散度的定义是：

(3)

如果在水化学模型库中，某几类水样内混杂有其它类的水样，则这几类水样表现为：“ 类内离散度大，类间离散度小的情况”，如图1所示，这说明这样的水化学模型库是不成功的，应当丢弃，要重新建立新的水化学模型库。如图1所示，在两个指标的情况下，1类、2类、3类水样不容易区分。

图1 类内离散度大，类间离散度小的情况

如果在水化学模型库中，某一类水样内混杂有其它类的水样，但是不严重，则这几类水样表现为：“类内离散度大，类间离散度也大的情况”，如图2所示，这说明这样的水化学模型库建设的不算成功，但是还可以使用。如图2所示，在两个指标的情况下，通过某些方法也可以区分出两类水样。

图2 类内离散度大，类间离散度大的情况

如果在水化学模型库中，各类水样内都不混杂有其它类的水样，是纯净的，则这几类水样表现为：“类内离散度小，类间离散度大的情况”，如图3所示，这说明这样的水化学模型库建设的必较成功，是可以使用的。如图3所示，在两个指标的情况下，1类、2类水样很容易区分。

图3 类内离散度小，类间离散度大的情况

2 建立水害识别模型库(水的水化学模型)的方法和技术

为了使不同单位的指标(水化验指标，有时也称为“特征” )能够进行比较,需要将原始数据规格化处理, 即，将数据变换为与单位无关的数据，然后再判别聚类，采用最大值规格化方法:

以Ca2+(钙)离子为例，假设xi=Ca2+(钙)离子浓度，最大值规格化是:

(4)

(4)式中， max(xi)是最大值。

这样规格化后，第i个测量(化验)指标的取值在-1～+1之间。

在采集某类水样的过程中，难免有其它类型的水样混杂其中。在采集了这样的水样之后，建立了一个初步的水化学模型库后，该模型库是否符合“类内离散度小，类间离散度大的情况”，还需要检验。检验方法如下：

在水化学模型库中，建立了砂岩水、奥灰水、太灰水、老空水等四种水的模型，每种水是一种类型，是一个聚类。

① 选择初始值，也可在迭代运算过程中人为修改，以便将n个水化学模型库中模式样本按指标分配到各个聚类中心去。

② 计算各类中各样本的距离函数等指标。

③～⑤ 按给定的要求，将前一次获得的聚类集进行分裂和合并处理，以获得新的聚类中心。

④ 为分裂处理，⑤为合并处理，

⑥ 再次叠代运算，重新计算各项指标，判别聚类结果是否符合给定的要求，经过多次叠代运算后，如果叠代计算结果收敛，叠代运算结束。

该方法的具体步骤为：

已知水化学模型库中样本集为{x1，x2，...，xN}，将n个模式样本{x1，x2，...，xN}输入计算机程序中。

第一步：规定下列控制参数(是预选的参数)：

K=期望得到的聚类数，也即预期的聚类中心数目；

QN= 一个聚类中的最少样本数，即，如少于此数就不作为一个独立的聚类；

Qs= 一个聚类域中样本距离分布的标准偏差参数； Qc= 合并参数；

L=每次叠代允许合并的最大聚类对数(类之间的合并)；

I=允许叠代的次数。

设初始的聚类数c(本文中为砂岩水、奥灰水、太灰水、老空水等四种水，c=4)和初始的聚类中心wi，i=1，2，...，c.

第二步：按照下述关系

如果 ‖x-wi‖ < ‖x-wj‖，j=1，2，...，c. j≠i 则 x∈Ri

将所有样本分到各个聚类中去。Ri是第I个聚类，其中心为wi

第三步：若有任何一个Ri，其基数Ni

第六步：计算所有样本距离其相应的聚类中心的平均距离

第七步：(a)若这是最后一次叠代(由参数I确定)，则置θc=0，转下面第十一步；

第八步：对每一个聚类Ri，用下列公式求标准差σi=(σi1，σi2，...，σin)T

第九步：对每一个聚类，求出具有最大标准偏差的分量σimax，i=1，2，...，c.

第十步：若对任一个σimax，i=1，2，...，c，存在σimax>θs，并且有：

给定一个α值，0<α1，令ri=σimax, 则和的距离不同，但又应使Ri中的样本仍然在这两个新的集合中。

第十一步：对于所有的聚类中心(本文中为砂岩水、奥灰水、太灰水、老空水等四种水，c=4)，计算两两之间的距离(即，每一个类的聚类中心和其它类的聚类中心之间的距离)

Dij=‖wi-wj‖，i=1，...，c-1 j= i +1，i +2，...，c

第十二步：比较Dij和θc，将Dij<θc的值按上升次序排列：

Di1j1

第十四步：若这是最后一次叠代，则算法终止。否则，若根据经验需要改变参数，则转第一步；若不需要改变参数，则转第二步。本步中，还应将叠代计数器加1。算法终止并完成。

最后，将样本集{x1，x2，...，xN}分为K类(本文为4类)后，再次计算各个水害来源模型内部的类内离散度和各个模型之间的类间离散度。如果符合：①各类水害来源模型内部的类内离散度尽可能小、 ②各类模型之间的类间离散度尽可能大的要求，这样的水化学模型库是比较成功的模型库，可以应用到实际的生产中。

3 实验结果与讨论

建立水化学模型库需要各类纯净的水样，但是，实际中很多因素会导致采集到的水样是多种类型水的混合物，而不是纯净的水样，这给建立水化学模型库带来了困难。多种类型水的混合水样满足不了建立水化学模型库的需要，这时，需要对采集的水样进行检测，检测其是否是纯净的水样，是否满足建立水化学模型库的需要。采用研究得出的原则和方法技术建立了山西潞安环保能源开发股份有限公司等煤矿的水化学模型库，为以后识别水害的来源打下了良好的基础。

在山西潞安环保能源开发股份有限公司的多个煤矿，建立了识别砂岩水、奥灰水、太灰水、老空水等四种类型水的水化学模型库。最初采集了17个砂岩水、23个奥灰水、15个太灰水、9个老空水的水样，共64个水样。在4种类型水的各自类内离散度小于0.5(尽可能小)和4种类型水的类间离散度大于0.9(尽可能大)的要求下，剔除了23个不符合建立水化学模型库的水样，用剩下的41个相对比较纯净的水样最终建立了了识别砂岩水、奥灰水、太灰水、老空水等四种类型水的水化学模型库。在这个水化学模型库中，使用了9个水化学指标(特征)和一个温度指标。

用14个已知来源的砂岩水、奥灰水、太灰水、老空水的水样，分别用人工智能方法、模糊聚类分析法、支撑矢量机方法，分别使用研究得出的模型库和用一般方法建立的模型库，检验研究得出的模型库的性能。使用研究得出的模型库识别水的来源的正确率平均为95%；使用一般方法建立的模型库识别水的来源的正确率平均为64%，见表1。由表1可见使用研究得出的模型库较用一般方法建立的模型库能够显著的提高识别水的来源的正确率。

表1给出了建立在水化学模型库之上的水害来源的识别结果[6,7,8]。

表2给出了建立在水化学模型库之上的水害来源的识别结果和部分数据。

表1 建立在水化学模型库之上的水害来源的识别结果

表2 建立在水化学模型库之上的水害来源的识别结果和部分数据

由表1和表2可以看出建立在研究得出的水化学模型库之上的水害来源的识别结果是可用的、有效的，从而证明了建立的水害来源识别模型库(水的水化学模型)的原则和方法技术是有效的而且是可行的。

[1] 董书宁.对中国煤矿水害频发的几个关键科学问题的探讨[J].煤炭学报，2010，35(1)：66-71.

[2] 高卫东，何元东，李新社.水化学法在矿井突水水源判别中的应用[J].矿业安全与环保, 2011, 28(5): 44-45.

[3] 石磊，徐楼英.基于水化学特征的聚类分析对矿井突水水源判别[J].煤炭科学技术，2010(3)：97-100.

[4] 周健，史秀志，王怀勇.矿井突水水源识别的距离判别分析模型[J].煤炭学报，2010，35(2)：278-282.

[5] 杨本水，王从书.祁东煤矿突水灾害成因分析[J].煤炭科学技术，2013(31)：41-43.

[6] 阿淑芳，刘宁宁，余生晨.基于免疫算法改进的反向传播神经元网络矿井水害水源识别研究[J].华北科技学院, 2017, 14(1): 34-40.

[7] 李继君，薛阳，余生晨.基于支持向量机的煤矿井水害水源自动识别方法研究[J].华北科技学院, 2015, 12(2): 25-29.

[8] Vapnik V N.The Nature of Statistical Learning Theory[M].New York: Springer-Verlag,1995.

ResearchonEstablishmentMethodofMineWaterSourceIdentificationModelBaseBasedonArtificialIntelligence

YIN Nin-bao1, HAO Jun2,YU Sheng-chen3

(1.ShanxiLu’anEnvironmentalEnergyDevelopmentCo.Ltd,Changzhi, 046000,China; 2.Yu’wuCoalIndustryCo.Ltd.,Changzhi, 221000,China;3.SchoolofComputer,NorthChinaInstituteofScienceandTechnology,Yanjiao, 065201,China)

In order to establish a reasonable model library of mine water disaster, and to improve the accuracy of water source identification, the principles, methods and techniques of establishing model library of water disaster identification are presented. The principles is that the intra class dispersion of each water source model is as small as possible, which makes it representative and the inter class dispersion between the models is as large as possible in order to clearly distinguish each source of water damage. The mathematical formulas for describing this principle and the methods and techniques for realizing the above principles are given. Production verification has been carried out in the coal mine owned by Shanxi Lu’an environmental energy development Co.Ltd. Experimental results and production practice show that the principle and method is efficient and feasible，and the detection right rate of flood waters was above 95% and the method is efficient and feasible.

Model library of mine water chemistry;Water source distinguishing ；Intra class dispersion of each water source model ；Inter class dispersion between the models

2017-04-10

中央高校基本科研业务费资助(JSJ1207B ，3142013093)

阴宁宝(1970-)，男，山西沁源人，大学毕业，山西潞安矿业(集团)有限责任公司工程师，研究方向：矿井水害来源识别、煤矿安全生产管理。E-mail：yusc5291@sina.com

TD745.21

1672-7169(2017)04-0024-05