APP下载

基于投影寻踪动态聚类法的水库水质评价模型

2013-10-20王丽萍赵璧奎张验科

水力发电 2013年1期
关键词:水质评价投影聚类

康 明,王丽萍,赵璧奎,张验科

(华北电力大学可再生能源学院,北京 102206)

0 引言

水质评价是水资源管理与决策的重要组成部分,是根据已有的水质标准建立水质分类的模型,然后依据该模型对参与评价的样本进行水质级别的评价。最基本的评价方法就是,直接对照标准规定的各个项目单因子的评价。但在实际应用中,仅仅基于单项影响指标的水质评价结果难免会不相容,因此直接对照水质评价标准表评价水体质量缺乏必要的实用性。一般情况下,水质的评价总是基于多种指标的综合评定,因而要进行客观严谨的评价就必须建立起与之对应的多因素 (多指标)评价模型。文献[1]建立了一个基于可拓神经网络的水质评价模型;文献[2]将模糊数学的原理应用到水质评价中;文献[3]提出了一个基于组合权重的水质评价模型;文献[4]建立了一个基于投影寻踪新算法的评价模型。这些模型都存在某些局限性。例如,在计算过程中需人为地给定参数,或者对于同一等级内的水质无法给出量化的比较,以及对影响因素的权重没有主客观综合考虑。

因此,本文引入投影寻踪动态聚类的方法,提出相应的水库水质评价模型,一方面,可以避免在水质评价模型运算过程中需要人为给定的参数的缺点;另一方面,可以根据决策者的侧重的因素进行分类并直接输出水质综合评价分级标准值。

1 投影寻踪动态聚类方法

投影寻踪就是将高维数据向低维空间投影,通过低维空间研究高维数据的结构或特征。投影寻踪聚类是根据投影寻踪原理形成的一种聚类方法,在水质评价、洪水分类、关键因子识别等涉及多因素影响的问题研究中广泛应用。然而,在实际聚类分析中,投影寻踪聚类方法尚存在着不足之处,主要体现在两个方面:一是在求解基于投影寻踪聚类方法模型过程中,涉及到的唯一参数——密度窗宽取值目前还必须依靠经验或试算来确定,缺乏相应的理论依据;另外,此类模型的运算结果需要利用其他方法进行分类处理,才能得到最终的聚类结果。

针对投影寻踪聚类的上述问题,引入动态聚类方法[5]。动态聚类法可以将样本数据点聚成既定数量的类,使得每一类的元素都是聚合的,并且类与类之间能够很好地区分开来。投影寻踪动态聚类法,通常先是利用投影降维技术将高维数据投影到低维空间 (本文实际应用为线性一维),然后利用动态聚类法对投影到低维空间的投影特征值进行聚类分析。

2 基于投影寻踪动态聚类方法的水库水质评价模型

2.1 数据无量纲化

首先,通过生成水质样本构造出模型所需的投影数据。按照水质标准,在各水质级别范围内随机产生一定量的样本数据;将水质样本的影响指标记为 Xij(i=1,2,…,n; j=1,2,…,m; n 为样本个数, m为影响指标个数)。质量标准等级分为5级,在每个等级范围内生成100个样本,则样本数n=500。为了与水库水质质量标准相对应,本文规定水体受到污染的程度越严重,则该样本水质的级别值越大。将污染最严重的水质级别记为Ⅴ,较严重的记为Ⅳ,依次类推,污染最轻的级别值记为Ⅰ。由于水质样本各影响指标的量纲不尽相同或数值范围相差较大,因此在建模之前要对各项指标数据进行无量纲化处理。对于越小越优型指标,采用式(1);对于越大越优型指标,采用式(2)

式中,Xjmax、Xjmin分别为第j个水质影响指标的样本最大值与最小值。

2.2 线性投影

所谓投影就是从不同角度观察数据,寻找能够最大程度反映水质样本数据特征的最佳观察角度,即最优投影方向[6]。本文采用线性投影,将水质样本的多项影响指标值投影到一维空间,得到反映该水质样本特征的数值,该数值被认为是能够反映该水质样本优劣程度的量化值,在模型中用投影特征值zi来表示。设为m维单位投影方向向量,记为=(a1,a2,…,am), 则水质样本影响指标 xij的一维投影特征值zi可以表示为

2.3 构造投影指标

投影指标是样本数据由多维向低维投影形成聚类所遵循的原则,由于聚类分析的实质就是将待评价样本进行合理的分类,可以根据分类指标来构造投影指标。本文应用动态聚类方法来构造模型的投影指标,通过求解投影指标函数,得到能够反映水质样本特征的最优投影方向,同时输出投影特征值聚类结果,即水质综合评价的分级标准值。构造投影指标的步骤如下:

设水质样本投影特征值集合为 Ω={z1,z2,…,zn},任意两个投影特征值间的距离记为s(zi,zk),即s(zi,zk)=(k=1,2,…,n)。 若将水质样本分为 N(N≤n)类,则第h类样本投影特征值集合可记为θh(h=1,2,…,N), 即

式中, d(Ah-zi)=, d(At-zi)=。 其中,Ah和At分别为第h类和第t类的初始聚核 (聚类的中心点)。式(4)表明了动态聚类方法中聚合分类的原则。依据动态聚类的算法,每一类的初始聚核会被上一次该类样本投影特征值的均值所迭换,直至满足结束条件,即分类结果趋于稳定。

式中, dh()=

为达到类类样本充分散开、类内样本尽量集中的聚类目的[7],根据动态聚类法构建的投影指标应为

式(7)表明,各类之间分散度越大或类内聚集程度越高,投影指标QQ()越大。

2.4 模型求解

实际应用中,若决策者对水库水质的某单项或多项影响指标存在偏好,可以通过增加模型的约束条件来实现。例如,在所有影响指标中,决策者最关心的是第二项指标,根据投影原理,即认为在a2方向上的投影值最大,因此可增加约束

上述优化问题用遗传算法求解,参阅文献[8]。

3 应用实例

2012年2月深圳市供水系统中5个水库的水质监测结果见表1。根据深圳市水源水质的特点,选择了pH、氨氮、总氮、总磷、高锰酸盐指数等作为水源地水库水质影响指标。依据水源地水质要求,选择GB 3838—2002《地表水环境质量标准》作为评价依据,结果见表2。

表1 深圳市5个供水水库2012年2月水质监测结果

表2 水库水质评价标准

本文在每个水质标准级别范围内随机生成30个样本,而水库水质评价标准分为5级,于是总共得到了150个水质样本。依据生成的各级样本数据建立起深圳市5所水库基于投影寻踪动态聚类方法的水质评价模型,其中n=150,m=5,N=5。

表3 水质综合评价分级标准值及模型评价结果

可以看出,实例中的深圳市5个水库中有2个达到地表水Ⅱ类标准,3个达到Ⅲ类标准。根据表1的监测数据,对照水库水质评价标准,在编号为(1)的水库中有2个指标属于Ⅴ级、3个指标属于Ⅰ级,编号为(2)的水库中有1指标属于Ⅳ级、1个指标属于Ⅴ级、其他3个指标都属于Ⅰ级,编号为(4)的水库有1指标属于Ⅳ级、1个指标属于Ⅴ级、其他3个指标都属于Ⅱ级。就污染程度而言,水库(4)大于水库(2)和(1), 而水库(2)有 4个的指标都要比水库(1)大, 所以综合评价(4)>(2)>(1), 符合表 3中评价样本特征值的大小排序。分析比较编号(3)、(5)这两个水库,同样可以得出与模型评价结果相一致的结论。由此可见,基于投影寻踪动态聚类方法的水库水质评价模型计算出来的结果是较为合理的。

然而,不同地区的水库由于自然环境及功能不同对水质的要求不尽相同。从深圳市近两年的水质连续监测数据分析,总氮及总磷指标超标的频率较高,这两项指标对控制水体富营养化有重要的作用,因此可以假设决策者会提高这两项指标对其决策的影响力。在模型中通过增加约束的方法来考虑决策者的这种偏好: a2>aj(j=1,3,5); a4>aj(j=1,3,5)。

表4 考虑决策者偏好的模型评价结果

由表4可以看出,这一结果与不考虑决策者偏好的结果基本相同。其主要原因是:根据投影寻踪方法的原理,最优投影方向向量反映了各个因素的不同重要程度,而且它为单位投影方向的向量,满足平方和为1。因而,可以将wi=(…,)作为各影响因素的权重[9]。在不考虑决策者此偏好时,总磷及总氮的所占权重已经很大,故两次评价结果保持一致。

4 结语

(1)将投影寻踪技术和动态聚类的方法相结合,应用于水库水质评价模型,既操作简单,又增加了模型的客观性,充分发挥了投影寻踪技术在处理多因素综合评价模型上的优势。

(2)针对可能出现的决策者偏好的情况,本文通过增加约束条件,使得模型能够综合考虑客观权重和决策者的偏好,扩大了模型的适用范围。

(3)模型应用于深圳市5个供水水库的实际分析结果表明,基于投影寻踪动态聚类的方法能够合理地对水库水质进行综合评价。

[1]闫英战,杨勇,陈爱斌.可拓神经网络在水质评价中的应用[J].人民长江, 2010, 41(15):27-30.

[2]张媛,王世真,朱秀华.模糊数学用于地表水的综合评价[J].大连铁道学院学报,2004,25(1):7-11.

[3]金菊良,黄慧梅,魏一鸣.基于组合权重的水质评价模型[J].水力发电学报, 2004, 23(3):3-19.

[4]张欣莉,丁晶,李祚泳,等.投影寻踪新算法在水质评价模型中的应用[J].中国环境科学, 2000, 20(2):187-189.

[5]任若恩,王惠文.多元统计数据分析-理论、方法、实例[M].北京:国防工业出版社,1999,76-80.

[6]倪长健,崔鹏.投影寻踪动态聚类模型[J].系统工程学报,2007, 22(6):634-638.

[7]倪长健,王顺久,崔鹏.投影寻踪动态聚类模型及其在地下水分类中的应用[J].四川大学工程学报:工程科学版,2006,38(6):29-33.

[8]王顺久,张欣莉,倪长健,等.水资源优化配置原理及方法[M].北京:中国水利水电出版社,2007,226-227

[9]王丽萍,叶季平,苏学灵,等.基于可拓学理论的防洪调度方案评价研究与应用[J].水利学报, 2009, 40(12):1425-1431.

猜你喜欢

水质评价投影聚类
解变分不等式的一种二次投影算法
基于最大相关熵的簇稀疏仿射投影算法
基于K-means聚类的车-地无线通信场强研究
找投影
找投影
滻灞河水质评价方法研究
基于高斯混合聚类的阵列干涉SAR三维成像
基于概率统计和模糊综合评价法的水质评价模型及其应用——以拉萨河水质评价为例
基于SPAM的河流水质评价模型
一种层次初始的聚类个数自适应的聚类方法研究