APP下载

基于蚁群算法的我国水资源短缺风险聚类分析

2017-03-21赵自阳李王成刘学智崔婷婷程载恒陶明华

节水灌溉 2017年7期
关键词:聚类水资源算法

赵自阳,李王成,2,3,王 霞,刘学智,崔婷婷,程载恒,王 帅,陶明华

(1.宁夏大学土木与水利工程学院,银川 750021; 2.宁夏节水灌溉与水资源调控工程技术研究中心,银川 750021;3.旱区现代农业水资源高效利用教育部工程研究中心,银川 750021)

水资源是一个国家和地区的基础性和战略性资源,随着我国社会经济的快速发展,水资源供需矛盾不断加剧。据统计,我国水资源总量2.8 万亿m3,人均2 173 m3,仅为世界平均水平的1/4;单位耕地面积水资源量21 600 m3/hm2,约为世界水平的1/2;农业灌溉水的利用效率也相对较低;同时由于全球变暖和人类活动,水污染日益严重,加剧了我国水资源的紧缺性[1]。因此,如何科学合理的开展水资源短缺风险评价研究,对促进可持续发展具有重要意义。

水资源短缺风险是指一个地区在特定的时空环境条件下,由于来水和用水两方面的不确定性,使得区域水资源系统发生供水短缺的可能性[2]。目前,国内的许多学者已对区域水资源短缺风险评价做了大量的研究。王红瑞等[3]基于模糊概率理论建立水资源短缺风险评价模型,对北京市1979-2005年的水资源短缺风险进行了分析;廖强等[4]在运用模糊分析法对北京市1979-2009年水资源系统聚类的基础上,利用灰色系统法预测了2010-2015年的水资源短缺风险;许应石等[5]结合层次分析法和隶属度评价计算出湖北省各区域的水资源短缺风险系数;张中旺等[6]基于主成分分析法,构建水资源风险短缺评价指标体系,从时间和空间两个方面系统分析了襄阳市水资源短缺的原因、影响因素及变动趋势;周长春[7]通过主成分分析和灰色关联分析法得到黄河下游引黄灌区各区域水资源短缺的风险因子,进而对水资源承载力状况进行了评判分析;张学霞等[8]采用因子分析得到高需水量、高供水量和劣质水3个公因子,然后采用空间聚类法对3个公因子进行评估,得到松辽流域水资源利用风险图。

对比现有专家学者的研究可以发现,目前对于区域水资源短缺风险的评价主要有层次分析、主成分分析、模糊综合评判和灰色系统等传统数理统计方法,而对人工智能算法的研究和运用却比较少。并且某些传统数理统计方法中指标的选择多是根据专家主观经验,人为干扰因素较强,结果存在差异[9]。

基于此,本文首先根据我国2004-2014年相关数据,采用灰色关联度(GRA)法筛选出主要影响水资源短缺的风险因子;然后利用UCI数据集对比基本蚁群聚类算法与基于遗传因子改进蚁群聚类算法的优劣;最后根据筛选后的水资源短缺风险因子,结合基于遗传因子的改进蚁群聚类算法模型,对我国31个省市自治区2004-2014年的水资源短缺风险水平进行聚类,从时间和空间角度得到我国2004-2014年各省市自治区的水资源短缺风险变化趋势。分析结果可为相关部门评价水资源状况,科学管理水资源提供参考。

1 研究方法与数据来源

1.1 灰色关联分析(GRA)方法

灰色关联分析[10]是一种定量化比较方法,是根据数列的可比性和相似性,分析系统内部主要因素之间的相关程度,可以比较真实和全面地反映客观系统的实际认识程度,不但可以得到定性分析结果,还可以得到定量结果,并且与传统的典型相关系数和相似系数等多因素分析方法相比,具有样本要求低和计算量小的优点。本文首先根据多指标序列的数据标准化方法对我国水资源相关数据进行归一化处理,然后利用灰色关联分析中比较常用的邓氏关联度来筛选出影响水资源短缺主要的风险因子。

1.1.1 多指标序列的数据变化

指标的性质不同,数据的标准化方法也就有所不同[11]。一般情况下根据指标的属性可以分为3种:①效益型:例如利润、产量等,指标值越大越好;②成本型:指标越小越好;③固定型:指标越接近某个固定值就越好。

设系统多指标序列为:

Xi=[xi(1),xi(2),…,xi(n)]

(1)

M={i|i=1,2,…,m}为因素集的下标集合;N={k|k=1,2,…,n}为指标集的标号集合。具体变换方法如下所示。

(1)效益型指标变换:

X(k)D1=[x1(k)d1,x2(k)d1,…,xm(k)d1]

(2)

(3)

(2)成本型指标变换:

X(k)D2=[x1(k)d2,x2(k)d2,…,xm(k)d2]

(4)

(5)

(3)固定型指标变换:

X(k)D3=[x1(k)d3,x2(k)d3,…,xm(k)d3]

(6)

(7)

式中:γ(k)为关于指标k的某个固定值。

1.1.2 邓氏关联度

邓氏关联度[11]是邓聚龙于1982年创立,它的计算着重考虑点点之间的距离远近对关联度的影响。其中ρ为分辨系数,一般情况下取ρ=0.5,其具体计算步骤如下。

(1)设系统的参考序列为:

X0=[x0(1),x0(2),…,x0(n)]

(8)

系统的比较序列为:

Xi=[xi(1),xi(2),…,xi(n)]i=1,2,…,m

(9)

(2)首先计算关联系数:

(10)

(3)关联度为:

(11)

1.2 蚁群算法

1.2.1 基本蚁群聚类算法

基本蚁群聚类算法[12]主要是模拟蚂蚁觅食中的搜索和搬运食物两个环节。根据数据对象与其周围对象的相似性,让蚂蚁随机地移动,拾起或放下数据对象,从而达到聚类的目的。每个蚂蚁在运动的过程中都会在其所经过的路径上留下信息素,而且能够感知信息素的存在及强弱,比较倾向于向信息素强度高的方向移动。显然某一路径上经过的蚂蚁数目越多,那么其信息素就越强,以后的蚂蚁选择该路径的可能性就比较高,整个蚁群的行为表现出了信息正反馈现象。基本蚁群聚类算法框架描述如图1所示。

图1 基本蚁群算法框架

1.2.2 基于遗传因子的改进蚁群算法

基本蚁群算法有许多优点,但也存在一些不足[13]:①基本蚁群算法容易出现停滞现象:基本蚁群算法在迭代到一定次数时,有可能会收敛于某些局部最优解的邻域,使得求解出现停滞现象。②算法搜索的时间较长:基本蚁群算法由于本身具有随机性,在算法的初始阶段,每条路径上的信息素浓度差别不大。所以需要较长的时间才能使得最优路径上的信息素浓度明显高于其他路径。

遗传算法[14]是一种自适应性强的生物进化仿生搜索算法,具有全局优化和自适应学习等优点。将遗传算法和蚁群算法进行结合就可以减少蚁群算法达到最优收敛的次数,并且可以提升收敛速度,避免达到局部最优等问题。基于遗传因子的改进蚁群算法框架描述如图2所示。

图2 改进蚁群算法框架

1.3 数据来源和指标选取

本文中2004-2014年的全国数据来源于国家统计局2005-2015年的《中国统计年鉴》,根据我国水资源现状,综合考虑社会、经济和环境等因素,选取表1中的12组数据进行灰色关联分析[15]。对于31个省市自治区(未包括香港、澳门和台湾)2004-2014年的数据则分别来源于各地区2005-2015年的《统计年鉴》和2004-2014年的《水资源公报》。

2 研究结果与分析

2.1 灰色关联分析

(1)数据预处理。比较序列为表1中的12组指标,由于各项指标的量纲不同,需要做多指标序列的标准化处理。其中降雨量和水资源总量越大,意味着水资源短缺风险越低,因此将降雨量和水资源总量做效益型指标变换,其余10个指标做成本型变换。参考序列为我国2004-2014年间的水资源短缺风险,用缺水率来刻画,其中缺水率=(总用水量-水资源总量)/总用水量。

表1 灰色关联分析指标

(2)灰色关联分析结果。利用Matlab2015a对邓氏灰色关联度编程计算,分别求得12个指标与缺水率的关联度,灰色关联度越大,说明与水资源短缺风险的关系越密切。从表2可以看出,影响我国水资源短缺风险的前4个指标分别为工业用水总量、生态用水总量、水资源总量和生活用水总量。

2.2 蚁群聚类算法

2.2.1 数据测试

为了验证基于遗传因子改进蚁群聚类算法相比基本蚁群聚类算法的有效性,分别使用UCI公共数据库提供的两个数据集Iris和Zoo来测试[16],具体见表3。这两个数据集都有自己明确的分类表,可用于最终聚类性能的评价,编译过程利用Excel2013和Matlab2015a完成。

表2 各指标与缺水率的邓氏关联度

表3 实验数据集

2.2.2 性能评价

任何聚类算法的结果都应该采用一种客观公正的质量评价方法来进行评价。一般来说,根据有无关于数据集的先验知识,质量评价方法可分为内部和外部2种,本文利用目前比较常用的一种外部评价方法F-measure来计算评价聚类性能,它组合了信息检索中的查准率和查全率[17]。另外,为了使得评价结果更加准确,本文还对总的偏离误差和运行时间进行了比较。每组数据集共做20次实验,迭代次数分别设置为n×102,表4为选取的代表性测试结果。

表4 两种蚁群聚类算法的F-measure值

第一组实验中,使用Iris数据集来测试算法的聚类质量,在20次迭代下,改进蚁群聚类算法的F-measure值全部超过了基本蚁群聚类算法。就F-measure的平均值说,基本蚁群聚类算法为0.544,改进蚁群聚类算法为0.645。第二组实验中,采用Zoo数据集来测试算法的聚类质量,在20次迭代下,改进蚁群聚类算法的F-measure值也全部超过了基本蚁群聚类算法。就平均值来说,基本蚁群聚类算法为0.734,改进蚁群聚类算法为0.798。

分别计算基本蚁群聚类算法和改进蚁群聚类算法在20次实验中的总偏离误差,如图3所示,横坐标代表迭代次数,纵坐标代表总的偏离误差。可以看出,虽然两类数据集在两种聚类算法下总偏离误差的变化趋势相近,都呈螺旋式下降,但改进蚁群聚类算法明显有更好的收敛性能。其中就平均值来说,Iris和Zoo数据集在基本蚁群聚类算法下为231.866和272.044;在改进蚁群聚类算法下为199.809和247.118;分别减小了32.057和24.926。

图3 Iris和Zoo数据集在两种算法下的总偏离误差

在20次迭代试验中,改进蚁群聚类算法的运行时间基本都优于基本蚁群聚类算法(见表5)。其中就平均值来说,Iris和Zoo数据集在基本蚁群聚类算法下为157.358和392.326;在改进蚁群聚类算法下为67.294和196.851;分别减小了90.064和195.475。

表5 两种蚁群聚类算法运行时间 s

综合F-measure评价结果、总的偏离误差和运行时间来看,改进蚁群聚类算法的质量要优于基本蚁群聚类算法。

2.3 聚类分析

考虑到聚类过程的代表性,本文根据邓氏灰色关联度的计算结果,选取对我国水资源短缺风险影响最大的4个指标:工业用水、生态用水、水资源总量和生活用水,结合基于遗传因子的改进蚁群聚类算法,从时间和空间角度对我国31个省市自治区2004-2014年间的水资源短缺风险进行聚类。我们将聚类结果分为5类[18],分类没有表明风险等级关系,为了区分这5类的风险,分别计算各类的缺水率。最终的聚类结果如表6和表7所示,本文基于31个省市自治区和七大区域两个角度对聚类结果进行分析。

表6 水资源短缺风险评价等级

2.3.1 基于31个省市自治区

结合我国31个省市自治区2004-2014年间的水资源短缺风险聚类结果,选取代表性的年份利用Arcgis10.2画出我国水资源短缺风险分布图,并分别计算水资源短缺风险处于边缘风险以上的年份在11 a间所占的比例,以期从时间和空间角度对各个地区的变化态势进行了解。

从表7可以看出,对于华北地区,北京、天津、河北和山西在11 a间都高达100%,内蒙古虽然相比偏小,但也达到了72.73%,整体水资源状况不容乐观。对于华东地区则明显分为3个梯度,上海、山东和江苏都达到了70%以上,近些年的水资源短缺风险并没有得到缓解;浙江、江西和福建则分别为0%、9.09%和9.09%,水资源压力相对较小;安徽则处于两者之间,较高风险年份分别出现在2005、2011和2013年,总体比例为27.27%。对于华中地区,河南的水资源短缺风险相对较大,11 a间只有2005-2007年处于边缘风险之下,整体压力较大;湖北和湖南的变化趋势相同,两省都仅在2007年处于较高风险,其余年份发展态势良好。对于华南地区,同华中地区相似,也明显分为2类;海南仅在2005年处于边缘风险,其余年份都在较高风险之上,总体比例高达90.91%;广东和广西的发展趋势同湖南和湖北相同,都仅在2004年处于边缘风险,其他年份状况良好。对于西南地区,四川、云南和西藏水资源压力较小,11 a间都处于边缘风险之下;重庆的变化趋向则呈现显著的两级分化,2008年是个分水岭,之前态势良好,之后则都处于较高风险;贵州处于两者之间,较高风险年份出现在2007和2011年,总体比例为18.18%。西北地区也呈现明显的两极分化,宁夏、陕西和甘肃不容乐观,整体比例高达100%、90.91%和90.91%;青海和新疆由于整体用水量偏小,水资源压力不大,11 a间都未达到较高风险。对于东北地区,辽宁和吉林变化趋势相似,整体比例较高,分别为81.82%和72.73%;黑龙江相对偏小,较高风险年份出现在2005、2008和2011年,整体比例为27.27%。

表7 31省市自治区2004-2014年间水资源短缺风险水平

注:未包括香港、澳门和台湾。

为了对我国31个省市自治区2004-2014年间的水资源短缺风险进行更加深入的了解,将31个省市自治区11 a间边缘风险以上年份所占比例在Spss22.0中进行单一样本的K-S检验,由表8检验结果1知双侧渐进性检验值小于0.05,表明不服从正态分布。由于边缘风险以上年份所占比例为0和100%的,必然说明水资源短缺风险低或者高,所以本文将这两种去掉再进行单一样本的K-S检验,由表8检验结果2知此时双侧渐进性检验值大于0.05,表明服从正态分布。

表8 K-S检验结果

参考凌子燕[19]的分级方法,根据正态分布原理,经过正态分布表查询,将我国31个省市自治区水资源短缺风险状况分为3类,每类的概率约为0.33。其中,总比例小于(μ-0.44σ)定义为水资源短缺风险程度低,大于(μ+0.44σ)定义为水资源短缺风险程度高,介于两者之间的定义为水资源短缺风险程度中等。根据这一原则分别得到31个省市自治区水资源短缺风险状况分级阈值,从而得到2004-2014年间我国31个省市自治区水资源短缺风险状况整体的情况,如表9所示。

表9 水资源短缺风险分级阈值和地区分类

2.3.2 基于七大区域

考虑到整体性和代表性,分别计算我国七大区域2004-2014年间水资源短缺风险处于边缘风险以上的地区在各自区域中所占的比例,如图4所示。从整体来看,我国在11 a间呈现波浪形变化,并逐渐趋于平稳,其中最大和最小年份分别出现在2007和2005年,所占比例分别为64.52%和25.81%。华北区域相对比较严重,11 a间有8 a都达到了100%,其余3 a也都高达75%。华东地区和我国整体变化趋势相近,也呈现波浪形状态,最大年份出现在2007、2011和2013年,为57.14%;最小年份出现在2005和2006年,为28.57%。华中地区和华南地区基本一致,2008年是一个分水岭,之前浮动较大;之后比较稳定,一直为33.33%;西南地区态势良好,11 a间有5 a都是0,最大的年份出现在2011年,也仅为40%;西北地区比较平稳,除却2005年为20%外,其余年份均为60%。东北地区变化趋势没有明显规律,最大年份出现在2008和2011年,为100%;最小年份出现在2010年为0;最近3 a又趋于稳定,都为66.67%。

图4 七大区域2004-2014年间边缘风险以上地区比例

为了对我国七大区域2004-2014年间的水资源短缺风险进行更加深入的了解,利用同样的方法,将七大区域11 a间边缘风险以上在各自区域所占比例的平均值在Spss22.0中进行单一样本的K-S检验,由表10可知双侧渐进性检验值大于0.05,表明服从正态分布。本文仍将我国七大区域水资源短缺风险状况分为3类,每类的概率约为0.33。从而得到2004-2014年间我国七大区域水资源短缺状况整体的情况,由表11可知,华中和西南地区较低,未来应加大水资源开发力度,充分发挥区域水资源优势;华东、华南和西北地区中等,水资源协调水平较高;华北和东北地区较高,应逐步调整产业结构,利用先进技术促使经济向低耗水发展;而我国目前整体处于中等状态。

表10 K-S检验结果及整体分级阈值

表11 水资源短缺风险整体级别

3 结 语

本文首先利用邓氏灰色关联分析得到影响我国水资源短缺风险的主要因子;然后基于UCI数据集从F-measure和总偏离误差2个方面对比基本蚁群聚类算法与改进蚁群聚类算法的优劣;最后根据主要的水资源短缺风险影响因子,结合改进的蚁群聚类算法对我国31个省市自治区2004-2014年间的水资源短缺风险进行聚类,并从时间和空间角度进行分析。具体得到以下几个结论。

(1)影响我国水资源短缺风险的12个指标相对重要程度依次为:工业用水、生态用水、水资源总量、生活用水、农业用水、降雨量、用水总量、第三产业增加值、国内生产总值、第一产业增加值、常住人口和第二产业增加值。

(2)在20次迭代实验中,改进蚁群聚类算法在Iris和Zoo数据集下的F-measure值都超过了基本蚁群聚类算法,就平均值而言,基本蚁群聚类算法分别为0.544和0.734,改进蚁群聚类算法分别为0.645和0.798;对于总偏离误差,改进蚁群聚类算法相比基本蚁群聚类算法在Iris和Zoo数据集下分别下降了32.058和24.926。

(3)对于改进蚁群聚类算法下我国2004-2014年间水资源短缺风险聚类结果,运用正态分布建立分级阈值。基于31个省市自治区,浙江、江西、安徽、福建、湖北、湖南、广东、广西、四川、贵州、云南、西藏、新疆、青海和黑龙江的水资源短缺风险低,重庆的水资源短缺风险中等,北京、天津、河北、山西、内蒙古、上海、山东、江苏、河南、海南、宁夏、陕西、甘肃、辽宁和吉林的水资源短缺风险高;基于七大区域,华中和西南地区低,华东、华南和西北地区中等,华北和东北地区高,而我国目前整体处于中等状态。

[1] 夏 军,翟金良,占车生.我国水资源研究与发展的若干思考[J].地球科学进展,2011,26(9):905-915.

[2] 李九一,李丽娟,柳玉梅,等.区域尺度水资源短缺风险评估与决策体系——以京津塘地区为例[J].地理科学进展,2010,29(9):1 041-1 048.

[3] 王洪瑞,钱龙霞,许新宜,等.基于模糊概率的水资源短缺风险评价模型及其应用[J].水利学报,2009,40(7):813-821.

[4] 廖 强,张士峰,陈俊旭.北京市水资源短缺风险等级评价与预测[J].资源科学,2013,35(1):140-147.

[5] 许应石,李长安,张中旺,等.湖北省水资源短缺风险评价及对策[J].长江科学院院报,2012,29(11):5-10.

[6] 张中旺,周 萍.基于主成分分析的襄阳市水资源短缺风险评价[J].中国农学通报,2016,32(2):92-98.

[7] 周长春.黄河下游引黄灌区水资源短缺风险下承载力分析[J].地理与地理信息科学,2009,25(5):89-92.

[8] 张学霞,武鹏飞,刘奇勇.基于空间聚类分析的松辽流域水资源利用风险评价[J].地理科学进展,2010,29(9):1 032-1 040.

[9] 党丽娟,徐 勇.水资源承载力研究进展及启示[J].水土保持研究,2015,22(3):341-348.

[10] 刘思峰,蔡 华,杨英杰,等.灰色关联分析模型研究进展[J].系统工程理论与实践,2013,33(8):2 041-2 046.

[11] 孙玉刚.灰色关联分析及其应用的研究[D].南京:南京航空航天大学,2007.

[12] 裴振奎,李 华,宋建伟,等.蚁群聚类算法研究及应用[J].计算机工程与设计,2008,29(19):5 009-5 014.

[13] 夏天扬.蚁群算法在聚类分析中的应用研究[M].武汉:武汉理工大学,2010.

[14] 李泓泽,郭 森,王 宝.基于遗传改进蚁群聚类算法的电力客户价值评价[J].电网技术,2012,36(12):256-261.

[15] 张 伟.基于因子分析的安徽省水资源承载力评价[J].节水灌溉,2012,(9):11-14.

[16] 杨 燕,王全根,黄 波.蚁群聚类算法的并行化设计与实现[J].控制工程,2013,20(3):411-414.

[17] 唐东明,朱清新,杨 凡,等.一种有效的蛋白质序列聚类分析方法[J].软件学报,2011,22(8):1 827-1 837.

[18] 龚艳冰,刘高峰,冯兰萍,等.江苏省水资源短缺风险的相似云评价方法研究[J].长江流域资源与环境,2015,24(6):931-936.

[19] 凌子燕,刘 锐.基于主成分分析的广东省区域水资源紧缺风险评价[J].资源科学,2010,32(12):2 324-2 328.

猜你喜欢

聚类水资源算法
《水资源开发与管理》征订启事
2019年河南省水资源公报(摘录)
基于K-means聚类的车-地无线通信场强研究
Travellng thg World Full—time for Rree
进位加法的两种算法
加强水文水资源勘测合理开发利用水资源
水资源配置的现状及对策初探
基于高斯混合聚类的阵列干涉SAR三维成像
一种改进的整周模糊度去相关算法
基于Spark平台的K-means聚类算法改进及并行化实现