APP下载

基于随机森林算法的湖北省水资源承载力评价模型及其应用

2020-09-14陆佳慧

湖北农业科学 2020年13期
关键词:湖北省指标体系

陆佳慧

摘要:依据PSR框架建立水资源承载力评价指标体系,以指标阈值为依据构造随机样本,在此基础上应用随机森林算法对湖北省水资源承载力进行评价。结果表明,随机森林能够很好地拟合指标因子与水资源承载力等级之间的关系,训练模型精度高,方案可操作性强,具有一定应用性;随机森林算法能无偏识别变量重要性,其中需水模数与供水模数是湖北省水资源承载力的关键影响因素,应予以重点防控;湖北省水资源承载力空间分布不均,鄂西地区和咸宁市水资源承载力为良好级,鄂东和鄂中地区为一般等级,以武汉市为核心的江汉平原地区属较差级,建议加强水资源分区管理,以促进水资源涵养能力与经济社会同步发展。

关键词:随机森林算法;水资源承载力;指标体系;湖北省

Abstract:An assessment system of water resources carrying capacity indicator was constructed according to pressure-state -response (PSR) framework, and the random samples were constructed based on index threshold. On this basis, the random forest algorithm was applied to evaluate the water resources carrying capacity in Hubei province. The results showed that the relationship between the index factors and the water resource carrying capacity could be well fitted by the random forest with a high accuracy. The scheme was of good maneuverability and certain application value. The random forest algorithm can recognize the importance of variable unbiased, and the research showed that the modulus of water demand and the modulus of water supply were the key factors affecting the carrying capacity of water resources in Hubei province. The spatial distribution of water resources carrying capacity in Hubei province was uneven. The carrying capacity of water resources in western Hubei and Xianning areas was of good grade, while that of eastern Hubei and middle Hubei was generalgrade. The Jianghan plain area with Wuhan as the core belonged to poorgrade. It was suggested that regional management of water resources should be strengthened to promote the development of water resources conservation ability and economic society synchronously.

Key words: random forest algorithm; water resources carrying capacity; indicator system; Hubei province

水是人与自然赖以存续的基质,在全球气候变化与人类文明迅速发展的背景下,水资源问题较多且形势严峻,成为影响区域乃至全球可持续发展的限制因素之一。自然条件下水资源量及质量分布受水循环过程与环境梯度影响产生时空变异,加之人居生产生活对水资源攫取过度与不合理开发造成了水质退化、水环境恶化、水资源短缺和水体污染逐渐扩展,严重影响了经济社会与环境协调、平衡演替。厘清区域水资源本底概况及其供应能力,为经济布局、人居规划、资源利用提供信息基础,也是当前水生态文明建设的任务之一。

对于水资源承载力的量化研究,学者们主要采用指标提取-综合评判的方法,相应地提出了多元统计、系统动力、模糊数学和神经网络等评判方案[1]。需要指出的是,常规方法普遍存在不足,一是指标数据噪声或专家估值易造成赋权和评价分级可靠性的争议,二是指标间共线性使指标体系信效度降低而影响了评价的准确性[1,2]。为此,提出应用随机森林(Random forest)機器学习算法。该方法避开了从归纳到演绎的传统过程,对噪声数据具有较好的鲁棒性且对多元线性关系不敏感,还能有效防止过拟合[3],作为人工智能的优秀算法之一,其在模式识别、概率测算、函数逼近和回归等问题应用中取得了良好的效果[4]。鉴于此,以湖北省为案例区,旨在分析探讨基于随机森林算法的水资源承载力评价流程,以期为省域水资源综合评判和空间优化管理提供参考依据。

1 数据源与研究方法

1.1 研究区与数据源

湖北省地处华中亚热带季风气候区,区域降水量丰富(800~1 600 mm),河川径流长度达5.92万km,水资源总量达825.28亿m3(2011年)。全省河湖众多而水资源时空分布不均,时间上集中于夏、秋季节,空间主要分布于鄂西、鄂东山地;江汉平原地区存在水质污染等问题。

以湖北省的17个地级单位为评价对象,依据水资源承载力评价指标体系(表1),从《中国统计年鉴》《湖北统计年鉴》中提取相关指标数据,考虑到数据的平稳和现势性,取2011—2015年数据的平均值。

1.2 水资源承载力评价指标体系分级标准

基于水生态系统的完整性选取可量化的指标,进而实施综合评判,是当前水资源承载力研究的主流方法之一。水资源承载力客体具有结构性、要素关联性等特点,指标因子不仅要能体现区域资源禀赋和生态要素现状,还要能反映人类扰动和自然环境过程与水资源数量、水环境容量之间的互馈。目前有关水资源承载力的指标难以统一,其中PSR(Pressure-State-Response)框架以决策者思维阐释水资源系统整体性、动态性和多维性[5],对生态评价模型中的指标确定具有普适意义。遂以该框架将水资源承载力逐层划分为压力、状态、响应维度,结合区域现状,构建了湖北省的水资源承载力评价指标体系(表1)。该方法以系统动力学和分层理念定量描述水资源-经济社会-生态环境三大子系统的内在联系。

分级标准是对水资源承载力进行准确评价的关键,指标既要能反映水资源承载力的渐进演替规律,还应具有公开性、统一性。虽然国内外學者展开了大量研究,但出于水资源承载力区域性的特点,尚未形成具有通用性的阈值范式。鉴于此,以《湖北省工业与生活用水定额》、国际水安全标准[6]以及其他学者研究经验[1,2],确定了湖北省水资源承载力指标分级阈值(表1)。将其划分为5个等级:理想(Ⅰ),表征水环境优越,能够提供充分承载能力;良好(Ⅱ),表示水环境系统受轻微破坏,易于修复,水资源状况乐观、开发潜力大;一般(Ⅲ),表示水环境系统受到破坏,质量脆弱,尚可维持基本服务功能;较差(Ⅳ),表示水环境系统质量堪忧、支撑能力明显退化,只能维持部分功能;极差(Ⅴ),表示其严重退化,恢复非常困难,难以提供生态承载与社会服务功能。

1.3 基于随机森林的评价模型设计

应用随机森林算法实施水资源承载力评价,关键在于依据水资源承载力分级标准构建其与指标系统中的单一指标间的模式规则,在Rstuido环境下其具体流程如下。

Steep 1:依据评价标准,应用R软件中的runif函数在各等级标准区间随机生成200组样本数据,共计样本1 000组;对于样本期望输出,以1、2、3、4、5分别表示水资源承载力等级。

Steep 2:从1 000组样本中随机选取700组作为训练样本,另外300组为独立验证样本;13个指标数据为输入向量,5个期望值为输出向量,通过Random forest函数进行网络训练。

Steep 3:算法中的出包错误率(Out-of-bag error,OOB error)为模型精度的衡量,对于敏感参数mtry和ntree的选择,通过网格搜索法观察OOB error随参数的变化进行优选。如图1所示,当mtry为4时,OOB error最小;当ntree大于600时,OOB error较小而趋于稳定,遂将其确定为最优参数。

Steep 4:以湖北省17个市水资源承载力指标原始数据为输入变量,将训练好的模型代入并拟合,输出各市水资源承载力分级值,并按四舍五入法归类[7],以评价水资源承载力等级。

Steep 5:为了解算法可适性,采用决定系数(R2)、均方根误差(RMSE)、平均绝对误差(MSE)对训练样本和独立样本的拟合结果进行评价[8]。通常,R2接近于1,RMSE、MSE接近于0时,表明算法拟合度高。由表2可知,训练样本的R2为0.996,RMSE与MSE均较小,验证样本R2为0.975,RMSE、MSE为0.074、0.015,表明该算法可靠,可用于对目标样本的预测。训练模型存在一定误差,将其代入验证样本进行测试时,由于误差传递而精度降低,故验证样本的精度略小于训练样本。但总体来看,基于随机森林算法的水资源承载力评价模型具有一定应用性。

2 结果与分析

2.1 湖北省水资源承载力评价结果

基于前述方法,对湖北省17个市水资源承载力进行预测,将输出值归类后于ArcGIS10.3平台上进行空间可视化,如图2所示。湖北省水资源承载力呈现一定空间聚集性,鄂西地区的神农架、恩施、十堰、宜昌等地和咸宁属于良好级别(Ⅱ),表明该地区水资源涵养能力与经济社会发展结合较好,水资源开发潜力大。鄂西地区自然生态环境较好,河流发育密集,水资源蕴藏丰富,而该区人口分布稀疏、产业发展滞后,故用水压力较小,水资源供应充足。江汉平原的武汉、潜江、仙桃、天门、孝感等地的水资源承载力为较差(Ⅳ)级别,这些地方水环境受到一定破坏,水资源可再生能力难以维继经济社会发展。这是由于该区人均国土空间狭小、地表产流利用相对不足,同时作为省域经济核心、人口密集区,区域用水需求量大,因而水资源开发潜力、供需状况不乐观。鄂东(黄冈、黄石)和鄂中(襄阳、荆门、随州、荆州)地区的水资源承载力为一般水平(Ⅲ),表明区域水资源基本能够支撑经济社会发展,但承载力脆弱,对此应加强水资源优化配置与水环境保护。

2.2 水资源承载力指标边际效应分析

图3为水资源承载力与各指标因子间的边际效应,图中横坐标为影响因素的变化范围,纵坐标为边际效应函数(f)。由图3可知,水资源承载力与其影响因子之间并非简单的线性关系,随着指标数值变化,水资源承载力对其条件期望呈阶梯状变化。边际效应函数变化趋势表明,水资源承载力与需水模数(A2)、水资源开发利用率(A3)、万元GDP耗水量(A4)、日生活用水定额(A5)和万元GDP排污量(A6)5项因子呈负相关,与其他因子呈正相关,这与表1中各指标属性描述相一致。边际函数在不同区间的线性斜率反映了水资源承载力影响因子期望值的大小,有助于理解指标因子对水资源承载力的影响。

2.3 水资源影响因素分析

随机森林模型基于bootstrap抽样生成决策树的算法克服了多重共线性、数据噪声的影响,能良好规避水资源承载力評价指标因子间的相关性或不符合正态分布等问题,因而对影响因子重要性的估计是无偏的[4]。图4为水资源承载力对各指标的MDG重要性分值。可知,供水模数(A8)和需水模数(A2)的MDG值最大,分别为0.686、0.657,表明其是湖北省水资源承载力的关键影响因子;万元GDP排污量(A6)、日生活用水定额(A5)、水资源开发利用率(A3)、森林覆盖率(A9)、人均水资源量(A1)、污水处理率(A12)和产水模数(A7)的MDG值次之,介于0.602~0.644,对水资源承载力有较大影响;而其他因子的MDG值较小。

3 结论

依据水资源与经济社会、环境之间的系统动力反馈,选出13项指标因子构建水资源承载力评价指标体系,尝试将随机森林算法应用于湖北省水资源承载力评价中,并详述了随机森林原理及其应用过程,得出结论如下。

1)随机森林算法能够良好地拟合水资源承载力指标数据与水资源承载力相应等级值之间的规律,从而实现智能评价;该算法结构简易、调参量少、拟合精度高,在R平台上可操作性强,具有一定应用意义。

2)随机森林以组合树算法深入挖掘数据内部之间多维复杂关系,从高维特征空间识别与水资源承载力密切相关的主要变量,实现对影响因素重要性的无偏估计。研究表明,供水模数和需水模数是湖北省水资源承载力的关键影响因子。

3)湖北省水资源承载力呈空间聚集性特征,鄂西地区和咸宁水资源承载力最好,为良好等级;鄂东和鄂中地区处于一般水平;以武汉为中心的江汉平原地区水资源承载力属较差级别。鉴于此,应当加强省域水资源分区管理和科学规划。

参考文献:

[1] 王建华,翟正丽,桑学锋,等. 水资源承载力指标体系及评判准则研究[J]. 水利学报,2017,48(9):1023-1029.

[2] 朱一中, 夏 军, 谈 戈. 关于水资源承载力理论与方法的研究[J]. 地理科学进展, 2002,21(2):180-188.

[3] BREIMAN L. Random forests[J]. Machine learning,2001,45(1):5-32.

[4] 方匡南,吴见彬,朱建平,等. 随机森林方法研究综述[J]. 统计与信息论坛,2011,26(3):32-38.

[5] WOLFSLEHNER B,VACIK H. Evaluating sustainable forest management strategies with the Analytic Network Process in a Pressure-State-Response framework[J].Journal of environmental management, 2008, 88(1):1-10.

[6] 徐元凤.  ISO发布关于水安全的国际专题组协议[J]. 中国标准化,2008(6):78-78.

[7] 吴 敏,温小虎,冯 起,等. 基于随机森林模型干旱绿洲张掖盆地地下水水质评价[J]. 中国沙漠,2018,38(3):1-7.

[8] SABATIA C O,BURKHART H E. Predicting site index of plantation loblolly pine from biophysical variables[J]. Forest ecology & management, 2014, 326:142-156.

猜你喜欢

湖北省指标体系
浅谈公路统计指标体系的构建
层次分析法在生态系统健康评价指标体系中的应用
供给侧改革指标体系初探
城镇排水系统量化指标体系研究
春风化雨 深入浅出——记湖北省优秀理论宣讲员龙会忠
湖北省将取缔1136座非法矿山
湖北省将再添6座长江大桥
湖北省今年将建成农村公路1.5万km
测土配方施肥指标体系建立中‘3414
土地评价指标体系研究