APP下载

支持向量机在水资源类综合评价中的应用
——以全国31个省级行政区水资源合理性配置为例

2013-03-15崔东文

水资源保护 2013年5期
关键词:合理性水资源函数

崔东文

(云南省文山州水务局,云南 文山 663000)

1 研究背景

水资源类综合评价问题可分为水资源开发利用评价、合理性配置评价、承载能力评价、水旱灾害评价、水生态环境评价、水资源管理有效性评价以及水资源紧缺度、水安全、用水水平、水资源可再生能力等的评价[1],其评价过程具有多指标、高维、非线性的特征,评价结果对水资源规划、管理及保护具有重要意义。目前,此类综合评价常用的方法有模糊集理论方法[2-3]、人工神经网络方法[4-7]、灰色系统理论法[8]、数理统计方法等等,但由于水资源类综合评价是一个复杂巨系统,涉及水资源条件、经济、环境和水资源管理等多个方面,评价指标众多,对评价指标的筛选与权重的赋值普遍采用层次分析、Delphi等方法[1],存在明显的主观臆断成分。水资源类综合评价并不适宜建立常规数学模型,只能借助诸如人工智能、模糊识别、知识工程等方法建立模型,以处理多指标系统的综合评价问题[9]。模拟智能方法目前已成为建立和评价这类复杂系统最为有效的途径之一,而人工神经网络(artifical neural network,ANN)则是这类智能算法中运用最为广泛的算法之一。ANN具有较强的非线性映射能力、鲁棒性、容错性和自适应、自组织、自学习等许多特性,适宜解决高维、非线性系统问题,是此类算法中运用最为广泛的算法之一,将ANN运用于水资源类综合评价中,存在两个关键性问题:①统一完善的评价指标体系和分级标准。目前具有统一完善的评价指标体系和分级标准的水资源类综合评价相对较少,如水质综合评价、湖库营养状态评价等,其余多无较为统一完善和普遍认同的评价指标和分级标准,需要参考相关文献进行构建[1];②有效解决神经网络由于“欠拟合”与“过拟合”所导致的网络泛化能力降低的问题[10]。由于网络在训练过程中常出现的两种状态:“欠拟合”和“过拟合”,二者均会使网络的泛化能力下降。网络“欠拟合”表示模型无法完全探测到复杂数据集中的信号,使得训练达不到预期的评价或预测精度。网络“过拟合”表示模型会将信号连同噪声一起进行拟合,使得模型“记住”了训练样本的信息而使网络泛化能力降低,得不到理想的评价或预测精度[10-11],目前,理论上尚无较好解决网络训练过程中由于“欠拟合”和“过拟合”导致泛化能力降低的方法。ANN中常见的几种网络均或多或少地存在缺陷或不足,如:BP网络(back-propagation network,BP) 存在着学习收敛速度慢、易陷入局部极值等不足,为克服BP算法中的不足,学者们提出基于附加动量、自适应调整参数、弹性方法、拟牛顿法、共轭梯度法以及Levenberg-Marquardt等的改进算法[12-14],但在实际应用中仍不能完全克服BP算法固有的缺陷。针对传统BP算法的固有缺陷,目前普遍采用增加隐含层数或运用遗传算法(genetic algorithm,GA)对BP网络权值及阈值进行优化,以期提高网络的预测精度。然而增加隐含层数或运用GA优化网络权值及阈值面临着复杂的隐含层、相关参数、编码等的选取困难以及早熟收敛问题[10],且均不能较大地改善网络泛化能力。Elman网络是一种典型的动态神经元网络,网络结构及算法比之BP有着较大改善,但由于Elman网络是在BP网络的基础上改进而来,也采用BP算法进行权值修正,因此同样存在着学习速度较慢,易陷入局部极小值等缺点。RBF网络(radial basis function neural network,RBF)虽然有着良好的非线性逼近能力和精度,但RBF径向基函数和隐含层神经元中心的选取是制约其精度提高的主要因素。PNN网络(probabilistic neural networks,PNN)主要用于模式识别,在用于预测或识别时,由于其采用的平滑参数,使得预测精度或识别能力不高。GRNN网络(generalized regression neural network,GRNN)具有良好的泛化性能和逼近能力,但用于预测分析时,由于GRNN平滑因子难以确定,对网络的预测性能影响较大。以上网络均在一定程度上影响了ANN在水资源类综合评价中的精度和泛化能力。支持向量机(support vector machine,SVM)是20世纪90年代中后期发展起来的基于统计学习理论构建的典型神经网络[15-16],它由Vapnik首先提出,是一种通用的前馈神经网络,用于解决模式分类和非线性映射问题。SVM具有严谨的数学基础,通过统计学习中的VC维(vapnik-chervonenkis dimension)理论和寻求结构风险最小化原理来提高泛化能力,已成为继ANN之后机器学习领域新的研究热点,其三大优势决定了它在机器学习领域有着举足轻重的地位:①SVM以最小结构风险代替传统BP等网络的经验风险,求解的是一个二次寻优问题,理论上得到全局最优,解决了传统BP算法中难于克服的局部极值缺陷;②SVM拓扑结构由支持向量决定,弥补了BP等网络结构难以确定的不足;③SVM决策函数由少数的支持向量确定,计算的复杂程度取决于支持向量的数目,而不是样本空间的维数,避免了“维数灾”问题。

针对上述问题及原因,笔者参考相关文献[1],以全国31个省级行政区水资源合理性配置为例,基于SVM基本原理和交叉验证(cross validation,CV)方法,提出一种通用的CV-SVM水资源类综合评价方法,采用随机内插的方法在各评价分级标准阈值间生成训练样本和检验样本,选用决定系数R2,以及平均绝对误差eMAE、均方根绝对误差eRMSE、平均相对误差eMRE、均方根相对误差eRMAPE以及最大相对误差emaxRE6个统计学指标,对SVM、GA-BP、RBF以及BP网络模型进行性能评价,以控制网络训练过程中的“欠拟合”和“过拟合”问题,在达到预期的评价精度后将模型运用于水资源类综合评价中,并认为,在训练样本、检验样本的R2足够大,eMAE、eRMSE、eMRE、eRMAPE和emaxRE足够小,且满足训练样本、检验样本的各统计学指标相近时,认为模型具有较好的泛化能力,此时可将该模型应用于该类水资源综合评价。

2 支持向量机(SVM)

SVM应用于回归时,其基本思想不再是寻找最优分类面将样本分开,而是寻找一个最优超平面,使得所有训练样本离该最优超平面距离最短,这个超平面可看作拟合好的曲线。SVM类似于一个3层前馈神经网络,其隐层节点数对应于输入样本与一个支持向量机的内积核函数,输出节点数对应于隐层输出的线性组合[15-16]。SVM神经网络结构参见文献[17]。

f(x)=wTΦ(x)+b

(1)

式中:Φ(x)为非线性映射函数;w为超平面的权值向量;b为偏置项。

定义ε线性不敏感损失函数为

(2)

式中:f(x)为回归函数返回的预测值;y为对应的真实值;ε为不敏感损失函数所定义的误差。

(3)

式中:C为惩罚因子,C越大表示对训练误差大于ε的样本惩罚越大;ε规定了回归函数的误差要求,ε越小,表示回归函数的误差越小。求解式(3)时,同时引入Lagrange函数,并转换成对偶形式:

(4)

(5)

(6)

式中,Nnsv为支持向量机个数。

将w*、b*代入式(1)得到回归函数为

(7)

研究表明,只要满足Mercer条件的对称函数即可作为SVM核函数,常用的核函数主要类型有线性核函数(K(x,xi)=xTxi)、多项式核函数(K(x,xi)=(γxTxi+r)p,γ>0)、径向基核函数(K(x,xi)=exp(-γ‖x-xi‖2),γ>0)和两层感知核函数(K(x,xi)=tanh(γxTxi+r))。核函数可以看成是实际问题的特征提取过程,核函数的合理选取有助于提高模型精度。SVM模型选择主要有两个步骤,一是核函数的选择,二是SVM本身的两个参数以及所选取的核函数所对应的参数[18-19]。本文选择径向基核函数为SVM的核函数。

3 水资源合理性配置综合评价

3.1 评价指标

水资源配置是指在流域或特定区域范围内,通过工程与非工程措施,利用系统分析方法、决策理论和计算机技术,统一调配水资源,协调各区域、各部门之间的利益与矛盾,使有限的、不同形式的水资源在各用水户之间进行科学分配,以提高区域整体的用水效率,保障区域水资源的可持续开发利用,促进区域经济社会的可持续发展[1,7,20-21]。水资源配置的目的是在抑制需求与增加供给之间找到平衡点。水资源合理性配置综合评价是在水资源现状配置的基础上,遵循公平、高效、合理的准则,从经济、社会、生态、效率及水资源开发利用5个方面综合研究水资源在区域内不同属性和不同作用的生产、生活、生态用水的满足程度及分配合理性,并对在现状配置和规划配置条件下产生的综合效益进行评价,由此判断现状水资源配置的合理性与否及未来规划水平年配置结果合理性变化趋势[1]。

表1 区域水资源合理性配置评价指标

表2 水资源合理性配置评价指标分级标准

注: 文献[1]中水资源合理性配置评价指标标准分为水资源丰水区、短缺区和平衡区。本文基于可比性原则,采用水资源平衡区评价标准。

对水资源合理性配置进行综合评价,首先必须确定一套评价指标[1],只有确定了恰当的评判标准,才能科学地评判各区域水资源配置成果的合理性,开展水资源配置成果的评比和择优。笔者综合考虑反映水资源合理配置的社会、经济、生态环境、效率和开发利用5个层面,依据相关文献[1,22],选取缺水率等13个指标作为评价因子,对区域水资源配置合理性进行综合评价。合理性配置评价指标体系及分级标准见表1~2。

表2将水资源合理性配置指标评价标准量化分级,每个指标分为11个等级,从1到11级别依次递减,即1级表示为水资源配置合理性最优,11级为最差,其余相互对应[1,22],并以1~11作为标准等级1级~11级的期望输出。

3.2 综合评价的实现

3.2.1指标数据标准化处理

为了消除表2中各评价指标不同量纲对评价结果的影响,需对评价指标数据进行标准化处理。由于用水GDP、河道内生态用水比例、水功能区达标率、农业灌溉水利用系数、工业用水重复利用率和人均用水量6个指标值均为其值越大则合理性越优,而其他指标的取值正好相反,即相应的值越小则合理性越优,因此,需对评价指标作一致性处理,对于标准值越大其合理性越优型指标按式(8)进行归一化处理:

(8)

对于标准值越小其合理性越优型指标按式(9)进行归一化处理:

(9)

3.2.2训练及检验样本设计

为不失一般性,采用随机内插的方法在各评价分级标准阈值间生成30个样本,随机选取20个样本作为训练样本,10个作为检验样本,以此计算共随机内插得到330个样,其中220个作为训练样本,110个作为检验样本。为使各评价指标具有相同的权重以及能够尽可能涵盖实际各评价指标范围,依据表2,规定以各评价指标上限的10倍和下限的0.1倍(极大与极小值)作为限值对各指标进行标准化处理。

3.2.3SVM等模型设计

本文基于MATLAB环境,构建CV-SVM、传统BP、GA-BP及RBF水资源合理性配置综合评价模型。以表2中各评价因子作为输入向量,即输入层神经元个数为13个;以各等级对应的期望输出作为输出向量,即输出层的神经元数为1个,构建13输入1输出的评价模型。本例经反复调试,在下述参数搜索范围及设置条件下,CV-SVM、传统BP、GA-BP及RBF模型具有较好的评价性能。

CV-SVM模型:惩罚因子C和核函数参数g的搜索空间均设置为2-2~210,K取值5,g和C的步进大小均取0.5,参考文献[17-18],利用CV法确定惩罚因子C和核函数参数g分别为22.6274、64(其他参数采用默认值)时CV-SVM模型性能达到最优。

传统BP模型:由于BP网络各隐层神经元数的选取,目前并没有统一的计算方法,本文采用目前较为普遍的Kolmogorv定理[12-13]确定隐层单元数,最终确定BP模型结构为13-17-1,隐含层和输出层传递函数分别采用tansig和purelin,训练函数采用traingdx,学习速率lr为0.05,设定期望误差为0.01, 最大训练轮回为2 000次。

GA-BP模型:基于公平原则,GA-BP模型的网络结构、隐含层和输出层传递函数、期望误差、最大训练轮回数等均与上述传统BP模型相同,在此条件下运用GA来优化BP神经网络的初始权值和阈值。GA参数设置为:种群规模为50,进化次数为100次,交叉概率为0.1,变异概率为0.05。

RBF模型:RBF神经网络人为调节的参数少,只有1个阈值,程序采取循环训练算法,最终确定RBF神经网络的SPREAD、期望误差和轮回次数分别为1.2、0.01时和1 000。

3.2.4模型性能评价

选用决定系数R2,平均绝对误差eMAE、均方根绝对误差eRMSE、平均相对误差eMRE、均方根相对误差eRMAPE以及最大相对误差emaxRE6个统计学指标对SVM、GA-BP、RBF以及BP网络模型进行性能评价,以控制网络训练过程中的“欠拟合”和“过拟合”问题。其中,R2范围在[0,1]内,其值愈接近1,表明模型的性能越好;其他评价指标越小,表明模型的性能越好。

(10)

(11)

(12)

(13)

(14)

(15)

由于训练样本和检验样本是采用随机内插生成,因此模型每次运行结果均不一样,采用某次随机连续运行5次的平均值作为CV-SVM、传统BP、GA-BP及RBF评价模型的对比试验结果,以此来评价网络性能的优劣,对比试验结果见表3。

表3 CV-SVM、传统BP、GA-BP及RBF评价模型对比试验结果

从各模型的决定系数R2、平均绝对误差eMAE、均方根绝对误差eRMSE、平均相对误差eMRE、均方根相对误差eRMAPE以及最大相对误差emaxRE6个统计学指标来看,无论是训练样本还是检验样本,模型的评价精度及性能优劣排序依次是:CV-SVM,GA-BP,RBF,传统BP。由此可以看出,CV-SVM评价模型具有较高的评价精度和较好的泛化能力,可以用于水资源类综合评价。本文基于模型的评价精度和泛化能力考虑,选取CV-SVM评价模型对全国31个省级行政区水资源合理性配置进行综合评价。

表4 全国各省级行政区评价指标特征值

4 实例应用

4.1 资料来源

以全国31个省级行政区水资源合理性配置为例进行实例分析(评价数据来源参见文献[1],见表4所示)。

4.2 评价结果及分析

利用CV-SVM模型对全国31个省级行政区水资源合理性配置进行综合评价,并将评价等级标准中的分级临界值进行“模拟计算”,将“模拟计算”结果作为划分水资源合理性配置等级的依据,并采用“最合理”等适当语言对评价等级进行定性描述,结果见表5~6。

分析表5、表6可以得出以下结论:

表5 水资源合理性配置分级临界值模拟结果(随机5次平均)

a. CV-SVM模型对全国31个省级行政区水资源合理性配置综合评价等级为3~8级,处于最合理~不合理之间,在相同评价标准下能客观反映各省区水资源合理性配置状况,评价结果可为水资源规划、管理及保护提供参考。CV-SVM模型从定性和定量两方面评价各省级行政区水资源合理性配置状态,从评价结果可以看出,本文所研究建立的CV-SVM评价模型和评价方法是合理可行的。

表6 2000年全国31个省级行政区水资源合理性配置综合评价结果(随机5次平均)

b. 从模拟结果及评价等级上看,各省级行政区水资源配置处于最合理(即3级)的有广西、上海和江苏;处于合理(即4~5级)的有江西、湖南、广东、海南、辽宁、四川、贵州陕西和青海;处于较合理(即6~7级)的有吉林、安徽、福建、湖北、云南、甘肃、宁夏、新疆、北京、天津、山西、内蒙古、重庆和西藏;处于不合理(即8级)的有河北、黑龙江、山东和河南。从全国分布来看,水资源配置处于最合理~合理之间的地区基本都分布在经济发达地区和水资源相对丰沛地区;处于较合理~不合理之间的地区基本都分布在华北、东北及部分西北和西南地区,此类地区主要在缺水率、用水GDP、水功能达标率及水资源开发利用率等方面表现较差,说明该类地区的水资源配置工作在体现社会公平性、经济合理性及生态协调性等方面存在诸多问题,配置结构有待调整和提高。

5 结 语

从评价标准和评价方法上简要分析了目前水资源类综合评价中存在的问题。针对目前ANN应用于水资源类综合评价中的缺点,基于SVM基本原理和特点,提出一种通用的CV-SVM水资源类综合评价模型,并构建GA-BP、传统BP及RBF模型作为对比模型。采用随机内插的方法在各评价分级标准阈值间生成训练样本和检验样本,选用决定系数R2等6个统计学指标对SVM、GA-BP、RBF以及BP网络模型进行性能评价,以控制网络训练过程中的“欠拟合”和“过拟合”问题。通过模型对比试验,证明了CV-SVM模型评价精度和评价性能均优于GA-BP、RBF和传统BP,表明研究建立的CV-SVM评价模型具有较高的评价精度和较好的泛化能力,可以用于水资源类综合评价。最后以全国31个省级行政区水资源合理性配置为例进行实例分析,获得了较为理想的评价效果。当然,SVM核函数、惩罚因子和核函数参数的合理选取是制约SVM进一步提高精度的关键性因素,采用遗传算法、粒子群算法,以及针对遗传算法可能存在着早熟收敛、易陷入局部极值等缺点提出的基于改进的多种群遗传算法、量子遗传算法和免疫遗传算法[11,23]对SVM核参数和误差惩罚因子进行优化,使SVM的识别精度得到更进一步的提高。

[ 1 ] 耿雷华,卞锦华,徐澎波,等.水资源合理配置评价指标体系研究[M].北京:中国环境科学出版社,2008.

[ 2 ] 张先起,梁川.基于熵权的模糊物元模型在水质综合评价中的应用[J].水利学报,2005,36(9):1057-1061.(ZHANG Xianqi,LIANG Chuan.Application of fuzzy matter-element model based on coefficients of entropy in comprehensive evaluation of water quality[J].Journal of Hydraulic Engineering,2005,36(9):1057-1061.(in Chinese))

[ 3 ] 陈守煜,柴春岭.区域水资源可持续利用评价的模糊可变评价方法[J].水利水电科技进展,2007,25(5):1-5.(CHEN Shouyu,CHAI Chunling.Fuzzy variable assessment method for sustainable utilization of regional water resources [J].Advances in Science and Technology of Water Resources,2007,25(5):1-5.(in Chinese))

[ 4 ] 崔东文,郭荣.基于GRNN模型的区域水资源可持续利用评价:以云南文山州为例[J].人民长江,2012,43(5):26-31.(CUI Dongwen,GUO Rong.Evaluation of sustainable utilization of regional water resources based on GRNN neural network model: case of Wenshan Prefecture of Yunnan Province[J].Yangtze River,2012,43 (5):26-31.(in Chinese))

[ 5 ] 崔东文.基于BP神经网络的文山州水资源承载能力评价分析[J].长江科学院院报,2012,29(5):9-15.(CUI Dongwen.Evaluation and analysis of water resources carrying capacity in Wenshan prefecture based on BP neural network[J].Yangtze River Scientific Research Institute,2012,29 (5):9-15.(in Chinese))

[ 6 ] 崔东文.RBF与GRNN神经网络模型在河流健康评价中的应用:以文山州区域中小河流健康评价为例[J].中国农村水利水电,2012(3):56-61.(CUI Dongwen.RBF and GRNN neural network model in the evaluation of river health[J].China Rural Water and Hydropower,2012 (3):56-61.(in Chinese))

[ 7 ] 崔东文,郭荣.基于概率神经网络的文山州水资源配置合理性评价分析[J].长江科学院院报,2012,29(10):63-67.(CUI Dongwen,GUO Rong.evaluation of rational water allocation based on probabilistic neural network:case study of Wenshan prefecture[J].Yangtze River Scientific Research Institute,2012,29 (10):63-67.(in Chinese))

[ 8 ] 谷红梅,郭文献,徐建新,等.区域水资源开发利用程度的灰色关联分析评价[J].人民黄河,2006,28(1):47-51.(GU Hongmen,GUO Wenxian,XU Jianxin,et al.Analysis and evaluation of water resources development and utilization degree of grey incidence area [J].Yellow River,2006,28 (1):47-51.(in Chinese))

[ 9 ] 金菊良,王文圣,洪天求,等.流域水安全智能评价方法的理论基础探讨[J].水利学报,2006,37(8):918-925.(JIN Juliang,WAN Wensheng,HONG Tainqiu,et al.Theoretical basis of intelligent evaluation methods of watershed water security[J].Journal of Hydraulic Engineering,2006,37 (8):918-925.(in Chinese))

[10] 施彦,韩力群,廉小亲.神经网络设计方法与实例分析[M].北京:北京邮电大学出版社,2009.

[11] 史峰,王辉,郁磊,等.MATLAB智能算法30个案例分析[M].北京:北京航空航天大学出版社,2011.

[12] 张德丰.MATLAB神经网络应用设计[M].北京:机械工业出版社,2009.

[13] 张良均,曹晶,蒋世忠.神经网络实用教程[M].北京:机械工业出版社,2008.

[14] 傅荟璇,赵红.MATLAB神经网络应用设计[M].北京:机械工业出版社,2009.10.

[15] VlADIMIR N V.统计学习理论的本质[M].张学工,译.北京:清华大学出版社,2000.

[16] 田景文,高美娟.人工神经网络算法研究及应用[M].北京:北京理工大学出版社,2006.

[17] 崔东文.支持向量机在湖库营养状态识别中的应用研究[J].水资源保护,2013,29(4):26-30.(CUI Dongwen.Application of support vector machine to lake and reservoir trophic status recognition[J].Water Resources protection,2013,29(4):26-30.(in Chinese))

[18] MATLAB中文论坛.MATLAB神经网络30个案例分析[M].北京:北京航空航天大学出版社,2010.

[19] 白鹏,张喜斌,张斌,等.支持向量机理论及工程应用实例[M].西安:西安电子科技大学出版社,2008.

[20] 王顺久,张欣莉,倪长键,等.水资源优化配置原理及方法[M].北京:中国水利水电出版社,2007.

[21] 杜守建,崔振才.区域水资源优化配置与利用[M].郑州:黄河水利出版社,2009.

[22] 崔东文.基于极限学习机的长江流域水资源开发利用综合评价[J].水利水电科技进展,2013,33(2):14-19.(CUI Dongwen.Comprehensive evaluation of water resources development and utilization in Yangtze River Basin based on extreme learning machine [J].Advances in Science and Technology of Water Resources,2013,33(2):14-19.(in Chinese))

[22] 雷德明,严新平.多目标智能优化算法及其应用[M].北京:科学出版社,2009.

猜你喜欢

合理性水资源函数
《水资源开发与管理》征订启事
二次函数
第3讲 “函数”复习精讲
二次函数
函数备考精讲
2019年河南省水资源公报(摘录)
新形势下新闻采访行为的合理性探讨
加强水文水资源勘测合理开发利用水资源
域外证据领事认证的合理性质疑
关于如何加强建筑设计的合理性问题探讨