APP下载

基于随机森林模型的区域洪涝灾害房屋倒损评估方法研究*

2018-07-12郭桂祯刘乃山

灾害学 2018年3期
关键词:降雨量灾害损失

郭桂祯,刘乃山

(民政部国家减灾中心,北京 100124)

洪涝灾害具有广泛性、普遍性和集中性等特点,发生频率高,影响范围广,造成损失重,严重威胁人类生存发展。全世界每年因洪涝灾害造成的伤亡人数超过全部因自然灾害伤亡人数的65%,造成的损失超过所有因自然灾害损失的30%[1]。我国大部地区降水时间分布不均,主要集中在主汛期(6-8月),每年全国各地都会发生不同程度的洪涝灾害,以南方山区洪涝灾害和城市内涝为主,给人民群众财产和生命安全造成巨大损失,尤其造成房屋损坏数量大,据民政部国家减灾中心数据统计,2006-2015十年间,我国洪涝灾害平均每年造成200多万间房屋不同程度受损[2],洪涝灾害已经成为人社会共同面临和关注的重大问题。

由于洪涝灾害的普遍性特点,对洪涝灾害损失的评估也成为国内外学者研究的重点内容,根据洪涝灾害的发展阶段,可以把洪涝灾害评估分为灾前(风险)评估、灾中评估和灾后(损失)评估;根据评估对象的不同,可以分为经济损失评估、农作物损失评估,房屋倒损评估和家庭财产损失评估[2]。由于洪涝灾害致灾因子复杂性和致灾方式的多样性,对洪涝灾害损失评估的方法研究也呈现多样性特点,主要包括回归分析、模糊数学、GIS空间分析和实验分析等方法[3-10]。方秀琴等建立了基于GIS的洪涝灾害风险评价模型,通过层次分析法对影响指标权重进行赋值,提取江西省基础地理数据,对洪涝灾害风险进行分级[11]。丁志雄等基于GIS空间分析技术建立了适用于淹没区的洪涝灾害损失评估模型,利用损失率计算公式对淹没区经济损失进行评估[12];葛鹏等改进传统的模糊数学方法,建立了洪涝灾害风险等级和损失等级评价数学模型,用于洪涝灾害风险评估[13];胡俊峰等建立了历史气象水文要素和灾情之间的洪涝灾害损失回归模型,用于洪涝灾害经济损失灾前预警评估和灾后损失评估[14]。

前人对多是定性、半定量对洪涝灾害损失进行评级或者用某种淹没区模型对财产、人员损失进行定量评估,很少涉及房屋倒损数量评估,而且评估模型使用范围有限。本研究在分析南方洪涝灾害特点的基础上,利用近年南方洪涝灾害样例数据,首次建立了基于随机森林方法洪涝灾害房屋倒损定量评估模型,对房屋损失进行定量计算,用于洪涝灾害灾前、灾中和灾后损失评估。

1 数据来源

本文章以2000年-2015年南方地区洪涝灾害分县房屋倒损数据为训练样本,我国南方地区每年5-8月汛期都会遭受不同程度洪涝灾害,主要以山洪灾害和涝灾为主,其中,山区多以山洪灾害为主,造成损失也最为严重。考虑到南方地区洪涝灾害的特点,本研究拟选取过程累计降雨量、日最大降雨量、地形指数和河网指数作为解释变量,以房屋倒塌和严重损坏数量为目标变量。

表1 数据来源

2 模型方法

2.1 随机森林方法

随机森林(Random Forest)是一种基于分类树(classification tree)[15]的算法。由于随机森林算法需要模拟和迭代,因此被归类为机器学习中的一种方法。经典的神经网络机器学习模型,已经有半个多世纪的历史了,具有广泛的适用性,预测也较为精确,但神经网络模型计算量很大,在大型计算中带来了不小的麻烦。1980年代,Breiman等人发明了分类和回归树(Classification and Regression Tree简称CART)算法,通过反复二分数据进行分类或回归,大大降低了计算量。2001年Breiman和Cutler把分类树组合成随机森林,即在变量(列)的使用和数据(行)的使用上进行随机化,生成很多分类树,再汇总分类树的结果[16-17]。随机森林模型在降低计算量的情况下明显的提高了精确度,因此,近年来广泛的应用到诸多领域,如水利、生态环境、医学、灾害学等[18-23],主要用于分析变量之间的关系。

除了拟合变量之间的关系,随机森林模型还能用于评价解释变量的重要性。解释变量重要性是指,某个变量越重要,其对预报结果的影响也越大。在构建随机森林各子预报模型构建过程中,总样本分为袋中样本和袋外样本两类[24],在评价某个解释变量的重要性时,模型会为该解释变量随机取值,采用原随机森林模型对检验样本进行再次预报,袋外拟合误差增加愈多,该解释变量愈重要,即通过袋外拟合误差增加量可用于定量评价解释变量重要性。

图1 随机森林模型结构

2.2 建立随机森林房屋倒损评估模型

本研究采用自助法( bootstrap) 重抽样技术,由随机向量θ生成k课随机树{h(X,θk),WK=1,…p},通过求k棵树的h(X,θk) 的平均值形成随机森林模型,本模型中,各随机森林的训练集相互独立,抽选随机向量 和 ,则预测向量h(X)的推广误差均方为:

EX,Y(Y-h(x))。

(1)

该随机森林模型的算法实现流程如下。

(1)原始数据样本含量为n,用bootstrap 方法有放回地随机抽取n个自助样本集,并由此构建b棵回归树,每次bootstrap 抽样未被抽到的样本组成了b个袋外数据( out-of-bag,OOB) ,这些袋外数据作为随机森林的测试样本。

(2)设原始数据的变量个数为p,在每一棵回归树的每个节点处随机抽取m个变量(m≪p), 作为备选分枝变量,然后在其中根据分枝优度准则选取最优分枝。p越大,随机森林模型过拟合效应越小;m越大,子预报模型间差异性越小。一般来说,p取值应较大,m取值应接近p的1 /3。

(3)每棵回归树开始自顶向下的递归分枝,设定叶节点的最大尺寸nodesize,以此作为回归树生长的终止条件。

(4)将生成的p棵回归树组成随机森林回归模型,回归的效果评价用袋外数据(OOB)预测的残差均方R2表示:

(2)

(3)

本研究中,设定回归树的最大数量为100,叶节点的最大尺寸为10,节点选取变量个数为2,袋外精度为0.01,经过训练生成的随机森林模型,袋外数据(OOB) 预测的残差均方为R2=0.915,模型精度达到预期效果。

表2 6月中下旬南方地区洪涝灾害损失统计

2.3 解释变量重要性排序

使用基于permutation随机置换的残差均方减小量进行对已构建随机森林模型中解释变量进行重要性评价,其具体过程为:

(1)每个自助样本建立一个回归树模型,同时使用该模型对相应的袋外数据OOB进行预测,得到b个袋外数据的残差均方,记为MSE1,MSE2,…,MSEb。

(2)变量Xi在b个OOB 样本中的随机置换,形成新的OOB测试样本,然后用已建立的随机森林对新的OOB进行预测,得到随机置换后的OOB残差均方矩阵:

(4)

(3)用MSE1,MSE2,…,MSEb与矩阵(4)对应的第i行向量相减,取平均之后,除以标准误差得到变量Xi的重要性评分,即

(5)

计算结果如图2所示。

图2 解释变量重要性排序

其中,1、2、3和4分别表示地形指数、河网指数,日最大降雨量和过程累计降雨量,根据重要性排序结果,过程累计降雨量对房屋倒塌和严重损坏数量的影响最大,因此,实际选取地形指数、河网指数和过程累计降雨量为解释变量。

3 模型验证

本文选取2016年6月中下旬南方地区洪涝灾害作为案例,验证房屋倒损评估随机森林模型的计算效果。

3.1 案例背景

2016年6月12-20日,南方地区出现强降雨天气过程,江南、华南多地降过程累计降雨量达100~200 mm,其中湖北西南部、江西东部及安徽南部等地区累计降雨量更是超过250 mm,强降雨造成江西、安徽、湖南、湖北、贵州5省1,200多万人受灾,因灾死亡67人,紧急转移安置人口78万余人;农作物受灾面积900 khm2左右,其中绝近200 khm2;房屋倒塌及严重损坏6.2万间;直接经济损失288亿元。

图3 2016年6月12-20日南方地区累计降雨量

3.2 计算结果

采用本文研究的房屋倒损评估随机森林模型对2016年6中下旬南方地区洪涝灾害房屋倒损数量进行计算,结果表2、表3所示。

表3 基于随机森林方法的灾害倒损房屋数量评估结果

分析表2、表3数据可知,除江西和湖北由于倒损房屋总数量偏小导致误差超过30%外,其他省份误差均控制在30%以内,总体误差也控制在30%以内,说明本文所研究的房屋倒损评估随机森林模型能够较为准确的计算洪涝灾害房屋倒损数量,较好的反应洪涝灾区的基本情况。

4 结论

洪涝灾害具有致灾因子多、灾害过程复杂等特点,客观上给损失评估造成了巨大的阻碍,本文通过建立房屋倒损评估随机森林模型,并用2016年6中下旬南方地区洪涝灾害对模型进行验证,得到如下结论:

(1)本研究所提出的随机森林评估模型能够有效的解决洪涝灾害的复杂性问题,且能够较为准确的评估洪涝灾害房屋倒损数量,较好的反应洪涝灾区的基本情况,为洪涝灾害损失评估方法研究提供了遵循。

(2)随机森林模型具有计算量小、精度高等特点,且适应性较强,因此在灾害损失评估领域具有较强的应用前景,不仅可以用于对灾害损失进行定量评估,还可以用于对灾害风险评价和灾害等级进行划分。

(3)样本数量对随机森林模型的影响比较大,样本数量的丰富可以提高模型的精确度,目前北方地区灾害事件样本较少,故未对北方地区洪涝灾害损失评估进行研究。在下一步研究中,重点结合北方洪涝灾害特点,搜集相关洪涝灾害样本数据,建立适合北方洪涝灾害特点的灾害损失评估随机森林模型。

猜你喜欢

降雨量灾害损失
河南郑州“7·20”特大暴雨灾害的警示及应对
来安县水旱灾害分析与防灾措施探讨
德州市多年降雨特征分析
胖胖损失了多少元
降雨量与面积的关系
蝗虫灾害的暴发与危害
玉米抽穗前倒伏怎么办?怎么减少损失?
地球变暖——最大的气象灾害
菜烧好了应该尽量马上吃
损失