APP下载

基于频率比-随机森林模型的滑坡易发性评价

2021-01-08邓念东崔阳阳郭有金

科学技术与工程 2020年34期
关键词:易发滑坡灾害

邓念东,崔阳阳,郭有金

(西安科技大学地质与环境学院,西安 710054)

滑坡是中国山地丘陵地区一种常见的地质灾害,严重威胁着区域基础设施和人员的安全。根据中国地质环境监测院《2018年全国地质灾害通报》显示,2018年全国共发生滑坡1 631起,造成112人死亡,直接经济损失达14.7亿元。因此,开展滑坡易发性研究,预测区域滑坡发生的概率,已成为当前地质灾害防治领域内的研究热点。总体上而言,滑坡易发性可概括为:在一定的时空领域内,在一系列地质环境因素的耦合作用下,发生滑坡的可能性[1-3]。近年来,中外众多学者开始研究滑坡易发性,从其所采用的研究方法来看,可大致分为三种类型:统计学模型、机器学习模型和耦合模型。

王文俊等[4]基于GIS(geographic information system)平台,采用模糊综合评判法开展四川省珙县崩塌、滑坡易发性研究,其研究结果与实际情况较为吻合。石松菊等基于RS(remote sensing)与GIS平台,采用空间信息量法,以鄂西清江流域隔河岩水库库区为例开展库区滑坡易发性研究,结果显示73.17%的已知滑坡分布于滑坡高易发区内,表明研究结果的准确性较高[5]。许冲等[6]基于层次分析法,在汶川震后灾区滑坡遥感解译的基础上进行滑坡易发性研究,该研究为汶川震后重建、减轻未来可能遭受的滑坡灾害提供了可靠的依据。郭靖[7]以黔西玄武岩地区为例,采用二元逻辑回归模型进行滑坡易发性研究,结果表明83.23%的滑坡位于极高(高)易发区,评价结果与滑坡分布基本一致,验证了研究结果的可靠性。Bi等[8]以三峡库区为研究区,在实地调查、统计分析的基础上采用人工神经网络模型进行滑坡易发性研究。Regmi等[9]采用双变量模型对尼泊尔震后灾区滑坡易发性展开研究,结果显示模型的预测率为0.87,表明该模型的预测结果与滑坡数据吻合度较高,研究结果可为震后灾区防灾减灾提供参考依据。郝国栋[10]基于GIS平台,以商南县为研究区,采用随机森林算法开展滑坡易发性研究,研究结果可为滑坡风险管理和城市规划提供科学依据。

尽管中外学者针对滑坡易发性展开了一系列研究,也取得了诸多成果,如研究的层次逐渐明朗、滑坡影响因子的选取逐渐规范化等。但在研究方法的选择上仍存在一定的不足之处,如长期依靠单一模型[11-12]。基于此,以陕西省洋县为研究区,采用统计学模型——频率比(frequency ratio, FR)、机器学习模型——随机森林(random forest, RF)及两者的耦合模型(FR-RF)进行滑坡易发性研究。进而探索不同类型的模型及其耦合模型在滑坡易发性研究中的表现差异。研究结果可为研究区防灾减灾提供参考借鉴。

1 研究区概况

洋县位于陕西省南部,地处秦巴山区,地质灾害频发。地理位置为东经107°11′~108°33′,北纬33°03′~33°43′。东西长92.8 km,南北宽72.7 km,总面积3 206 km2。全县地势呈东北高陡,南部低平,区内最高海拔2 951 m,最低海拔234 m。地貌可分为中山区、低山区、丘陵区和河谷阶地区四类。洋县属于北亚热带内陆性季风气候,多年平均气温14.5 ℃。境内河流众多,均为长江水系,其中主要以汉江、湑水河、溢水河及其支流水系为主。区内构造活动频繁,构造形迹交织复杂,以复式背斜、向斜为主,岩层中小褶曲较为发育,断裂构造多为陡倾斜的走向断层。据2018年陕西省地质灾害详查结果显示,研究区在册滑坡115处,研究区地理位置及滑坡分布如图1所示。

2 研究模型

2.1 频率比模型

首先引入滑坡易发性研究中常用的统计学模型——频率比模型来进行滑坡易发性分区研究。频率比的概念可简要概括为:某一因子分类区间内滑坡像素占所有滑坡像素百分比与该区间像素占研究区所有像素百分比的比值。简而言之,频率比是通过因子分类区间的滑坡比除以面积比获得[13-14]。当比值大于1时,表明该因子区间有利于滑坡发生。当比值小于1时,表明该因子区间不利于滑坡发生。当比值等于1时,表明难以判断。由于频率比模型概念简单;操作方便;计算结果通俗易懂,因而被广泛应用于滑坡易发性研究中。频率比计算公式如式(1)所示。

(1)

式(1)中:n为因子分类区间的数量;NLSpix为因子分类区间内滑坡像素的数量;NCpix因子分类区间像素的数量。

图1 研究区地理位置以及滑坡灾害点分布Fig.1 Geographical location and landslide points distribution of the study area

2.2 随机森林模型

随机森林模型是当前研究中最为常用的一种集成机器学习模型,归属于Bagging类型。该模型通过组合多个弱分类器,进而通过投票或取平均值的方法使模型分析结果具有较高的精确度和泛化性能[15]。随机森林采用分类回归树作为其弱分类器,该弱分类器的优点在于:当数据集的因变量为连续型数值时,该树算法就是一个回归树,可以用叶节点观察的均值作为预测值;当数据集的因变量为离散型数值时,该树算法就是一个分类树,因而可以很好的解决分类问题。总体上来看,随机森林模型具有以下优点:①训练速度快,可以在大规模数据分析中运用;②由于采用了集成算法,其精度比大多数单一算法高;③由于随机性的引入,使得模型不容易陷入过拟合;④能够处理高维度数据,并且不用做特征选择,对数据集的适应能力强:既能处理离散型数据,也能处理连续型数据,数据集无需规范化。

3 数据来源与分析

3.1 数据来源

用到的数据主要有滑坡点数据和各滑坡影响因子图层数据。其中滑坡点数据从2018年陕西省地质灾害详查库内获取。高程、坡度、坡向、地形起伏度和曲率5种滑坡影响因子由分辨率为30 m×30 m分辨率的数字高程模型(DEM)影像在ArcGIS软件提取获得。距水系距离在1∶50 000的水系图中获取。距道路距离在91卫图助手中全国矢量路网数据库中获得。降雨量通过研究区气象站获得原始数据,并在ArcGIS软件中插值分析获取。岩土体类型通过1∶200 000区域地质图获得。各滑坡影响因子图层如图2所示。

3.2 滑坡影响因子共线性分析

在进行滑坡易发性研究前最重要的一步就是分析因子间的相关性,因子间是否相关及其相关性的大小都将直接影响到研究结果的准确性。因此,本文采用皮尔森相关系数(Pearson correlation coefficient,PCC)来分析因子间的相关性,PCC绝对值越大,说明因子的相关性越强。假设有样本数据集(Xi,Yj)=(x1,y1), (x2,y2),…,(xn,yn),则评价因子间相关系数的计算公式为

(2)

当0≤∣PCC∣≤0.3时,表明因子不相关;当∣PCC∣>0.3时,表明因子强相关。因子共线性分析结果如表1所示。从表1中可以看出,所有因子间相关系数的绝对值均小于0.3,即各因子是相互独立的。

4 滑坡易发性研究

将研究区统一划分为像素尺寸为30 m×30 m的评价单元,共计3.56×106个。在ArcGIS软件中提取各滑坡灾害点与研究区所有评价单元的滑坡影响因子属性值,并建立研究区滑坡影响因子属性数据库。

图2 滑坡影响因子图层Fig.2 Layers of landslide conditioning factors

表1 滑坡影响因子间的相关系数

4.1 频率比模型

根据式(1)计算研究区所有滑坡影响因子分组的频率比值,如表2所示。并将其累加得到滑坡易发性指数(landslide susceptibility index, LSI),最终通过计算所得LSI区间为[2.37, 17.32]。其值越大,表示发生滑坡的概率越大。相反,其值越小,表明发生滑坡的概率越小。采用自然间断点法将其易发性等级划分为五类,分别为极低易发区[2.37,5.19)、低易发区[5.19, 7.24)、中易发区[7.24, 9.38)、高易发区[9.38, 11.69)、极高易发区[11.69, 17.32],生成的滑坡易发性分区如图3所示。其中,极高-高易发区占研究区面积的32.37%,其内滑坡数量占滑坡总数量的73.91%,研究结果表明频率比模型所绘制的滑坡易发性分区图与现有滑坡灾害点一致性较高,该模型适用性较好。

表2 滑坡影响因子分组频率比值

4.2 随机森林模型

将滑坡灾害点与随机选取且数量相同的非滑坡灾害点组成总训练样本集,从总训练样本集中随机选取70%的滑坡灾害点与非滑坡灾害点,共计162组数据作为训练样本集,其余的作为测试样本集。基于R-studio软件平台,利用随机森林模型训练样本集进行学习,再将学习得到的模型用于测试样本集,得到模型的预测率为86.63%。随后将研究区属性数据库带入训练好的模型中,得到基于随机森林模型的滑坡灾害易发性指数(LSI),其区间为[0, 0.97]。采用自然间断点法将其易发性等级划分为五类,分别为极低易发区[0, 0.12)、低易发区[0.12, 0.28)、中易发区[0.28, 0.45)、高易发区[0.45, 0.63)、极高易发区[0.63, 0.97],生成的滑坡易发性分区,如图4所示。其中,极高-高易发区占研究区面积的30.69%,其内滑坡数量占滑坡总数量的76.52%。对照频率比模型分区结果可知,随机森林模型所划分的极高-高易发区较频率比模型划分的极高-高易发区面积小,但其包含了更多的滑坡灾害点。表明随机森林模型较频率比模型在滑坡易发性研究领域内有更好的适用性。

图3 基于频率比模型的滑坡易发性分区图Fig.3 Landslide susceptibility map based on frequency ratio model

图4 基于随机森林模型滑坡易发性分区图Fig.4 Landslide susceptibility map based on random forest model

4.3 频率比与随机森林的耦合模型

将式(1)求得的FR值作为输入数据代入随机森林模型进行学习,最终得到耦合模型的预测率为90.10%。然后利用该耦合模型对整个研究区滑坡灾害易发性进行预测,并得到研究区滑坡易发性指数(LSI),其区间为[0, 0.99]。同样采用自然间断点法将其易发性等级划分为五类,分别为极低易发区[0, 0.14)、低易发区[0.14, 0.33)、中易发区[0.33, 0.52)、高易发区[0.52, 0.68)和极高易发区[0.68, 0.99),生成的滑坡易发性分区如图5所示。其中极高-高易发区占研究区面积的30.08%,其内滑坡数量占滑坡总数量的78.26%。对比上述两个模型分析结果可知,耦合模型所划分的极高-高易发区面积最小,其所包含的滑坡灾害点最多。表明耦合模型较单个模型在滑坡易发性研究领域内有更高的准确性。

图5 基于频率比与随机森林耦合模型的滑坡易发性分区图Fig.5 Landslide susceptibility map based on FR-RF model

5 模型的检验与对比

采用ROC(receiver operating characteristic)曲线对三种模型的性能进行检验与比较,用AUC(area under curve)值分别表示各模型的预测率,得到各模型预测率曲线如图6所示。频率比模型(FR)、随机森林模型(RF)和频率比与随机森林的耦合模型(FR-RF)预测率曲线的AUC值分别为0.833、0.863和0.901。结果显示三种模型在本研究中均表现良好,其中FR-RF模型的预测率最高,其预测精度高于单一模型,表明耦合模型在滑坡易发性研究中的优异性能。

图6 研究模型预测率曲线Fig.6 The prediction rate curves of evaluation models

6 结论

分别采用FR模型、RF模型及FR-RF模型对陕西省洋县的滑坡易发性进行研究,得到如下结论。

(1)基于研究区地质环境特征与前人研究经验,选取了高程、坡度、坡向、地形起伏度、曲率、距水系距离、距道路距离、降雨量和岩土体类型9个滑坡易发性影响因子,并绘制图层,将各影响因子可视化处理。

(2)采用皮尔森相关系数对各滑坡影响因子间的相关性进行分析。结果显示,各影响因子间相关系数的绝对值均小于0.3,表明各因子是相互独立的。

(3)FR模型、RF模型及FR-RF模型所划分的在极高-高易发区占整个研究区的面积百分比依次为32.37%、30.69%和30.08%。各极高-高易发区内滑坡数量占滑坡总数量的百分比依次为73.91%、76.52%和78.26%。表明FR-RF模型所划分的极高-高易发区更为合理,区内滑坡分布更加集中。

(4)采用ROC曲线对三种模型的性能进行检验与比较,FR模型、RF模型及FR-RF模型预测率曲线的AUC值分别为0.833、0.863和0.901,表明随机森林模型的预测精度较频率比模型高,且两者耦合模型的预测精度最高。

猜你喜欢

易发滑坡灾害
河南郑州“7·20”特大暴雨灾害的警示及应对
2001~2016年香港滑坡与降雨的时序特征
机用镍钛锉在乳磨牙根管治疗中的应用
贵州省地质灾害易发分区图
夏季羊易发疾病及防治方法
滑坡推力隐式解与显式解对比分析——以河北某膨胀土滑坡为例
冬季鸡肠炎易发 科学防治有方法
千年蝗虫灾害的暴发成因
蝗虫灾害的暴发与危害
地球变暖——最大的气象灾害