APP下载

基于径向基神经网络耦合确定性指数的滑坡易发性分区研究

2021-11-09张庭瑜毛忠安孙增慧

长江科学院院报 2021年11期
关键词:易发缓冲区分区

张庭瑜,毛忠安,孙增慧

(1.陕西地建土地工程技术研究院有限责任公司 高标准农田建设研究室,西安 710075; 2.陕西省土地工程建设 集团有限责任公司,西安 710075; 3.陕西省土地工程建设集团有限责任公司 自然资源部退化及未利用土地整治 工程重点实验室,西安 710075;4.陕西省土地工程建设集团有限责任公司 陕西省土地整治工程技术研究中心, 西安 710075)

1 研究背景

滑坡是世界上危险性最高的地质灾害之一,我国每年因滑坡造成的人员伤亡和财产损失不计其数,如何有效预测滑坡发生的范围是滑坡防治工作的关键问题之一。滑坡易发性分区就是在空间尺度上预测滑坡可能影响的范围。合理的滑坡易发性分区可以为滑坡防治的决策者提供高效的判断依据,从而减少损失,降低伤亡。

随着地理信息系统(Geographic Information System,GIS)技术的不断发展,知识驱动型模型最先被用于制作滑坡易发性分区图(Landslide Susceptibility Map, LSM)[1-3]。此类模型原理相对简单,对数据要求较低,但会受到人为因素的干扰,导致滑坡易发性分区结果具有明显的差异性。统计学模型可有效避免人为因素的干扰[4-7],但无法有效解决变量之间相互依赖的问题,因此对滑坡易发性分区结果精度的提升较小。机器学习算法同样可有效避免人为因素的干扰[8-11],但输入数据的质量会对滑坡易发性分区的结果产生影响。因此,对滑坡易发性分区模型的挖掘和对比变得十分必要。

鉴于此,本文以陕西省汉中市城固县为研究区,基于野外实地调查的184个滑坡数据和地质环境背景资料,分别选取坡度、坡向、平面曲率、剖面曲率、高程、年平均降雨量、道路缓冲区、水系缓冲区、断层缓冲区、归一化植被指数(Normalized Difference Vegetation Index,NDVI)和地层岩组作为滑坡易发性分区建模的诱发因子,利用径向基神经网络模型(Radial Basis Function Neural Network, RBFNN模型)耦合确定性指数(Certainty Fctor, CF指数)构建一种混合模型,开展研究区滑坡易发性分区建模。采用受试者工作特征(Receiver Operating Characteristic, ROC)曲线对分区结果和模型进行对比评价,最终结果可为该地区的滑坡防治工作以及滑坡易发性研究提供有效的建议和参考。

2 研究区简介

城固县位于陕西省汉中市东侧,地理坐标介于107°03′E—107°30′E、32°45′N—33°40′N之间,南北长101 km,东西宽24 km,面积2 265 km2。城固县气候类型属北亚热带季风性气候,年平均气温为14.2 ℃,境内河流均属于长江流域汉江水系。年降雨总量平均约791.7 mm,降雨年内分配差异明显,7—9月份占全年降雨量的59%,且降雨常以连阴雨、暴雨形式出现,因此,区内的滑坡常在夏、秋季集中发生,研究区滑坡编录图见图1。

图1 研究区滑坡编录图Fig.1 Landslide inventory map of study area

城固县北部为秦岭区康县—略阳分区,属地槽型沉积,南部为扬子区大巴山分区,属准地台型沉积,地貌类型主要包括冲击平原区、低山丘陵区和中山区。研究区地层年代和岩性见表1。区内主要出露元古界—第四系地层,断裂自北至南依次有:马道—双溪断裂带(F1)、阳平关—洋县断裂带(F2)、海棠寺—七里店断裂带(F3)、峡口—白勉峡断裂带(F4)。新构造运动发生在喜马拉雅运动古构造的基础上,具有明显继承性,活动强烈,迹象明显,差异性活动幅度大。根据区内各类岩土体工程地质特征,按岩土体的结构、强度与滑坡的关系,将岩土体划分为5类:坚硬块状侵入岩类、坚硬中厚层-块状碳酸盐岩类、较坚硬互层状浅变质碎屑岩类、较软弱薄层状千枚岩类、第四系松散土类。研究区内的地下水类型主要包括基岩裂隙孔隙水、碳酸盐岩类岩溶裂隙水和松散岩类孔隙水。

表1 研究区地层年代和岩性Table 1 Lithological information of study area

3 数据源和研究方法

3.1 数据源

基于野外实际调查和研究区相关的研究资料,以层次性、系统性、独立性和代表性为原则,分别选取了高程、平面曲率、剖面曲率、坡度、坡向、道路缓冲区、水系缓冲区、断层缓冲区、年均降雨量和地层岩组作为研究区滑坡诱发因子。

本文采用的数据源有:① 30 m分辨率的数字高程模型(Digital Elevation Model, DEM),用于提取坡度、坡向、平面曲率、剖面曲率、高程因子图层;② 8 m分辨率的GF-1全色遥感影像,用于提取NDVI因子图层;③ 1992—2012年间的平均降雨量统计数据,用于制作年均降雨量因子图;④ 1∶250 000地质图,用于制作地层岩组和断层缓冲区因子图层;⑤ 研究区路网、水系矢量图形,用于制作道路缓冲区和水系缓冲区因子图层。

3.2 数据预处理

根据野外调查数据,研究区内共发育184处滑坡,其中堆积层滑坡182处,岩质滑坡2处。滑坡的最大面积为5.4×105m2,最小面积为68 m2,平均面积为2.14×104m2,滑坡总面积仅占研究区总面积的0.07%。鉴于此,本文利用质心法将184处滑坡图斑转换为滑坡点,70%(127)的滑坡点作为训练数据训练模型,30%(57)的滑坡点作为测试数据,对模型和结果进行评估(见图1)。

3.3 研究方法

3.3.1 RBFNN模型

RBFNN模型是一种具有三层结构的前馈式神经网络(见图2)[12]。RBFNN模型的三层网络结构使其具有结构简单、收敛速度快等优势,并且可以以一定的精度逼近任意的非线性函数,避免模型陷入局部最小值缺陷。

图2 RBFNN神经网络结构图Fig.2 Structure of RBFNN

图2中X=[x1,x2,…,xm]T为输入向量,表明有m个输入神经元被包括在整个网络内;Y=[y1,y2,…,ym]T为输出向量,代表有m个神经元被输出;有m个隐含层中心的隐含层基向量由H=[h1,h2,…,hm]T表示;权值向量由W=[w1,w2,…,wm]T代表。假设X=[x1,x2,…,xm]T为输入样本,Ci=[ci1,ci2,…,cim]T为第i个节点的中心矢量,i=1,2,…,m。那么高斯函数可以表示为

其中bi为第i个节点的基函数的宽度,bi>0。则第j个神经元的输出表示为

(2)

以下为RBFNN模型的建模流程。假设输入样本(xp)和输出样本(dp)共有p组(p=1,2,…,L),那么误差目标函数为

(3)

式中:dp为样本的期望输出向量;yp为输入向量下的输出向量[13]。

3.3.2 确定性指数

确定性指数CF通常被用来分析滑坡诱发因子与滑坡发育之间的关系,可以通过构建判断函数来计算[14]。

(4)

式中:PPa表示在诱发因子分级范围内滑坡发生的概率,可由分级范围内滑坡所占的面积与分级面积之比得到;PPs则表示整个研究区内滑坡发生的先验概率,可由研究区内滑坡所占的面积与研究区的面积之比得到。

3.3.3 多重共线性问题

在进行分类建模时,诱发因子之间可能会存在高度的相关性,即多重共线性问题。由于多重共线性问题会导致模型分类的结果失真,所以对诱发因子进行多重共线性问题检测是十分必要的。本文采用Pearson相关性系数(Pearson Correlation Coefficient,PCC)来定量检测各诱发因子之间的多重共线性问题,同时定量反映各诱发因子之间的相关性。PCC值越高,表明诱发因子之间的相关性越强,当PCC>0.7时,说明诱发因子之间存在多重共线性问题,需要排除造成影响的诱发因子[15-16]。

3.3.4 信息增益率

信息增益率(Information Gain Ratio, IGR)是通过规范化信息增益来反映滑坡诱发因子对模型贡献程度的指标[17]。假设随机变量X取有限个值,那么变量X的概率分布为

P(X=xi)=pi,i=1,2,3,…,n。

(5)

则X的熵可以表示为

(6)

系统中信息的不确定性是由熵来描述的,但系统在某些特殊的情况下并不需要这些不确定性。为了消除这些不确定性,需要把一个特征x增加进系统,降低系统的熵,从而消除系统中的不确定性。当特征x被固定为值xi,特征X的整体分布情况被固定时,其条件熵为

(7)

其中,特征X中所出现的所有种类的数量用n表示。信息增益就是在特征X被固定后系统减小的不确定度,其表达式为

log2p(c|x=xi)=H(c)-H(c|X) 。

(8)

数据子集(X1,X2,…,Xn)所产生的n个分区的分裂信息为

然后以信息增益率作为决策树的分裂准则,则类别标识c上划分的信息增益率为

(10)

3.3.5 受试者接受特征曲线

受试者接受特征曲线是一种可有效对比和评估滑坡易发性分区的方法。ROC曲线以1-特异度(1-specificity)作为横轴,敏感度(Sensitivity)作为纵轴绘制,通过曲线下的面积规一化(AUC)来判断模型的优劣以及分区结果的精度[18]。AUC的计算方法如下:

(11)

(12)

(13)

式中:TP、TN分别表示被正确分类的滑坡与非滑坡数量;FN、FP分别表示被错误分类的滑坡与非滑坡的数量。一般来讲AUC<0.5表明模型不具有分类能力,且分区结果无价值;0.8>AUC>0.7表明模型的分类能力较强,所得到的分区结果较为可信;AUC>0.8表明模型具有优秀的分类能力,并且分区结果的精度较高[19]。

4 结 果

4.1 滑坡诱发因子提取

提取滑坡诱发因子是建立滑坡易发性分区模型的前提,本文基于已获得的数据源,利用GIS软件提取研究区的滑坡诱发因子。随后基于自然间断点法,按照表2对提取处的滑坡诱发因子进行分级和可视化(图3)。

4.2 确定性指数计算结果和诱发因子量化

本文基于训练样本,计算了每一个滑坡诱发因子各分级区间对应的CF指数(表2)。CF指数越大,对应的诱发因子分级区间与滑坡发生的内在联系越强;反之,CF指数越小,对应的诱发因子分级区间与滑坡发生的内在联系越弱。从表2可以看出,在高程为452~750 m的范围内CF指数最高(0.436),说明研究区内的滑坡主要发育在此范围内。从坡度因子的CF指数计算结果来看,当坡度介于10°~20°之间时,CF指数最高(0.371),且对应的PPa最高(40.945),随着坡度的增大,滑坡的分布数量降低。当坡向位于南东-南西之间时,CF指数为正,且坡向为南时对应的CF指数最高(0.319)。CF指数在平面曲率和剖面曲率分别处于-0.50~0.31和0.32~1.60区间内最高。CF指数与道路缓冲区、水系缓冲区和断层缓冲区呈反比趋势,说明滑坡的发育与道路、水系和断层有着紧密的内在联系。此外,从年均降雨量的计算结果来看,当年均降雨量介于1 100~1 200 mm之间时CF指数最高(0.659),CF指数与年均降雨量之间不存在线性关系,这是由于研究区内的短时集中降雨所造成的。当NDVI位于0.48~0.63范围内时,CF指数最低(-0.867)。另外,当地层岩组分组为8时CF指数最大(0.452)。

表2 滑坡诱发因子分级和CF指数计算结果Table 2 Classification of landslide’s triggering factors and calculated result of CF

图3 研究区滑坡诱发因子分级Fig.3 Mapping of landslide’s triggering factors

基于计算得出的CF指数,利用GIS软件对每一种滑坡诱发因子进行量化,最终得到基于CF指数量化的训练数据集1和测试数据集1,用于构建混合模型。同时基于每一种滑坡诱发因子自身的属性值,得到训练数据集2和测试数据集2,用于构建RBFNN模型。

4.3 多重共线性问题检测结果

通过计算滑坡诱发因子对应的PCC值定量检测诱发因子之间是否存在潜在的多重共线性问题,分别计算了每一种滑坡诱发因子的PCC值,并得到了滑坡诱发因子的Pearson相关性矩阵。从结果(表3)可以看出,坡度因子与剖面曲率因子之间的PCC值最高(PCC=0.402),说明这2种因子之间的相关性较强。但所有滑坡诱发因子之间的PCC值都不大于0.7,表明因子之间不存在多重共线性问题,因此保留所有的诱发因子参与后续建模。

4.4 诱发因子优选结果

滑坡诱发因子的优选对滑坡易发性分区有着重要的意义。本文分别基于训练数据集1和训练数据集2,利用10-折交叉验证法计算了每一个滑坡诱发因子的信息增益率的平均值(Average Merit, AM)。当诱发因子的信息增益率的平均值为0时,表明该诱发因子对模型无贡献。因此,为了避免干扰,需要将此因子排除,不参与后续建模。通过计算得到训练数据集1和训练数据集2中滑坡诱发因子信息增益率的平均值,从表4可以看出,在训练数据集1和训练数据集2中,所有滑坡诱发因子信息增益率的平均值均不等于0,并且对应的标准差<0.01,表明所有诱发因子对模型都有贡献。因此,训练数据集1和训练数据集2中全部的滑坡诱发因子都被保留并参与后续建模。

表3 滑坡诱发因子的Pearson相关性矩阵Table 3 Pearson correlation matrix of landslide’s triggering factors

表4 训练数据集中滑坡诱发因子信息增益率的平均值Table 4 Average merit of information gain ratio of landslide’s triggering factors in training dataset

4.5 研究区滑坡易发性分区

本文利用训练数据集1作为RBFNN模型的输入数据,构建出了混合模型(RBFNN-CF模型),模型输出的后验概率即为滑坡易发性指数(Landslide Susceptibility Index, LSI),且输出范围为0.000~1.000。随后在GIS软件中采用等间隔法将LSI分割为0.000~0.200、 0.200~0.400、 0.400~0.600、 0.600~0.800、 0.800~1.000这5个区间,分别对应极低易发区、低易发区、中易发区、高易发区和极高易发区,并且统计了5个区间的面积占比(表5)。

表5 滑坡易发性分区面积占比统计Table 5 Percentages of landslide susceptibility areas

最后生成研究区滑坡易发性分区图(Landslide Susceptibility Map, LSM)(图4(a))。

利用训练数据集2作为RBFNN模型的输入数据,构建RBFNN模型,并计算LSI。在GIS软件中同样采用等间隔法将LSI分割为0.000~0.200、 0.200~0.400、 0.400~0.600、 0.600~0.800、 0.800~1.000这5个区间,分别对应极低易发区、低易发区、中易发区、高易发区和极高易发区。最后生成对应的研究区滑坡易发性分区图(图4(b))。

图4 研究区滑坡易发性分区Fig.4 Landslide susceptibility mapping of study area

4.6 结果评估与模型对比

本文分别基于训练数据集和测试数据集绘制ROC曲线(图5),并测量曲线下的面积(AUC),用以定量评价和对比2种模型生成的滑坡易发性分区的精度。从图5(a)可以看出,RBFNN-CF模型的AUC值同样最大(0.745),并且标准差最小(0.047),而RBFNN模型的AUC为0.693,标准差为0.052。

图5 研究区滑坡易发性分区模型的ROC曲线Fig.5 ROC curves of landslide susceptibility areas

基于测试数据集绘制ROC曲线(图5(b)),并测量曲线下的面积,用以定量评估2种模型的泛化性。从图5(b)结果可以看出,RBFNN-CF模型的AUC值最大(0.828),并且标准差最小(0.027),说明RBFNN-CF模型生成的滑坡易发性分区精度最高。而RBFNN模型的AUC为0.759,标准差为0.031。说明RBFNN-CF模型的泛化性强于RBFNN模型的泛化性。

5 讨 论

关于输入数据对滑坡易发性分区的影响,目前尚没有一个统一的结论。尽管现阶段已有基于CF指数构建混合模型进行滑坡易发性分区的研究,但这些研究所使用的模型均为统计学模型[20-22]。由于统计学模型本身对输入数据的依赖性较高,所以常常会导致结果失真。而本文采用的RBFNN模型具有非线性拟合能力、泛化性、记忆能力强等诸多优点,通过对比分析利用训练数据和测试数据绘制的ROC曲线,发现RBFNN-CF模型的泛化性以及对滑坡的分类能力均强于RBFNN模型的泛化性以及对滑坡的分类能力。

滑坡的发生受到多种诱发因子的影响。从诱发因子的CF指数计算结果来看,研究区内的滑坡主要发育在高程为452~750 m且坡度介于10°~20°的区域内,并且随着高程和坡度的增加,滑坡的分布数量呈减少的趋势。造成这种现象的原因可能是由于研究区内大量修建公路,导致大部分低海拔地区的斜坡坡脚被人工开挖,从而形成软弱临空面所导致的。从道路缓冲区的CF指数计算结果也可以看出,距离道路越近,CF指数越高。此外,剖面曲率的CF指数在区间-0.58~1.60之间为正,并且在该区间内,坡度的变化最快,因而容易诱发滑坡。

由于研究区的地貌类型属于黄土丘陵沟壑区,地形破碎,沟谷十分发育,这也导致滑坡在空间中的分布十分复杂,仅利用滑坡诱发因子的原始属性作为建模数据,难以体现诱发因子与滑坡之间的内在联系。而CF指数是基于研究区特有的地质环境背景,通过构建判断函数来计算的,这可有效地挖掘诱发因子与滑坡之间的内在关系。并且从结果(图5)可以看出,利用CF指数量化诱发因子所构建出的混合模型,对于滑坡分类能力和泛化性明显强于RBFNN模型的分类能力和泛化性,这也印证了利用CF指数耦合RBFNN模型的可行性。

从表6可以看出,RBFNN模型中的高和极高易发区面积占比超过了40%,会降低滑坡防治决策的效率。而RBFNN-CF模型中的高和极高易发区面积占比约为20%,处于一个较为合理的区间内,同时也提升了滑坡防治决策的效率。

但需要注意的是,RBFNN模型的解释性差,在数据优选的过程中容易出现病态现象,因此在今后的研究中应对建模输入数据的前期优化以及模型参数的调整进行深入的研究。

6 结 论

本文以陕西省汉中市城固县为研究区,选取了11种滑坡诱发因子构建指标体系,通过计算滑坡诱发因子的CF指数,在滑坡诱发因子优选的基础上,构建了混合模型(RBFNN-CF),分别利用RBFNN-CF模型和RBFNN模型对研究区进行滑坡易发性分区。利用ROC曲线下的面积(AUC)对模型的分类能力和滑坡易发性分区的精度进行了对比和评估,所得结论如下。

(1)研究区内的滑坡主要发育在高程为452~750 m,坡度介于10°~20°,年均降雨量介于1 100 ~1 200 mm之间的区域内,并且越靠近水系和道路的区域,滑坡的数量越多。

(2)RBFNN-CF模型的AUC值大于RBFNN模型的AUC值,且对应的标准差小于RBFNN模型的标准差,RBFNN-CF模型在滑坡易发性分区中表现最优,是一种值得推广的滑坡易发性分区模型。

(3)本文所制作的滑坡易发性分区图可以为当地滑坡防治的决策者提供参考,也可为相关的研究提供参考。

猜你喜欢

易发缓冲区分区
机用镍钛锉在乳磨牙根管治疗中的应用
贵州省地质灾害易发分区图
上海实施“分区封控”
夏季羊易发疾病及防治方法
冬季鸡肠炎易发 科学防治有方法
浪莎 分区而治
基于网络聚类与自适应概率的数据库缓冲区替换*
关键链技术缓冲区的确定方法研究
基于SAGA聚类分析的无功电压控制分区
基于多种群遗传改进FCM的无功/电压控制分区