APP下载

基于信息量模型和信息量-逻辑回归模型的海南岛中部山区地质灾害易发性研究

2022-05-16信薛桂澄柳长柱夏南杨永鹏杨峰王晓林常振宇

地质力学学报 2022年2期
关键词:信息量易发百分比

李 信薛桂澄柳长柱夏 南杨永鹏杨 峰王晓林常振宇

1.海南省海洋地质资源与环境重点实验室,海南 海口 570206;

2.海南省地质调查院,海南 海口 570206

0 引言

地质灾害易发性是指在一定地质环境背景下发生地质灾害概率的大小 (Guzzetti et al., 2005; 罗元华等, 1998)。地质灾害易发性评价经历了从专家经验和地貌制图的定性模型到概率统计和机器自主学习的定量模型的转变,随着3S技术的快速发展,基于GIS的信息量法(许英姿等, 2016)、确定性系数法(许冲等, 2010)、证据权法(杨华阳等, 2020)、熵值法(赵东亮等,2021)、逻辑回归法(何宝夫和张加桂, 2012)、神经网络法(胡涛等, 2019)、Newmark模型(程小杰等, 2017)、频率比(齐信等, 2017)、层次分析法(杜国梁等, 2016)等的定量评价模型在地质灾害评价中得到了广泛的应用。Singh et al.(2021) 采用信息量模型对印度喜马偕尔邦巴努帕里-贝里地区开展了滑坡易发性区划,对滑坡细分后的评价效果更佳。罗路广等(2021)利用确定性系数和逻辑回归模型对九寨沟景区地质灾害易发性进行了划分,分区结果与实际情况吻合度较好。李远远等(2018)利用确定系数法和支持向量机的耦合模型,对云南省怒江州泸水县进行了地质灾害易发性评价,取得了较高的准确率。田春山等(2016)基于确定性系数法与logistic回归模型耦合的方法对广东省地质灾害易发性评价进行了有益的尝试。信息量模型是基于原始数据,对地质灾害发育规律进行定量化处理,能够客观准确地评价地质灾害易发性的单一模型;而信息量-逻辑回归模型则对每种因子进行了独立性检验,并对地质灾害贡献大小进行定量化运算并排名,使过程、结果定量化。两种模型都有自身的优点和不足,对于不同研究区每种研究方法的精度也有差异。

地质灾害易发性评价能否取得良好的效果,不仅需考虑分析模型的准确性,还取决于地质环境背景、影响因素与地质灾害之间的相关性。文章在研究五指山市地质环境条件的基础上,选取断裂、岩土体、坡度、地形起伏度、海拔高程变异系数、NDVI、降雨量、水系、公路、曲率值10项影响因子,采用定量化高的信息量模型和信息量-逻辑回归模型对研究区进行地质灾害易发性评价研究,为五指山市后续开展地质灾害风险评价、危险性评价、地质灾害防治和监测预警提供科学依据。

1 研究区概况

五指山市位于海南中南部五指山腹地,以市区为中心,其地貌呈盆地、山状,地势逐渐向四周升高。东部、东南部、中北部及西北部为山区,面积约1050 km2,占总面积的92.9%,平均海拔约800~1867.1 m;中南部、东南部为山涧洼地,海拔300~500 m,坡度较缓,河流、水库、小溪较多,地表植被较为稀少。五指山属于热带山区气候,30年年均降雨量多集中在1704~2240 mm之间,降雨集中于5~10月的汛期,总降雨量约占全年的85%。五指山水系纵横,分布大小河流约120条,最大水系为昌化江,其在市内的流域面积为746 km2,占全市总面积的66.1%。地层主要有白垩系(K)、志留系(S)和长城系(Ch),白垩纪、侏罗纪、三叠纪、二叠纪的花岗岩大面积分布于五指山中部,占全市面积的92%。五指山市处于华南褶皱系五指山褶皱带中南部,构造主要是断裂构造,发育有东西向、北东向和南北向三组断裂带(图1)。

图1 地质条件背景及区位图Fig.1 Geological background and location of the study area

2 研究方法

信息量模型作为易发性评价最为常用的方法,能将地质灾害各影响因素定量化,在很大程度上避免主观因素的干扰,并能够较好地解决因子内部不同特征分级对地质灾害易发性的影响;信息量-逻辑回归模型作为典型的二元线性耦合模型,能有效解决因子间的相互独立性和差异性问题,将致灾因子间复杂的非线性关系采用简单的线性回归来刻画,对地质灾害发生概率的程度或差异进行定量化。文章基于详实的致灾因子数据、合理的数理统计方法和空间分析统计手段建立评价模型,能准确快速地得出评价结果,通过对比单一模型和耦合模型在评价过程中的差异,分析结果的精度、敏感性,选出满足研究区地质灾害易发性、危险性评价需求的评价模型。

2.1 信息量模型

信息量模型通过收集变形破坏区的实际地质灾害数量和地质灾害影响因素,计算各影响因素对破坏变形的影响值,来作为分区的量化指标(臧丽萍等,2018)。信息量模型作为反映地质灾害发育规律的定量模型,方法简单易行,在地质灾害易发性评价中得到了广泛运用。文章通过把反映区域稳定性因素的影响实测值换算成信息量值作为易发性区划的量化指标,对地质灾害易发性程度进行划分。

式中:I为评价单元总的信息量值,体现了单元破坏的可能性,n为因子数;H为地质灾害数;S为已知总单元数;N为破坏的单元总数;Si为指标xi的单元个数;Ni为指标xi的破坏单元数。当I越大,越有利于发生变形破坏,表明地质灾害发生的概率越大(陈毅等, 2017;李信等,2022)。

2.2 信息量-逻辑回归模型

逻辑回归作为一种基于二项分类的回归分析模型,能广泛应用于针对定性变量的不确定性和复杂性进行有效准确的预测。在地质灾害评价过程中,该模型以地质灾害发生或不发生作为因变量(Y),取值分别为1或0,以致灾因子为自变量(xn),通过建立逻辑回归方程来确立地质灾害发生的概率(P)。该模型中自变量可以是连续的也可以是离散的,不需要满足正态的频率分布。逻辑回归函数表达式为:

式中P为地质灾害发生概率,范围为0~1;βn为逻辑回归系数,β0为逻辑回归常数项;xn为地质灾害因子信息量值,n为因子数量。将信息量模型计算得到的评价因子各级的信息值作为逻辑回归的自变量,将是否发生地质灾害作为因变量(张峰等, 2019)。该模型利用SPSS软件对10项因子进行独立性检验、共线性诊断,然后进行二项逻辑回归分析,得到各影响因子的回归系数和因子权重。在此基础上建立逻辑回归方程,进行地质灾害易发性评价,最后利用样本外地质灾害进行结果验证,利用ROC曲线(受试者工作特征曲线)对评价模型敏感度进行预测(覃乙根等,2020)。

3 数据及评价因子

3.1 数据来源

五指山市境内有各类地质灾害点237处,其中崩塌178处、不稳定斜坡51处、滑坡8处(图2)。全部237处地质灾害点累计威胁人口3578人,威胁财产10229万元。已发生地质灾害点来自于地质灾害详查项目(表1)。通过Arcgis随机生成点功能生成的非地质灾害点902处和现有地质灾害点198处组成1100个总训练样本(图3),以此来满足逻辑回归法对样本空间的要求;利用近2年内发生的39处地质灾害点作为测试样本来检验评价结果的合理性,并最终讨论比较两种模型的适用性和准确性。

图2 地质灾害分布图Fig.2 Distribution map of geohazards

图3 样本点分布图Fig.3 Sample distribution

表1 数据来源统计(夏南等,2014)Table 1 Statistics of data sources (Xia et al,2014)

3.2 评价因子

地质灾害的发生受地质条件、地形地貌、地表覆盖、水文环境和外界环境因素等孕灾条件因子的控制和影响,因此文中将这5类孕灾条件作为地质灾害易发性评价研究的大类指标,大类指标分别包含地质条件的断裂、岩土体指标,地形地貌的坡度、地形起伏度、高程变异系数、曲率,地表覆盖的NDVI,水文环境的水系因子指标以及外界因素的降雨因子和公路因子,并对各因子进行分级(图4),数值分级区间采用半开半闭区间来表示。

3.2.1 断裂

断裂周围应力作用频繁和剧烈,易形成破碎的岩层和裂隙发育的结构面,易发展成地下水通道,使得斜坡结构面更容易软化形成滑移面而导致地质灾害的发生(秦宇龙等,2021)。如图4a所示,地质灾害百分比在0~4000 m内随着缓冲距离的增大而增多,表明地质灾害的发生受断裂发育程度的影响,因此,将断裂分级为0~1000 m、1000~2000 m、2000~3000 m、3000~4000 m、4000~5000 m、>5000 m。

3.2.2 坡度

坡度对地质灾害的发生起着重要作用,坡度的大小决定了地表松散物质位移和形成地质灾害的可能性大小,也在很大程度上决定了斜坡变形破坏的形式和机制(梁丽萍等, 2019)。如图4b所示,当坡度在40°以内时,地质灾害百分比与分级面积百分比之间的差值由正变负,表明地质灾害密度随坡度的增加而增加,然后逐渐递减。

3.2.3 地形起伏度

地形起伏可以反映坡度的变化,刻画整个区域的地形变化规律。一般来说,起伏越大,地形内的地形变化越大,研究区的地形变化越明显(李伟和杨成斌,2009;杨光等,2019)。如图4c所示,起伏度在0~30 m区间内,地质灾害百分比大于分级面积百分比,且之间的差值逐呈增大趋势,表明地质灾害受起伏度影响较大;而超过了30 m时,地质灾害百分比面积小于分级面积百分比,且地质灾害百分比逐渐降低,表明地质灾害发育较弱,发育程度呈减弱趋势。

图4 地质灾害易发性影响因子分级与地质灾害分布统计图Fig.4 Statistical chart of geological hazard susceptibility influencing factor classification and geological hazard distribution(a) Fracture; (b) Slope; (c) Terrain undulations; (d) Coefficient of variation for elevation; (e) Rock and soil; (f) Water systems; (g) Roads; (h) NDVI; (i) Curvature; (j) Rainfall

3.2.4 高程变异系数

高程变异系数描述的是一定距离内高程相对变化的指标。高程变异系数的大小可表明该区域高程相对变化大小,也决定了地形起伏大小,同时在一定程度上影响着地质灾害发生的可能性(朱红春等,2005)。如图4d所示,在高程变异系数0~0.02范围内,地质灾害百分比小于分级面积百分比,说明高程变异系数对地质灾害影响较弱;高程变异系数大于0.02时,地质灾害百分比大于分级面积百分比,表明地质灾害受高程变异系数影响较大。

3.2.5 岩土体

岩土体对地质灾害的发生具有显著影响,可以反映地质体的破碎程度,其类型、硬度、结构等对边坡的物理力学性能、变形性和破坏模式有很大的影响(万佳威等,2020)。依据详查资料,将研究区岩土体分为5类,分别为块状坚硬—较坚硬中酸性熔岩组,块状坚硬花岗岩、闪长岩岩组,厚—薄层状坚硬—软弱砂岩夹泥岩组,砂卵石、中粗砂、黏性土多层土体,块状—薄层状坚硬—软弱变质石英砂岩和片状、板状变质岩岩组。如图4e所示,灾害百分比在花岗岩、闪长岩岩组最大,主要是五指山花岗岩风化剥蚀严重,表层的风化土在强降雨作用下吸水容重增加,抗剪强度下降,容易引发地质灾害。

3.2.6 水系

水系对地质灾害的影响取决于对斜坡的软化作用,容易形成软弱滑动带,使斜坡抗剪强度降低;同时水系对河岸两侧边坡具有侵蚀作用,将形成或增大边坡的临空面,使其重力大于其土体所受拉应力而导致河岸崩塌、滑坡的发生。如图4f所示,在距离水系中心线以外300 m以内,地质灾害百分比大于分级面积百分比,其差值逐渐减小,说明地质灾害密度随距离增加而降低,表明地质灾害在分级范围内受地质灾害影响较大。

3.2.7 公路

研究区位于中部山区,地形狭窄,地貌单元多变,公路的修建常常伴随着开挖山体、切削坡体,从而使岩土体因振动、扰动而产生松弛,改变岩土体的天然应力状态,降低岩土体的凝聚力,增大岩土体的渗透系数,在暴雨等诱发作用下容易形成崩滑地质灾害(叶唐进等,2019)。如图4g所示,地质灾害百分比随着缓冲距离的增大而急剧减小,而分级面积百分比随着缓冲距离增大而缓慢减小,表明地质灾害受公路的影响较大,主要原因在于公路边坡受人工扰动后,土体呈现失稳迹象,在强降雨诱导作用下加剧了边坡失稳,从而引发地质灾害。

3.2.8 NDVI

植被有护坡及保持水土的作用,对斜坡稳定性有利(董丽君,2017)。如图4h所示,NDVI植被覆盖值在0.36~0.70之间的地质灾害百分比值较大,说明地质灾害在植被发育程度中等地段发育密度较高;而NDVI植被覆盖值低于0.36,灾害百分比较低,此区域为人工林或人工植被种植区,地形、地貌等条件较好,不容易形成高陡边坡;NDVI植被覆盖值高于0.70时,地质灾害发育程度较弱,主要原因是地质灾害在植被覆盖度高的地区,斜坡体受植被固结作用更强,雨水不容易浸润土体而使土体失稳发生地质灾害。

3.2.9 曲率值

斜坡为地质灾害提供了基础物质和孕育环境。斜坡的应力分布和地表径流特性受斜坡几何形状的控制和影响,特别是边坡类型对边坡内应力分布的影响(祝俊华,2014)。如图4i所示,当曲率值在[-15,15]区间地质灾害分布百分比最大,表明此区域受地质灾害影响较大。

3.2.10 降雨量

降雨是导致地质灾害发生的重要诱发因素之一,一般7、8、9三个月份暴雨往往就伴随着地质灾害发生,尤其是海南热带风暴和强台风是引发地质灾害较为活跃的因子。根据收集到的降雨量等值线图,将降雨量分区为1540~1740 mm、1740~1940 mm、1940~2140 mm(图4j)。

4 地质灾害易发性评价过程

4.1 信息量模型

根据信息量模型,将地质灾害易发性因子实测值转化成信息量值(表2),通过GIS地图代数运算得到各因子定量化指标图层。然后将各因子图层进行叠加,运用统计学中自然断点法将栅格叠加图按信息值重新分类,最后得出信息量值区间分别-13.639037~-6.540264、-6.540264~-3.27646、-3.27646~0.23213、0.23213~7.249308的易发性图。根据公式(1),信息量值越大该区域发生地质灾害的可能性越大,易发性也越高。基于信息量模型将五指山市易发性程度划分为极低、低、中、高四个等级,面积分别占总面积的17.77%、34.64%、29.59%、18.00%(图5)。地质灾害高易发区主要分布于研究区G224国道、X590县道、S313省道、通什镇-毛道乡-番阳镇等公路两侧的中低山地带,沿公路呈条带状分布,区内人口密度大,修路、建房等人类工程活动较剧烈,地质环境改造和破坏程度较严重。

表2 评价因子信息量值统计Table 2 Information value of evaluation factors

图5 基于信息量模型易发性图Fig.5 Vulnerability graph based on information value model

4.2 信息量-逻辑回归模型

地质灾害易发性评价因子的选取不是越多越好,而是既要满足因子对地质灾害起主要控制作用,因子之间又不具有较强的相关性。二元逻辑回归运算需要各因子之间保持独立性,而文中所选的因子中显然存在一些相关性较高的因子。为了规避因子的相互干扰,利用SPSS软件对各因子进行相关性、共振性分析的预筛选,结果表明降雨量、高程变异系数、公路、水系、起伏度、断裂、NDVI等七大孕灾因子具有较高的独立性,因此将这些因子作为信息量-逻辑回归模型的指标值来开展易发性评价研究。

逻辑回归模型采用最大似然估计的方法进行估算,该法具有有效性、一致性、正态性等优点,同时需要具备较大的样本空间,才能保证结果的正确性(李翔,2015)。文章运用Arcgis数据管理工具中随机采样点功能随机选取902个非地质灾害样本点,选取现有灾害点样本198个,灾害点样本占总样本的18%。根据公式(2),将信息量值作为自变量,是否发生地质灾害为因变量,进行信息量-逻辑回归模型的地质灾害易发性评价研究。

4.2.1 因子间独立性检验

是否发生地质灾害为因变量(0代表不发生地质灾害,1代表发生地质灾害),对各因子之间进行相关性检验,运用SPSS软件,主要采用方差膨胀因子和容许度来衡量因子的多元共线程度,同时进行相关性矩阵来检验因子独立性。通过对评价因子多重共线性诊断,统计其方差膨胀因子,显示10个指标因子VIF值基本接近于1.1,表明因子之间存在共线性的可能性较小,因子间交互作用不明显(表3)。同时经过偏相关分析,10个因子之间相关系数均小于0.3(表4),表明各因子之间的相关性微弱或较小。由此可见,这10个影响因子满足相互独立的要求,可参与逻辑回归模型评价。

表3 方差膨胀因子(VIF)与容许度Table 3 The variance inflation factor (VIF) and the tolerance

表4 各影响因子之间的相关系数矩阵Table 4 Correlation coefficient matrix between various impact factors

将评价因子信息值作为自变量,是否发生地质灾害(1为发生,0为不发生)作为因变量输入SPSS软件进行逻辑回归分析。由于各因子自变量比较显著,当显著性小于0.05时才具有统计意义,而岩土体、曲率、坡度因子的显著性值分别为0.352、0.974、0.620,均大于0.05,无统计意义,因此将此3个指标因子剔除;再次利用二项逻辑回归模型分析,其余7项因子均小于0.05,具有统计意义(表5)。将回归系数代入模型,得到信息量-逻辑回归模型的易发性评价模型。

表5 逻辑回归分析参数Table 5 Data of preliminary logistic regression analysis

式中P为地质灾害概率,x1-x7分别为公路、水系、NDVI值、起伏度、断裂、降雨量、高程变异系数信息值。

4.2.2 逻辑回归权重的确定

逻辑回归分析中B代表逻辑回归系数,而常数项-2.095表明模型对地质灾害发生起到负向作用,即在无其他因子作用下未发生地质灾害的程度。通过运算各项因子的权重大小降序依次为降雨量、高程变异系数、公路、水系、起伏度、NDVI、断裂(表6)。结果显示降雨量、高程变异系数、公路3个影响因子回归系数明显高于其他评价因子,表明这3个影响因子对研究区地质灾害易发程度影响较大。

表6 评价因子回归系数与权重Table 6 Regression coefficient and weight of evaluation factors

运用Arcgis中栅格计算工具,将各信息量图层和逻辑回归运算后权重指标叠加,生成信息量-逻辑回归模型的易发性评价图(图6),最后利用统计学中自然断点法重新分类,将五指山市易发性程度划分为极低、低、中、高四个等级,面积分别占总面积的30.05%、28.05%、23.34%、18.56%。通过对比分析,显示信息量-逻辑回归模型的易发性图相比于单一的信息量模型划分的差异更加突出,表明前者在易发性分区时表达的层次更为充分、准确。

图6 基于信息量-逻辑回归模型易发性图Fig.6 Vulnerability graph based on information value-logistic regression model

根据评价结果,地质灾害高易发区遍布研究区,主要分布于山区公路和水系两侧沿线,尤其是五指山热带雨林以及北部番阳镇至毛阳镇公路、河流沿线。该区域地质条件复杂,地形起伏度大,公路沿线及民房切坡严重,在强降雨的诱发作用下形成大量地质灾害。极低易发区主要位于河谷不发育、人类工程活动较少的丘陵低山地带。

5 易发性评价效果检验与讨论

5.1 评价结果检验

评价结果检验是地质灾害易发性评价模型适应性检验的方法之一,通过分析实际发生灾害点在易发区内的分布情况来验证易发性评价结果是否合理,确保所建立的模型符合客观性。文章未进入模型的39个地质灾害点要满足以下3个基本标准,即高易发区内检验点所占比重最大、极低易发区所占面积占比最大、检验样本各分区占比和各分区的面积占比的比值由极低向高易发区逐渐增大。

信息量模型和信息量-逻辑回归模型都符合以上标准,两模型R值相差不大,信息量模型R值区分度不如信息量-逻辑回归模型;信息量模型和信息量-逻辑回归模型的高易发面积占比分别为18.00%和18.56%,灾害比例前者为69.23%,后者为74.24%。此外,如表7所示,信息量-逻辑回归模型在高易发区检测点比值比分别为4.01,明显高于信息量模型的比值比3.84,表明在同等高易发面积条件下,信息量-逻辑回归模型灾害命中概率要高于信息量模型;而信息量逻辑回归模型的极低、低易发区比值分别为0.00、0.09,明显低于信息量模型的0.14、0.15,表明在低易发区域,信息量模型发生灾害概率要高于信息量-逻辑回归模型。由此可见,信息量-逻辑回归模型相较于单一的信息量模型的分区结果,准确性和合理性更高些。

表7 五指山市地质灾害分区结果合理性检验表Table 7 Checklist for the rationality of the classification results of the geohazards in Wuzhishan

5.2 易发性评价精度检验

地质灾害易发性评价结论是否准确可靠取决于模型运行的精度和敏感性,作为地质灾害区域评价精度验证的常用方法,ROC曲线简单、直观,可准确反映分析模型特异性和敏感性的关系,具有相当高的准确性(张晓东等,2018;杜晓晨,2020)。ROC曲线是反映敏感性与特异性之间关系的曲线,横坐标X轴为1-特异性,也称为假阳性率(误报率),表示未发生灾害被正确预测的累计百分比;纵坐标Y轴为敏感度,也称为真阳性率,表示灾害单元被正确预测的累计百分比,Y轴越大代表准确率越好(缪信等,2016)。为了以定量的方式来描述预测模型精度,使用AUC值对模型进行准确的比较和衡量,其值介于 0.5~1之间,越接近1,则精度越高。运用SPSS软件进行运算,两模型AUC值分别为0.897和0.896(图7),表明两模型均能客观准确地对五指山市易发性进行评价。

图7 信息量模型和信息量-逻辑回归模型ROC曲线Fig.7 ROC curves of both models

综上所述,ROC特异性曲线和预测结果客观准确地反映了利用两种模型得出的地质灾害易发性评价结论的预测精度和敏感度。研究区信息量模型、信息量-逻辑回归模型在易发性评价的实际结果与评价效果方面具有较高的吻合度。

5.3 讨论

海南岛地质灾害风险评价研究作为当前研究热点,易发性研究是风险评价的重要组成部分。以往的易发性评价方法为基于半定量的信息量层次分析法,因子选择多而全。文章通过因子间的共线性诊断,解决了因子间的相互干扰问题,采用的两种模型分别代表了单一的定量模型和定量模型耦合定量权重模型。信息量-逻辑回归克服了赋权重时的主观性干扰,使多因子数据权重定量化。通过模型的对比研究,可以为当前或未来开展的风险调查评价中评价因子和评价模型的选择提供科学依据。

6 结论

海南岛中部山区的五指山市是海南岛孕灾条件最为有利的地区之一。文章基于定量化较高的信息量模型和信息量-逻辑回归模型对研究区进行易发性评价研究,得出以下结论:

(1)两种模型划分的高易发区遍布研究区,主要分布于山区公路和水系两侧沿线,尤其是五指山热带雨林以及北部番阳镇至毛阳镇公路、河流沿线。极低易发区主要位于河谷不发育、人类工程活动较少的丘陵低山地带。

(2)评价因子共振性和相关性分析结果表明、曲率、岩土体、坡度相关度较大;公路、水系、起伏度、断裂、NDVI、降雨量、高程变异系数因子间是相互独立的;评价因子对地质灾害发生的贡献大小依次为降雨量、高程变异系数、公路、水系、起伏度、NDVI、断裂;降雨量、高程变异系数、公路评价因子对地质灾害易发性评价起较强的控制作用。

(3)两种模型的AUC值分别为0.897和0.896,表明预测精度满足易发性评价要求;利用未进入模型的39个灾害点验证,结果显示研究区易发性分区结果是合理的。信息量-逻辑回归模型具有更高的可靠性和精准度,研究成果将为该地区地质灾害风险评价提供科学有效的判别方法和预测途径。

猜你喜欢

信息量易发百分比
机用镍钛锉在乳磨牙根管治疗中的应用
贵州省地质灾害易发分区图
重磅!广东省发文,全面放开放宽落户限制、加大住房供应……信息量巨大!
夏季羊易发疾病及防治方法
冬季鸡肠炎易发 科学防治有方法
普通照明用自镇流LED灯闪烁百分比测量不确定度分析
走出初中思想品德课的困扰探讨
趋势攻略之趋势线:百分比线
让多媒体技术在语文课堂飞扬
环保车型最多的美国城市