APP下载

应用机器学习模型对中国云贵川区域林火风险预测1)

2023-05-23王姊辉董恒赵洋甬何思聪袁艳斌张力文

东北林业大学学报 2023年5期
关键词:火点林火梯度

王姊辉 董恒 赵洋甬 何思聪 袁艳斌 张力文

(武汉理工大学,武汉,430070)(浙江时空智子大数据有限公司)(武汉理工大学)(武汉华夏理工学院)

森林火灾作为森林资源的主要灾害之一。随着全球气候变化,森林火灾发生频率越来越高,全球平均每年发生森林火灾数十万次,且过火面积也逐渐增大,对森林生态环境造成破坏,导致了大量的人员伤亡和经济损失[1-3]。20世纪60~90年代,由于森林火灾发生所产生的碳排放量增加了900 Tg/a,对气候变暖造成了一定影响[4-5]。同时,气候变暖使森林火灾行为更加复杂多变,大大增加了森林火灾的扑救难度[6]。因此,林火预警在森林管理中变得尤为重要。目前,传统的林火风险预测模型多采用经验或半经验方法构建,主要分为历史数据的预测方法与实验数据的预测方法,历史数据的累积和实验数据的获取具有较强的局限性,模型预测精度较低[7],原因是森林火险指数主要考虑气象因素[8-9],忽略了与森林火险指数相关的其他要素(如:可燃物含水率、地形因子等)。因此,传统的林火预警方法难以满足林火管理的需求。

随着机器学习算法的应用越来越广泛,利用机器学习的方法进行林火风险预测成为可能,机器学习算法在森林火灾预测方面具有较为优越的性能[10-14]。机器学习模型在不同区域,对森林火灾风险预警有着巨大的潜力。逻辑回归模型和随机森林模型在林火风险预测方面有良好的表现,但近年来提出的极端梯度提升模型在分类上也有很好的表现[15]。本研究以中国云贵川行政区作为研究区域,应用随机森林模型、逻辑回归模型及极端梯度提升模型对森林火灾预测。并且在气象因素作为预测因子预测的基础上,引入地形因素及可燃物含水率因素,对预测模型进行改进,以提升模型预测精度,为云贵川区域林火预警提供技术支持。

1 研究区概况

以云贵川行政区作为主要研究区,该地区拥有丰富的林业资源,平均森林覆盖率为52.5%,且地形复杂,以山地、高原为主(见图1)。云贵川地区气候干湿状况存在着较大的地理差异,整体上具有“东湿西干”的分布特征,该特点归因于该地区降水量空间分布不均匀,局地差异大,大体呈由东、南向西北减少的分布形势,干湿状况季节特征明显,夏季湿润,春冬季干燥[16]。

图1 云贵川地区地形概况

2 研究方法

2.1 数据来源及预处理

森林火灾预测较为复杂,其不仅与气象因素相关,还与可燃物含水率、地形等诸多因素相关[17-19]。因此,结合气温、风速、降水量、相对湿度、可燃物含水率及地形因子等环境因子构建森林火灾预警监测模型。

MCD64A1数据集:数据来源于美国航空航天局(https://earthdata.nasa.gov),MCD64A1数据集是中分辨率成像光谱仪MODIS数据[20],该数据集包括燃烧日期、燃烧日期不确定性、质量控制码等信息。本研究使用2016—2020年MCD64A1数据集,提取其热异常点数据,依据燃烧日期不确定性及质量控制码筛选出火点数据,并对月合成火点数据建立半变异函数,用以确定缓冲区半径,建立火点数据缓冲区[21];由于气象、可燃物含水率及地形因素在一定范围内存在相似性,因此在缓冲区范围外,依据随机空间分布,选取等量非火点数据构建预测数据集。

MCD14DL数据集:数据来源于美国航空航天局(https://earthdata.nasa.gov)发布的主动近实时火灾产品[22]。该数据集包含火点发生的日期、经纬度位置、置信度等信息。本研究筛选出2021年1—4月每月1号中置信度大于30%的火点数据,作为模型的验证数据集。

可燃物含水率数据:可燃物含水率即植被冠层含水量与其干质量的比率,直接影响森林火灾发生的概率[23-24]。本文根据MODIS的8 d合成反射率数据(MOD09A1),计算植被水分指数(INDWI)代替可燃物含水率[25-26],INDWI=(ρNIR-ρMIR)/(ρNIR+ρMIR)。式中,ρNIR为近红外波段反射率,ρMIR为中红外波段反射率,INDWI为植被水分指数。

气象数据:气温、风速、降水量、相对湿度、连续无降水日和蒸发量,都对森林火灾的发生有着显著影响。其中,降水量、气温与风速对云贵川地区森林火灾的发生有显著的影响,采用蒸发量与连续无降水日因素表征研究区域的干旱状况[27-29]。蒸发量数据使用ECMWF对全球气候的第五代大气再分析数据集(https://cds.climate.copernicus.eu/cdsapp#!/dataset/reanalysis-era5-land?tab=overview)。气温、风速、降水量、相对湿度以及连续无降水日等使用的中国地面气候资料日值数据集(v3.0),数据来来源于国家气象信息中心(http://data.cma.cn),包括全国范围内所有国家级气象站2016—2021年的日降水量(08:00至次日08:00)、日平均气温、日平均湿度和日平均风速。利用反距离权重插值法(IDW)对日值气象数据进行插值,作为森林火灾的预测因子,构建模型训练数据集。

地形数据:地形因子通过影响气候、植被等要素,间接对森林火灾的发生产生影响[30]。本研究使用的地形数据为SRTM1 V3.0数据集(https://earthdata.nasa.gov)[31]。利用SRTM1数据集,提取云贵川地区坡度、坡向数据。

2.2 森林火灾预测模型的构建

逻辑回归模型(LRM)。逻辑回归模型通过对研究变量与影响因子进行回归分析,并将结果利用sigmod函数进行归一化处理,再进行阈值分割,常用于二分类问题[10-11]。本研究利用火点数据与气象、地形及可燃物含水率数据,对逻辑回归模型进行训练,最终实现对森林火灾发生概率的预测。

随机森林模型(RFM)。随机森林模型通过建立多棵决策树,利用样本对每棵决策树进行训练,最终使用决策树构成的森林对预测数据进行预测[11-14]。本研究中随机森林模型选取决策树数量为100,结合影响因子数据集进行二元分类,最终用于日尺度森林火灾事件的预测。

极限梯度提升模型(XGB)。梯度提升采用连续的方式构造树,每颗树都试图纠正前一棵树的错误,在分类方面表现良好[15]。本文在日尺度上,根据森林火灾与影响因子数据,利用极端梯度提升模型,实现森林火灾风险预测。

2.3 模型气象因子选择

从气象站点的日观测数据中选择日降水量(08:00至次日08:00)、日平均气温、日平均湿度和日平均风速等候选气象因子(见表1)。

各模型分别根据因子相关性及特征重要性从候选气象要素中遴选出各模型的关键气象要素。逻辑回归模型因子选择根据各因子之间的方差膨胀系数,在存在共线性(方差膨胀系数大于10)的因子间,保留与火灾事件相关系数高的变量;随机森林模型及极端梯度提升模型则选取特征重要性高于5%的变量[20]。因子选择结果见表2。

表1 候选气象因子

表2 各模型气象因子选择

2.4 模型评价方法

本研究选取了准确率、召回率和受试者特征(ROC)曲线作为模型验证参数,其中准确率为所有预测正确的个数比例,即在样本均衡的情况下,准确率越高,模型性能越好;召回率为正确分类的正例个数占实际正样本个数的比例,即召回率越高,正确分类的实际火点比例越高。ROC曲线不受分割阈值的影响,可以很好的评判模型的泛化能力;ROC曲线是根据不同的分割阈值,以真正率为纵轴,假正率为横轴绘制而成;ROC曲线下的面积(AUC)值越接近1,则说明模型预测能力越好。在保证模型预测精度的同时,为防止模型过拟合,确保其稳定性,本研究还采用k折交叉验证的方法对模型的鲁棒性进行评价。

3 结果与分析

3.1 云贵川地区森林火点时空分布

根据MCD64A1数据集,共提取云贵川地区2016—2020年森林火点6 253个,森林火灾主要发生在12月份至次年5月份。1—5月份发生森林火灾约占全年森林火灾次数的比例为86.1%,其中,2月份火灾次数最多(31.7%),其次为3月份和4月份,占全年森林火灾次数的比例分别为26.1%和11.5%。

由图2、表3可知,2016—2020年云贵川地区实际发生森林火灾点分布主要集中于云南省南部及西北部、四川省南部以及贵州省南部地区。云南省2016—2020年发生火灾最多,共发生4 158起,占总森林火灾事件的比例为66.5%;其次为四川省,占总森林火灾事件的比例为31.3%;贵州省最少,占总森林火灾事件的比例为2.2%。

表3 2016—2020年云贵川地区森林火点

3.2 预测性能及活化能力

由表4可知,在各机器学习模型中,极端梯度提升模型的准确率及召回率均高于随机森林与逻辑回归模型,前者准确率高于后者均超过2%,召回率高于后者均超过约4%。极端梯度提升及随机森林模型优于逻辑回归的主要原因是温度因素存在滞后性的影响,由于变量之间的共线性,逻辑回归模型训练集剔除了前24 h平均温度、前72 h平均温度两个变量。因此,在模型预测性能方面,极端梯度提升模型表现最好,随机森林模型次之,逻辑回归模型相对较差。

由于准确率及召回率等评价指标容易受到模型分割阈值的影响,因而进一步根据ROC曲线对各模型进行评价。由图3可知,3个机器学习模型均有较好的表现,三者AUC值均接近或大于0.8,但其中极端梯度提升模型预测精度最好AUC值为0.956 7,随机森林次之,逻辑回归最差,森林火灾数据集与预测因子数据集之间线性程度不高,故逻辑回归模型表现不如极端梯度提升模型与随机森林模型。因此,在模型泛化能力方面,极端梯度提升模型表现最好,随机森林模型次之,逻辑回归模型相对较差。

表4 不同模型准确率及召回率

图2 2016—2020年云贵川地区森林火点分布

图3 各模型日尺度预测的ROC曲线

3.3 林火预测模型的改进

除气象因素外,地形因素对森林火灾也有着间接的影响,而可燃物含水率对森林火灾则有着直接的影响。本研究采用植被水分指数(INDWI)对植被可燃物含水率进行替代,引入地形因素及植被水分指数对模型进行修正。经过多重共线性检验或特征重要性排行,逻辑回归模型训练数据集加入坡向、高程及植被水分指数;随机森林模型训练数据集加入高程、植被水分指数;极端梯度提升模型训练数据集加入坡度、高程及植被水分指数。

由表5可知,加入地形因素及植被水分指数后,各模型准确率及召回率均有所提升。极端梯度提升模型AUC值略有提升,逻辑回归模型AUC值略有下降,随机森林模型AUC值变化不大。但引入地形因素及植被水分指数对3种机器学习模型的预测效果均有优化。

表5 地形因素及植被水分指数修正后各模型准确率、召回率及AUC值

由表6可知,采用10折交叉验证对3种机器学习模型的鲁棒性进行了评价,交叉验证中采用准确率作为评估标准。3种模型准确率变异系数均小于0.05,模型均具有较好的鲁棒性。极端梯度提升模型表现最好,准确率均值、标准差及变异系数均优于逻辑回归及随机森林模型。

3.4 不同模型预测结果及验证

由图4可知,逻辑回归模型预测云贵川地区的林火高发区域的分布,2021年1月1日林火高发区域主要集中在云南省中西部、四川省中部及贵州省西部;2021年2月1日林火高发区域主要集中在云南省东部与南部、四川省东部及贵州省西南部;2021年3月1日林火高发区域主要集中在云南省北部与东部、四川省中部及贵州省南部;2021年4月1日林火高发区域主要集中在云南省西南部与东部、四川省东部及贵州省东部。

由图5可知,随机森林模型预测云贵川地区的林火高发区域分布情况,2021年1月1日林火高发区域主要集中在云南省西部、四川省中部及贵州省东南部;2021年2月1日林火高发区域主要集中在云南省中部与西部、四川省中部;2021年3月1日林火高发区域主要集中在云南省中部、四川省西部;2021年4月1日林火高发区域主要集中在云南省中部与东部、四川省中部及贵州省西南部。

表6 各模型交叉验证准确率均值、标准差及变异系数

图4 逻辑回归模型预测结果

由图6可知,极端梯度提升模型预测的林火高发区域分布情况, 2021年1月1日林火高发区域主要集中在云南省西部、四川省中部及贵州省南部;2021年2月1日林火高发区域主要集中在云南省中部与西部、四川省中部;2021年3月1日林火高发区域主要集中在云南省中部与北部、四川省西部及贵州省西南部;2021年4月1日林火高发区域主要集中在云南省中部与东部、四川省中部及贵州省西部。

较高的林火燃烧概率仅表示该地区发生火灾的可能性较高,并不代表火灾的发生,这也是预测结果中存在大面积林火高发区域的主要原因。

根据MCD14DL数据集,预测日期内共有火点408个,对火点创建缓冲区(5 km),在缓冲区外依据空间分布,随机选取等量非火点数据。根据逻辑回归、随机森林及极端梯度提升模型最优分割阈值分别为0.512、0.532及0.509,据此计算预测值的准确率。

图5 随机森林模型预测结果

图6 极端梯度提升模型预测结果

由表7可知,机器学习模型在预测林火燃烧概率方面均可以达到一个较好的准确率。在总准确率方面,极端梯度提升模型预测表现最优,随机森林模型次之,逻辑回归模型相对较差;而在火点预测准确率方面随机森林模型表现最好,极端梯度提升模型次之,逻辑回归最差。造成上述现象的原因:一是随机森林整体林火燃烧概率预测值偏高;二是高林火燃烧概率并不等于火灾的发生,即训练数据集及验证集中均存在高燃烧概率的非火点。但模型火点预测准确率较高,说明模型在林火燃烧概率预测方面表现较好。

表7 MCD14DL火点数据准确率

4 结论

本文结合气象因子、地形因子及可燃物含水率因子,应用了逻辑回归、随机森林及极端梯度提升模型对云贵川区域林火燃烧概率进行预测。结果表明,在日尺度林火燃烧概率预测上,极端梯度提升模型的整体预测准确率高于逻辑回归、随机森林模型;随机森林模型整体预测值较高,导致其在火点预测准确率高,非火点预测准确率差;而逻辑回归模型在非火点预测方面准确率优于其他两个模型。其原因是由于极端梯度提升模型在训练过程中不断修正模型预测值与真值之间的误差,因此最终可以达到一个较好的结果。此外,地形因素及植被水分指数对森林火灾的发生具有重要影响,因此引入地形因素及植被水分指数对林火预测模型优化,进一步提高了预测结果的准确率。

猜你喜欢

火点林火梯度
无锡惠山区坚持“六抓六强” 构建林火防治铜墙铁壁
一个改进的WYL型三项共轭梯度法
林火监测系统在森林防火中的应用与发展
亚像元火点对红外预警卫星的辐射干扰特性
一种自适应Dai-Liao共轭梯度法
半边天
人身上有5个祛火点
一类扭积形式的梯度近Ricci孤立子
点烟颂
江苏省海门市如何实现连续4年秸秆焚烧“零火点”?