APP下载

基于CatBoost 算法的蓝莓生态适宜性评估模型*

2023-05-12昌文峰

计算机与数字工程 2023年1期
关键词:麻江县蓝莓特征

昌文峰 王 霄 杨 靖 覃 涛

(贵州大学电气工程学院 贵阳 550025)

1 引言

蓝莓又名越桔、越橘、蓝浆果,是杜鹃花科、越橘属植物,营养价值极高,因此也被誉为“水果皇后”。蓝莓在消费市场深受大众的喜欢[1~3],蓝莓产业带来的经济效益使得越来越多的国家和地区开始大规模种植蓝莓,而蓝莓的生态适宜性也直接关乎蓝莓果实的品质和产量[4~7]。因此,对蓝莓的生态适宜性进行评估,合理地选取蓝莓种植区域,对提升蓝莓果实品质及产量、提高蓝莓产业经济效益具有重要意义。

近年来,国内外对蓝莓生态适宜性的研究也越来越多。曹春根等[8]利用数理统计方法,在浙江省西南部地区调查种植在不同地点、不同海拔、不同土壤类别中的蓝莓树体生长量和果实性状产量等,分析了蓝莓在其山地种植的适宜性。董丽等[9]利用已提取数据组定量化拟合土壤pH变化对不同品种蓝莓树体生长的影响差异。秦公伟等[10]利用判断矩阵法、线性加权求和法和层次聚类分析法对陕西省蓝莓生长的潜在适生区进行了划分研究。苟体忠等[11]采用地累积指数法和内梅罗污染指数法等方法对贵州省麻江县蓝莓种植基地土壤重金属元素富集程度和潜在生态风险进行了评价。莫建国等[12]采用相关分析法分析了不同生育期气象条件对蓝莓品质形成的影响。Vera 等[13]确定了在智利南部的一个农场建立和管理高丛蓝莓作物的农场领土单位,制定了一个农场级别的特征,并根据其接受能力对地区和地点进行了蓝莓生态适宜性分类。众多的蓝莓生态适宜性的研究都是传统数理统计方法和决策方法,该类方法具有主观性过强的缺陷,降低生态适宜性的评价结果,进而影响到蓝莓产业的发展和果农的增收。

随着人工智能的发展,机器学习技术越来越多地应用于社会各个领域[14]。麻江县作为贵州省蓝莓种植面积最广的区县,采用机器学习算法对蓝莓生态适宜性进行科学性和精细化的评价区划,可为麻江县蓝莓产业发展规划制定提供理论依据。本研究以适合在贵州黔东南州区域种植的兔眼蓝莓为研究对象,确定蓝莓生态适宜性指标,通过机器学习算法对麻江县蓝莓生态适宜性进行模型构建及主要影响因素分析,并采用ArcMAP 10.8 软件对麻江县蓝莓生态适宜性地图进行绘制。通过实验发现,CatBoost 算法在蓝莓生态适宜性评估效果比传统机器学习模型效果更优,能为蓝莓园区选址规划和蓝莓种植提供更客观合理的科学依据,进而减少蓝莓灾害、提高蓝莓生产率、增加果农经济收入。

2 方法和资料

2.1 基本资料和数据来源

贵州省麻江县DEM(数字高程模型,Digital El⁃evation Model)数据来自地理空间数据云的ASTER GDEM 数据,DEM 数据包括坡度、坡向、高程和ND⁃VI(归一化植被指数,Normalized Difference Vegeta⁃tion Index)。气象数据来源于贵州省气象局2015年-2019 年逐月平均气温、降水量、≥10℃积温(3月-9 月)等,土壤类型数据来源于中国土壤数据库(Soil Science Database),包括土壤pH 和土壤有机碳含量等。数据基本来源见表1,研究区麻江县概况见图1。

表1 数据来源情况

图1 麻江县概况图

2.2 理论方法

CatBoost(CB)是一种基于梯度提升决策树(Gradient Boost Decision Tree,GBDT)改进的新型算法框架,该算法以对称决策树为基学习器,具有参数较少、支持类别变量和高准确性等特点,能够高效合理地处理类别型特征;此外,CB 着重解决梯度偏差和预测偏移问题,对减少过拟合发生有良好效果,能有效提升算法准确性和泛化能力[15~17]。在传统GBDT 算法中,处理类别型特征常用方式是利用类别特征标签平均值进行替代,并且将标签平均值作为节点分裂标准[18~19],用公式表示为

这种方法虽然简单易实现,但存在一个明显的缺点:特征往往比标签包含更丰富的信息,若用直接用标签平均值来代替特征,当训练数据集和测试数据集数据结构和分布不一致时会出现条件偏移问题。

CB算法加入先验项和权重系数,减少噪声和低频率类别型数据对于数据分布的影响,用公式表示为

式中:p是添加的先验项;a是权重系数,通常大于0。

由于蓝莓生态适宜性评价数据集中的特征多为类别特征,因此选用CB 算法能够更大程度地学习到更多的信息,进而提升模型性能,图2 为CB 算法流程图。

图2 CB算法流程图

3 适宜性模型实验分析

3.1 特征数据预处理

通过收集麻江县龙崩上等19 个蓝莓种植基地数据信息,获取蓝莓适宜性特征数据共796 例,其中蓝莓适宜性良好408 例,蓝莓适宜性非良好388例。蓝莓生态适宜性特征10个,分别为坡度、坡向、高程、年降雨量、月均温、≥10 ℃积温、土壤pH、土壤有机碳含量、光照强度和归一化植被覆盖指数。

由于蓝莓适宜性特征数据采集来源较多,因此蓝莓适宜性特征集往往会存在特征数据重复、特征数据缺失、特征数据异常以及各特征数据之间量纲不统一等问题。这些问题会在一定程度上降低适宜性评估模型的预测精度,甚至会导致模型预测失败,因此需要对特征数据集进行预处理工作,主要包括:1)删除重复特征数据;2)补充缺失特征数据,类别特征采用众数补充,连续特征采用平均值补充;3)对特征数据进行分桶,根据数据分布按分位点对连续特征进行分桶并标签编码(label encode),类别特征直接进行标签编码[20]。具体编码方式如表2所示。

表2 适宜性特征编码情况

3.2 实验环境与参数配置

本文研究实验环境为jupyter notebook,package主要包括python3.8、numpy、pandas、scikit-learn、im⁃blearn 等。采用LR、SVM、RF 和CB 算法构建四种不同的麻江县蓝莓生态适宜性评估模型。针对不同模型需对其参数优化使模型表现出更佳性能。

对LR、SVM 和RF 评估模型采用贝叶斯超参数优化方法获取最佳参数组合[21],不同模型超参数优化结果如图3、4、5所示。

图3 LR模型超参数优化

图4 SVM模型超参数优化

图5 RF模型超参数优化

对于CB模型,由于参数过多,考虑到时间消耗和计算能力,很难利用贝叶斯优化其超参数。本文采用阶梯式的网格搜索对CB 模型进行调参,即一部分参数调整至模型最佳后,基于此模型调整另外一部分参数,每部分参数采用网格搜索的方式依次进行。根据问题的特性,部分超参数需要进行特定的 限 制,主 要 对iterations、learning_rate、depth、l2_leaf_reg四个参数进行调参,具体步骤如下。

1)初始化一些基本变量,设定loss_function=Logloss、eval_metric=AUC、task_type=CPU;

2)确定learning_rate 和iterations 的数量,先设定learning_rate=0.1,early_stop=500;采用早停的方式确定iteration数量;

3)确定树的生长深度,设定depth 参数的取值区间在[4,10],步长为1;

4)确定正则化强度,设定l2_leaf_reg 参数的取值区间在[0,10],步长为1;

5)降低学习率,最后降低学习率的同时增加数的数量,learning_rate 参数取值为[0.01,0.1],步长0.01。

通过超参数寻优,最终确定CB 模型的超参数组 合 为[loss_function:Logloss,eval_metric:AUC,task_type:CPU,learning_rate:0.03,iterations:10,depth:10,l2_leaf_reg:8]。

3.3 实验分析

在模型评估过程中,分类问题往往需要使用不同的指标进行评估,从而完成模型训练的迭代过程。本研究提出精确率(P)、召回率(R)、综合评价指标(F1)[22]和AUC 作为评价指标,计算公式如下:

AUC(Area Under Curve)为ROC 曲线的线下面积大小,ROC 全称是“受试者工作特征”(Receiver Operating Characteristic Curve)曲线。将模型的预测结果进行排序,按照顺序对样本作为正例进行预测,每次计算真正率(True Positive Rate,TPR)、假正率(False Positive Rate,FPR),分别作为横、纵坐标轴,公式定义:

本文选取AUC 作为模型最重要的评估指标,进行对比分析。一般介于0.5~1,AUC值越大,说明模型泛化能力越好,预测表现越好。

本文选取贵州省黔东南州19 个蓝莓种植基地的796 例蓝莓生态适宜性数据作为数据集,将数据集前70%作为训练集,后30%的数据作为测试集。采用LR、SVM、RF 和CB 四种算法搭建麻江县蓝莓适宜性评估模型并进行实验对比,为避免实验结果偶然性,提高实验结果可靠度,本文对不同模型进行多次实验,模型评估指标综合对比如图6、图7所示。

图6 ROC曲线对比图

图7 不同模型在各评估指标上的标准差

通过实验分析得,基于CB 算法的蓝莓生态适宜性评估模型在AUC指标上得分最高,值为0.897,LR、SVM 和RF 的AUC 得分分别为0.855、0.864 和0.875。进而分析可知CB 模型具有最佳的表现性能,比LR、SVM 和RF 模型高4.9%、3.8%、2.5%,并且在召回率、精确率和综合评价指标方面都有着优秀表现。

3.4 适宜性地图绘制

在本文所选的机器学习中,除SVM 外,评估结果具有自然概率意义,概率值为0 表示不适宜蓝莓生长,概率值为1则表示适宜蓝莓生长,从0~1表示蓝莓生态适宜性等级递增。因此,通过模型输出的结果可直接划分每个单位的生态适宜性等级。SVM模型原理上无法直接给出预测结果的概率,但本文通过5 折交叉验证进行模型的预测,同样可以满足结果具有自然概率意义的要求。

将麻江县蓝莓生态适宜性划分为5 个等级:[0~0.20) 不适宜区、[0.2~0.40) 较不适宜区、[0.40~0.60) 基本适宜区、[0.60~0.80) 较适宜区、[0.80~1]最适宜区[10]。基于不同评估模型绘制麻江县蓝莓生态适宜性评价地图如图8所示。

图8 麻江县蓝莓生态适宜性评价地图

目前麻江县多数蓝莓种植点分布县东南区域,市场表明该区域蓝莓品质产量较好。由图8 麻江县蓝莓生态适宜性评价地图分析可见,区划最适宜区和较适宜区主要分布在县东南部的宣威镇和龙山镇,与实际种植区域情况基本相吻合。由此可见,采用CB 模型构建的蓝莓生态适宜性评估模型结果较好,区划结果也具有可靠性。

由于模型原理差异性,SVM模型无法给出蓝莓生态适宜性特征的重要性分析。除SVM 模型外,从各模型特征重要性得分可知,高程和≥10 ℃积温两个特征在不同模型获得很高的分值,说明这两个特征对蓝莓生态适宜性影响程度更高,是影响蓝莓生长的重要因素。各模型特征重要性如图9所示。

图9 不同评估模型特征重要性

4 结语

本文通过多平台收集蓝莓生态适宜性特征数据,构建了麻江县蓝莓生态适宜性特征数据集。根据数据集特点,利用CB 算法构建蓝莓生态适宜性评估模型,与其他传统机器学习算法模型进行对比分析,依据各模型评估结果绘制麻江县蓝莓生态适宜性评价地图。实验结果表明,CB 算法对特征数据信息挖掘更充分,模型评估效果明显优于传统机器学习算法。但模型效果仍有进步空间,且单一模型效果不具备较强的鲁棒性。因此,我们后续的研究方向旨在收集更丰富的蓝莓适宜性特征数据,提高数据集质量以及融合多模型进行蓝莓生态适宜性评估,进一步提升评估结果准确性。

猜你喜欢

麻江县蓝莓特征
麻江县关工委开展青少年关爱帮扶活动
蓝莓建园技术
蓝莓姑娘
如何表达“特征”
不忠诚的四个特征
抓住特征巧观察
西海岸的蓝莓名片
甜甜的蓝莓果
麻江县老年大学开展免费体检活动
麻江县渠道防渗改造的具体措施