基于RFE_RF算法的幼龄沉香叶片含水率预估模型

2022-11-29王雪峰刘嘉政

南京林业大学学报（自然科学版） 2022年4期

王甜，王雪峰*，刘嘉政

(1.中国林业科学研究院资源信息研究所，北京 100091；2.国家林业和草原局森林经营与生长模拟重点实验室，北京 100091)

沉香(土沉香)(Aquilariasinensis)是生长在沿海一带的珍贵树种，具有极高的经济价值，其苗期对水分变化敏感，不易成活加之过度采伐及生态环境的破坏，造成沉香资源锐减[1]。近年来，海南省大力推广种植珍贵树种，但由于缺乏先进的监测管理技术，推广效果并不理想。因此，为更好地保护及利用该资源，亟须探索一种便捷可靠的水分诊断方法。

传统林业经营中，大量工作需借助于对树木外观形态、色泽、纹理等外部特征进行判断，高光谱遥感成像[2]、手持光谱仪[3]等方法所获信息少、稳定性差、影响因素复杂，且传统测定对样品破坏性较大，难以提供实时、准确的植物需水信息。图像处理技术检测便捷、精确、无破坏性，为植物水分诊断提供了一种数据获取的新方法。目前利用图像处理技术通过对植物颜色特征进行分析以建立植物生长状况与水分关系的研究较多。例如：Kacira等[4]、Ahmad等[5]利用非线性最小二乘拟合方法建立图像颜色特征的Log-Modified回归模型，并建立了RGB值与HSI值之间的色度坐标变换关系；不同学者分别建立水分梯度下叶片含水率与图像颜色特征的模型关系[6-8]，相关系数均达到0.70以上；Li等[9]、江朝晖等[10]基于偏最小二乘法(GA-PLS)分别建立新鲜树叶和冬小麦(Triticumaestivuml)可见光图像中相关性较高的颜色、纹理、形态特征参量与含水率之间的关系模型，该模型检测的相对误差均值小于1.28%。

随着机器学习的发展，神经网络逐渐应用到植物含水率的监测中来。Vesali等[11]通过建立人工神经网络模型，研究苹果(Malusdomestica)果皮皱褶图像中密度、纹理等特征与含水率的关系，验证方法的可行性；顾金梅等[12]等研究烟叶图像中 RGB、HSI及HSV 3种颜色模型下各颜色分量对烟叶等级的影响，以烟叶图像等级间差异较大的颜色分量作为输入因子，建立神经网络模型，其预测准确率可达89.16%；陈珠琳等[13]使用极限学习机算法分割提取幼龄檀香(Foliumosyris)叶片图像、叶片颜色特征，结果表明，随着含水率的增加，彩色图像的R、G、B(红、绿、蓝)通道值均会减小，但当叶片含水率小于40%时，会出现R通道值大于G通道值的现象。

国内外有关通过构建模型对植物含水量反演的研究较多[14-16]，但对沉香类珍贵树种含水率的反演却鲜见报道。从现有研究中得出，虽然随机森林算法能够处理高维度数据，且不用做特征选择，但该算法处理数据时，会陷入局部最优解或在某些包含一定噪声数据的分类上出现过拟合问题；因此，本研究以幼龄沉香图像颜色、形状特征作为输入变量，叶片含水率作为训练及测试样本，拟采用递归特征消除与随机森林融合的方法，解决建模过程中的过拟合问题，提高幼龄沉香含水率预测模型的精度，探索珍贵树种水分无损检测新方法。

1 材料与方法

1.1 研究区概况

研究区位于海南省文昌市龙楼镇岛东林场(110°57′34″～111°01′54″E,19°43′58″～19°44′58″N)，属沿海平原地带，海拔5～10 m。试验地土壤类型为滨海沙壤土，有机质含量为10.5 g/kg，有效氮含量98.2～114.7 mg/kg，有效磷含量3.38～4.56 mg/kg，速效钾含量69.9～78.2 mg/kg，田间持水量18.23%。

1.2 试验设计与数据获取

选择长势一致的2年生幼龄沉香，将其移入装有5 kg风干滨海沙壤土的25 cm×20 cm花盆中，试验以田间持水量(50%～55%)为对照(CK)，设计重度水淹胁迫(T1)、轻度水淹胁迫(T2)、干旱胁迫(T3)，其土壤含水量分别为田间持水量的75%～80%、55%～65%、30%～40；每个水平种植11棵，共计44棵，其平均树高、冠幅和地径分别为40 cm、24 cm和7 mm,整个胁迫周期持续21 d。由于植物的水分蒸腾和土壤水分蒸发导致土壤含水量不断变化，因此，根据土壤水分状况采用铝盒取土烘干法及时补充土壤水分，控制土壤含水量。沉香叶片在胁迫期平均含水率数据见表1。

表1 不同程度水淹胁迫下各沉香幼树叶片平均含水率

试验使用Cannon EOS700(分辨率为5 184×3 456)获取幼龄沉香图像，光圈值设定为f/22，曝光时间设定为0.4 s，焦距设定为18 mm，ISO设定为 200，保持三脚架中心点与盆栽中心点在一条直线上，拍摄距离固定为2.1 m，高度为80 cm。拍摄时间为9:00—16:00，从东、西、南、北4个不同方向拍摄，每拍摄一个方向，将盆栽按照顺时针方向旋转45°，直到旋转至初始位置，获得沉香整株图像。图像获取完成后，将沉香的叶全部摘下用精度为0.01g的电子天平称取每个沉香幼苗植株叶片样本质量，记为鲜质量(WF)，最后将叶片样本放入烘箱(83 ℃)烘到质量恒定，称取干质量(WD)。将44个沉香幼苗植株样本随机分为两组：一组为建模样本(30株，约占总数的70%)，用于沉香叶片含水率预测模型的建立；另一组为验证样本(14株，约占总数的30%)，用于验证建立的叶片含水率估算模型。本研究以叶片含水率(相对含水量)代表植株整体。相对含水量(CRW)计算公式如下:

(1)

1.3 自变量提取

RGB[红色(R)、绿色(G)、蓝色(B)]与HSV[色度(H)、饱和度(S)、亮度(V)]色彩空间是最常用的颜色模型，分别计算RGB颜色系统的通道值，并对RGB各个分量进行归一化处理分别得到标准红光值(INR)、绿光值(ING)、蓝光值(INB)，之后利用RGB通道值得到HSV单通道均值，并计算黄色分量(EY)、深绿色颜色指数(IDGC)、Kawasaki指数(IKAW)[17]，具体计算公式如下：

EY=(R+G)/2;

(2)

(3)

IKAW=(R-B)/(R+B);

(4)

INR=R/(R+G+B);

(5)

ING=G/(R+G+B);

(6)

INB=B/(R+G+B)。

(7)

因此，选取颜色指标分别为：R、G、B、H、S、V、EY、IKAW、ING、INB、IDGC。叶片的形状在水分胁迫下同样具有差异，这种差异不仅表现在叶片的伸展过程中，还表现在叶片黄化部位的发展过程中。因此，从叶片整体区域提取多种形态特征，从而进一步应用于水分胁迫的识别。选取形状指标分别为：最小外接矩形面积(AL)，即区域中包含的像素数；最小外接矩形周长(PL)，即区域轮廓线上像素间的距离之和；矩形度(ER)，即叶片区域面积与最小外接矩形面积之比。

1.4 数据预处理

如果直接将原始数据全部放进模型中，不仅加大了模型构建的复杂度，而且降低回归分析的精度。为提升神经网络模型的收敛速度和精度、消除数据间数量级差别、防止由于输入输出数量级差别大而造成网络估测误差较大等问题，采用最小最大法对原始数据进行归一化处理，最后的模拟结果通过反归一化处理将其还原。归一化公式为：

(8)

式中：Z为归一化处理值；x为图像特征值；μ为所有图像特征指标的均值；σ为所有图像特征指标的标准差。

1.5 递归特征消除及建模方法

递归特征消除(RFE)本质是一种反复构建模型，直至选出最优特征子集的过程[18]。根据筛选结果首先把系数最小的特征移除，然后在剩余的特征集合中重复这个过程，直到所有特征都遍历为止[19-20]。算法循环过程为：训练分类器，计算置换的重要度，剔除相关性最低的变量，用剔除后的特征再次训练分类器。

随机森林(RF)是基于分类回归树的机器学习方法[21-22]。设原始数据中有N个含水率数据，M个图像因子，先从原始训练集中有放回地抽取n个样本，生成n个子训练集并构成n个决策树，选取其中最具有分类能力的变量进行分枝，最后对n个决策树得到的n个分类结果进行投票表决，得到最终结果。经过反复调试，将随机森林中生长树的数目设置为5 000，将每一个分裂节点处样本预测器的个数设置为20。

最小二乘法支持向量机(LSSVM)是Suykens等[23]对传统支持向量机(SVM)进行改进提高求解速度和收敛精度的方法，主要采用结构风险最小化(SRM)原则，利用等式约束替换不等式约束，将求解二次规划问题转化为求解线性问题。经过反复调试，确定正则化参数gam为1，RBF核函数参数sig 2为0.7。RFE-RF(递归特征消除和随机森林融合)算法流程如图1所示。

基于RFE_RF的特征选择方法，通过计算模型的均方根误差值确定最优特征子集。步骤如下：

1)设定输入训练数据集F(N个样本，P个特征)。初始特征集合Fx为原始数据集，最优特征集合Fy为空集，最优特征子集均方根误差值为Rx。

3)删除子集Fx中排名靠后的特征Fi。若特征子集Fy的均方根误差值Ry小于Rx，那么Ry=Rx，否则执行第2步和第3步，最后输出最优特征子集。

2 结果与分析

2.1 沉香幼苗图像分割结果

通过分析背景色和植株的单像素点RGB的通道值，发现两者差异较大，于是利用彩色图像单通道值的差异性原理作为图像背景分割方法。沉香幼苗图像分割及所有的图像数据处理均在 Matlab R 2018a中实现，提取图像中的颜色和形状特征，形成研究的基础数据，并分析与沉香含水率的相关性。由于沉香图像背景简单无土壤、杂草或其他树种影响，因此分割较为容易。根据彩色图像的基本性质利用沉香幼苗外观颜色与背景图像颜色中RGB单通道值的差异性将其进行分割，得到较好效果。分割算法可对水分胁迫下叶片发黄沉香进行较好的分割，且保留茎叶部分，最终分割结果如图2所示。

分析图像背景的RGB 3通道信息和植株的RGB 3通道信息，确定不同之处进行区分；分析发现，图像背景RGB单像素点3通道中的最大与最小值相差不大，而植株的单像素点RGB 3通道的最大与最小值相差较大，所以以植株最大、最小值的差值作为特征进行区分。由于底部盆边也满足要求，但是盆边的单像素点RGB通道，最大值在R和B通道，而植株的最大值在G通道，得出分割条件为：

Vmax-Vmin<20；

(9)

bRate<0.27。

(10)

式中：Vmax表示RGB通道最大值；Vmin表示RGB通道最小值；bRate表示花盆边缘分割阈值。

由图2可见，干旱胁迫下沉香叶色变黄变暗，而对照组相比于重度水分胁迫与轻度水分胁迫叶片更为明亮饱满。

2.2 基于RFE-RF算法的特征选择

首先利用随机森林过程中bootstrap重抽样方法从原始样本中抽取构建决策树的样本，并最终构成随机森林，然后在回归模型中计算特征重要度。之后利用递归特征消除算法删除特征重要度小的特征再次建模，直至剩下最后1个特征。RF-RFE算法中生长树的数目(ntree)和每次输入变量的个数(mtry)为算法中最重要的参数设置，经反复试验，设置RF-RFE算法的ntree=300，mtry的大小通常为输入变量数的1/3，当变量数<3时mtry取1。

RFE_RF算法使用平均下降均方误差(MSE)值作为特征选择过程中特征筛选的原则。首先算法将删除最小MSE值的特征，如图3A所示，删除第13个，即最小外接矩形面积(AL)的特征，然后利用RFE-RF重新计算剩余特征的平均下降MSE值，再次删除MSE值最小的特征，以此循环，不断迭代删除特征。图3B表示最终剩余3个特征时的平均下降MSE值，剩余的3个特征为饱和度(S)、标准红光值(INR)、矩形度(ER)。每一步迭代时所删除特征的MSE值见图4，迭代结束后，根据均方根误差(RSME)值的大小选取最优特征集合，最优特征集为：饱和度(S)、标准红光值(INR)、矩形度(ER)。

2.3 不同水分胁迫下沉香颜色和形状的变化

对不同水分胁迫水平数据进行分析，观察不同水分条件对沉香幼苗颜色、形状因子的影响。按胁迫组别绘制时间序列颜色变化曲线，如图5所示。在重度水淹胁迫处理(T1)下，随着水淹时间的延长，INR分量先减小后增大，ER分量和饱和度(S)总体呈现下降的趋势，叶片表现为沉香叶片变暗，逐渐黄化；轻度水淹胁迫(T2)下，ER、INR值呈先减后增的趋势，S分量数值波动明显，先减小后逐渐增大，最终保持平稳，叶片亮度增加；持续干旱胁迫(T3)下，叶片的INR分量和S值先增再减后逐渐增高，ER值先增后减，叶片变暗，颜色变黄，叶片逐渐蜷曲，说明沉香叶片细胞膜受伤害的程度逐渐加大，细胞内有害物质不断增加，且14 d时超过了沉香幼苗的耐受能力，但并未出现植株死亡现象[24]。对照组(CK)试验中，叶片的变化趋势为：整体呈亮度略有升高，INR值总体逐渐增加，ER先减小后呈平缓趋势，S值总体呈下降趋势。水淹胁迫组在整个胁迫周期内叶片颜色变化不同(图5)，这是由于水淹胁迫下，沉香仍能够有效调节气孔开闭，保证充足的CO2吸收，进而提高水分利用率，对干旱胁迫做出响应[25]；干旱胁迫组叶片变黄时间早于水淹胁迫组，超出2周后叶片开始严重受损，这是由于干旱造成植物生理性脱水，进而导致植物呼吸、光合系统的紊乱和细胞膜透性损坏及代谢失调，最终抑制植株生长甚至萎蔫、局部坏死[26]；对照组与轻度胁迫组变化类似，但拐点出现较晚。因此，沉香最适生长叶片含水率范围为50%～65%，适度增加水分有利于沉香幼苗生长。

2.4 沉香叶片含水率预测模型及算法比较

2.4.1 RFE_RF模型

以饱和度(S)、标准红光值(INR)、矩形度(ER)特征值作为自变量，以含水率作为因变量，将建模数据归一化处理后，输入RFE_RF模型中，即在RF神经网络模型中加入1个种群数量为20、迭代终止次数为50的PSO算法，并且添加惯性权重因子提高模型的收敛能力。初始惯性权重因子设置为0.8，终止惯性权重因子设置为0.1。模型训练过程如图6 所示。RFE_RF模型的训练集和测试集结果见图7。

从图7可见，训练集预测结果R2超过0.91，测试集预测结果R2超过0.88，预测结果良好，能够达到准确估测的目的。

2.4.2 模型比较

为比较最小二乘法支持向量机算法(LSSVM)、随机森林算法(RF)与递归特征消除与随机森林融合算法(RFE_RF)3种算法在幼龄沉香叶片含水率预测中的效果差异，分别构建LSSVM、RF和RFE_RF 3种预测模型。模型均采用十折交叉验证法，重复计算10次，最后将3种算法预测模型的敏感度、特异性、误报率及精度取平均值在相同的独立测试集中进行对比(表2)。敏感度是阳性样本分类的准确度，又称真阳性率；特异性是阴性样本分类的准确度，又称真阴性率；误报率是阴性样本的错误率，又称假阳性率；精度是预测值为阳性样本的正确率。其中，敏感度、特异性、精度3项指标越大模型分类效果越好，误报率越小模型分类效果越好。由表2可以看出：预测的模型中，LSSVM算法构建的模型与RF算法构建的模型在敏感度、特异性、误报率及精度4项指标上结果均接近，基于RF算法构建的预测模型效果略优；基于RFE_RF融合算法构建的预测模型其敏感度、特异性、误报率和精度分别达到88.65%、85.31%、14.39%和91.62%，与RF预测模型相比，敏感度提高3.34%，特异性提高10.87%，误报率降低36.83%，精度提高13.39%；证明RFE_RF融合算法构建预测模型有更好的识别能力和泛化能力。

表2 幼龄沉香叶片含水率预测试验3种算法结果比较

3 结论

在干旱环境中，叶绿素含量的降低有利于调整光能分配，保证整个光合系统的正常运行[27]。如张世柯等[28]发现滨海植物红厚壳(Calophylluminophyllum)，相较于西沙群岛优势乔木榄仁树(Terminaliacatappa)和海滨木巴戟(Morindacitrifolia)，叶绿素含量更低，以此来减少干旱环境引起的伤害，并增强抗旱能力和对强光环境的适应能力；但李婕等[29]认为，在干旱环境中，珊瑚岛上的植物主要通过降低蒸腾速率的方式提高水分利用效率，抵御干旱胁迫。由此可见，热带植物对干旱胁迫有着不同的响应机制。本研究以热带珍贵树种沉香为对象，研究结果表明，相较于重度水淹胁迫，幼龄沉香对于长期重度干旱胁迫更加敏感，且幼龄沉香虽有一定的自我调节能力，但干旱时间超出2周会使幼苗叶片严重受损，威胁沉香正常生长，说明沉香幼苗在两周内持续干旱下，可通过调节自身清除细胞内有害物质；但当持续干旱时间超出2周时，则威胁幼龄沉香正常生长。此外，幼龄沉香最适叶片含水率范围为50%～65%，适度增加水分，有利于沉香苗生长。

随机森林算法在高维回归中筛选预测因子是一项繁杂的任务，本研究基于递归特征消除的自身变量多轮训练避免过度拟合的优势与随机森林算法结合，提出了基于递归特征消除和随机森林融合算法的预测方法。该方法可以对相关性预测和排名的重要性加以描述，研究验证了该融合算法的正确性和有效性，发现RFE_RF方法可以提高机器学习算法的预测精度，证明基于递归特征消除和随机森林融合算法预测方法具有理论意义和应用价值。

基于递归特征消除与随机森林融合算法的幼龄沉香叶片含水率预测模型精度达到91.62%，降低了重要性度量相关性，避免了过度拟合，是一种有效的特征选择方法。RFE_RF较单独使用RF和LSSVM算法构建的预测模型精度分别提高了15.22%和17.41%，证明递归特征消除方法与随机森林算法融合使用，可应用到幼龄沉香叶片含水率预测模型中提高模型性能。对比RF模型，RFE_RF的敏感度和特异性分别提高3.34%和10.87%，误报率降低36.83%，证明RFE_RF融合算法构建预测模型有更好的识别能力和泛化能力。