APP下载

基于机器学习的粳稻叶片叶绿素含量高光谱反演建模

2020-03-07王念一于丰华许童羽郭忠辉张国圣

浙江农业学报 2020年2期
关键词:降维粳稻反演

王念一,于丰华,许童羽,杜 文,郭忠辉,张国圣

(1.沈阳农业大学 信息与电气工程学院,辽宁 沈阳110866; 2.辽宁省农业信息化工程技术研究中心,辽宁 沈阳 110866)

粳稻是水稻的一种,其叶片的叶绿素含量是判断其生长状态的一个关键指标,如何无损、快速反演粳稻叶绿素含量一直都是国内外精准农业学者的重要研究方向[1-2]。高光谱技术是近几年快速发展的一种地基遥感手段,其获取数据的丰富性、便捷性等方面相较于其他传统检测手段具有一定的优势,因此利用高光谱技术对粳稻叶绿素含量进行反演估算对于辅助田间精准施肥具有重要的现实意义。

目前,国内外在利用高光谱技术估算作物叶绿素含量已经取得了一定的研究成果。曹英丽等[3]利用 Gram-Schmidt 正交变换寻找叶片高光谱数据的基函数空间,再将其投影到基函数空间从而实现降维,最后利用降维后的数据进行多元回归建模,反演叶绿素。孙红等[4]按照叶片垂直分布位置采集马铃薯叶片的成像高光谱数据,选取RF-PLS模型计算马铃薯叶片每个像素点的叶绿素含量,实现了不同叶位马铃薯叶片叶绿素含量无损检测以及分布可视化表达。毛博慧等[5]研究了冬小麦冠层325~1 075 nm反射光谱,采取遗传算法对光谱特征参数寻优并结合相关分析结果,利用最小二乘-支持向量回归建立冬小麦叶绿素含量预测模型,为后续施肥决策提供支持。刘昌华等[6]采用卷积平滑滤波、多元散射校正等10种光谱预处理方法结合PLSR、RF、BP神经网络筛选出最佳冬小麦氮营养指数高光谱预测模型。尼加提·卡斯木等[7]研究了820~940 nm的最大反射率及反射率综合所建立的PLSR模型估算春小麦叶绿素含量的效果较为理想。贺倩等[8]对紫茎泽兰的光谱数据进行 Savitzky-Glolay 平滑滤波处理,然后利用包络线去除和一阶光谱微分法识别紫茎泽兰的光谱特征。

现有的水稻叶绿素的反演研究中,多是通过构建植被指数建立统计回归模型来反演叶绿素含量,模型构建简单但目前所构建的光谱指数数目繁多,单一植被指数不能很好地表征整个高光谱信息,同时在模型的通用性等方面还存在一定的不足[9-10]。

本研究针对粳稻叶片叶绿素含量反演开展研究,以解决快速、精准、无损反演粳稻叶绿素含量的问题,提高反演精度。采用地面高光谱仪,获取粳稻关键生育期叶片高光谱信息,采用高光谱降维方法提取粳稻叶片高光谱特征,并建立基于机器学习的叶绿素反演模型,以期实现东北粳稻叶片叶绿素含量的精准反演。

1 材料与方法

1.1 试验区域与试验设计

试验于2015—2017年在沈阳农业大学卡利马试验站进行(41°47′N、122°71′E),数据采集为每年的6—9月覆盖粳稻生长的分蘖期、拔节期、抽穗期、灌浆期等的关键生育期,选用品种为北粳1号。粳稻试验小区设计为4个氮肥梯度处理,分别为CK、N1、N2、N3,每种处理再进行3次重复,共96个试验小区。其中CK为对照组,即不施用氮肥;N1为当地标准氮肥施用水平,氮肥施用量为45 kg·hm-2,N2为低氮施肥水平,施用量为N1的0.5倍;N3为高氮施肥水平,施用量为N1的1.5倍;磷肥和钾肥的施用按照当地标准施用量进行,其中磷肥标准施用量为51.75 kg·hm-2,钾肥标准施用量为18 kg·hm-2。图1为本研究试验区域与试验小区设计。

图1 本研究试验小区设计Fig.1 Design of experimental district in this study

1.2 粳稻叶片高光谱信息数据获取

粳稻叶片高光谱数据采用美国ASD公司的HandHeld2手持地物光谱仪配合叶片夹进行采集,由于叶片采集利用主动光源进行采集,因此外界环境的变化不影响高光谱数据采集的准确性和稳定性[11-12]。本研究能够保证不同时间采集的叶片高光谱信息具有可比性。粳稻叶片高光谱的波段有效范围为400~1 000 nm,分辨率为3 nm。

光谱数据采集主要选择每个试验小区内部长势大体相同的位置进行采集。每片叶子采集叶中部和叶尾部的平均值为该片稻叶的高光谱信息。

1.3 粳稻叶片叶绿素含量测定

在本研究试验时间范围内主要覆盖了粳稻生长的分蘖期、拔节期、孕穗期、抽穗期、开花期和灌浆期6个时期。粳稻田间取样工作在粳稻高光谱测量完毕后进行破坏性采样装入密封袋,并迅速放入移动冰室进行冷藏保鲜,立即带回实验室进行叶绿素含量测定[13-15]。

待粳稻样品送回实验室后,按照体积比9∶9∶2将丙酮、无水乙醇、蒸馏水3种溶液配置成混合溶液,选择粳稻的完全展开叶片,剪碎后相互混合均匀,称取0.4 g加入提取混合溶液200 mL;在实验室遮光环境下静置,直到样品完全发白,利用分光光度计进行比色,分别测定663 nm和645 nm处光密度值(D),计算粳稻样品的叶绿素含量[16]。

1.4 数据处理

本研究共进行了30次试验数据采集,共采集1 128组有效粳稻叶片样本数据,选取其中的80%作为建模数据集(样本容量为902),另外20%为验证数据集(样本容量为226)。本研究采样数据的统计特征如表1所示。

由表1可知,本研究的建模数据集和验证数据集两组数据除样本量不同之外,其他统计参量相差不大,变异系数接近30%,说明叶绿素含量数据的离散程度较大,能较好地体现粳稻不同生育期之间叶绿素含量之间的差异。

本文作者的前期研究中,验证了粳稻叶片叶绿素含量变化主要影响400~800 nm的光谱反射率,具体分析方法详见文献[17-18]。因此本研究选择400~800 nm的光谱信息作为叶绿素含量反演的高光谱区间。

1.5 粳稻叶片高光谱特征提取

本研究分别采用主成分分析法(PCA)、典型相关分析法(CCA)、核典型关联分析法(KCCA)这3种方法对获取的粳稻叶片高光谱信息进行高光谱特征提取[19-20],提取结果作为叶绿素含量反演模型的输入变量。

1.6 叶绿素含量反演建模

本研究在提取高光谱特征信息的基础上,采用支持向量机回归(SVR)、神经网络(NN)、随机森林(RF)、偏最小二乘法(PLSR)这4种机器学习算法建立粳稻叶片叶绿素含量反演模型[21-22]。本研究使用均方根误差(root mean square error,RMSE)和模型决定系数(coefficient of determination,R2)作为高光谱遥感反演粳稻冠层叶绿素含量精度的评价标准[23-24]。

2 结果与分析

2.1 粳稻叶片高光谱特征提取分析

本研究采用Matlab2017b软件,实现PCA、CCA、KCCA 3种高光谱特征提取方法,每一种方法分别提取5个高光谱特征[25-26]。再利用3种方法提取的高光谱特征作为叶绿素含量反演模型的输入,得出不同方法提取的高光谱特征所建立的模型的反演精度。表2所示为PCA方法提取的5个高光谱特征信息所建立叶绿素含量反演模型结果。

表1 试验小区粳稻叶绿素含量统计特征Table 1 Statistical characteristics of chlorophyll content in japonica-rice in experimental plot

由表2得知,PCA方法所提取的粳稻叶片高光谱特征,通过不同方法建立的粳稻叶片叶绿素含量反演模型决定系数R2为0.634~0.722,RMSE为1.829~1.958。采用PCA方法提取高光谱特征建立的叶绿素含量反演模型提取的5个高光谱特征变量能够表示原始高光谱的98.5%。

由表2得知,CCA方法所提取的粳稻叶片高光谱特征,通过不同方法建立的粳稻叶片叶绿素含量反演模型决定系数R2为0.608~0.723,RMSE为1.850~2.864。采用CCA方法提取高光谱特征波段建立叶绿素含量反演模型,其反演结果总体上优于PCA方法提取高光谱特征建立的反演模型。采用CCA方法提取的5个高光谱特征变量能够表示原始高光谱的99.3%。

由表2得知,KCCA方法所提取的粳稻叶片高光谱特征,通过不同方法建立的粳稻叶片叶绿素含量反演模型决定系数R2为0.777~0.801,RMSE为1.610~1.703[27-28]。采用KCCA方法提取高光谱特征波段建立叶绿素含量反演模型,其反演结果是3种方法里最好的。采用KCCA方法提取的5个高光谱特征变量能够表示原始高光谱的99.1%。

2.2 叶片叶绿素含量机器学习建模分析

本研究在提取高光谱特征信息的基础上,将不同降维算法提取的高光谱特征信息作为输入,采用支持向量机回归法(SVR)、神经网络法(NN)、随机森林法(RF)、偏最小二乘法(PLSR)等4种机器学习算法分别建立粳稻叶片叶绿素含量反演模型[29-30]。

图2为采用SVR方法利用不同高光谱特征输入建立反演模型的预测值与实测值的对比。SVR算法在保证数据精度的同时降低逼近函数的复杂度,针对非线性建模的解决拥有很多优点。由图2可知,利用KCCA-SVR方法建立的叶绿素含量反演模型的效果最为理想,实测值与预测值的均方根误差RMSE为1.610。

图3为采用神经网络方法利用不同高光谱特征输入建立反演模型的预测值与实测值的对比。由图3可知,利用KCCA-NN方法建立的叶绿素含量反演模型的效果最为理想,实测值与预测值的均方根误差RMSE为1.634。

图4为采用随机森林方法利用不同高光谱特征输入建立反演模型的预测值与实测值的对比。由图4可知,利用KCCA-RF方法建立的叶绿素含量反演模型的效果最为理想,实测值与预测值的均方根误差RMSE为1.703。

图5为采用偏最小二乘法利用不同高光谱特征输入建立反演模型的预测值与实测值的对比。

表2 粳稻叶片高光谱特征PCA、CCA、KCCA提取结果分析Table 2 Analysis of the results of hyperspectral PCA, CCA and KCCA extraction from japonica-rice leaves

偏最小二乘法是一种多元数据统计分析方法,通过最小化误差的平方和找到数据的最佳匹配函数,令误差的平方和最小。由图5可知,利用KCCA-PLSR方法建立的叶绿素含量反演模型的效果最为理想,实测值与预测值的均方根误差RMSE为1.660。

图2 SVR法单波段相关性分析性结果Fig.2 Single band correlation analysis of SVR method

图3 NN法单波段相关性分析性结果Fig.3 Single band correlation analysis of NN method

图4 RF法单波段相关性分析性结果Fig.4 Single band correlation analysis of RF method

图5 PLSR法单波段相关性分析性结果Fig.5 Single band correlation analysis of PLSR method

综合分析4种机器学习方法建立的叶绿素含量反演模型可知,由核典型关联分析和支持向量机回归耦合形成的KCCA-SVR方法所建立的粳稻叶片叶绿素含量反演模型其模型反演效果要明显优于其他方法所建立的反演模型,模型决定系数R2为0.801, 模型的均方根误差RMSE为1.610,展现了良好的预测能力。

3 结论与讨论

本研究采用的PCA、CCA、KCCA 3种高光谱降维方法中,KCCA方法由于是非线性降维方法,与非线性建模算法结合建模其精度明显提高,对粳稻叶片高光谱降维效果优于PCA和CCA两种线性降维方法。采用KCCA-SVR方法建立的粳稻叶片叶绿素含量反演模型的模型决定系数R2=0.801,RMSE=1.610,可以建立较为精准的粳稻叶绿素含量反演模型。该模型展现了良好的预测能力,能够为东北粳稻叶片叶绿素含量反演研究及养分诊断提供一定的数据支撑和模型参考。

本研究尝试通过PCA、CCA、KCCA这3种方法对粳稻叶片高光谱进行降维[31],提取粳稻叶片高光谱特征信息,降低叶绿素含量反演建模的难度。通过特征提取可知,采用KCCA方法提取的5个粳稻叶片高光谱特征信息所建立的4种叶绿素含量机器学习反演模型效果明显优于PCA和CCA方法提取的高光谱特征建立的反演模型。这主要是由于传统的PCA和CCA法均是分析两组变量之间的线性相关关系,而没有考虑两组变量之间的非线性相关的程度[32-33]。本研究所采用的机器学习算法多是非线性模型,利用线性方法对粳稻叶片高光谱信息降维,会造成一定程度的建模精度下降。本研究利用径向基函数作为KCCA算法的核函数,把高光谱数据映射核函数空间,并通过核函数方便地在核函数空间进行关联分析,并提取粳稻叶片高光谱特征信息。

在研究过程中,地面样本数量还相对有限,并且所建立的叶绿素含量反演模型仅是针对试验粳稻品种建立的,对于其他品种叶绿素含量的反演的适用性还需要进一步完善[34-35]。因此,在未来的研究中将增加试验品种,同时针对粳稻不同生育期分别建立叶绿素含量反演模型,提高模型精度和普适性。

猜你喜欢

降维粳稻反演
反演对称变换在解决平面几何问题中的应用
混动成为降维打击的实力 东风风神皓极
基于数据降维与聚类的车联网数据分析应用
基于ADS-B的风场反演与异常值影响研究
Meteo-particle模型在ADS-B风场反演中的性能研究
近10 年云南省育成的粳稻品种性状分析
我国双季早粳稻实现“零的突破”
长期运行尾矿库的排渗系统渗透特性的差异化反演分析
解读粳稻品种南方种植播期
大气腐蚀数据降维最优维度研究