APP下载

基于近红外光谱波长优选的土壤有机质含量预测研究

2018-11-13张小鸣汤宁

现代电子技术 2018年22期
关键词:近红外光谱遗传算法

张小鸣 汤宁

摘 要: 近红外光谱技术是检测土壤信息的有效工具,为了提高预测模型的准确度和建模效率,需要对波长进行优选。提出SiPLS?GA?SPA特征波长提取方法,即协同区间偏最小二乘算法(SiPLS)、遗传算法(GA)和连续投影算法(SPA)对土壤有机质特征波长进行梯度提取,最终从1 050个波长中提取9个土壤有机质的特征波长。利用偏最小二乘回归(PLSR)和支持向量机回归(SVMR)建立6种基于特征波长的土壤有机质含量预测模型。结果表明:SiPLS?GA?SPA?SVMR模型的预测结果为RMSEP=1.15,R2=0.91,优于其他模型;SiPLS?GA?SPA特征波长提取方法能够简化预测模型,提高模型预测精度,为开发便携式近红外光谱土壤养分检测仪提供理论基础。

关键词: 近红外光谱; 特征波长; 协同区间偏最小二乘; 遗传算法; 连续投影算法; 支持向量机回归

中图分类号: TN929?34 文献标识码: A 文章编号: 1004?373X(2018)22?0126?04

Abstract: The near infrared spectroscopy technology is an effective tool for detecting soil information, and wavelength optimization is necessary to improve the accuracy and modeling efficiency of the prediction model. Therefore, an SiPLS?GA?SPA feature wavelength extraction method is proposed. The synergy interval partial least squares (SiPLS), genetic algorithm (GA) and successive projection algorithm (SPA) are combined to conduct gradient extraction for feature wavelengths of soil′s organic matter, and 9 feature wavelengths of soil′s organic matter are extracted from 1050 wavelengths. The partial least squares regression (PLSR) and support vector machine regression (SVMR) are adopted to establish 6 soil′s organic matter content prediction models based on feature wavelengths. The results show that, the prediction results of the SiPLS?GA?SPA?SVMR model (RMSEP=1.15, R2=0.91) are superior to other models, and the SiPLS?GA?SPA feature wavelength extraction method can simplify the prediction model and improve the prediction accuracy of the model, which provides a theoretical basis for the development of the portable near infrared spectroscopy soil nutrient detector.

Keywords: near infrared spectrum; feature wavelength; synergy interval partial least squares; genetic algorithm; successive projection algorithm; support vector machine regression

可見/近红外光谱区几乎包含了有机物中所有含氢基团的信息,信息量极为丰富,能够实现对物质的定性和定量分析[1]。光谱检测技术具有分析速度快、多组分同时测定、非破坏性分析、低分析成本和操作简单等显著特点[2]。能够适应现代精准农业(Precision Agriculture)对土壤养分信息实时准确、快速、大范围获取的要求。土壤有机质(SOM)是评价土壤肥力高低的重要指标,快速有效测定土壤有机质含量,对指导农业耕种中作物种植和施水施肥都有很大指导意义。

本文提出协同区间偏最小二乘(SiPLS)、遗传算法(GA)和连续投影算法(SPA)对土壤有机质的特征波长进行梯度提取,从1 050个波长中选择出9个土壤有机质的特征波长,利用偏最小二乘回归(PLSR)、支持向量机回归(SVMR)建立基于特征波长的土壤有机质含量预测模型,以期获得计算量小、精度高的预测模型,为研究便携式近红外光谱土壤养分检测仪提供技术参考。

1 实验部分

土壤样本光谱数据来源于网络(http://www.models.life.ku.dk/NIRsoil),包含了在瑞典北部阿比斯库地区进行的一项长期田间试验采集到的108个土壤样本的近红外吸光度光谱数据,光谱波长区间为400~2 498 nm,光谱分辨率为2 nm,共1 050个波长点,其中土壤有机质含量采用550 ℃条件下的灼烧失重法测定[3]。

2 结果与讨论

2.1 异常样本剔除与样本划分

土壤样本采集和光谱数据获取过程中可能会产生异常样本,剔除异常样本能够提高模型的稳定性和预测精度,采用蒙特卡洛异常值剔除法[4]剔除异常样本,样本预测误差的平均值和标准偏差中有一项明显大于其他样本的可视为异常样本。共剔除异常样本6个,剔除后总样本数变为102。

具有代表性的校正集样本能够加速模型回归,提高模型预测精度。利用SPXY[5]算法计算样本光谱吸光度与待测有机质含量之间的欧氏距离,相比于其他样本划分算法,SPXY考虑光谱矩阵的同时能将预测属性也考虑在内。有效覆盖多维向量空间,改善模型预测能力[6]。SPXY算法划分校正集样本82个,预测集样本20个,样本的有机质含量统计数据结果如表1所示。

2.2 光谱数据预处理

数据预处理技术能解决光谱数据中噪声的抑制和消除,增强光谱吸收特征,提高模型性能。经反复对比研究,采用平滑点数为5、多项式阶数为2的Savitzky?Golay(SG)平滑对光谱数据进行预处理,能消除光谱基线漂移和倾斜噪声。由于土壤颗粒大小不均匀,其漫反射光谱中包含有光散射造成的噪声,多元散射校正(Multiple Scattering Correction,MSC)将光谱中散射信号与化学吸收信息进行分离,消除在漫反射光谱测量中由于样本颗粒不均匀造成的样本光谱差异[7],故对SG平滑后光谱数据再利用MSC进行预处理。图1为SG结合MSC预处理后的光谱曲线图。

2.3 特征波长提取

SiPLS是将光谱数据划分为一定数目的等长子区间,计算2,3或4个区间所有可能组合的PLS模型[8],在土壤有机质特征区间不确定的情况下,对子区间的划分数进行优化,确定特征子区间,研究中将全部波长划分为11~25个子区间。表2为不同区间数下SiPLS模型所对应的最小交互验证均方根误差(RMSECV),将其最小的区间组合作为最优选择。由表2可知,当全部波长划分为24个子区间时,每个子区间44个波长,4个子区间分别为4,10,12,16组合后建立的PLS模型RMSECV值最小为1.48,即选择特征区间波段为664~752 nm,1 192~1 280 nm,1 368~1 456 nm和1 720~1 808 nm。它们在全部光谱中的位置如图2所示。

近红外光谱都具有一定的连续性,有效波长点附近的波长点对预测的土壤养分也有较强解释性和化学意义[9]。SiPLS算法从1 050个波长中筛选出4个子区间共176个波长,能够很好地反映土壤有机质含量,也很大程度减少了波长数,但SiPLS算法优选出的是波长区间,相邻波长变量之间仍然存在较强共线性和冗余。遗传算法(GA)是一种全局概率搜索算法,借鉴生物进化和自然选择机制,利用选择、交换和突变等算子的操作使目标函数值最优的变量“优胜劣汰”[10]。遗传算法进行波长选择是产生大量的波长组合,能很好保留波长之间的协同效应。因此利用GA进一步筛选,GA主要参数设置:最大繁殖代数为100,交叉概率为0.5,变异概率为0.01,由于遗传算法存在一定的随机性,故运算10次以消除影响。图3为各变量被选频率图。频数大于黑色虚线的变量为入选变量,筛选波长变量53个。但被选变量仍然较多,还存在一定的冗余信息。连续投影算法(SPA)是利用向量的投影分析,寻找含有最低限度冗余信息的变量组,能有效克服光谱数据的共线性和冗余,减少建模变量,降低建模复杂度[11]。利用SPA在GA的基础上进一步提取与有机質相关的特征波长,提取结果如图4所示。

2.4 预测模型建立与分析

2.4.1 模型的评价指标

模型评价指标包括衡量自变量和因变量之间线性相关程度的决定系数(R2),反映样本预测值和实测值之间误差大小的预测均方根误差(RMSEP)和能够评价模型预测能力的相对分析误差(RPD)。

2.4.2 偏最小二乘回归

偏最小二乘回归(PLSR)是应用广泛的定量分析方法,将典型相关性分析、主成分分析和回归分析结合。尽可能多地保留光谱矩阵中有用信息的同时保证与待测成分的相关程度最大。能充分反映出波长与待测成分之间的相互关系[12]。构建基于SiPLS优选波长区间,SiPLS?GA和SiPLS?GA?SPA优选特征波长的PLSR模型,采用留一交叉验证法防止模型过拟合,需要优化的参数是潜在变量(Latent Variables,LVs)个数,并将预测集20个样本作为建立的模型输入,结果如表3所示。

2.4.3 支持向量机回归(SVMR)

对于土壤养分的近红外模型构建,线性建模方法已经有了广泛应用,是目前的主流方法,支持向量机算法(SVM)是一种基于核函数的学习算法,在分类和回归中有很广泛的应用[13]。研究采用基于径向基核函数(RBF)的SVMR算法对土壤的有机质含量进行预测分析,同样建立了3种基于特征波长的SVMR土壤有机质预测模型,并将预测集20个样本作为建立的模型输入进行预测,结果如表4所示,核函数的惩罚参数c和核参数g采用网格法进行优化,最终选择c=100;g=0.000 1。

比较建立的6种模型发现SVMR预测性能要优于PLSR,可能是因为土壤的形成和发育过程复杂,土壤中的有机质含量与光谱特征之间存在着非线性关系。在两种回归模型中基于SiPLS?GA?SPA优选特征波长的预测模型要优于其他两种,且SiPLS?GA优于SiPLS,说明由于SiPLS提取的是连续波长区间,相邻波长之间仍然存在较强的共线性, GA进一步选择后能够消除一部分冗余波长,但选择的波长数还有较多冗余信息仍然存在,SPA算法擅长消除变量间的冗余。所以三种算法联用时各自优缺点能够得到互补,提取出最有效的土壤有机质特征波长。

3 结 语

采用SiPLS?GA?SPA方法选择土壤有机质的特征波长,将原始的1 050个波长减少到9个,减少了模型的计算量,简化了模型的复杂度,SiPLS算法能够减少建模变量同时能够提高模型的稳定性。但由于近红外光谱高度重叠的特性,相邻变量之间有很强的共线性。因此使用GA算法对SiPLS选择的波长区间进行变量的组合优化,筛选出最有效的变量组合。在此基础上利用SPA算法进一步消除冗余,减少建模变量,结合SVMR算法预测土壤有机质取得较高的精度,为便携式近红外光谱土壤养分检测仪提供理论支撑。

参考文献

[1] 宋海燕.土壤近红外光谱检测[M].北京:化学工业出版社,2013.

SONG Haiyan. The soil′s near infrared spectroscopy detection [M]. Beijing: Chemical Industry Press, 2013.

[2] 刘燕德,熊松盛,刘德力.近红外光谱技术在土壤成分检测中的研究进展[J].光谱学与光谱分析,2014,34(10):2639?2644.

LIU Yande, XIONG Songsheng, LIU Deli. Application of near infrared reflectance spectroscopy technique (NIRS) to soil attributes research [J]. Spectroscopy and spectral analysis, 2014, 34(10): 2639?2644.

[3] RINNAN R, RINNAN A. Application of near infrared reflectance (NIR) and fluorescence spectroscopy to analysis of microbiological and chemical properties of arctic soil [J]. Soil biology & biochemistry, 2007, 39(7): 1664?1673.

[4] 杨峰,张勇,谌俊旭,等.高光谱数据预处理对大豆叶绿素密度反演的作用[J].遥感信息,2017,32(4):64?69.

YANG Feng, ZHANG Yong, CHEN Junxu, et al. Effects of hyperspectral data pretreatment on model inversion of soybean chlorophyll density [J]. Remote sensing information, 2017, 32(4): 64?69.

[5] 陈奕云,齐天赐,黄颖菁,等.土壤有机质含量可见?近红外光谱反演模型校正集优选方法[J].农业工程学报,2017,33(6):107?114.

CHEN Yiyun, QI Tianci, HUANG Yingjing, et al. Optimization method of calibration dataset for VIS?NIR spectral inversion model of soil organic matter content [J]. Transactions of the Chinese Society of Agricultural Engineering, 2017, 33(6): 107?114.

[6] GALV?O R K H, ARAUJO M C U, JOS? G E, et al. A method for calibration and validation subset partitioning [J]. Talanta, 2005, 67(4): 736?740.

[7] 王瑛瑛.土壤有机质近红外光谱分析及相关软件开发[D].合肥:中国科学技术大学,2014.

WANG Yingying. The near?infrared spectroscopy analysis of organic matter and related software development [D]. Hefei: University of Science and Technology of China, 2014.

[8] YANG M, CHEN Q, KUTSANEDZIE F Y H, et al. Portable spectroscopy system determination of acid value in peanut oil based on variables selection algorithms [J]. Measurement, 2017, 103: 179?185.

[9] 杨海清,祝旻.基于可见?近红外光谱特征波长选择的土壤有机质快速检测研究[J].红外,2015,36(2):42?48.

YANG Haiqing, ZHU Min. Study of rapid detection of soil organic matter based on characteristic wavelength selection of visible?near infrared spectra [J]. Infrared, 2015, 36(2): 42?48.

[10] 宾俊,范伟,周冀衡,等.智能优化算法应用于近红外光谱波长选择的比较研究[J].光谱学与光谱分析,2017,37(1):95?102.

BIN Jun, FAN Wei, ZHOU Jiheng, et al. Application of intelligent optimization algorithms to wavelength selection of near?infrared spectroscopy [J]. Spectroscopy and spectral analysis, 2017, 37(1): 95?102.

[11] 章海亮,罗微,刘雪梅,等.应用遗传算法结合连续投影算法近红外光谱检测土壤有机质研究[J].光谱学与光谱分析,2017,37(2):584?587.

ZHANG Hailiang, LUO Wei, LIU Xuemei, et al. Measurement of soil organic matter with near infrared spectroscopy combined with genetic algorithm and successive projection algorithm [J]. Spectroscopy and spectral analysis, 2017, 37(2): 584?587.

[12] MORELLOS A, PANTAZI X E, MOSHOU D, et al. Machine learning based prediction of soil total nitrogen, organic carbon and moisture content by using VIS?NIR spectroscopy [J]. Biosystems engineering, 2016, 152: 104?116.

[13] ROSSEL R A V, BEHRENS T, GUERRERO C, et al. Using data mining to model and interpret soil diffuse reflectance spectra [J]. Geoderma, 2010, 158(1): 46?54.

猜你喜欢

近红外光谱遗传算法
遗传算法对CMAC与PID并行励磁控制的优化
基于自适应遗传算法的CSAMT一维反演
一种基于遗传算法的聚类分析方法在DNA序列比较中的应用
基于遗传算法和LS-SVM的财务危机预测
基于近红外光谱法的藜麦脂肪含量快速检测
协同进化在遗传算法中的应用研究
基于改进的遗传算法的模糊聚类算法
利用油水稳定化和支持向量回归增强近红外光谱测定油中水分的方法
基于一元线性回归的近红外光谱模型传递研究