APP下载

基于玉米近红外光谱和离散小波变换的SVR模型稳健性研究

2017-04-11段凌瑶陈闯李静赵亚亚陈士林侯振雨

关键词:淀粉光谱蛋白质

段凌瑶,陈闯,李静,赵亚亚,陈士林,侯振雨

(河南科技学院化学化工学院,河南新乡453003)

基于玉米近红外光谱和离散小波变换的SVR模型稳健性研究

段凌瑶,陈闯,李静,赵亚亚,陈士林,侯振雨

(河南科技学院化学化工学院,河南新乡453003)

采用国家标准方法测定125个玉米样品中的蛋白质、淀粉和脂肪含量,同时测定玉米样品的近红外光谱(NIRS)数据.采用多次、随机选择定标集和校正集样品的方法,对支持向量回归(SVR)模型的参数进行优化,探讨离散小波变换(DWT)对SVR模型的影响.结果表明:DWT可有效去除玉米NIRS数据中的背景和噪声,建立的DWT-SVR多变量回归模型具有较好的稳健性,可实现玉米样品中蛋白质、淀粉和脂肪的同时测定.

玉米;蛋白质;近红外光谱;支持向量回归;离散小波变换

近年来,随着人们生活水平的提高,对农业产品提出了更高的要求,如对高蛋白质含量、高油含量或高糖分含量的特用玉米的需求越来越大.这种需求也为育种专家们提供了新的挑战.在玉米育种工作中,如何简单、快速地评价玉米的品质,对缩短玉米育种周期和减小工作量具有十分重要的意义.

近红外光谱分析技术是一种快速分析方法,常采用偏最小二乘(PLS)和主成分回归(PCR)模型对玉米的品质和成分进行评价[1-2].但当训练样本较少且变量(波长)较多时,常出现“过拟合”或“欠拟合”现象,带来一定的误差[3].同时,随着近红外光谱分析仪器状态的改变、样品的变化,定标模型需要进行不断的更新和优化.因此,基于玉米NIRS进一步开展近红外光谱分析的多变量稳健校正模型的研究,是一种非常有意义的工作.

多变量校正模型的稳健性与多种因素有关,其主要的影响因素有模型的类型、NIRS数据的处理及校正集样品的选择.支持向量回归(SVR)作为一种新的多变量校正模型,在小样本、非线性数据的建模中表现出了一定的优势,受到了科研人员的普遍重视[4-5].小波变换(WT)是一种优秀的NIRS数据处理工具[6],但对于小波基函数的选择和小波分解次数的选择并没有有效的规则或判定方法,需要通过试验来确定.将WT与SVR模型结合,探讨基于NIRS的SVR模型建立步骤、方法及条件,对SVR模型在玉米近红外光谱分析中的应用具有很好的指导作用.

1 实验设计及方案

1.1 NIRS数据的样品采集和制备

按照NIRS分析对测试样品的要求,搜集整理了近二十年玉米品质中主要成分含量变幅较大的自交系材料125份,包括普通自交系品种、高蛋白品种和高油玉米品种,其中20份由中国农业科学院种子库提供,并于2013年夏在河南科技学院实验田种植,45份于2012年在河南科技学院试验田种植,60份于2013年冬在海南繁育基地种植.

为减少玉米样品间处理后的差异,将搜集后的样品统一脱粒,挑拣干净,放于60~65℃烘箱中干燥8 h以上,用FW-80型高速万能粉碎机磨碎1 min左右,通过40目分样筛,混合均匀后装入密封袋,用于NIRS扫描和实验室化学分析.

1.2 蛋白质、淀粉和油分含量的化学方法测定

玉米样品的水分测定按烘干法(GB/T 10362—2008)测定;粗蛋白含量按凯氏定氮法(GB/T5511—2008),用KJELTEC-8400型凯式定氮仪(Foss公司生产)测定;淀粉含量按旋光法(NY/T 11—1985),用旋光仪测定;脂肪含量按索氏抽提法(GB/T 5512—2008),用SOXTEC-2055型索氏抽提仪测定.所有样品平行测定3次,结果以干基/%表示.

1.3玉米样品的NIRS测定

在20~25℃和相对湿度(RH)为30%~70%的条件下,将9~10 g玉米粉碎样品装入样品池中并压实,在波长为400~2 500 nm范围内,用XDS型近红外谷物分析仪(Foss公司生产)对每个样品重复采集3次数据,取其平均值作为SVR建模使用,结果见图1.

2 建模方案与讨论

图1 不同品种和地方的125个玉米样品的NIRSFig.1 The NIRSof125 maize samples fromdifferent varieties and places

2.1 奇异值样本的剔除

实验测定的光谱数据和蛋白质、淀粉、脂肪等含量的化学测定值,可能会有奇异值,从而降低多变量校正模型的预测精度.因此在进行实验数据处理时应将这些误差较大的奇异点除去[6].采用留一交叉验证法对原始实验数据进行交互验证处理,将回收率偏高或偏低的光谱和浓度数据剔除,其中蛋白质和脂肪分别剔除了5个和2个玉米样品.

2.2 DWT对NIRS数据的处理

NIRS数据中不仅有被测组分的信息,而且还有噪声和背景等冗余信息.冗余信息对SVR模型的稳健性和预测结果的准确度有较大影响,因此,建模过程中须对NIRS进行适当处理,减少建模变量,增加不同玉米样品间的光谱差异.目前,NIRS数据处理有波长的选择、数据的平滑、数据的求导、WT处理、多元去散射校正(MSC)等方法.其中WT处理NIRS数据的效果较为理想[6-7].离散小波变换(DWT)不仅可以消除光谱数据的背景和噪声,而且还能够对光谱数据进行有效的压缩,故本文选择DWT对NIRS数据进行处理,进一步探讨玉米蛋白质、淀粉和油分同时测定的SVR模型建立条件.

光谱信号经DWT小波分解后,频率变化比较大的噪声信号出现在分解尺度较小的高频系数部分,频率变化较小的背景信号则出现在分解尺度较高的低频系数部分.将与噪声信号所对应的高频系数及与背景信号所对应的低频系数舍弃后重构,即可得到平滑滤噪及压缩后的光谱.

本文选择CWT的db2小波基函数进行11尺度小波分解,并将1尺度的高频系数及11尺度的低频系数置0后进行重构,再用SVR模型进行建模.建模时将样品含量由低到高进行排序,按一定间隔挑选30个样品作为检验集,剩余样品由随机函数(randperm)随机运行15次,每次取70个样品进行建模,剩余样品作为校正集,对校正集预测结果的均方根误差(RMSEP)取算术平均值,结果见表1.可以看出,DWT后的NIRS重构数据点数不同,SVR模型对被测组分预测结果的RMSEP也不同.其中NIRS数据由1 050个压缩到35个时,预测结果的RMSEP平均值最小,即5尺度下的DWT重构NIRS数据,SVR模型对校正集的蛋白质、脂肪和淀粉的预测结果效果最好.因此,本文选择重构数据35个(重构的尺度系数为5)作为NIRS数据的处理方法,进一步探讨SVR模型的预测能力.

表1数据为15次随机数据的定标集对校正集预测结果的RMSEP平均值,其变化规律并不代表每次随机结果的RMSEP值都小于原始光谱数据.

表1 DWT对SVR模型预测结果的影响Tab.1 The influence ofDWTon SVR model prediction result

SVR和DWT-SVR模型对蛋白质、脂肪和淀粉的15次随机预测结果的RMSEP值见图2.可以看出,DWT-SVR相对于SVR模型,对蛋白质、脂肪和淀粉预测结果的RMSEP变化较为平稳,即DWT-SVR模型的稳健性好于SVR.在测定表1数据的同时,对检验集样品进行测定(检验集样品固定),结果见表2.

图2 随机定标集数据的SVR和DWT-SVR模型预测结果Fig.2 The SVR and DWT-SVR model prediction result ofrandomstandard set

表2 DWT-SVR模型对固定检验集预测结果的RMSEP平均值Tab.2 The average RMSECoffixed testingset prediction result byDWT-SVR model

由表2可知,采用尺度系数为5的DWT重构数据建立SVR模型,对固定检验集蛋白质、脂肪和淀粉预测结果的RMSEP平均值分别为0.252 9、0.207 3和1.373,均小于采用原始光谱数据建立SVR模型对蛋白质、脂肪和淀粉预测结果的RMSEP,与表1的结果一致,说明采用多次、随机选择定标集和校正集样品的方法,对SVR模型的参数进行优化是一种可行的建模方法.

根据玉米样品中蛋白质、脂肪和淀粉的含量分布,在上述定标集和校正集中挑选70个玉米样品,按表1所建模型的最佳参数建立SVR和DWT-SVR模型,并对30个固定的检验集玉米样品再次进行测定,同时用传统的PLS方法进行对比,结果见表3.

表3 SVR、DWT-SVR和PLS模型的预测结果Tab.3 The predicted results ofSVR,DWT-SVR and PLSmodel

由表3可以看出,SVR、DWT-SVR和PLS模型对于检验集淀粉、蛋白质和脂肪预测结果的相对均方根误差(RRMSEP)分别在1~2、2~3和4~5之间,说明模型对淀粉和蛋白质具有很好的预测能力,而对脂肪的预测能力则一般[8-9].这可能是脂肪含量较低的原因所致;DWT-SVR模型对检验集蛋白质和脂肪预测结果的RMSEP均小于PLS模型,对淀粉预测结果的RMSEP与PLS方法相当,说明建立的DWT-SVR模型对蛋白质、脂肪和淀粉的预测能力总体不低于PLS模型;预测结果的平均相对误差均小于5%,回收率均在95%~105%之间,满足分析化学对二次分析方法的要求;对蛋白质、脂肪和淀粉预测结果的相关系数分别为0.984 7、0.969 8和0.866 1,说明DWT-SVR模型对蛋白质和脂肪的预测结果与化学实验值具有很好的相关性.而对淀粉的相关性则相对较差,但也满足近红外光谱分析的要求.需要注意的是,相关系数并不能说明误差的相对大小,如果有系统误差存在,其相关性也可能很好;相关系数不是太好,但由于该组分的含量较高,其预测结果的相对误差也不一定很大.如脂肪和淀粉的相关系数分别为0.969 8和0.866 1,平均含量分别为3.844%和69.10%,而预测结果的平均相对误差分别为3.23%和1.25%.

3 小结

用DWT对玉米NIRS数据进行压缩,方便了数据存储,消除了玉米NIRS数据中的背景和噪声.采用多次、随机选择定标集和校正集样品的方法对SVR模型的参数进行优化,建立了适用于玉米NIRS的DWT-SVR稳健模型.模型用于玉米样品中的蛋白质、脂肪和淀粉的快速同时测定,结果满意,为玉米样品品质的快速评价和缩短玉米育种周期提供了参考方法.

[1]林家永.近红外光谱分析技术在玉米品质分析中的研究进展[J].中国粮油学报,2010,25(4):108-115.

[2]王徽蓉,陈新亮,李卫军,等.玉米品种近红外光谱的特征分析与鉴别方法[J].光谱学与光谱分析,2010,30(12):3213-3216.

[3]陈念贻,陆文聪,叶辰洲,等.支持向量机及其他核函数在化学计量学中的应用[J].计算机与应用化学,2002,19(6):691-696.

[4]侯振雨,蔡文生,邵学广.主成分分析-支持向量回归建模方法及其应用研究[J].分析化学,2006,34(5):617-620.

[5]喻其炳,苏迪,焦昭杰,等.利用油水稳定化和支持向量回归增强近红外光谱测定油中水分的方法[J].分析化学,2014, 42(9):1364-1368.

[6]侯振雨,王国庆,蔡文生,等.连续小波变换-支持向量回归用于植物样品多组分分析[J].计算机与应用化学,2005,22(9):714-716.

[7]陈昭,林兆洲,吴志生,等.小波变换在NIR定量模型中的应用[J].世界中医药,2013,8(l1):1273-1276,1279.

[8]曹璞,潘涛,陈星旦.小型近红外玉米蛋白质成分分析仪器设计的波段选择[J].光学精密工程,2007,15(12):1952-1958.

[9]李军涛.近红外反射光谱快速评定玉米和小麦营养价值的研究[D].北京:中国农业大学,2014.

(责任编辑:卢奇)

Research on robustness of support vector regression model base on near infrared spectroscopy of maize and Discrete wavelet transform

DUAN Lingyao,CHEN Chuang,LI Jing,ZHAO Yaya,CHEN Shilin,HOU Zhenyu
(School ofChemistryand Chemical Engineering,Henan Institute ofScience and Technology,Xinxiang 453003,China)

The content of protein,starch and fat of 125 maize samples were measured by using the national standard method and near-infrared spectroscopy(NIRS),simultaneously.By repeated and random selecting the optimization method of model of standard and calibration set,parameters of support vector regression(SVR)model were optimized, the influence of discrete wavelet transform(DWT)on SVR model were also discussed.The results showed that DWT can remove the background and noise in the maize NIRS data effectively,DWT-SVR multivariate regression model had good robustness which can measure the content of protein,starch and fat in maize at the same time.

maize;protein;near-infrared spectroscopy;support vector regression;discrete wavelet transform

S513

A

1008-7516(2017)01-0043-05

10.3969/j.issn.1008-7516.2017.01.009

2016-10-26

河南省教育厅重点研究项目(13A150282);河南省科技厅攻关项目(122102310278)

段凌瑶(1990—),女,河南卫辉人,硕士,助理实验师.主要从事功能材料合成和数据挖掘研究.

侯振雨(1965—),男,河南卫辉人,教授.主要从事化学计量学和气敏材料研究.

猜你喜欢

淀粉光谱蛋白质
基于三维Saab变换的高光谱图像压缩方法
从人工合成淀粉说开去
蛋白质自由
人工智能与蛋白质结构
高光谱遥感成像技术的发展与展望
MMT/淀粉-g-PAA的制备及其对铬(Ⅵ)的吸附
蕉藕淀粉与薯类淀粉特性对比研究
星载近红外高光谱CO2遥感进展
蛋白酶水解马铃薯淀粉对于淀粉化学性质改变的研究
苦味酸与牛血清蛋白相互作用的光谱研究