APP下载

油桐籽含油率近红外光谱检测模型的构建

2017-11-28李水芳李一帆付红军李姣娟

林业工程学报 2017年6期
关键词:油桐含油率校正

李水芳,李一帆,付红军,李姣娟

(1.中南林业科技大学理学院; 2.中南林业科技大学材料科学与工程学院;3.中南林业科技大学食品科学与工程学院,长沙 410004)

油桐籽含油率近红外光谱检测模型的构建

李水芳1,李一帆2,付红军3,李姣娟1

(1.中南林业科技大学理学院; 2.中南林业科技大学材料科学与工程学院;3.中南林业科技大学食品科学与工程学院,长沙 410004)

为实现油桐籽含油率的快速检测,采用近红外光谱结合化学计量学方法对油桐籽含油率的测定进行了研究。107个样本用Kennard-Stone法划分为校正集(80个)和验证集(27个)。光谱经预处理方法优化,确定一阶导数结合均值中心化预处理最优。分别采用竞争性自适应重加权算法筛选变量及小波变换压缩变量,比较了偏最小二乘法与径向基神经网络法所建模型的预测性能,确定竞争性自适应重加权算法筛选出的8个变量用于偏最小二乘法建模,所建模型预测性能最好:验证集相关系数0.927,均方根误差2.08,相对标准偏差为3.99%。结果表明竞争性自适应重加权算法筛选变量结合偏最小二乘法建模,所建模型简单,精度较好,可用于油桐籽含油率的快速检测。

油桐籽;含油率;近红外光谱;化学计量学

油桐(Verniciafordii)为大戟科油桐属植物,是我国具有代表性的经济林树种和特有的工业油料树种。油桐在我国秦岭、淮河以南的16个省(市、区)均有分布或栽培。据不完全统计,我国现有油桐林面积约66.17万hm2,年产桐油约6.75万t[1]。油桐籽含油率测定在油桐品质分析、良种选育等方面有广泛应用。目前,测定植物油料含油率的国标方法为GB/T 14488.1—2008《植物油料 含油量测定》,该法耗时、需消耗化学试剂、测定成本较高。也有研究者采用核磁共振法测定种子含油率,该法虽有简便、快速、可进行无损检测等优点,但仪器价格昂贵、日常维护费用高、对操作人员技术要求较高[2-3]。随着油桐用途的不断开发,油桐产业的发展越来越受到重视,有必要研究快速、简单、经济、有效的油桐籽含油率检测新方法。

近红外光谱技术具有简便、快速、易于操作、绿色环保等优点。研究表明该技术能快速测定油菜、玉米、大豆、棉籽、花生等草本油料种子含油率[5-9]。在木本油料种子含油率的测定研究中,原姣姣等[10]采集油茶粉碎种仁的近红外漫反射光谱,结合多种光谱预处理方法,建立了30份油茶种子含油率的偏最小二乘(PLS)回归模型。模型交叉验证相关系数和标准偏差分别为0.917和2.670;10份验证样品的近红外预测值和化学测定值的相关系数为0.897 8,实现了较好预测。奚如春等[11]分别建立了油茶带壳种子、去壳种仁和粉碎种仁的含油量PLS回归模型并进行预测,结果发现:带壳种子含油量预测结果差;用整颗去壳种仁建立的模型预测结果较好,预测相关系数为0.88,预测标准偏差为0.91;用粉碎种仁建立的模型的预测结果最好,预测相关系数为0.98,预测标准偏差为0.33。油桐籽脂肪酸组成具有不同于其他油料作物的独特性,其主要脂肪酸为桐酸,目前,有关NIR技术应用于油桐籽含油率检测的报道尚不多见。根据奚如春等[11]的研究结果,采用粉碎油茶籽种仁比采用整颗油茶籽种仁能获得更好的含油率近红外光谱检测结果,因此,笔者利用近红外漫反射光谱结合化学计量学方法,对油桐籽含油率NIR定量校正模型进行了研究,比较了多种光谱预处理、光谱特征提取及建模方法的分析结果,以期为油桐籽含油率的快速检测提供新的方法参考。

1 材料与方法

1.1 油桐样本

107个油桐样本于2015年11月底采集于湖南省永顺县中南林业科技大学油桐试验基地——国家油桐种质资源保存库,包括21个皱桐(V.montanaWils)样本和86个光桐(V.fordiiHemsley)样本。油桐果去皮留籽,油桐籽去壳留仁,稍加锤碎,在70℃常压恒温箱中烘干至质量恒定,装入布袋中锤碎,过0.85 mm标准筛后置于干燥器内备用。

1.2 NIR光谱数据采集

在约20℃室温下,将样品装入仪器配备的样品杯中,用Antaris Ⅱ傅里叶变换近红外光谱仪(美国Thermo Nicolet公司,配有积分球漫反射采集系统,InGaAs检测器及TQ软件)采集和保存光谱。在波数10 000~4 000 cm-1的光谱范围内,每间隔3.856 cm-1采集一个数据,因此,共有1 557个变量。扫描次数64次,分辨率8 cm-1,4倍增益,数据采集格式为log(1/R),以内置背景为参考,背景频率为每次扫描前采集1次。每个样本平行3次采集,取平均光谱。

1.3 含油率测定

采集完光谱的样本在3 d内完成含油率的测定。称取约10 g样本(精确到0.01 g,记为m0),放入烘过的滤纸筒中,用脱脂棉线捆扎好,称取其质量(精确到0.01 g,记为m1);然后放于装有石油醚(30~60℃)的索氏抽提装置中浸泡12 h,第2天抽提10 h左右,直到将2滴抽提液滴到玻璃片上,待溶剂挥发后,玻璃片上无油脂残留为止;随后,将抽提完油脂的滤纸包取出,放到70℃烘箱中烘干至质量恒定,称质量(精确到0.01 g,记为m2)。样本含油率(ω)按式(1)计算:

(1)

每个样本平行两次测定(两次测定的相对误差不大于2.0%,否则重测),取平均值。

1.4 化学计量学方法

采用基于马氏距离的Kennard-Stone(KS)法选择有代表性的样本作校正集和验证集。分别采用竞争性自适应重加权取样法(competitive adaptive reweighted sampling,CARS)和小波变换(wavelet transform,WT)进行变量筛选和光谱数据的压缩、去噪和特征提取。校正方法分别采用偏最小二乘法(partial least squares,PLS)和径向基神经网络法(radial basis function neural networks,RBFNN)。所有数据均采用Matlab 7.0软件进行计算。

2 结果与分析

2.1 样本集的划分及光谱预处理方法选择

采用KS法将皱桐和光桐单独划分成校正集(约2/3)和验证集(约1/3),然后再合并为样本的校正集(其中皱桐14个,光桐66个)和验证集(其中皱桐7个,光桐20个),从而保证了校正集和验证集中都含有相应比例的皱桐和光桐。校正集和验证集的含油率范围分别为33.6%~63.4%和41.7%~61.3%。

对原始光谱进行预处理能消除无关信息及噪声、增加样本光谱之间的差异,提高模型的稳健性和预测能力,实现模型的优化。分别采用一阶导数(1stder)、二阶导数(2ndder)、多元散射校正(multiplicative scatter correction,MSC)、均值中心化(mean centering,MC)、Savitzky-Golay平滑(S-G)及它们的组合等9种方法对原始光谱进行预处理,以校正集模型内部10折交叉验证的相关系数(correlation coefficient of cross-validation,Rcv)、均方根误差(root mean square error of cross-validation,RMSECV)以及验证集外部验证的相关系数(correlation coefficient of prediction,Rp)、均方根误差(root mean square error of prediction,RMSEP)评价模型的优劣。相关系数越大、均方根误差越小的模型越优。不同预处理的结果如表1所示,采用(1stder+MC)预处理最优。油桐籽样本的原始近红外光谱和(1stder+MC)预处理后光谱见图1。

表1 不同预处理PLS模型的预测结果Table 1 Predicted results of different pretreatingmethods using PLS model

图1 桐籽样本的近红外光谱Fig. 1 NIR spectrum of Vernicia fordii seed

2.2 CARS法筛选变量及PLS模型的建立

油桐籽NIR由1 557个数据点构成,波长点数远多于样本个数,光谱共线性严重,有效的变量筛选不仅可以简化模型,更主要的是可以剔除不相关或共线性变量,从而提高模型的预测能力和稳健性。CARS法[12]是近年提出的一种有效筛选变量的迭代方法,在每一次迭代中,它模仿达尔文进化理论中“适者生存”的原则,相继采用两种策略进行变量消除:首先利用预定义的指数衰减函数强制去掉一部分竞争力相对较弱(指PLS模型回归系数的绝对值相对较小)的变量;然后通过自适应重加权采样技术继续对剩余变量进行带有一定随机性的筛选,按概率继续去掉一部分不重要的变量。迭代完成后,利用交叉检验选出模型RMSECV最低的变量子集。CARS法的详细算法见参考文献[12]。经CARS法共选出8个变量点:6,7,24,52,239,458,459和480,它们对应的波数分别为4 019.3,4 023.1,4 088.7,4 196.7,4 917.8,5 762.2,5 766.0和5 847.0 cm-1。波数解析[13]为:4 019.3和4 023.17 cm-1在高吸收区;4 088.7和4 196.7 cm-1在亚甲基C—H的组合频区(4 367~4 082 cm-1)内;4 917.8 cm-1在C—H的第一组合频区(5 000~4 160 cm-1)内;5 762.2,5 766.0和5 847.0 cm-1在C—H的一级倍频区(6 250~5 555 cm-1)内。

原始光谱经(1stder+MC)预处理光谱后,用CARS法筛选出的8个变量建立PLS模型,并对验证集进行预测,校正集10折交互验证的Rcv为0.906,RMSECV为2.66,验证集的Rp为0.927,RMSEP为2.08,验证集真实值与近红外预测值的结果见表2。

表2 验证集CARS-PLS模型的预测结果Table 2 Predicted results of validation set using CARS-PLS model

2.3 WT压缩变量及不同模型的比较

WT处理近红外光谱,可同时起到压缩数据、去噪和提取特征信息的作用。WT中,模型的预测能力受小波参数(小波基、阶数和分解尺度)的直接影响[14-15]。在处理近红外光谱时,最常用的是db(daubechies)族小波基。考察了分解尺度为1,2,3和4,小波基为db1~db6的PLS模型的预测能力。不同小波参数下,模型预测能力变化不大(图2),验证集的Rp在0.895~0.928范围内,RMSEP在2.15~2.69范围内。

通过比较,最终确定分解尺度为1,小波基为db2,此时保留的小波系数为779个。图3为油桐籽样本经(1stder +MC+WT)处理后的光谱。与图1b比较,谱图形状无变化,但光滑性增加,说明WT起到了去噪作用,但未改变光谱信息。

图2 不同小波参数下PLS模型的预测能力Fig. 2 Predicted capability of PLS models using different wavelet parameters

图3 油桐籽样本的一阶导数+均值中心化+小波变换光谱Fig. 3 The 1st der + mean centering + wavelettransform NIR spectrum of Vernicia fordii seed

PLS是基于线性回归的多元校正方法,其前提是所研究的光谱体系具有线性加和性。考虑到光谱变量与含油率之间可能具有非线性关系,因此,考察了非线性模型的预测能力。RBFNN因具有很好的逼近性能和全局最优特性,并且结构简单,训练速度快速,因此,选择RBFNN法作为本研究的非线性建模方法(RBFNN建模时的spread=2),并与线性的PLS建模方法对比。不同模型对验证集的预测结果见表3。

表3 不同模型预测结果的比较Table 3 Comparison of predicted results usingdifferent models

从表3可以看出:1)6个校正模型中,以CARS-PLS模型的预测结果最优,Rp为0.927,RMSEP为2.08,RSD为3.99%,而RBFNN模型的预测结果最差,Rp为0.699,RMSEP为4.04,RSD为7.75%;2)采用线性的PLS建模要比采用非线性的RBFNN建模好,说明光谱变量与含油率之间更多的是线性关系;3)PLS建模,3个模型的Rp均大于0.927,RSD均低于5%,说明3个模型都能实现对含油率的较好预测;4)RBFNN建模,如果不进行变量筛选或小波变换,直接用1 557个变量作为输入,则由于变量太多,变量间存在严重的复共线性关系,降低了模型的预测能力,而用CARS法筛选变量或小波变换压缩变量后,由于输入变量明显减少,变量间的共线性关系消除或降低,使得模型预测能力提高,它们的Rp均达到了0.897,RSD都接近5%,也能较好地实现对含油率的预测。

3 结 论

使用近红外光谱结合化学计量学方法对油桐籽含油率的近红外检测进行了研究:CARS法筛选变量,不仅减少了变量数,简化了模型,而且提高了模型的预测能力,CARS法是建立油桐籽含油率NIR模型有效的变量筛选方法;线性的PLS法所建模型预测能力优于非线性的RBFNN法所建模型;光谱采用(1stder+MC)预处理,以CARS法筛选变量,用PLS法建模,所建模型能实现对油桐籽含油率的较准确预测:验证集相关系数(Rp)为0.927、均方根误差(RMSEP)为2.08,相对标准偏差(RSD)为3.99%。本研究结果对不同建模方法的选择具有借鉴意义,同时为油桐籽含油率检测提供了新的方法参考,对油桐产业发展具有积极意义。

[1]谭晓风, 蒋桂雄, 谭方友, 等. 我国油桐产业化发展战略调查研究报告[J]. 经济林研究, 2011, 29(3):1-7.

TAN X F, JIANG G X, TAN F Y, et al. Research report on industrialization development strategy ofVerniciafordiiin Chinese[J]. Nonwood Forest Research, 2011, 29(3):1-7.

[2]董晓丽, 白鹏莉, 王金妹, 等. 核磁共振法与索氏提取法测定能源植物种子含油量的比较研究[J]. 可再生能源, 2011, 29(3):21-24.

DONG X L, BAI P L, WANG J M, et al. Comparative study on determination of seed oil content of energy plants by using NMR and Soxhlet extraction[J]. Renewable Energy, 2011, 29(3):21-24.

[3]雷蕾, 梁慧, 彭彤, 等. 核磁共振法测麻疯树种子油含量的研究[J]. 种子, 2009, 28(5):78-80.

LEI L, LIANG H, PENG T, et al. Study on detecting oil content inJatrophacurcaseed by nuclear magnetic resonance technique[J]. Seed, 2009, 28(5):78-80.

[4]褚小立. 化学计量学方法与分子光谱分析技术[M]. 北京:化学工业出版社, 2011:290-302.

[5]高建芹, 张洁夫, 浦惠明, 等. 近红外光谱法在测定油菜籽含油量及脂肪酸组成中的应用[J]. 江苏农业学报, 2007, 23(3):189-195.

GAO J Q, ZHANG J F, PU H M, et al. Analysis of oil, oleic acid and erucic acid contents in rapeseed by near infrared reflectance spectroscopy (NIR)[J]. Jiangsu Journal of Agricultural Science, 2007, 23(3):189-195.

[6]杨小红, 郭玉秋, 傅旸, 等. 利用近红外光谱法分析玉米籽粒主要脂肪酸含量的研究[J]. 光谱学与光谱分析, 2009, 29(1):106-109.

YONG X H, GUO Y Q, FU Y, et al. Measuring fatty acid concentration in maize grain by near-infrared reflectance spectroscopy[J]. Spectroscopy and Spectral Analysis, 2009, 29(1):106-109.

[7] HAN S I, CHAE J H, BILYEU K, et al. Non-destructive determination of high oleic acid content in single soybean seeds by near infrared reflectance spectroscopy[J]. Journal of the American Oil Chemists’ Society, 2014, 91(2):229-234.

[8] QUAMPAH A, HUANG Z R, WU J G, et al. Estimation of oil content and fatty acid composition in cottonseed kernel powder using near infrared reflectance spectroscopy[J]. Journal of the American Oil Chemists’ Society, 2012, 89(4):567-575.

[9] TILLMAN B L, GORBET D W, PERSON G. Predicting oleic and linoleic acid content of single peanut seeds using near-infrared reflectance spectroscopy[J]. Crop Science, 2006, 46(5):2121-2126.

[10]原姣姣, 王成章, 陈虹霞, 等. 近红外漫反射光谱法测定油茶籽含油量的研究[J]. 林产化学与工业, 2011, 31(3):28-32.

YUAN J J, WANG C Z, CHEN H X, et al. Determination of oil content ofCamelliaoleiferaAbel. seeds by near infrared reflectance spectroscopy[J]. Chemistry and Industry of Forest Products, 2011, 31(3):28-32.

[11]奚如春, 钟燕梅, 邓小梅, 等. 基于近红外光谱的油茶种子含油量定标模型构建[J]. 林业科学, 2013, 49(4):1-6.

XI R C, ZHONG Y M, DENG X M, et al. Models for determining oil contents inCamelliaoleiferaseeds by using near infrared spectroscopy[J]. Scientia Silvae Sinicae, 2013, 49(4):1-6.

[12] LI H, LIANG Y, XU Q, et al. Key wavelengths screening using competitive adaptive reweighted sampling method for multivariate calibration[J]. Analytica Chimica Acta, 2009, 648(1):77-84.

[13]陆婉珍. 现代近红外光谱分析技术[M]. 2版. 北京:中国石化出版社, 2007:30.

[14]LI X, HE Y. Discriminating varieties of tea plant based on Vis/NIR spectral characteristics and using artificial neural networks[J]. Biosystems Engineering, 2008, 99(3):313-321.

[15]夏俊芳, 李小昱, 李培武, 等. 基于小波变换的柑橘维生素C含量近红外光谱无损检测方法[J]. 农业工程学报, 2007, 23(6):170-174.

XIA J F, LI X Y, LI P W, et al. Approach to nondestructive measurement of vitamin C content of orange with near-infrared spectroscopy treated by wavelet transform[J]. Transactions of the Chinese Society of Agricultural Engineering, 2007, 23(6):170-174.

ModelingondeterminationofoilcontentofVerniciafordiiseedsbynear-infraredspectroscopy

LI Shuifang1, LI Yifan2, FU Hongjun3, LI Jiaojuan1

(1. College of Science; 2. College of Material Science and Engineering; 3. College of Food Science andEngineering, Central South University of Forestry amp; Technology, Changsha 410004, China)

Near-infrared spectroscopy(NIR) and chemometrics methods were used for a rapid determination of oil content ofVerniciafordiiseeds. There were 107 samples, including 21V.montanaWils and 86V.fordiiHemsley, being collected from tung oil tree germplasm in Yongshun County of Hunan Province. The near-infrared spectra of samples were collected by using scattered reflection mode through a antaris Ⅱ near-infrared spectrophotometer in the range of 10 000-4 000 cm-1. The oil content was determined by Soxhlet extraction. The 107 samples were divided into a calibration set (80) and a validation set (27) by Kennard-Stone algorithm. A combination of first derivative coupled with mean centering was utilized as an optimized spectral pretreatment method. Eight key variables were selected by competitive adaptive reweighted sampling (CARS), and their wavenumber of correspondence were 4 019.3, 4 023.1, 4 088.7, 4 196.7, 4 917.8, 5 762.2, 5 766.0 and 5 847.0 cm-1. Wavelet transform (WT) was adapted to compressed spectral data. Partial least squares (PLS) and radial basis function neural networks (RBFNN) were used to develop calibration models. The PLS combined with eight variables was finally used as the optimal model. The correlation coefficient (R), root mean square error prediction (RMSEP) and relative standard deviation (RSD) of validation set were 0.927, 2.08 and 3.99%, respectively. The results showed that the accuracy of oil content prediction was improved by using NIR model combining PLS with CARS method. The method was suitable for the rapid determination of oil content ofV.fordiiseeds.

Verniciafordiiseeds; oil content; near-infrared spectroscopy; chemometric

2016-11-08

2017-05-20

湖南省教育厅重点项目(14A155)。

李水芳,女,副教授,研究方向为分子光谱分析技术和天然产物开发利用。E-mail:csfulishuifang@126.com

S794.3;O657.3

A

2096-1359(2017)06-0045-05

猜你喜欢

油桐含油率校正
又见油桐林
甘蓝型油菜的产油量分析
页岩气开发水基钻屑中含油率的测定方法研究
樱花谷
劉光第《南旋記》校正
基于MR衰减校正出现的PET/MR常见伪影类型
在Lightroom中校正镜头与透视畸变
机内校正
氧化处理含油污泥的氧化剂选择研究
湘西州森林生态研究实验站国家油桐种质收集保存库