APP下载

灵武长枣蔗糖含量的高光谱无损检测

2019-06-11程丽娟刘贵珊何建国杨晓玉万国玲

食品科学 2019年10期
关键词:蔗糖波长预处理

程丽娟,刘贵珊,何建国,*,杨晓玉,万国玲,张 翀,马 超

(1.宁夏大学农学院,农产品无损检测实验室,宁夏 银川 750021;2.宁夏大学物理与电子电气工程学院,宁夏 银川 750021)

灵武长枣是宁夏独有的鲜食枣品种,富含维生素、矿物质[1]。枣果实具有食疗作用,可当作补血药和保健补血剂[2-3]。糖度是评价枣品质的首要指标和长枣中重要的风味物质,影响着枣果实的成熟度。枣内部的糖分主要为蔗糖、果糖和葡萄糖,而果实中糖累积的最主要形式是蔗糖,在酶的作用下可转化成其他2种糖[4]。糖含量的传统检测方法有折射仪、糖度计、蒽酮法等[5-7],属于有损检测且费时费力。需寻找一种无损且快速测定果品糖含量的方法,对于完善长枣品质评价有重大的现实意义。

高光谱成像技术可将光谱和图像相结合[8],呈现出无损、快捷灵敏、精确度高等优点[9],是果品品质无损检测的发展趋势,对果品的研究集中在虫害检测、分类判别、农药残留、挥发性成分、内部品质检测等方面[10-14];Guo Ying等[15]使用4 种建模方法对枣内部物质建立预测模型,得到最佳模型为最小二乘支持向量机,表明光谱技术结合化学计量学是一种快速实用的技术;Ma Te等[16]利用近红外光谱对苹果中的可溶性固形物含量进行检测,建立偏最小二乘回归分析,预测值的决定系数(R2)为0.89,交叉验证均方根误差(root mean square error of cross-validation,RMSECV)为0.55%;Hu Weihong等[17]用1-MCP处理猕猴桃,使用可见-近红外系统记录1-MCP处理组和对照组的高光谱图像,建立糖含量的稳健模型,果实中葡萄糖、果糖和蔗糖的最佳预测精度分别为0.934、0.867和0.705;Gomes等[18]基于高光谱成像系统测试2012年和2013年葡萄中的糖含量,对于2012年采集的样本,偏最小二乘回归(partial least squares regression,PLSR)和神经网络的均方根误差分别为0.94 °Brix和0.96 °Brix,决定系数(R2)分别为0.93和0.92,2013年样本均方根误差值分别为1.34 °Brix和1.35 °Brix,R2分别为0.95和0.92;于慧春等[19]利用光谱成像技术结合误差反向传播算法神经网络检测不同波段的枸杞多糖和总糖含量,枸杞总糖含量预测正确率达到100%,相关系数为0.996 8; 管晓梅等[20]采集苹果的高光谱数据,引进一种优化偏最小二乘因子数的方法,果糖含量预测集均方根误差(root mean square error of prediction,RMSEP)和相关系数(RP)分别由0.657、0.828改善至0.604、0.871;冯迪等[21]利用高光谱成像技术同时提取检测苹果糖度与硬度的最佳波长,结果显示,糖度相关系数为0.847 6,均方根误差为3.32;李瑞等[22]采用近红外光谱仪(900~1 700 nm)测量蓝莓果实的硬度和糖度,结果表明,糖度校正集相关系数RC和验证集相关系数RP达到0.891和0.774;刘燕德等[23]研究苹果中的可溶性固形物和糖酸比,可溶性固形物预测模型的相关系数达到0.936,预测均方根误差为0.476 °Brix。以上研究表明利用高光谱技术检测灵武长枣蔗糖含量理论上具有可行性。

本实验以灵武长枣为研究对象,利用可见-近红外高光谱采集长枣图像并建模分析,优选最佳模型,为更深一步探讨灵武长枣的内部品质提供参考。

1 材料与方法

1.1 材料与试剂

灵武长枣购于宁夏灵武果业开发有限责任公司,选取147 个长枣样本4 ℃冷藏。每隔5 d测试1 次,共计7 次,每次随机取21 个长枣作为实验样本,将长枣擦拭干净,按照编号依次铺在平板上,扫描样本光谱图像。

蔗糖标品 四川省维克奇生物科技有限公司;水系膜(0.45 μm×50 mm)、滤头(0.45 μm)、乙醇(色谱级) 天津市大茂化学试剂厂。

1.2 仪器与设备

AGILENT型高效液相色谱(high performance liquid chromatography,HPLC)仪(配有示差检测器和Aminex HPX-87H糖分析柱) 美国安捷伦科技公司;VIS/NIR高光谱成像系统(光谱范围400~1 000 nm,共包含125 个波段) 北京卓立汉光仪器有限公司;高光谱成像光谱仪 芬兰Spectral Imaging公司;CCD摄像机日本Hamamatsu公司;4 个150 W的光纤卤素灯 美国Schott公司;电控位移平台 北京Zolix公司。

1.3 方法

1.3.1 高光谱信息采集

高光谱系统预热0.5 h后方可进行实验[24],由于传感器内部杂质与CCD相机中的芯片会因热激发生成电子,对图像来说属于噪声,因此需要校正处理[25],其计算公式如下:

式中:R为黑白校正后的长枣光谱;IR为长枣原始光谱;ID为黑板光谱;IW为白板光谱。

为避免光谱图像失真,需要对高光谱成像系统进行参数设置[26],最终扫描参数设置为:CCD相机曝光时间20 ms;物镜高度385 mm;扫描长度70 mm;电控位移平台速率200 μm/s。

1.3.2 HPLC测定长枣蔗糖含量

标准溶液的配制:准确称取蔗糖标准品100 mg(精确至0.000 1 g),加少量超纯水溶解,定容至5 mL容量瓶内,制成质量浓度为20 mg/mL溶液。准确吸取蔗糖溶液2 mL于5 mL容量瓶中定容,制备成蔗糖质量浓度为8 mg/mL溶液。同时按照对应比例稀释制备蔗糖质量浓度均为0.5、1、2、4、8 mg/mL标准溶液。

提取液的制备:采集长枣样品光谱后,削去果皮,将10 mL无水乙醇加入研磨捣碎后的1 g果肉中先进行均质,超声提取0.5 h,11 000 r/min离心15 min后收集上清液,然后将5 mL无水乙醇加入残渣中再次提取。以上处理得到的上清液合并,55 ℃真空旋干,加入超纯水溶解并定容到25 mL容量瓶刻度线位置,充分摇匀,测试前用0.45 μm针式过滤器过滤。流动相为超纯水进行反复测试,最终确定HPLC条件:进样量10 μL,流速0.4 mL/min,等度洗脱,柱温30 ℃,示差折光检测器温度35 ℃。

1.3.3 光谱数据处理

利用ENVI4.8软件分别从每张长枣光谱图像的赤道部位且呈相同暗红颜色的部位提取30 pixel×30 pixel的感兴趣区域(region of interest,ROI),计算每张ROI的平均光谱值并作为该长枣的反射光谱。将光谱值和化学值建立模型,利用蒙特卡洛交叉验证法检测、剔除异常值;光谱理化值共生距离法划分样本;在光谱采集过程中,由于存在仪器噪音、暗电流等影响因素,易使光谱曲线产生不重复和基线漂移等现象[27],故有必要在模型建立前对原始光谱进行正交信号校正(orthogonal signal correction,OSC)法、多元散射校正(multiple scattering correction,MSC)、S-G卷积平滑(savitzkygolay,SG)、中值滤波(median-filter,MF)、高值滤波(Gaussian-filter,GF)、基线校准、去趋势7 种预处理;为减少数据量,提高运算速度,采用竞争性自适应加权(competitive adaptive reweighted sampling,CARS)算法、连续投影算法(successive projection algorithm,SPA)和无信息消除变量(uninformative variable elimination,UVE)3 种数据降维方法提取特征变量,以期实现少数波段代替全波段;将全波段光谱(full spectrum,FS)以及CARS、UVE、SPA、CARS+SPA和CARS+UVE 5 种方法提取的特征波长分别建立主成分回归(principle component regression,PCR)、PLSR和多元线性回归(multivariable linear regression,MLR)模型,对比分析不同方法对灵武长枣蔗糖含量预测模型的影响,从而确定最优的建模模型。

1.3.4 模型评价

由相关系数(correlation coefficient,R)、校正集均方根误差(root mean square error of calibration set,RMSEC)、RMSECV以及预测集均方根误差(root mean square error of prediction set,RMSEP)、RC+RP评价模型稳定性[28]。实验流程见图1。

图1 实验流程图Fig. 1 Flow chart of data processing

1.4 数据统计及图像处理

高光谱图像分析软件为ENVI 4.8(Research System Inc,USA),原始光谱预处理以及PLSR、PCR、MLR建模使用The Unscrambler X 10.4软件,特征波长提取使用Matlab R2014a软件,绘图软件为Origin。

2 结果与分析

2.1 HPLC结果

2.1.1 蔗糖标准曲线

图2 蔗糖标品(a)与长枣提取液(b)的HPLLCC图Fig. 2 HPLC peak of sucrose (a) and jujube (b)

由图2可知,蔗糖出峰时间为11.37 min。蔗糖标准曲线方程为y=4.577 6×10-6x-2.48×10-2(y为蔗糖质量浓度,x为峰面积),相关系数R2=0.999 9,表明两者具有良好的线性相关性。

2.1.2 精密度测定结果

由表1可知,样品的峰面积基本稳定,通过计算得到相对标准偏差为0.27%小于1%,表明该方法精密度高。

表1 精密度结果Table 1 Precision of the HPLC method

2.1.3 加标回收率测定结果

由表2可知,加标回收率为93.09%~98.47%,平均回收率为95.18%,有较高的准确性。

表2 加标回收率结果Table 2 Recoveries of spiked samples

2.2 原始光谱数据采集结果

样本图像经高光谱成像仪采集之后,选择图像中的平均光谱信息值作为原始反射光谱,如图3所示。在675 nm波长附近,光谱反射值达到最低,是由于长枣样本的C—H伸缩振动;900~1 000 nm之间的吸收峰主要由灵武长枣内部水分的吸收引起,该波段为水中O—H基团的二倍频特征吸收峰[29]。

图3 原始光谱反射曲线Fig. 3 Ref l ectance curves of original spectra

2.3 异常值检测与剔除结果

异常值会影响数据的准确度[30],因此本实验利用蒙特卡洛方法检测异常数据,预处理方法为Mean center;抽样次数为2 000,建立147 个长枣的PLSR模型,由RMSECV最小确定最佳主成分数。如图4所示,共检测出4 个异常样本,分别为:3号、16号、123号、138号样本,剔除异常样本后,相关系数RC由0.611增大到0.846,RMSECV由0.023 mg/g减小到0.021 mg/g。

图4 基于蒙特卡洛方法检测异常样本Fig. 4 Detection of abnormal samples based on Monte Carlo method

2.4 样本集划分结果

采用Galvao等[31]提出的光谱理化值共生距离算法按照3∶1的比例将剔完异常值后的143 个样本划分成105 个校正集和38 个预测集,结果见表3,校正集的蔗糖质量浓度范围大于预测集质量浓度范围,表明样本划分合理。

表3 长枣蔗糖含量数据统计Table 3 Statistics of sucrose content in jujubes

2.5 光谱预处理

利用The Unscrambler X10.4软件对原始光谱进行预处理,由表4可以看出,使用不同预处理方法,模型的稳健性和模型性能均发生不同程度上的改变,所用预处理方法建立的PLSR模型中,校正集的相关系数RC均在0.8~0.9范围内且基本接近,但是预测集的相关系数RP差异较大,其中,经OSC预处理之后模型所建立的PLSR预测模型参数最优,校正集和原始光谱相差不大,预测集有着更高的相关系数和更低的均方根误差,模型相关系数RC为0.853、RP为0.794,因此,后续模型的建立都采用OSC预处理方法。OSC预处理方法效果好的原因是利用数学上正交的办法,将原始光谱矩阵X中与待测品质Y不相关的部分信息滤除,能确保被滤除掉的信息与待测品质无关[32]。

表4 不同预处理方法的PLSR模型Table 4 PLSR models with different spectral pretreatments

2.6 光谱数据降维结果

2.6.1 SPA选取特征波长

SPA[33]是一种消除变量共线性的算法,可以在很大程度上精简模型。采用SPA从125 个波段中选出了5 个最优波长数。分别为401、410、425、439、723 nm,特征波长占总波长的4%。

2.6.2 UVE提取特征变量

图5 UVE-PLSR稳定性分布曲线Fig. 5 Stability distribution curve of UVE-PLSR model

使用UVE[34]提取长枣光谱特征波长,在分组数定为10的情况下得到RMSECV最小值对应的主成分数为10,图5为125 个输入变量的稳定性结果,两条水平虚线为变量的选择阈值(±4.26)。选择特征波长时内部信息认为是无用信息而被消除,外面的信息为有用信息,相对应的波长被选择为特征波长。用此方法共选取21 个特征波长,分别为401、415、607、612、617、622、627、641、646、651、694、795、843、847、895、900、915、919、939、963、972 nm,特征波长占总波长的24.8%。

2.6.3 CARS[35]提取特征波长

图6 CARS法选取波长变量过程Fig. 6 Selection of characteristic wavelength variables by CARS method

如图6所示,设定运行次数为200。图6a为筛选特征变量数的过程,随着运行次数的加大,变量数呈现由快到慢的递减趋势,最后下降幅度趋于平缓;由图6b可知,起初所建模型的RMSECV值不断减小,说明采样过程中,无用变量被消除,随着运行次数的增加,RMSECV值基本稳定,表明变量变化不明显,之后RMSECV随着采样次数的增加而持续上升,说明一些关键变量数被消除;图6c中的每条线代表回归系数的变化趋势,虚线A1、A2、A3、A4处的RMSECV值增大,是由于变量B1、B2、B3、B4的回归系数值降低为0。CARS选出的17 个特征波长分别为449、497、511、550、622、684、703、708、775、838、852、862、881、892、939、948、987 nm,特征变量数缩减为原来的13.6%。

2.7 模型建立结果

使用PLSR、PCR、MLR建模方法,建立FS和特征波段的模型,见表5。FS-PLSR、FS-PCR和FS-MLR模型对应的RMSECV最小值为0.025、0.027 mg/g和0.029 mg/g,远大于3 种特征波长建模结果。表明筛选的特征波长建模预测效果较好,原因可能是全波段光谱中包含了大量与长枣蔗糖含量无关的信息,降低了建模效果。

3 种单一特征波长的9 种建模中,校正集和预测集结果非常相近,说明以上3 种提取特征变量的方法是有效的,所建立的模型稳定性也好,相比而言,采用CARS提取特征变量后建模结果优于UVE和SPA。对于CARS+SPA、CARS+UVE特征波长叠加的模型,虽然提取出的波长数减少,但是3 种建模效果都不佳,因此,选取最优模型为CARS-PCR,RC、RP为0.861和0.843。RC+RP表示模型稳定性,大于其他模型稳定性。

表5 不同波长提取方法建立的PLS和PCR模型的结果Table 5 Figures of merit of PLS and PCR models based on different wavelength extraction methods

3 结 论

以147 个灵武长枣为研究对象,利用可见-近红外高光谱灵武长枣光谱图像,提取反射光谱;对剔除异常样本后的光谱使用7 种预处理,采用OSC方法对光谱预处理得到模型的效果最好,RC和RP分别为0.853和0.794,说明预处理方法对原始光谱进行正交信号校正处理可以降低噪音,获取更多的有用信息信息,提高建模效果;利用SPA、UVE、CARS、CARS+SPA和CARS+UVE三种方法提取了5、21、17、10、18 个特征变量,占全波段的4%、24.8%、13.6%、8%、14.4%,对PLSR、PCR、MLR方法建立的18 种模型对比分析,结果发现,全波段模型效果差,可能是全波段光谱中包含了大量与长枣蔗糖含量无关的光谱信息;OSC-CARS-PCR方法建立的模型效果最好,RC、RP分别为0.861和0.843,RMSEC和RMSEP分别为0.013 mg/g和0.014 mg/g。综上,利用高光谱图像技术结合化学计量学方法实现长枣蔗糖含量的无损检测具有可行性,为进一步完善长枣品质评价提供依据。

猜你喜欢

蔗糖波长预处理
求解奇异线性系统的右预处理MINRES 方法
杯中“日出”
高COD二噻烷生产废水预处理研究
蔗糖中红外光谱初步研究
掺HRA 对蔗糖超缓凝水泥基材料性能的影响
基于预处理MUSIC算法的分布式阵列DOA估计
基于频域分析方法的轨道高低不平顺敏感波长的研究
澜沧县蔗糖产业发展的思考
日本研发出可完全覆盖可见光波长的LED光源
RP—HPLC波长切换法同时测定坤泰胶囊中6个成分的含量