APP下载

基于深度信念网络与混合波长选择方法的蓝莓糖度近红外检测模型优化

2022-12-05朱金艳朱玉杰冯国红曾明飞刘思岐

光谱学与光谱分析 2022年12期
关键词:糖度蓝莓波长

朱金艳,朱玉杰,冯国红,曾明飞,刘思岐

东北林业大学工程技术学院,黑龙江 哈尔滨 150040

引 言

基于近红外光谱技术对果蔬内部品质定量分析的报道中,大多数学者采用偏最小二乘回归(PLSR)和多元线性回归(MLR)等方法。然而,由于近红外光谱的吸收峰重叠、存在共线、光谱数据与含量值之间呈现复杂的非线性关系等,传统的线性方法有很大的局限性[7]。深度信念网络(deep belief network,DBN)是一种半监督深度学习网络,利用对比梯度(contrastive divergence,CD)算法对每层受限玻尔兹曼机(restricted Boltzmann machines,RBM)进行快速训练,模拟人脑进行分析学习,有极强的学习能力,能很好地解决近红外光谱高维度与非线性问题[8-9]。本研究对“蓝丰”和“瑞卡”两个品种蓝莓的糖度进行分析,建立了蓝莓糖度深度信念网络近红外检测模型,实现了蓝莓糖度快速准确检测,为蓝莓糖度的无损检测方法提供了新的参考。

1 实验部分

1.1 材料与仪器

蓝莓品种:“蓝丰”130个、“瑞卡”150个。采自辽宁丹东,大小基本一致,且无外部缺陷,4 ℃贮藏于生化培养箱中。

试验仪器:LabSpec 5000光谱仪,美国ASD公司产品;LYT-330手持式折光仪,上海淋誉公司产品;SPX-70BⅢ型生化培养箱-天津市泰斯特仪器有限公司产品。

1.2 方法

1.2.1 光谱采集

使用LabSpec 5000光谱仪采集蓝莓样品近红外光谱,扫描次数32,采集的范围为350~2 500 nm,采集间隔为1 nm。开机预热30 min,在扫描样品之前先用标准白板校正,对每个样品扫描5次后,取均值作为该样本的近红外漫反射光谱,共得到280组蓝莓样本的光谱。

1.2.2 糖度测定

蓝莓样品采集光谱后立即测定糖度。蓝莓糖度的测定使用LYT-330手持式折光仪,将蓝莓样品榨汁后滴于折光仪镜面上读数,为减小误差,以三次测量结果的平均值作为该样本的糖度值。

1.3 光谱数据处理

由于采集到的蓝莓样本光谱在350~420 nm范围内噪声较大,故选择420~2 500 nm作为建模全波段进行处理。采用基于联合X-Y的异常样本识别方法(outlier samples detection based on joint X-Y distances,ODXY)筛选并剔除异常数据,利用SPXY算法划分样本集;将光谱数据导入Unscrambler X 10.4软件中,进行多元散射校正、标准正态变换、卷积平滑、中心化等11种预处理,以交叉验证均方根误差最小原则选择蓝莓糖度近红外检测最优预处理方法;利用组合区间偏最小二乘(synergy interval partial least square,SiPLS)方法对最优预处理后的光谱筛选特征波段,无信息变量消除法(uninformative variable elimination,UVE)、竞争性自适应重加权(competitive adaptive reweighted sampling,CARS)和连续投影算法(successive projection algorithm,SPA)进行二次波长优选。

1.4 模型建立及评价

深度信念网络(DBN),是由多层受限玻尔兹曼机(RBM)和一层BP神经网络组成的一种深层神经网络。与其他神经网络不同,DBN是一种半监督学习网络,无监督地训练每一层RBM,利用BP神经网络接收最后一层RBM的输出作为其输入有监督地对整个DBN网络进行微调[10-11]。以筛选的蓝莓样本近红外光谱的特征变量作为输入,所测糖度作为输出数据建立蓝莓糖度的PLSR和DBN模型。以训练集相关系数(RC)、测试集相关系数(RP)、训练集均方根误差(RMSEC)和测试集均方根误差(RMSEP)对模型进行评估,得出蓝莓糖度的最优近红外检测模型。

2 结果与讨论

2.1 异常数据剔除

由于试验过程中操作不当及测量仪器异常等因素的影响,个别样本的测定结果出现异常,异常数据的存在会使模型精度降低,因此本研究采用联合X-Y的异常样本识别方法(ODXY)筛选并剔除异常数据,以提高蓝莓糖度近红外检测模型的预测精度[12]。分别对“蓝丰”的130组数据和“瑞卡”的150组数据计算ODXY距离,如图1所示,“蓝丰”和“瑞卡”分别有2个和4个样本的ODXY距离值远远超过阈值,故将其看作异常样本剔除。

图1 ODXY方法判定蓝莓样本异常值

2.1 样本集划分

对剔除异常样本后的蓝莓样本数据采用SPXY算法计算每个样本光谱到平均光谱的距离以及其糖度到平均值的距离,以3∶1的比例划分训练集和测试集。划分结果见表1,将两个品种的蓝莓划分的样本集进行合并,糖度最大最小值都在训练集里,且测试集的糖度范围均在训练集的范围内,样本具有代表性,能提高蓝莓糖度近红外检测模型的稳定性。

表1 SPXY算法划分样本集结果

2.2 光谱预处理

蓝莓样本原始近红外光谱如图2(a)所示,两个品种蓝莓光谱的趋势一致,在波峰位置吸光度有所不同,因此可建立光谱数据和糖度之间的关系模型,达到快速无损检测蓝莓糖度的目的。

图2 蓝莓样品近红外光谱图

由于采集光谱的过程中存在仪器背景环境造成噪音、样品外观形状的影响等因素的干扰,故采用标准正态变换(SNV)、多元散射校正(MSC)、Savitzky-Golay平滑(S-G)、中心化、一阶导数(1st)等处理方法对原始光谱降噪、消除基线漂移等,提高模型稳健性。训练集建模评价结果见表2,对模型进行10折交叉验证,以训练集相关系数(RC)和交叉验证均方根误差(RMSECV)作为评价所建模型是否良好的指标,RC越接近1表示模型预测结果与实际值更接近,RMSECV越小表明模型稳定性越好[13]。从表2可以看出,经S-G平滑处理后的模型RMSECV最小,为0.675 0,且RC最大,值为0.895 0,因此蓝莓糖度近红外光谱最优预处理方法为S-G平滑,预处理后的光谱见图2(b),对比原始光谱图可以看出经S-G平滑预处理的光谱噪声明显减少,且更加平滑。

表2 不同光谱预处理方法建模结果

2.3 光谱特征波长选择

2.3.1 SiPLS筛选特征波段

首先将经S-G处理后的全光谱分别划分为7,10,12和15个子区间,在每个子区间内建立PLS模型(即iPLS),如图3所示。对划分不同子区间数时得到的RMSECV值最小的前3个区间对应的波段进行对比分析,结果见表3。结合图3和表3可知,当划分12个区间时以第2个子区间建模得到的RMSECV达到最小,为0.637 3,由此可知,划分为12个区间是较为理想的。

然后采用组合区间偏最小二乘(SiPLS)方法对划分不同区间数时RMSECV最小的前3个区间进行组合建模,以减少采用单一区间建模时特征信息的遗漏,组合建模结果见表4,SiPLS方法得到的蓝莓糖度最优区间为划分12个区间时第2个和第7个子区间波段的组合,其RMSECV最小,为0.587 2,对应波段为593~765和1 458~1 630 nm。

图3 iPLS筛选特征波段

表3 划分不同区间iPLS建模结果

表4 SiPLS组合建模结果

2.3.2 SiPLS-UVE筛选特征波长

无信息变量消除法(UVE),是添加与建模自变量数相同的随机变量到光谱矩阵中,即增加干扰光谱信息的噪声,通过逐一剔除法建立偏最小二乘模型[14],将回归系数矩阵B按列计算平均值和标准偏差,平均值与标准偏差的比值作为该变量的稳定性,将稳定性绝对值大的变量作为有效建模变量用于最后的回归模型中。

为从蓝莓近红外光谱中筛选出与糖度相关度较高的波长,减少无关变量对建模的干扰,用UVE对SiPLS算法筛选的特征波段共346个变量做进一步的筛选,以期精简模型的输入变量,降低模型复杂程度。如图4所示,纵向点划线的左侧为实际光谱变量,右侧为添加的随机噪声,横向的两条虚线为阈值,虚线内的变量均为蓝莓糖度建模的无信息变量,在虚线以外用“*”号标记的变量为筛选出的蓝莓糖度建模特征变量,共计159个,此时以SiPLS-UVE方法筛选的特征波长建立的PLS模型的RMSECV=0.535 9。

图4 SiPLS-UVE筛选特征波长

2.3.3 SiPLS-CARS筛选特征波长

CARS是一种结合蒙特卡洛(Monte Carlo,MC)采样与PLS模型回归系数的特征变量筛选方法,利用自适应重加权采样(adapative reweighted sampling,ARS)和指数衰减函数(exponentially decreasing function,EDF)删掉PLS模型中回归系数绝对值权重较小的波长[15],保留回归系数绝对值大的变量,经过多次计算,选择RMSECV最低对应子集中的波长组合作为最终提取的特征波长。

CARS方法提取变量时设置采样次数为50次,交叉验证组数为5。SiPLS-CARS提取特征波长的结果见图5。从图5(b)可以看出,在第1~26次采样过程中,PLS模型中与蓝莓糖度无关的变量逐渐被剔除,RMSECV逐渐降低,最低达到0.881 0;26次采样后RMSECV增加,可能是由于剔除了与糖度有关的信息。图5(c)是每个变量在迭代时回归系数的变化曲线,星垂线处RMSECV最低。故以MC采样第26次选择的变量子集作为蓝莓糖度预测的特征波长,包含25个变量。

图5 SiPLS-CARS法特征波长提取过程

2.3.4 SiPLS-SPA筛选特征波长

为进一步提取光谱数据中与蓝莓糖度相关性较大的波长,采用连续投影算法(SPA)对经过SiPLS初步筛选的波长变量进行二次优选。设置波长数范围为3~40,根据RMSECV值确定最终选择的变量个数。选择不同变量数时模型的RMSECV变化曲线见图6,当选择19个变量建模时RMSECV最小,值为0.545 1。

图6 SiPLS-SPA方法提取特征波长

2.4 基于DBN的蓝莓糖度检测模型建立

2.4.1 DBN模型参数确定

粒子群优化算法(particle swarm optimization,PSO),是一种模拟鸟群的觅食行为的启发式智能算法[16]。在PSO算法中,把粒子看作鸟,每个粒子在飞行的时候都不断地调整自己的方向,改变其位置,向着当前最优的粒子靠近,这个过程靠粒子的速度和位置的迭代实现,迭代公式如式(1)

(1)

式(1)中,ω为惯性权重;rand()为[0,1]之间的随机数;C1和C2为学习因子;Pi(t-1)为粒子i在迭代第t-1次后得到的最好的位置,即局部最优解;G(t-1)为所有粒子迭代第t-1次后最好的位置,即全局最优解;Xi(t)为粒子i迭代第t次时的位置;Vi(t)为粒子i在迭代第t次时的速度。

由2.3可以得出,SiPLS-UVE方法提取的159个波长变量包含了本试验中蓝莓糖度的最佳信息,故将该159个特征波长对应的光谱数据作为输入,对应的糖度值作为标签输出。由于DBN网络没有固定的隐含层和隐含层节点数量,需要依据建模样本数据确定,本工作选择了3种不同隐含层数测定隐含层数设定对蓝莓糖度定量分析模型的影响,如表5所示。设定DBN网络的隐含层数为3时,其均方根误差为0.397 7,当隐含层数增加到4时,模型的误差没有减小反而增加,说明蓝莓糖度的DBN分析模型的隐含层数并非越多越好。同时,各隐含层神经元的个数对模型的影响也较大,为避免人为设定节点数的片面性,利用粒子群优化算法对DBN网络各隐含层的节点数在[1,100]之间进行寻优[17],设定PSO算法的种群规模N=20;最大迭代次数G=10;ωmax=0.9,ωmin=0.5;Cmax=0.9,Cmin=0.5。结果见表5,当设置3个隐含层时,模型预测效果最好,此时各隐含层节点数为67-43-25。

表5 隐含层数及隐含层节点数选择

2.4.2 DBN模型建立及分析

以SiPLS-UVE筛选的最佳特征波长、SiPLS筛选的特征波段以及全光谱分别作为DBN网络的输入建立模型并预测蓝莓糖度,隐含层设置为3层,各隐含层节点数分别为67,43和25。为验证DBN方法建立蓝莓糖度近红外检测模型的有效性,将建模结果与PLSR方法进行比较,结果如表6所示。

表6 DBN及PLSR模型比较

从表6可以看出,无论是以全光谱建模还是特征波长建模,DBN的预测效果均优于PLSR,说明DBN模型更适用于非线性且复杂的近红外光谱数据;SiPLS筛选出的特征波段共包含346个波长,与全光谱建模相比,在减少建模变量的基础上还改善了预测效果;并且经过二次波长选择后,蓝莓糖度的有效特征变量减少到159个,减少了无关信息变量的干扰,PLSR模型和DBN模型的预测精度都得到进一步提高。蓝莓糖度的最优模型为SiPLS-UVE-DBN,RC,RP和RMSEP分别为0.967 2,0.954 2和0.310 5。

3 结 论

基于近红外光谱技术,对“蓝丰”和“瑞卡”两个品种蓝莓的糖度进行分析,采用中心化、S-G平滑等11种预处理方法对蓝莓原始光谱进行降噪;选用三种复合波长筛选方法选出了与检测蓝莓糖度相关的近红外特征波长,结合深度信念网络(DBN)建立了蓝莓糖度近红外检测模型。S-G平滑预处理结果最好,其模型相关系数RC为0.895 0,在S-G预处理的基础上,对其分别采用SiPLS,SiPLS-CARS,SiPLS-UVE和SiPLS-SPA算法选择特征波长。从建模结果来看,利用DBN建立的检测模型比PLSR模型的效果更佳,其中以SiPLS-UVE筛选出的159个变量建立的蓝莓糖度DBN模型,在减少建模所用波长变量的同时提高了模型预测精度,网络模型结构为159-67-43-25-1时预测效果达到最优,最优模型的RC,RMSEC,RP和RMSEP分别为0.967 2,0.249 0,0.954 2和0.310 5。结果表明,深度信念网络比线性方法建模效果更好,测试集均方根误差较PLSR全光谱建模降低54%,说明基于DBN方法建立的蓝莓糖度近红外检测模型,可以实现蓝莓糖度在线快速准确检测,为蓝莓糖度检测提供了新的参考。

本试验仅选取了两个品种的蓝莓进行建模分析,在下一步研究中,会增加试验蓝莓的品种及样本数,以增强模型的稳定性和普适性,以期为更多物质应用近红外光谱技术进行定量检测提供技术依据。

猜你喜欢

糖度蓝莓波长
糖度高、类型多、瓜味足 “炫彩”系列小西瓜 亩产值3.5万元
蓝莓建园技术
杯中“日出”
蓝莓采后立即追肥 谨防黄刺蛾介壳虫
西海岸的蓝莓名片
甜甜的蓝莓果
基于频域分析方法的轨道高低不平顺敏感波长的研究
甜菜块根糖度检测使用重复检测进行质量控制的方法
日本研发出可完全覆盖可见光波长的LED光源
基于不同物候期苹果树叶片光谱特征预测果实糖度