APP下载

高光谱结合波长选择算法串联策略检测调理牛排新鲜度

2020-11-06孙宗保王天真刘小裕邹小波梁黎明李君奎高云龙

光谱学与光谱分析 2020年10期
关键词:牛排调理波长

孙宗保,王天真,刘小裕,邹小波,梁黎明,李君奎,牛 增,高云龙

江苏大学食品与生物工程学院,江苏 镇江 212013

引 言

调理牛排是以牛排为原料,加入适量调味料和食品添加剂,经过切分、滚揉腌制等过程加工而成的肉制品,因其滋味鲜美、食用方便等特点而深受消费者喜爱。冷冻和冷藏是调理牛排的两种主要储运方式。冷藏的牛排能够较好的保留原有的滋味和营养,但同时货架期较短、价格也较高。由于调理牛排中加入了调味料进行腌制,当牛排超过货架期变得不新鲜时,散发的腐败气味易被调料气味掩蔽,使得消费者难以分辨其新鲜度。市场上存在售卖超过货架期的调理牛排的现象,食用了这种牛排将损害人体健康,生鲜调理牛排因其更容易变质而更可能产生这一问题。

挥发性盐基氮(total volatile basic nitrogen,TVB-N)是由于微生物分解蛋白质产生的具有挥发性的氨和胺类等碱性含氮物质的总称,可以有效地表征肉品新鲜度。测定TVB-N含量的化学方法操作复杂耗时,且对样本有破坏性。肉品发生腐败时产生的TVB-N将会引起一定波长下光谱吸收强度的变化,通过吸收强度的大小结合化学计量学方法可以定量分析TVB-N含量。高光谱成像因其获得信息全面,快速无损等优点,已广泛应用于肉品品质检测。Velásquez等[1]利用高光谱对牛肉大理石花纹进行分类。首先在528 nm波长的高光谱图像下分割背景,然后在440 nm下结合决策树进行分级,模型的误差仅有0.08%。Zheng等[2]利用高光谱成像预测了碎羊肉中的鸭肉含量,并实现掺假含量分布可视化。谢安国等[3]利用高光谱成像构建了调理牛肉在煎制过程中的品质可视化模型,预测调理牛肉的水分和剪切力相关系数分别为0.908和0.763,表明了高光谱成像技术具备检测混有调料的复杂肉品的能力。但少有高光谱技术检测调理牛排的报道。

由于高光谱数据包含的信息量巨大且冗杂,如何去除无效信息、筛选特征波长从而提升模型效率和精度成为高光谱技术应用的关键。本工作利用高光谱技术对生鲜调理牛排贮藏期间TVB-N含量进行预测,采用了竞争性自适应重加权算法(competitive adaptive reweighted sampling,CARS)、变量组合集群分析法 (variables combination population analysis,VCPA)、间隔随机蛙跳(interval random frog,iRF)、iRF-CARS和iRF-VCPA等波长选择算法并分析了CARS和VCPA的稳定性,为波长选择算法联用策略和调理牛排新鲜度快速检测提供参考。

1 实验部分

1.1 样本制备

试验用牛肉和辅料均购于镇江麦德龙超市。牛肉为西冷部位,全程冷链运输。调理牛排制作工艺流程: 原料肉修整→切片→配制腌制液→滚揉腌制→托盘密封包装。共制备了150个样本,置于4 ℃的冰箱内冷藏,分别在第0,2,4,6和8天每天取出30个样本,编号后先进行高光谱图像采集,再进行TVB-N含量测定。

1.2 高光谱数据采集

采用的高光谱成像系统如图1所示,硬件部分主要包括CCD摄像机、光纤卤素灯、三轴精密电控平移台和计算机等。光谱采集参数: 摄像机曝光时间为45 ms,光谱范围为431~962 nm,光谱波长间隔为0.858 nm。对获取的原始图像进行黑白板校正,以减少采集过程中噪音的影响。

图1 高光谱成像系统1: 步进电机; 2: CCD摄像机; 3: 光源系统; 4: 光纤卤素灯;5: 计算机; 6: 三轴精密电控平移台; 7: 载物台; 8: 样品Fig.1 Hyperspectral imaging system1: Stepper motor; 2: CCD camera; 3: Light source system;4: Optical fiber halogen lamp; 5: Computer;6: Three-axis precision electronically controlled traslation stage;7: Object stage; 8: Sampe

1.3 TVB-N含量测定

依照GB 5009.228—2016 中的半微量定氮法对调理牛排样本中TVB-N含量进行测定。

1.4 数据处理方法

1.4.1 光谱提取与预处理方法

利用ENVI软件选取每个样本中心附近200像素×200像素的矩形区域作为感兴趣区域(region of interest,ROI),计算光谱平均反射率作为光谱数据。采用一阶导数(first derivative,1stDer)、二阶导数(second derivative,2ndDer)、均值中心化(mean centering,MC)、多元散射校正(multiplicative scatter correction,MSC)、卷积平滑(Savitzky-Golay,SG)、标准正态变量变换(standard normal variate transformation,SNVT)六种预处理方法建立模型,选取效果最佳的预处理方法进行后续数据处理。

1.4.2 特征波长选择方法

良好的波长选择方法可以简化模型,提高模型预测性能。波长选择方法可以分为波长区间选择和波长点选择[4-5]。波长区间选择方法以一组连续波长为基本单位进行波长筛选,最终选择的变量为几组连续的波长区间组合,所建立的模型有很好的解释性。波长点选择方法以单个波长为基本单位,最终选择的变量呈离散分布,具有选择变量少、建模预测效果好等优点。不同的波长选择方法各有其优缺点和适应性,将这些波长选择方法联用,可以结合它们的优势,达到更优的效果。联用并非任意的排列组合,需要基于一定的组合策略。通常情况下,当两种波长选择方法联用时,前一步方法进行粗略选择,去除无信息变量,同时不能漏掉关键变量; 后一步方法精准选择重要变量,保留较少变量的同时,取得较好的建模效果[6]。波长区间选择和波长点选择符合上述特点,具有一定互补性。基于以上分析,本工作采用CARS和VCPA两种波长点选择方法,并与波长区间选择方法iRF联用(iRF在前),比较它们的建模效果。

CARS是一种基于偏最小二乘法(partial least square method,PLS)回归系数的波长选择方法,CARS首先通过蒙特卡罗采样(Monte carlo sampling,MCS)随机抽取校正集的一部分样本建立PLS模型,通过指数衰减函数(exponentially decreasing function,EDF)和自适应重加权采样(adaptive reweighted sampling,ARS)选取回归系数较大的波长,选择建模时交互验证均方根误差(root mean square error of cross-validation,RMSECV)最小时对应波长[7-8]。

VCPA是一种基于模型集群分析(model population analysis,MPA)思想的新型变量选择方法。VCPA采用二进制矩阵采样法(binary matrix sampling,BMS),每个变量有同等被选中机会,利用EDF确定保留波长的数量,缩小变量空间,计算出剩余变量间所有可能组合的RMSECV,选择RMSECV最小的变量组合作为最终建模数据[9]。

iRF是在随机蛙跳(random frog,RF)的基础上提出的一种新型波长区间选择方法。iRF模拟一条服从稳态分布的马尔科夫链迭代计算每个波长变量被选择的频率,对选择可能性最高的波长变量建立PLS模型,选择模型误差最小的变量,寻优搜索能力强[10]。

2 结果与讨论

2.1 新鲜度指标测定结果

生鲜调理牛排贮藏期间TVB-N含量测定结果如图2所示。根据国标规定,肉制品TVB-N含量小于15 mg·(100 g)-1为新鲜状态。图中,TVB-N含量第0天的平均值为8.13 mg·(100 g)-1,并随贮藏时间的延长不断增长。第8天的平均值为17.43 mg·(100 g)-1,已经超过标准规定。贮藏后期(4~8 d)的TVB-N含量增长速度大于贮藏前期(0~4 d),这是因为贮藏后期致腐微生物大量繁殖,加速了蛋白质的分解,产生的碱性含氮物质与有机酸结合成TVB-N。与其他研究中[11]相同包装条件下的牛肉TVB-N测定结果相比,调理牛排的TVB-N增长速度较慢。这是因为牛排在调理过程中加入了食用盐和复合磷酸盐,一定程度上抑制了致腐菌的生长。

图2 不同贮藏时间调理牛排TVB-N含量测定结果Fig.2 Results of TVB-N content in preparedsteaks at different storage times

2.2 光谱数据预处理

图3(a)和(b)分别为生鲜调理牛排的原始光谱图和平均光谱图。从平均光谱图可以看出,不同贮藏天数的样本光谱反射曲线趋势相近,且随着储藏时间的增加,光谱反射率增大。这是由于在贮藏过程中,调理牛排一些物理特征和内部化学成分发生了变化如水分流失、肉色变浅、蛋白质降解、脂肪氧化等,导致了光谱吸收的变化。光谱曲线在550,580,760和960 nm有明显吸收峰,550和580 nm处主要与氧合肌红蛋白有关[12],760 nm处是肌红蛋白稳定吸收峰[13],960 nm附近主要与调理牛排水分中O—H伸缩振动的二级倍频吸收有关[14]。

2.3 TVB-N含量预测模型建立

2.3.1 全波段下PLS模型

将150个样本的预处理后的光谱和对应TVB-N数据采用随机分组的方式以2∶1的比例划分为校正集和预测集。通过主成分分析法(principle component analysis,PCA)优选前十个主成分作为自变量,以TVB-N测量值作为因变量,建立PLS预测模型。模型的预测结果如表1所示,可以看出,光谱经1stDer处理后建立的模型预测效果最好,模型的RC和RP分别为0.919和0.907,RMSECV和RMSEP分别为1.45和1.52 mg·(100 g)-1。故对光谱数据进行1stDer处理后进行后续数据处理。

图3 不同贮藏时间调理牛排原始光谱图(a)和 平均光谱图(b)

表1 不同预处理方法对TVB-N含量[mg·(100 g)-1]的预测结果Table 1 Predictive results of TVB-N content [mg·(100 g)-1] based on different pre-processing methods

2.3.2 基于CARS的PLS模型

CARS采样次数设置为100次,运行过程如图4所示。从图中可以看出,随着采样次数的增加,被选波长数量逐渐减少,RMSECV先缓慢减小而后突然增加。采样次数为59时,RMSECV最小,对应选择了21个特征波长。将选择的波长变量代替全波段模型的输入,建立TVB-N的PLS预测模型。模型的RC和RP分别为0.932和0.927,RMSECV和RMSEP分别为1.24和1.29 mg·(100 g)-1。相比全波段光谱建模,CARS-PLS大大减少了建模所需变量,提高了模型预测效果。

图4 CARS选择特征波长过程Fig.4 Process of selecting characteristic wavelengths by CARS

2.3.3 基于VCPA的PLS模型

VCPA运行参数设置如下: 最佳子集占比0.1,BMS运行的次数设为1 000,EDF运行的次数设为50,剩余变量数目设为14。先通过BMS对校正集数据进行1 000次采样得到1 000组变量组合,在此过程中,每个变量被选择的概率相同。对这些变量组合建立PLS模型,取RMSECV最小的100组变量组合进行下一步EDF运算。在EDF运行过程中,RMSECV变化如图5所示。可以看出,随着EDF的重复运行,特征空间缩小,RMSECV整体呈下降趋势,此时与TVB-N含量相关性不大的波长变量被删除,剩下的变量被添加到最佳子集中。EDF运行结束后,计算选择的14个波长变量所有可能组合的RMSECV,并选取RMSECV最小的组合。最终选择了11个特征波长,所建模型的RC和RP分别为0.944和0.931,RMSECV和RMSEP分别为1.12和1.28 mg·(100 g)-1。相比于CARS,VCPA选择的变量更少,同时模型的预测效果更优。

图5 RMSECV随EDF运行次数变化趋势Fig.5 Changes in RMSECV with the number of EDF runs

2.3.4 CARS与VCPA的比较和稳定性分析

从前三小节的结果可知,全光谱数据中包含很多与调理牛排中TVB-N无关波长,导致建立的PLS模型预测性能削弱。CARS和VCPA都能在减少变量的同时提升模型预测效果。且相比于CARS,VCPA选择的变量更少,预测效果更好。这是因为VCPA可以通过EDF压缩变量空间,消除无关变量,并能够考虑所有的变量组合效应。EDF迭代运行过程中,MPA思想保留了最佳的10%的通过BMS采样获得的子模型,整个迭代过程类似于“优胜劣汰”的进化论。而保留变量少是因为VCPA最终选择变量从EDF运行后剩余的14个变量的所有组合中确定。

将CARS和VCPA重复运行50次,以评价其稳定性。每个波长变量被选择频次如图6所示。从图中可以看出,CARS选择的变量较分散,有较多杂峰,而VCPA选择变量相对集中,稳定性更好。这是因为CARS的采样策略MCS随机选择变量,每个变量被选择的机会是不确定的,一些不重要变量可能会因为这个随机过程而被最终保留。而VCPA的BMS采样策略为每个变量提供相同的采样机会,重要变量被最终选择的几率相对更大。对比两种方法选择频率较高的波长,发现有一些共同的重要波长变量: 694.9,696.6,761.8,763.5,811.5和813.3 nm等。760nm处是能够反映肉品新鲜度的肌红蛋白的吸收峰[13],810 nm是蛋白质中C—H键伸缩振动倍频吸收[15],而TVB-N正是由于肉中蛋白质被微生物分解而产生的[16]。

图6 CARS (a)和VCPA (b)重复运行中被选波长频次图

尝试选择50次重复运行过程中被选择频率较高的波长进行建模,并与单次运行效果对比。在之前的模型中,CARS和VCPA分别选择了21和11个波长变量。按照频次排名选择同样数量的波长进行建模,得到的CARS-PLS模型的RC和RP分别为0.851和0.821,RMSECV和RMSEP分别为1.78和2.09 mg·(100 g)-1; VCPA-PLS模型的RC和RP分别为0.918和0.899,RMSECV和RMSEP分别为1.41和1.40 mg·(100 g)-1,模型效果远低于单次运行建模。考虑是因为虽然被选频次高的波长变量一定包含了与TVB-N含量有关的重要信息,但这些频次高的变量之间可能存在共线性,信息重复,而被舍弃的频次稍低的一些变量也包含了一些相关信息。而算法单次运行时基于一定的优化策略,虽然每次运行结果不一定相同,但最终选择的变量组合都能够取得较好的建模效果。

2.3.5 基于iRF-CARS和iRF-VCPA的PLS模型

将波长区间的粗选和波长点的精选联用,有望达到更好的建模效果。首先对全波段光谱数据进行iRF筛选。iRF运行参数设置如下: 迭代次数为10 000,移动窗口宽度为20,初始变量集个数为50,节点处抽取变量个数为3。迭代运行后将599个间隔按被选概率排序,计算排名前1~10至1~599的组合的RMSECV,共计590个RMSECV,选择RMSECV最小时的波长间隔组合。最终选择的波长如图7所示。

图7 iRF选择波长示意图Fig.7 Wavelengths selected by iRF

将iRF选择的变量作为新变量进行CARS和VCPA筛选。CARS和VCPA分别选择了24和7个波长。将所有波长选择后建立模型预测结果汇总至表2。从表中可以看出,相比于全光谱PLS,iRF-PLS模型效果得到提升,但波长变量数过多。iRF-VCPA-PLS模型效果与VCPA-PLS相当,但波长数量减少到了7个。iRF-CARS-PLS模型效果最佳,模型的RC和RP分别为0.966和0.938,RMSECV和RMSEP分别为0.91和1.22 mg·(100 g)-1。串联策略取得较好效果,它充分利用了波长区间选择的强解释性,减少无效波长点对波长精选算法的干扰,帮助波长精选在较小的区间中进行最优选择。在本次建模结果中,相比于VCPA,CARS展现了更好的与iRF串联效果。不同波长选择下的模型的预测效果一定程度上依赖于样本集,因此这些波长选择联用方法需要在更多应用中检测其适用性。

表2 各波长选择方法对TVB-N含量[mg·(100 g)-1]的预测结果Table 2 Predictive results of TVB-N content [mg·(100 g)-1] based on different wavelength selection methods

3 结 论

利用高光谱成像对生鲜调理牛排贮藏过程中TVB-N含量进行预测,重点探究了波长选择方法对预测结果的影响。研究结果表明: (1)在所用六种光谱预处理方法中,1stDer为最佳预处理方法,CARS和VCPA单次运行时,VCPA所选波长数量更少,同时建模预测效果更好。(2)将CARS和VCPA重复运行50次,发现VCPA的稳定性更好。利用被选择频率较高的波长进行建模,模型性能较差。(3)将iRF分别与CARS和VCPA联用,CARS表现出更好的串联效果,iRF-CARS选择了24个波长,模型的RC和RP分别为0.966和0.938,RMSECV和RMSEP分别为0.91和1.22 mg·(100 g)-1。研究可为波长选择算法联用策略和高光谱检测调理牛排新鲜度提供理论参考。

猜你喜欢

牛排调理波长
脾胃失调该如何调理
如何合理分牛排
流翔高钙系列肥 我能土壤调理剂
调理聚合物组合在洗发水中的应用
秋季蛋鸡 抓好调理
疯狂的牛排节
不熟
基于频域分析方法的轨道高低不平顺敏感波长的研究
日本研发出可完全覆盖可见光波长的LED光源
纽约五大经典牛排屋