APP下载

迁移学习在食用油光谱模型转移中的应用

2019-08-27刘翠玲周子彦李天瑞徐莹莹孙晓荣吴静珠

食品科学技术学报 2019年4期
关键词:酸值源域光谱

刘翠玲, 周子彦, 李天瑞, 徐莹莹, 孙晓荣, 吴静珠

(北京工商大学 计算机与信息工程学院/北京市食品安全与大数据重点实验室, 北京 100048)

在光谱测量中,会遇到模型失效问题,如利用一台仪器上采集的数据(称为源域数据)建立的校正模型,应用于另一台仪器采集的数据(称为目标域数据)上的预测结果有较大偏差,甚至无法使用,这极大地阻碍了光谱仪器的大规模应用,以及光谱现场快速检测。有研究表明,可以采用模型转移解决模型失效[1-2]。传统的模型转移方法有直接校正法(direct standardization,DS)[3-4]、分段直接校正法[5-6]、Shenk’s算法[7-8]、斜率偏差校正法[9-10]、典型相关性分析[11],这些算法的发展比较成熟,都得到广泛应用。随着现今分析技术在农业、石化、制药行业的快速发展[12-14],光谱间的模型传递问题再次成为制约该技术发展的主要因素。由于传递光谱对象间经常出现吸光度偏差、波长偏移以及谱峰宽度不一致等问题,仪器间很可能存在非线性关系,需要新的模型转移方法来更好地解决模型转移中遇到的难题。近年来,计算机技术的快速发展,一些机器学习方法被用于解决这一问题。迁移学习是机器学习的一大分支,现阶段迁移学习主要用于图片、文本、语义等方面,在光谱方面的应用比较少,在光谱模型转移方面的应用则更加稀少。例如Ntalampiras提出了一种迁移学习框架,利用鸟类对不同音乐类型的亲和程度来识别鸟类的声学相似度[15];岳学军等[16]基于高光谱和深度迁移学习实现了柑橘叶片钾素含量的精准预测;Hirtz等[17]利用迁移学习研究颅内电流对躯体感觉的影响。Durbha等[18]提出一种图像信息挖掘(IIM)系统,主要使用迁移学习解决空间数据库的标注问题。这些对于迁移学习的应用本质上都是挖掘分析不同形式数据的特征值并加以分析研究,尤其是图像本质上就是数组的形式,这一点与光谱分析不谋而合,而且通过提取特征分析规避了不同光谱仪器间非线性的差异和光谱数据之间存在波长偏移等问题。本文尝试应用迁移学习的方法用于近红外光谱的模型转移研究。

迁移学习有很多实现方法,其中数据分布自适应方法是最常用的一种方法。采用迁移学习中数据分布自适应方法,针对3组实验仪器的近红外光谱模型食用油理化指标(酸值、过氧化值),结合偏最小二乘法(partial least squares, PLS),建立定量分析模型,进行模型转移研究。

1 原理及算法

数据分布自适应基本思想是:由于源域和目标域的数据概率分布不同,通过对源域和目标域数据进行一些变换,从而将源域和目标域的数据分布拉近,使得源域数据建立的模型也可以应用于目标域数据。

根据数据分布的性质,数据分布自适应方法又可以分为边缘分布自适应、条件分布自适应以及联合分布自适应。本文采取的是边缘分布自适应方法,其目的是减小源域和目标域的边缘概率分布距离,从而完成迁移学习。从形式上来说,边缘分布自适应方法是用源域数据概率分布P(Xs)和目标域数据概率分布P(Xt)之间的距离来近似两个领域之间的差异。实现边缘分布自适应方法的名称是迁移学习成分分析(transfer component analysis,TCA)。

文中设计的迁移算法模型转移流程如图1,该程序运行于Windows系统下,编写软件为Matlab 2016b版本。

图1 迁移算法模型转移流程Fig.1 Transfer flow chart of migration algorithm model

2 实验方案及光谱采集

2.1 实验仪器与方法

傅里叶红外光谱仪VERTEX70(简称V70),Bruker公司;傅里叶近红外光谱仪Antaris Ⅱ(简称A Ⅱ),Thermo Scientific公司。技术参数如表1。

表1 光谱检测仪器的指标参数

实验包括3组,第1组以Antaris Ⅱ近红外光谱仪(利用透射探头)采集的数据为源域数据,Antaris Ⅱ近红外光谱仪(利用光纤探头)采集的数据为目标域数据;第2组以VERTEX70红外光谱仪采集的数据为源域数据, Antaris Ⅱ近红外光谱仪(利用光纤探头)采集的数据为目标域数据;第3组以Antaris Ⅱ近红外光谱仪(利用透射探头)采集的数据为源域数据,以VERTEX70红外光谱仪采集的数据为目标域数据。

2台仪器的具体参数设置:分辨率为16 cm-1;样本扫描次数为32次;背景扫描次数为32次;光谱的采集范围为12 000~4 000 cm-1;光阑设置6 mm;扫描速度10 kHz。

调查发现食用油的特征谱区分布在5 000~5 500 cm-1,但为了避免光谱信息的丢失,本次实验利用的是5 000~9 000 cm-1的光谱数据,共520个波数点,两种仪器采集的50个食用油样本的近红外谱图如图2。

图2 食用油近红外光谱图Fig.2 Near-infrared spectrum of edible oil

2.2 模型传递评价参数

模型的评价参数选择相关系数(correlation coefficient of cross-validation,R2),预测均方根误差(root mean square error of prediction,RMSEP)。R2越大表明光谱信息与分析组分的相关性越好,RMSEP越小,表明预测性能越好,模型传递的效果越好。

图3 食用油酸值模型转移前的预测结果Fig.3 Predicted results of acid value model before transfer

3 实验与分析

3.1 预处理

原始光谱包含50条样本光谱,每条光谱包含520个数据点,其中包含了大量的无用信息,故提前使用主成分分析(Principal component analysis,PCA)处理原始光谱数据。经过PCA处理后,原本每条光谱的520个数据点仅留存49个数据点,其余数据点贡献度为0,故处理后的每条光谱数据包含49个光谱点。

3.2 食用油酸值模型转移结果与分析

3.2.1酸值无模型转移前建模结果

将源域数据和目标域数据以同样的分布策略划分为建模集和预测集,其中建模集包含40个样本,预测集包含10个样本。

利用源域数据的建模集,结合PLS算法建立校正模型,利用该模型验证源域数据的预测集样本。再利用该模型验证目标域数据的预测集样本,3组实验结果如图3。

3.2.2酸值模型转移后建模结果

将源域数据和目标域数据通过迁移学习TCA算法使其具有相似的分布,核函数选择线性核函数。将经过变换后的源域数据和目标域数据以转移前同样的分布策略划分为建模集和预测集。

再利用源域的40个建模集样本数据,结合PLS算法建立校正模型,利用该模型预测源域的10个预测集样本数据。再利用该模型预测目标域的10个预测集样本数据,3组实验结果如图4。

图4 食用油酸值模型转移后的预测结果Fig.4 Prediction results of acid value model after transfer

3.2.3实验结果说明

在迁移学习转移前,由于不同仪器之间、同一仪器不同光谱探头之间存在很大的硬件差异和环境差异,由这些差异而导致的光谱数据的不同,使得一种仪器采集的光谱数据所建立的模型不能直接用于预测另一种仪器采集的光谱数据。但是经过迁移学习转移后3组实验的预测结果有了很大程度的改善,其中R2的数值显著提升,而RMSEP的数值显著下降。综合两个模型参数,说明经过迁移学习后,食用油的酸值定量模型预测的准确性和模型回归的表现均优于迁移学习前的模型。统计实验结果如表2。根据同样的数据,采用直接校正法进行模型转移,得到经过模型转移后的结果如表3。

由表2、表3数据可知,迁移学习较DS算法有一定的优势,但效果不明显。经过分析,主要原因是进行扫描所用仪器的分辨率参数均为16 cm-1,导致得到的样本光谱数据没有出现明显的波长偏移现象,传统的模型转移算法仍然有一定的优势。然而,在实际的操作中,不同仪器采集的光谱数据普遍存在比较明显的波长偏移现象,迁移学习在模型转移中的优势将进一步扩大。次要原因是样本的个数偏少,影响模型稳定性。

表2 迁移学习前后酸值建模结果统计

表3 DS运算后酸值建模结果统计

3.3 食用油过氧化值模型转移结果与分析

3.3.1过氧化值无模型转移前建模结果

将源域数据和目标域数据以同样的分布策略划分为建模集和预测集,其中建模集包含40个样本,预测集包含10个样本。

利用源域数据的建模集,结合PLS算法建立校正模型,利用该模型验证源域数据的预测集样本。再利用该模型验证目标域数据的预测集样本,3组实验结果如图5。

图5 食用油过氧化值模型转移前的预测结果Fig.5 Predicted results of model of edible oil peroxide value before transfer

3.3.2过氧化值模型转移后建模结果

TCA算法的设置和结果与酸值模型转移实验相同。利用源域的40个建模集样本数据,结合PLS算法建立校正模型,利用该模型预测源域的10个预测集样本数据。再利用该模型预测目标域的10个预测集样本数据,3组实验结果如图6,统计实验结果如表4。

由表4可知,经过迁移学习转移后3组实验的预测结果有了很大程度的改善,其中R2的数值显著提升,而RMSEP的数值显著下降。综合两个模型参数,说明经过迁移学习后,食用油的过氧化值定量模型预测的准确性和模型回归的表现均优于迁移学习前的模型。根据同样的数据,采用直接校正法DS进行模型转移,得到经过模型转移后的结果如表5。

图6 食用油过氧化值模型转移后的预测结果Fig.6 Predicted results of model of edible oil peroxide value after transfer

实验组迁移学习前模型参数R2迁移学习前模型参数RMSEP迁移学习后模型参数R2迁移学习后模型参数RMSEP主机:A Ⅱ(透射)从机:A Ⅱ(光纤)-0.2589803.0384000.8247901.133500主机:VERTEX 70从机:A Ⅱ(光纤)-0.5097003.7400000.8045201.345800主机:A Ⅱ(透射)从机:VERTEX 70-0.0319707.8505000.8022903.436200

表5 DS运算后过氧化值建模结果统计

由表5数据可知,DS算法与迁移学习在过氧化值的建模结果基本与酸值建模结果一致。

4 结 论

研究表明,经过迁移学习算法转移后,模型预测结果都有了不同程度的改善。随着光谱检测仪器的不断发展,针对每一种每一台仪器去建立相应样本的模型显然是不现实的,实验验证了迁移学习的确可以在一定程度上解决模型转移的问题,是一个比较可行的解决方案。但是,在本次实验中,迁移学习算法转移后的模型预测结果与理想结果仍存在一定的差距。产生差距的原因:一方面可能是由于样本的个数及种类仍然不够丰富,使模型结果不具备确实的可靠性;另一方面迁移学习的具体实施办法有很多角度,不同的实施办法可能适用于不同种类的样本。综上,下一步将从增加食用油样本的种类和数量,以及尝试其他迁移学习方法两个角度进行进一步的实验研究。

猜你喜欢

酸值源域光谱
基于三维Saab变换的高光谱图像压缩方法
高光谱遥感成像技术的发展与展望
基于参数字典的多源域自适应学习算法
优质橄榄油如何购买
影响生物柴油酸值的因素及降酸值方法研究
从映射理论视角分析《麦田里的守望者》的成长主题
星载近红外高光谱CO2遥感进展
解决#11机EH抗燃油酸值超标问题
苦味酸与牛血清蛋白相互作用的光谱研究
自动电位滴定法测定烟用香精香料的酸值