APP下载

基于自加权变量组合集群分析法的近红外光谱变量选择方法研究

2018-01-18赵环宦克为石晓光郑峰刘丽莹刘微赵春英

分析化学 2018年1期
关键词:光谱向量变量

赵环+宦克为 石晓光+郑峰+刘丽莹+刘微+赵春英

摘要变量选择技术是光谱建模的重要环节。本研究提出了一种新的变量选择方法——自加权变量组合集群分析法(AWVCPA),首先通过二进制矩阵采样法(BMS)对变量空间进行采样;其次通过对变量出现频率(Fre)和偏最小二乘回归系数(Reg)两种信息向量(IVs)做加权处理, 得到了每个光谱变量的贡献值,进而考虑到了Fre和Reg两类IVs对于光谱建模的影响;最后通过指数衰减函数(EDF)删除贡献小的波长点,进而实现特征变量选取。以啤酒和玉米两组近红外光谱数据为例,基于偏最小二乘法(PLS)建立啤酒中酵母濃度预测模型和玉米中油浓度预测模型,对比其它变量选择方法。研究表明,在相同条件下,基于AWVCPA变量选择方法建立的预测模型都取得了最优的预测精度,对啤酒中酵母浓度的预测,相比全光谱PLS模型,RMSEP由05348下降到01457,预测精度提高了727%;对玉米含油量的预测,相比全光谱PLS模型,预测均方根误差(RMSEP)由00702下降到了00248,预测精度提高了647%。

关键词近红外光谱; 化学计量学; 变量选择; 自加权变量组合集群分析法; 信息向量

1引 言

随着近红外光谱技术和化学计量学的发展,变量选择技术已成为近红外光谱分析高维度数据领域的关键环节,对光谱变量进行变量选择可以提高预测模型的预测能力、降低光谱数据维度和增强预测模型的可解释性。同时,变量选择也是一个非确定多项式(Nondeterministic polynomial time, NP)问题,随着变量空间的增大,找到一组最佳的变量组合是一个非常具有挑战性的问题[1~4]。常见的变量选择方法有无信息向量删除法(UVE)[3]、相关系数法(CCM)、蒙特卡洛无信息变量删除法(MCUVE)[5]、遗传学算法(GA)[6~9]等。随着模型集群分析(MPA)思想的发展,一些新变量选择方法,如随机蛙跳法(RF)[10]、竞争自适应重采样法(CARS)[11,12]、 迭代保留有信息变量法(IRIV)[13]和变量组合集群分析法(VCPA)[14]等被提出。然而,对于变量重要性目前常采用信息向量(IVs)[15]判定,常见的信息向量有偏最小二乘回归系数(Reg)、相关系数向量(Cor)、残差向量(Res)、投影变量重要性向量(VIP)、净信号向量(NAS)、信噪比向量(StN)、协方差向量(Cov)、选择比向量(SR)、预测残差向量(Ssr)、变量出现频率(Fre)和协方差选择向量(Covsel)等[16~21]。虽已有大量变量选择方法和信息向量,但每种变量选择方法都只采用了这些信息向量中的一种作为变量重要性判断依据,进而忽略了其它信息向量对预测模型的影响,因此易产生预测模型的过拟合现象。

为了解决此问题,本研究提出了自加权变量组合集群分析法(AWVCPA),将MPA思想与多IVS加权思想结合,采用交互检验均方根误差(RMSECV)最小原则,对Fre和Reg两种信息向量的结果进行归一化加权处理,计算出每个变量在这两种信息向量结果中的最终贡献值,进而考察了这两种信息向量对每个光谱变量的影响,提高了预测模型的稳定性。利用此方法分别对啤酒中酵母浓度和玉米中油的浓度进行预测,并对比相同条件下GA、MCUVE、VCPA的建模结果。结果表明,AWVCPA可以取得更高的建模精度和预测精度。

2实验部分

21数据来源

211啤酒数据本研究应用的啤酒样本近红外光谱数据来源于文献[22], 数据包含60个样本,每个样本的近红外光谱波长分布在1100~2250 nm,光谱间隔为2 nm,运用KennardStone(KS)分类法选取其中的40个样本的近红外光谱数据和化学值数据作为校正集建立啤酒中酵母浓度的预测模型,剩余的20个样本的近红外光谱数据和化学值数据作为预测集检验模型的可行性,啤酒的近红外光谱图如图1所示。

212玉米数据玉米样本数据来源:http://wwweigenvectorcom/data/Corn/indexhtml。玉米近红外光谱数据由3种不同的近红外光谱仪(M5、MP5、MP6)测量得到,由于每种光谱仪的工作原理不同,

所以通过不同光谱仪所得到的近红外光谱数据也不同,本研究应用的数据是通过M5近红外光谱仪测量得到的80个玉米近红外光谱数据。每个玉米样本的近红外光谱波长分布在1100~2498 nm,运用近红外光谱仪测试每个玉米样本的近红外光谱,并用化学方法测试每个样本中油浓度的化学值。运用KS方法选取其中60个样本光谱数据和化学值数据作为校正集建立预测模型,将剩余的20个样本的光谱数据和化学值数据作为预测集检验模型的可行性,玉米近红外光谱图如图2所示。

22模型评价及光谱预处理

221模型评价参数模型评价参数的作用是评价通过校正集样本建立的预测模型可靠性。在近红外光谱多元校正建模过程中,经常采用的模型评价参数为预测残差平方和、交互验证均方根误差、预测均方根误差、预测值与实际值之间的相关系数等,本研究采用的模型评价参数分别是建模均方根误差(RMSEC)和预测均方根误差(RMSEP)。

222光谱预处理对于待测组分的近红外光谱的吸收差异不大的情况,很难直接确定特征波长。采集光谱数据时,会伴有基线漂移、样品背景干扰、杂散光等噪声信息,影响近红外光谱与实际化学值之间的相关性,进而影响预测模型的可靠性,所以在光谱建模之前需对原始光谱进行预处理,常见的光谱预处理方法有均值中心化、平滑去噪法、多元散射校正和小波变换等,由于AWVCPA是在VCPA的基础上对VCPA的优化,所以为了在相同的条件下(光谱数据、光谱预处理方法和光谱建模方法全部一致)证明AWVCPA相对VCPA的优越性,本研究应用的预处理方法与VCPA运用的预处理方法[14]相同,均采用均值中心化预处理方法。均值中心化算法经常被用于增加样品光谱之间的差异,进而提高预测模型的稳健性和预测能力。这种光谱预处理方法是将原始光谱减去校正集的平均光谱。endprint

首先计算校正集样本的平均光谱:

P=ni=1Xi,pn(1)

式中, n为校正样品数, p=1,2,3,……m为波长点。对未知的样品光谱X(1×m)通过公式(2)求得均值中心化处理后的Xcentered:

Xcentered=X-(2)

3AWVCPA的原理

AWVCPA算法是一种基于MPA思想的变量选择方法。AWVCPA和VCPA的建模思路相似,均基于MPA思想的建模思路:样品或变量采样、变量重要性评价和无信息变量、干扰变量删除,AWVCPA和VCPA在变量采样环节都应用二进制矩阵采样(BMS)采样策略,在无信息变量和干扰变量删除环节均应用指数衰减函数(EDF)删除方法,但是在评价变量重要性环节,VCPA只采用了优秀子集中变量出现频率这种信息向量作为变量重要性的评价标准,而AWVCPA采用了优秀子集中变量出现频率和变量偏最小二乘回归系数两种信息向量加权的方式判断变量重要性,所以相比VCPA,AWVCPA多考虑了优秀子集中偏最小二乘回归系数对变量重要性判断的影响(AWVCPA在VCPA的原理上多了下述步骤④、⑤和⑥),因此理论上AWVCPA有更高的稳定性,其步骤如下: ① BMS从变量空间中采样N次,得到N个变量子集,每个变量子集都含有一组随机变量; ②运用偏最小二乘法(PLS)计算每个子集的RMSECV,并选取RMSECV最小的前σ×N个变量子集作为优秀子集; ③统计优秀子集中每个变量出现次数,并进行归一化处理,变量出现频率的大小与变量重要性成正比,进而得到变量重要性判据,称为第一类信息向量; ④计算优秀子集中每个变量在每组变量组合中的偏最小二乘回归系数的绝对值,并进行归一化处理,最后对优秀子集中每个变量在不同组变量组合中的归一化回归系数绝对值求和,变量归一化回归系数绝对值之和与变量的重要性成正比,进而得到又一个变量重要性的判据,称为第二类信息向量。 ⑤根据每种信息向量的RMSECV设置第一类信息向量和第二类信息向量的权重,权重的计算公式如下:

w1=1[](RMSECV1)2×11(RMSECV1)2+1(RMSECV2)2(3)

w2=1[](RMSECV2)2×11(RMSECV1)2+1(RMSECV2)2(4)

其中, w1为第一类信息向量的权重; w2为第二类信息向量的权重; RMSECV1为第一类信息向量的交互检验均方根误差; RMSECV2为第二类信息向量的交互检验均方根误差;⑥根据第一类信息向量和第二类信息向量的权重,计算出优秀子集中每个变量的贡献值,计算公式如下:

Yi=y1i×w1+y2i×w2(5)

其中, Yi为第i个变量贡献值,其值越大则该变量越重要; y1i为第i个变量在以第一類信息向量为判定标准下的变量贡献值; y2i为第i个变量在以第二类信息向量为判定标准下的变量贡献值; ⑦运用EDF删除那些贡献值较小的变量,保留其贡献值较大的变量,得到一个新的变量空间R。⑧变量空间R中的变量继续通过①~⑦进行变量筛选,此过程迭代K次,最终剩下L个变量,并计算出这L个变量之间所有变量组合的RMSECV,其值最小的变量组合为最终波长筛选结果。光谱变量保留率的计算公式如下:

rk=e

Symbolm@@ θ×k(6)

其中, rk为EDF运行k次时变量保留率,例如,当k=0时,全光谱的P个变量均被用于建模,所以变量的保留率r0=1。当EDF运行k次后,剩余Pk个变量那么变量的保留率rk=Pk/P。θ为曲线控制参数,它与EDF的执行次数有关,EDF执行的次数越多, θ值越小。曲线控制参数的计算公式为:

θ=ln(P/L)K(7)

其中,K为EDF运行次数,参数设置范围50~200; P为全光谱变量数; L为EDF运行结束之后剩余变量数,参数设置范围13、14、15。

4结果与讨论

41控制参数设置

由于AWVCPA是通过MPA结合两种IVs加权的思想对VCPA进行的优化,为了更好地体现AWVCPA相比VCPA的优越性,控制参数设置应与VCPA一致,GA、MCUVE、VCPA的控制参数设置见参考文献[12],如表1、表2和表3所示。

42基于AWVCPA的特征变量提取

以啤酒数据为例:运用BMS采样策略从啤酒近红外光谱变量空间中采样1000次,得到1000组不同的变量组合,运用PLS分别对这1000组变量组合进行光谱建模,计算每组变量组合的RMSECV,保留RMSECV最小的前10%组的变量组合,进而得到了100个优秀子集。记录这100个优秀子集中每个光谱变量出现的次数并进行归一化处理得到每个光谱变量的Fre。记录每个光谱变量在不同组变量组合中的偏最小二乘回归系数并进行归一化处理,最后对优秀子集中相同变量的归一化偏最小二乘回归系数的绝对值进行求和得到每个光谱变量的Reg。通过公式(3)和(4)分别设置这两类信息向量的权重,并根据公式(5)计算出优秀子集中每个光谱变量的贡献值。运用EDF方法删除那些贡献值较小的光谱变量,并对所保留的变量继续做BMS采样、信息向量加权和EDF删除。此过程重复50次,最终只剩下14个光谱变量,运用PLS计算这14个光谱变量之间所有变量组合的RMSECV,其值最小的变量组合为通过AWVCPA方法选取的特征变量。为了避免算法运行中算法随机性对变量选择结果的影响,将AWVCPA运行50次,啤酒数据中每个变量被选取的频率如图3A所示,玉米数据中每个变量被选取的频率如图3B所示。

图3AWVCPA运行50次后,每个啤酒光谱变量被选取的频率(A)和每个玉米光谱变量被选取的频率(B)

Fig3Frequency of beer of selected variables (A) and frequency of corn (B) of selected variables within 50 times by automatic weighting variable combination population analysis(AWVCPA)endprint

从图3A可见,啤酒近红外光谱中选取的特征变量主要分布在1150~1350 nm之间,这个区域与OH键伸缩振动第一倍频区相一致。这正与本研究感兴趣的化学性质相一致,这也说明了AWVCPA较好的选择特性。

从图3B中可见,玉米近红外光谱中选取的特征变量主要分布在1700~1750 nm、2250~2350 nm之间,这个区域与CH伸缩的第二倍频区域和CH振动的第一倍频区域相一致,这进一步表明了AWVCPA的选择特性。

43不同建模方法结果对比

将均值中心化降噪后的啤酒、玉米近红外光谱数据在相同条件下分别采用4变量选择方法(GA、MCUVE、VCPA、AWVCPA)进行特征波长选取,利用PLS建立预测模型由于每种变量选择方法在运行过程中都带有一定随机性,进而影响预测模型的可靠性,所以将以上每种建模方法运行50次,最后对每次运行的建模结果进行统计,不同建模方法对啤酒中酵母浓度的预测结果如表4所示(除AWVCPAPLS的计算结果外,其它结果和主成分参数设定都来源于文献[14]),不同建模方法对玉米中油浓度的预测结果如表5所示。对啤酒中酵母浓度的预测,相比全光谱PLS模型,AWVCPAPLS模型的RMSEP均值由05348下降到01457,预测精度提高了727%;对玉米含油量的预测,相比全光谱PLS模型,AWVCPAPLS模型的RMSEP均值由0 0702下降到了0 0248,预测精度提高了647%。

注:RMSEC和RMSEC分别是建模均方根误差及其平均值;RMSEP和RMSEP分别是预测均方根误差及其平均值。

Note: RMSEC and RMSEC are: Root mean square error of calibration and the average of RMSEC; RMSEP and RMSEP are Root mean square error of prediction and the average of RMSEP [BG)W][HT5][HJ]

从表4可见,所有基于变量选择的建模结果都优于全光谱建模,其原因是任何为建模所收集的样本数总不足以表达总体信息,因此,基于全光谱的PLS建模很容易导致建模的过拟合或不准确。对比AWVCPAPLS与GAPLS、MCUVEPLS可知,RMSEC分别由00844、01049下降到了00655, RMSEP分别由01765、02140下降到了01457,预测精度分别提升了175%、32%,这是因为AWVCPA运用的BMS变量采样策略考虑到了变量组合效应,并且能保证每个变量具有相同的被采样概率,该策略弥补了蒙特长洛采样方法(MCS)的不足,实现了对更多的不同变量组合的筛选。对比VCPAPLS和AWVCPAPLS可知,RMSEC虽然由00626提升到了00655,但是RMSEP由01546下降到了01457,预测精度提升了57%,这表明了AWVCPA采用的两种IVs加权的方式判断变量的重要性,考虑了两种IVs对预测模型的影响,弥补了VCPA只采用一种IVs作为变量重要性判断依据的缺陷,避免了模型过拟合,提升了预测模型的稳定性和可靠性。

从表5可见,基于所有变量选择方法建立预测模型的预测精度都要强于全光谱建模,进一步表明了在建立预测模型之前,对光谱变量进行变量选择具有重要的意义,相比所用的4种变量选择方法的统计结果可知,AWVCPAPLS建模精度和预测精度都是最高的,表明AWVCPA采用的两种IVs加权的方式判断变量的重要性,能够弥补VCPA等变量选择方法只采用一种IVs作为变量重要性判断依据的缺陷。

5结 论

本研究将Fre和Reg两种IVs加权思想与MPA思想相结合提出了AWVCPA算法,以啤酒数据和玉米数据为例,在相同条件下对比基于GA、MCUVE和VCPA的变量选择方法建模结果,结果表明,无论是对啤酒中酵母浓度的预测还是对玉米中油浓度的预测,AWVCPA都取得了较高的预测精度,研究表明,AWVCPA采用的两种IVs加权判断变量重要性的策略弥补了VCPA等变量选择方法只采用一种IVs判断变量重要性的缺陷。

References

1YUN YongHuan, DENG BaiChuan, LIANG YiZheng Chinese J Anal Chem, 2015, 43(11): 1638-1647

云永欢, 邓百川, 梁逸曾 分析化学, 2015, 43(11): 1638-1647

2JIN ZhaoXi, ZHANG XiuJuan, LUO FuYi, AN Dong, ZHAO ShengYi, RAN Hang, YAN YanLu Spectroscopy and Spectral Analysis, 2016, 36(12): 3920-3925

靳召晰, 張秀娟, 罗付义, 安 冬, 赵盛毅, 冉 航, 严衍禄 光谱学与光谱分析, 2016, 36(12): 3920-3925

3LIANG YiZeng, XU QingSong Instrumental Analysis of Complex Systems——White, Gray and Black Analytical Systems and Their Multivariate Methods Beijing: Chemical Industry Press, 2012: 494-502

梁逸曾, 徐青松 复杂体系仪器分析——白、灰、黑分析体系及其多变量解析方法 北京:化学工业出版社, 2012: 494-502

4LI ZhengFeng, XU GuangJin, WANG JiaJun, DU GuoRong, CAI WenSheng, SHAO XueGuang Chinese J Anal Chem, 2016, 44(2): 305-309endprint

李正風, 徐广晋, 王家俊, 杜国荣, 蔡文生, 邵学广 分析化学, 2016, 44(2): 305-309

5Cai W S, Li Y K, Shao X GChemometr Intell Lab Syst, 2008, 90(2): 188-194

6Yang J, Honavar V Springer, US, 1998, 111(1): 117-122

7Leardi R J Chemometri, 2000, 14: 643-655

8Leardi R J Chemometr, 2001, 15(7) : 559-569

9Yun Y H, Cao D S, Tan L M, Yan J, Ren D B, Xu Q S, Yu L, Liang Y ZChemometr Intell Lab Syst, 2014, 130: 76-83

10ZHU FengLe, HE Yong, SHAO YongNi Spectroscopy and Spectral Analysis, 2015, 35(1): 113-117

朱逢乐, 何 勇, 邵咏妮 光谱学与光谱分析, 2015, 35(1): 113-117

11Li H D, Li Y Z, Xu Q S, Cao D S Anal Chim Acta, 2009, 648(1): 77-84

12Zheng K Y, Li Q Q, Wang J J, Geng J P, Cao P, Sui T, Wang X, Du Y PChemometr Intell Lab Syst, 2012, 112: 48-54

13Yun Y H, Wang W T, Tan L M, Liang Y Z, Li H D, Cao D S, Lu H M, Xu Q S Anal Chim Acta, 2014, 807: 36-45

14Yun Y H, Wang W T, Deng B C, Lai G B, Liu X B, Ren D B, Liang Y Z, Fan W, Xu Q SAnal Chim Acta, 2015, 862: 14-23

15Deng B C, Yun Y H, Liang Y Z, Yi L ZAnalyst, 2014, 139 (19): 4836-4845

16Teofilo R F, Martins J P A, Ferreira M M C J Chemometr, 2009, 23(12): 32-48

17Gosselin R, Rodrigue D, Duchesne C Chemometr Intell Lab Syst, 2010, 100(1): 12-21

18Ferre J, Faber N M Chemometr Intell Lab Syst, 2003, 69(1): 123-136

19Brown P J J Chemometr, 1992, 6(3): 151-161

20Shao X G, Bian X H, Liu J J, Zhang M, Cai W SAnal Methods, 2010, 2(11): 1662-1666

21Li H D, Liang Y Z, Xu Q S, Cao D SJ Chemometr, 2010, 24(78): 418-423

22Norgaard L, Saudland A, Wagner J, Nielsen J P, Munck L, Engelsen S B Appl Spectrosc, 2000, 54(3): 413-419

AbstractNearinfrared spectroscopy (NIR) is widely used in the area of food quantitative and qualitative analysis Variable selection technique is a critical step of the spectrum modeling with the development of chemometrics In this study, a novel variable selection strategy, automatic weighting variable combination population analysis (AWVCPA), was proposed Firstly, binary matrix sampling (BMS) strategy that gives each variable the same chance to be selected and generates different variable combinations, was used to produce a population of subsets to construct a population of submodels Then, the variable frequency (Fre) and partial least squares regression (Reg), which were two kinds of information vector (IVs) were weighted to obtain the value of the contribution of each spectral variables, the influence of two IVs of Rre and Reg was considered to each spectral variable Finally, it used the exponentially decreasing function (EDF) to remove the low contribution wavelengths so as to select the characteristic variable In the case of near infrared spectrum of beer and corn, the prediction model based on partial least squares (PLS) was established Compared with other variable selection methods, the research showed that AWVCPA was the best variable selection strategy in the same situation It had 727% improvement compared AWVCPAPLS with PLS and the predicted root mean square error (RMSEP) decreased from 05348 to 01457 on beer dataset It had 647% improvement compared AWVCPAPLS with PLS and the RMSEP decreased from 00702 to 00248 on corn dataset

KeywordsNear infrared spectroscopy; Chemometrics; Variable selection; Automatic weighting variable combination population analysis; Information vectorendprint

猜你喜欢

光谱向量变量
向量的分解
郭守敬望远镜获取光谱数破千万
浅析光谱技术在200 nm以上和以下尺度范围内的不同
光谱、能级和能级图的理解和应用
向量垂直在解析几何中的应用
向量五种“变身” 玩转圆锥曲线
分离变量法:常见的通性通法
不可忽视变量的离散与连续
轻松把握变量之间的关系
变中抓“不变量”等7则