APP下载

基于近红外和远红外光谱信息融合的核桃品种鉴别方法

2021-03-08李绍辰

农业工程 2021年12期
关键词:降维波段光谱

焦 俊,圣 阳,马 鑫,李绍辰,滕 燕,李 春,蒋 玲

(南京林业大学信息科学技术学院,江苏 南京210037)

0 引言

核桃在我国栽培历史悠久,分布广泛,品种众多,是世界著名的4大坚果之一[1]。由于不同品种的核桃品质存在差异,加工适应性也有所不同,核桃品种鉴别在核桃生产加工中显得尤为重要,急需一种普遍适用的低成本、环保、快速和准确的核桃品种鉴别方法。

传统的核桃品种鉴别有基于形态学、细胞学、孢粉学、同工酶和分子标记等鉴定方法,这些方法受环境和实验条件影响较大,导致识别的准确性也受到限制,且材料收集周期长,操作烦琐[2-7]。红外光谱技术因其具有检测速度快、检测过程简单、对样品破坏性小的特点,已被广泛地应用于农产品的定性鉴别及定量检测[8-9]。何勇等[10]选用中红外光谱进行分析,实现核桃品种及产地的判别,其中品种的识别率为83.3%。ZHU H等[11]将中红外光谱技术与机器学习算法相结合对核桃进行产地和品种的区分,经特征波段选取后采用反向传播神经网络模型将品种识别率提高到87.88%。马文强等[12]和贾昌路等[13]分别对核桃的仁和壳进行近红外光谱扫描,通过所得光谱数据分析品种间差异,前者建立的支持向量机模型识别准确率达96%。LUIGI A等[14]采用近红外光谱技术结合偏最小二乘判别分析准确地鉴别出意大利南部的索伦托地区出产的索伦托核桃,准确率达98.3%。总的来说,采用近红外光谱数据的建模效果远远好于中红外光谱数据,说明核桃在近红外波段更能体现品种间差异,这是由于不同核桃品种的蛋白质、糖分和影响口感的酚类物质等含量差异明显。这些物质分别对应N-H、C-H和O-H官能团,而不同化学键在对应的波段会被吸收,如C-H和O-H的合频吸收分别出现在1 410~1 470和1 920~2 050 nm波段,N-H的合频吸收出现在2 100 nm附近,均处于近红外波段范围内。因此,相比中红外波段,近红外波段所含核桃的物质信息更丰富。

处于远红外波段的太赫兹波对生物分子间的作用力更敏感,很多生物大分子的振动和转动能级都位于该波段,物质的太赫兹光谱(发射、反射和透射光谱)包含丰富的物理和化学信息,可实现样品的无损检测[15]。前人均只采用单一光谱波段进行研究,并通过对比多种分类模型,往往仅有一种效果较好,即使通过寻优算法调参,识别率也很难达到100%。本研究首次将远红外光谱技术应用于核桃品种的识别,通过提取核桃样品的有效特征光谱信息,并将远红外与近红外光谱数据融合,实现光谱检测技术与光谱数据的有机结合,期望提高核桃识别模型的准确率及稳健性。

1 材料与方法

1.1样品的制备

选用7个核桃品种进行光谱采集,分别为清香核桃、温185核桃、香玲核桃、新新2号核桃、纸皮核桃、漾濞核桃和岱丰核桃。首先将核桃手工去壳取仁后,将其置于60 ℃的恒温干燥箱中干燥2 h,防止样本本身水分对试验结果造成干扰。再通过粉碎机对核桃仁样品进行粉碎,制成固体粉末。

1.2近红外光谱采集

采用紫外-可见-近红外分光光度计,型号为美国PE公司生产的Lambda 950,涵盖波长范围为175~3 300 nm,光学系统采用涂覆SiO2的全息刻线光栅,其中近红外为360条/nm,通过控制电脑设置扫描波长为600~2 500 nm范围。将粉碎样品装入直径约3 cm的样品池中并压平,厚度均保证为5 mm,放入近红外区域的检测器进行扫描,具体样品数据及标签如表1所示。

表1 近红外光谱采集的核桃样本数据及标签

1.3远红外光谱采集

采用傅里叶变换红外光谱仪(FTIR)测试核桃的远红外光谱,通过该仪器获得样品在红外频段内的光学参数,该仪器型号为德国Bruker公司生产的Vertex80V,系统分辨率优于13.5 GHz,信噪比高达50 000∶1,采用的分束器为25 μm Myalr膜,对应的有效频段为0.6~3.6 THz。

由于核桃属于高脂肪类坚果,在压片过程中容易出油而导致样本受影响,且纯样本在远红外波段的吸收较强,在制备样本时,需要掺加聚乙烯稀释。然后将样本粉末研磨至混合均匀并倒入13 mm直径的模具中进行压片,样品厚度约为1 mm,测试时需要对样品仓抽真空。为选取最佳浓度样本,制备了浓度为40%、35%、30%、25%、20%和15%的核桃样本,分别进行光谱扫描并对比所得光谱,得出20%浓度的图谱噪声最小且特性最佳,故试验选取样本浓度为20%做标准制样,样品数据及标签如表2所示。

表2 远红外光谱采集的核桃样品数据及标签

1.4化学计量学算法

1.4.1降维算法

主成分分析法(principal component analysis,PCA)是一种被广泛应用到光谱数据的定性分析方法[16]。PCA通过线性变换将原始光谱数据投射到一些新的主成分变量(principal components,PCs),每一个主成分都是由原始数据线性组合而成,只需要几个方差最大的主成分即可反映数据信息,既能大大降低数据维度,同时也不会造成信息的大量丢失,但其往往适用于样本数据量大于特征波数的情形。

无信息变量消除法(uninformative variables elimination,UVE)是基于偏最小二乘回归系数建立的波长选择算法,用于消除不提供信息的变量[17]。UVE通过将回归系数的平均值与其标准差的比值h作为衡量指标,并人为添加一个随机矩阵作为噪声矩阵,将噪声矩阵的最大值h0作为阈值,变量的h值小于h0的变量将被剔除。然而,经UVE降维后得到的特征波数依然较多,往往需要采用其他特征选取算法进一步降维。

连续投影法(successive projections algorithm,SPA)是一种前向变量选择算法[18]。通过在向量空间中使用投影操作,可以寻找到含有最低限度的冗余信息的变量组,进而选择光谱信息中最重要的波长点,能极大程度降低光谱数据维度。SPA选择的波长点之间具有最小的线性关系,非常适合具有高共线性的变量。

PCA具有既能保留原始数据的大量信息又能大大降低数据维度的特点,往往是光谱分析中特征波数选取的首选方法,本文中远红外光谱数据包含的波长点少于样本数,而近红外波段数据维度高达1 201维,远远大于样本数量,故采用PCA对远红外数据进行降维,采用UVE和SPA对近红外光谱数据进行特征波数的选取。

1.4.2机器学习算法

随机森林(random forests,RF)可以构造不同相互独立的决策树,是一种使用多种决策树的综合方法[19]。为了构建随机森林,对每个决策的样本进行随机抽样。决策树节点的特征也从训练集的特征中随机选择,基于每个决策树输出分类结果。

K近邻(K-nearest neighbor,KNN)分类算法是通过测量不同特征值之间的距离进行分类,多采用欧氏距离来计算。KNN的优点是依据K个对象中占优的类别进行决策,而不是单一的对象类别决策[20]。

支持向量机(support vector machine,SVM)本质上是一个二分类器,面对多分类任务,它也能通过训练多个二分类器完成任务[21]。SVM是通过在多维空间中寻找一个超平面,使不同类型的样本在超平面上较好的区分开来。到这个超平面的全部向量被称为支持向量,而支持向量机就是要找到这些支持向量的算法,需要调优的参数有惩罚因子c和核函数参数g。

RF训练速度比较快,对高维度数据的判别能力强,还可以判断出特征的重要程度,且不容易过拟合,适用于小样本数据集,但其对噪声较为敏感,往往需要对光谱数据进行去噪。KNN的思想简单,易于理解和实现,是一种惰性分类方法,计算量比较大,所以适用于降维后数据的建模,较为突出的优点是对于像光谱数据这种交叉或重叠较多的样本集更合适,且适合处理多分类问题。SVM模型有很高的分辨率和泛化能力,能很好地解决高维问题,并且对小样本的分类问题效果好,虽然其对非线性问题没有通用的解决方案,但可通过选择核函数来处理,本文选用了径向基和线性两种核函数分别建立核桃品种鉴别模型。总之,3种方法各有优劣,分别应用于核桃品种的鉴别,可很好地验证本文光谱融合数据的有效性。

2 结果与分析

2.1光谱预处理

将7种核桃仁压片制样后采用FTIR光谱仪进行远红外光谱扫描,所得吸收光谱如图1所示。由于试验仪器、环境和操作等会引起系统误差,原始光谱的首尾部分有明显噪声,故选取1.0~3.2 THz波段范围的光谱进行建模分析。

图1 7种核桃样品的远红外吸收光谱Fig.1 Far-infrared absorption spectra of 7 kinds of walnut samples

7种核桃仁的近红外反射光谱如图2所示,由于系统误差造成在全波段都存在些许噪声,首尾的噪声更为明显,在光谱图中存在较多毛刺,采用Savizky-Golay平滑法去噪,为清香核桃光谱图去噪前后的效果对比如图2a所示。最终选取1 000~2 200 nm波长范围进行研究,7种核桃近红外光谱如图2b所示。

图2 核桃样品近红外反射光谱图Fig.2 Near-infrared reflectance spectrum of walnut samples

2.2基于单一波段光谱数据的品种鉴别模型

7种核桃仁样品的远红外吸收光谱变化趋势相似,但吸收峰不明显,这是因为核桃本身成分复杂且包含多种营养成分,而不同营养物质对远红外信号的吸收相互干扰产生了光谱叠加导致无明显吸收峰。去除首尾噪声明显波段后的远红外光谱数据维度仍高达153维,由于是同种物质,光谱数据之间有很大的相关性,是典型的多重共线性问题,建模之前采用主成分分析对原始特征矩阵进行降维。由图3a可知,当主成分数超过10时,其累计贡献率可达99%以上,说明此时主成分分析降维后的数据能够较好地解释原样本数据的特征。因此,在本研究中选择的主成分个数为10。

基于前3个主成分的得分如图3b所示。不同品种间有部分重叠,且出现同一品种较为分散的现象,在此基础上采用机器学习算法建立核桃品种识别模型。

图3 远红外光谱数据主成分分析结果Fig.3 Principal component analysis results of far infrared spectrum data

同时,近红外光谱数据维度高达1 201维,远多于样本数量,不宜采用PCA方法降维,采用UVE-SPA对近红外光谱数据进行特征波数选取。先通过UVE算法削减不提供信息的变量后,还剩701个有效波长点(如图4a),仍然远多于样本数量,若将该数据作为模型输入,将导致模型复杂度较高可能会产生过拟合现象。于此,再应用SPA算法选出光谱信息中最重要的8个特征波长点,如图4b所示。

图4 近红外光谱数据特征波数提取结果Fig.4 Results of feature wavenumber extraction from NIR spectral data

分别利用PCA降维后的远红外光谱数据和基于UVE-SPA特征波数提取后的近红外光谱数据导入随机森林、K近邻和支持向量机分类模型,训练集与预测集比例为7∶3,模型的预测能力和稳定性由训练集准确率和均方根误差(RMSEC)、测试集准确率和均方根误差(RMSEP)进行评价,其判别结果如表3所示。可见,基于近红外光谱数据所建立的模型好于远红外光谱数据,在近红外波段,基于RBF核函数的SVM分类模型的识别率最高,且训练集和预测集分别为100%和98.41%,此结果与前人的研究相符,但本文将核桃品种数增加到7种,并采用UVE-SPA选取特征波数,大大降低了模型复杂度。而远红外波段KNN模型效果最佳,训练集和预测集准确率分别达93.88%和84.13%。都表现为个别方法的效果较好,说明不同波段光谱数据对于模型的适应性存在差异,因此模型普适性还需进一步验证。此外,市面上核桃品种繁杂,数据量庞大,显然基于单一光谱数据建立的核桃品种鉴别模型还不够稳健。

表3 远红外和近红外光谱数据降维后模型分类结果

2.3基于数据融合的品种鉴别模型

数据融合分3个层次,分别为低级、中级和高级融合。低级融合即将各波段光谱的数据矩阵简单地按样本顺序拼接为一个矩阵。中级融合是分别从每个数据源中提取特征变量,然后将它们组合成一个矩阵。高级融合也称为决策级融合,是从每个数据源计算单独的分类或回归模型,并将每个单独模型的结果进行组合以获得最终决策。

低级融合后变量数将远大于样本数量,模型复杂度较高,往往易造成过拟合,高级融合的复杂程度更高,虽模型效率较高,但对算法要求更严苛。考虑到中级光谱数据融合可将光谱数据中提取的有效特征信息进行叠加整合,既能实现精简数据,又能实现多波段光谱统一分析,达到提高分析准确度的目的。故将UVE-SPA特征提取后的近红外光谱数据和PCA降维后的远红外光谱数据进行中级数据融合,得到包含18个特征变量的数据矩阵,作为模型的输入变量,按照训练集与测试集为7∶3的比例建立核桃品种鉴别模型,分类结果如表4所示。

表4 数据融合后模型分类结果

显然,基于融合后的光谱数据,随机森林分类器的识别准确率仍然较低,但相较于融合前的远红外和近红外波段都有所提高,其预测集RMSEP也减小到0.776 6。而K近邻模型和基于径向基与线性核函数的SVM模型判别结果均达到100%,说明远红外光谱数据所包含的核桃各品种的差异信息能够作为近红外光谱信息的补充,本文所采用的降维算法结合数据融合方法能有效提取出核桃品种间的差异信息,提高了核桃品种鉴别模型的准确率和稳健性。

2.4系统聚类分析

系统聚类是一种无监督的模式识别方法,常用于光谱的定性分析,依据样品的光谱数据蕴含的化学信息相似程度,将比较相似的样品聚为一类。其基本思想:先认为每个样本自成一类,然后计算类与类之间的距离,选择距离最小的一对合并成一个新的类,重复计算距离直至所有样本都聚为一类为止,最后可选取合适的分类阈值确定最终分类结果。本文分别利用近红外、远红外和融合后的光谱进行聚类分析,以验证融合后数据更能体现核桃品种间差异。从样本数据中每个品种随机选取9个样本进行系统聚类分析,结果如图5所示,横坐标为样品标签,纵坐标为聚类策略中常用的欧氏距离。

图5 7种核桃样品聚类结果Fig.5 Clustering results of seven walnut samples

结果显示,在近红外波段,温185和纸皮核桃被聚为一类;香玲和新新2号核桃聚类结果出现交叉,且被分成3类,无法区分开来,表明两者化学成分相似。在远红外波段,多种品种聚类混乱,如温185、香玲及部分清香核桃被划为一类;漾濞和部分岱丰核桃被划为一类;新新2号核桃被分割成4类;新新2号和纸皮核桃也出现了交叉现象,说明远红外光谱数据分类准确度低,无法直接使用。而经中级数据融合后,将近红外无法区分的温185和纸皮核桃、香玲和新新2号核桃区分开来,仅部分岱丰和清香核桃出现品种交叉,以及少量香玲核桃聚类错误。表明本文提出的光谱融合方法能有效提升核桃品种鉴别模型的准确率和稳健性。

3 结论

通过将远红外和近红外光谱技术应用于清香、温185、香玲、新新2号、纸皮、漾濞和岱丰这7种核桃品种的鉴别,发现针对核桃品种鉴别,近红外波段特征吸收峰较多,能较好地反映核桃蛋白质、糖分和酚类物质的含量差异,而远红外波段虽各品种有差异但没有明显的吸收峰,因其还包含分子间的振动信息。利用远红外光谱和近红外光谱数据建立分类模型,并分别采用PCA和UVE-SPA进行特征波长选择,结果表明在远红外波段KNN模型效果最好,而在近红外波段SVM模型最优,识别率分别为84.13%和98.41%。诚然,近红外光谱用于核桃品种鉴别效果优于远红外光谱,然而仅仅采用近红外光谱数据进行建模的模型普适性还不能达到实际应用的要求,将近红外和远红外数据进行中级数据融合后,提取了更多的特征信息,发现除随机森林以外其余3种方法的识别准确率均为100%,同时也验证了中级融合后的聚类结果可以将单一光谱无法区分的品种进行区分,仅出现少量品种交叉现象。

进行中级数据融合后所建立的模型更为稳健,说明融合后的数据更能反映核桃各品种间差异,大大提升了光谱技术应用于核桃品种识别的准确性和可靠性。为实现核桃品种的高效、无损、精确识别提供了新思路,也为其他鉴别体系的建立提供了借鉴和参考。

猜你喜欢

降维波段光谱
基于三维Saab变换的高光谱图像压缩方法
混动成为降维打击的实力 东风风神皓极
煤炭矿区耕地土壤有机质无人机高光谱遥感估测
Ku波段高隔离度双极化微带阵列天线的设计
最佳波段组合的典型地物信息提取
基于3D-CNN的高光谱遥感图像分类算法
新型X波段多功能EPR谱仪的设计与性能
基于数据降维与聚类的车联网数据分析应用
最佳波段选择的迁西县土地利用信息提取研究
大气腐蚀数据降维最优维度研究