APP下载

基于近红外光谱分析技术的水蜜桃产地溯源

2020-05-27孙晓明陈小龙余向阳卞立平孙爱东

江苏农业学报 2020年2期
关键词:近红外光谱水蜜桃支持向量机

孙晓明 陈小龙 余向阳 卞立平 孙爱东

摘要:利用近红外光谱分析技术对来自3个省份的水蜜桃进行研究,比较主成分分析-线性判别分析(PCA-LDA)、 判别偏最小二乘法(DPLS)、 支持向量机(SVM)等方法对光谱数据识别的有效性差异。结果表明, SVM的准确率和召回率均高达94.47%,明显优于 PCA-LDA和DPLS,更适用于水蜜桃产地溯源。

关键词:水蜜桃;产地溯源;近红外光谱;主成分分析-线性判别分析;判别偏最小二乘;支持向量机

中图分类号:TS207.7文献标识码:A文章编号:1000-4440(2020)02-0507-06

Abstract:In this study, honey peaches from three provinces were analyzed by  near infrared spectroscopy analysis technique, and the effectiveness of principal component analysis-linear discriminant analysis (PCA-LDA), discriminant partial least squares (DPLS) and support vector machine (SVM) for spectral data recognition was compared. The results showed that the precision and recall rate of SVM were 94.47%. The SVM method was obviously better than PCA-LDA and DPLS, and it was more suitable for traceability of honey peach origin.

Key words:honey peach;geographical origin traceability;near infrared spectroscopy;principal component analysis-linear discriminant analysis;discriminant partial least squares;support vector machine

隨着生活水平的提高,人们的食品安全意识大大增强,地域特色产品越来越受到市场的认可。这些产品通常会带来良好的经济效益。针对地域特色产品的以假乱真、以次充好现象大量存在,既损害了消费者权利,又打击了生产者积极性[1-2]。因此,开展地域特色产品产地溯源技术研究,对于推动溯源体系的建立与完善,促进农产品安全有效监管具有重要意义。产地溯源技术主要分两大类[3-6]:一是电子信息编码技术,即将农产品产地信息及生产、加工等环节的相关信息关联到电子信息载体,消费者通过二维码等识别农产品的产地;二是化学生物分析技术,即通过检测农产品的成分来获知产地信息,包括近红外光谱分析技术、同位素分析技术等。其中,近红外光谱分析技术因具有操作简单、检测速度快、重现性好、绿色环保、成本低等特点[7],已经成为一种重要的农产品产地溯源识别技术手段。

近红外光谱主要反映有机物分子中C-H、N-H、O-H等含氢基团振动的倍频和合频吸收信息。不同产地的农产品,因为品种、产地环境、加工方法等不同,其有机物组成和含量存在较大差异,形成近红外光谱中的差异。通过分析近红外光谱,可以对农产品进行产地溯源、真伪鉴别和品质检测[8-16]。目前近红外光谱分析技术已得到广泛应用,李勇等采用主成分分析和线性判别分析对大米进行产地溯源分析[17]。姜亦南等采用傅里叶变换近红外光谱法结合SIMCA模式识别算法对三七进行产地鉴别[18]。对水蜜桃的相关研究较少。李剑等采用主成分分析结合最小二乘法建立了水蜜桃采摘期的鉴别模型[19]。王铭海等建立了3个不同品种桃可溶性固形物含量预测模型[20]。

鉴于目前应用近红外光谱分析技术识别水蜜桃产地的研究较少,本研究采用此技术,通过光谱预处理等手段结合模式识别方法进行水蜜桃产地识别研究,并在江苏、山东、福建3个省份的水蜜桃上进行试验,为水蜜桃产地溯源提供依据。

1材料与方法

1.1数据采集

1.1.1水蜜桃样品采集分别采集产自江苏省、山东省、福建省的“湖景”水蜜桃样品各50个。样品放置于空气温度25 ℃、湿度75%的环境中。

1.1.2近红外光谱数据采集利用Thermo Antaris II傅里叶变换近红外分析仪,采用漫反射方式采集水蜜桃样品的近红外光谱。以仪器内部空气为背景,光谱扫描波数为4 000~10 000 cm-1,扫描间隔为3.856 cm-1,每条光谱有1 557个点,扫描次数32次,4倍增益。在果实赤道上选择3个相距120°的位置测定漫反射光谱,3个位置的平均值作为该果实的光谱测定值。

1.2数据分析

1.2.1主成分分析-线性判别分析主成分分析(Principal component analysis,PCA)是最常用的无监督降维方法,该方法把原始高维变量转化为几个主成分,使得每一维上的样品方差都很大[21]。这些主成分通常表示为原始变量的线性组合,不仅能够反映原始变量的大部分信息,而且各主成分之间相互独立。线性判别分析(Linear discriminant analysis,LDA)是一种监督学习的判别分析方法,首先通过训练集建立线性判别函数,该判别函数使得类内方差最小、类间方差最大,即具有最佳的可分离性,然后利用判别函数对测试集样品进行识别[22]。对PCA分析过的数据使用LDA进一步降维,可以将最佳描述特征转化为最佳判别特征进行分类识别[23]。

1.2.2判别偏最小二乘法判别偏最小二乘法(Discriminant partial least squares,DPLS)是一种将定量偏最小二乘法(Partial least squares,PLS)用于判别分析的方法,通过建立自变量与因变量之间的多元统计回归模型进行分析[24]。和PCA方法类似,该方法同样采取了成分提取的方式,不同的是,提取成分时不仅仅要求成分能够较好地概括自变量的信息,同时要求对因变量的解释能力达到最大。成分通过迭代法逐步提取,成分个数通过交叉有效性检验来确定。根据PLS模型的预测值确定样品的类别。

1.2.3支持向量机支持向量机(Support vector machine,SVM)是一个经典的分类模型,主要思想是在特征空间上建立最优超平面使得类之间的间隔最大,在解决小样本、非线性及高维数据等问题中表现出许多特有的优势[25-26]。SVM首先通过非线性映射函数将样品从原始特征空间映射到高维特征空间,然后构造最优决策函数,综合考虑结构风险最小化和经验风险最小化,确定模型参数,同时引入间隔的概念。SVM的优化目标为:

采用十折交叉验证法将样品划分为训练集和测试集,取每类的10%作为测试集,随机使用不同的划分10次,10次十折交叉试验的均值作为最终的试验结果。所有数据分析均在MATLAB R2016a中编程实现。

2结果分析

2.1水蜜桃样品的近红外光谱

图1a是所有水蜜桃样品的原始光谱,图1b是不同省份水蜜桃样品的原始光谱均值。图1b中3个省份的均值光谱明显区分开,且江苏省和山东省的距离较近。而图1a中近红外光谱之间重叠严重,不能直接区分产地,存在光散射、基线漂移等问题,对试验结果影响较大,需要采取适当的光谱预处理方法去除干扰[28],以便更好地分析。常见的光谱预处理方法有平滑(Smoothing)、一阶导数(1st Der)、二阶导数(2nd Der)、标准正态变换(SNV)、多元散射校正(MSC)、小波变换(WT)等。试验中采用SNV方法对光谱数据进行预处理,处理后的光谱见图2。

2.2PCA-LDA方法分析

首先对全波段光谱数据进行标准化处理,然后使用奇异值分解进行主成分分析。累计贡献率达到99%时即可确定主成分数目。前10个主成分的贡献率见表1,主成分数目为7时,累计贡献率超过99%。图3为前2个主成分的得分图,主成分1和主成分2分别解释了总方差的65.81%和17.78%。由图3可见,利用前2个主成分时,山东省和福建省的水蜜桃样品在距离上基本分开,但均和江苏省的有重叠,且江苏省和山东省的重叠区域较大,仅使用PCA方法不能直接区分3个省份的样品。

2.5不同分析方法的分类结果对比

不同方法的分类结果见表3。可以发现,PCA-LDA方法对江苏省、山东省、福建省的水蜜桃预测正确率分别为81.40%、87.40%和100.00%,DPLS方法的预测正确率分别为66.40%、83.60%和78.60%,SVM方法的预测正确率分别为89.20%、95.00%和99.20%,3类基本区分开,SVM方法的分类识别正确率最高。江苏省和山东省的水蜜桃之间最容易发生误判,可能是因为江苏省和山东省地理位置比較接近,生长环境、气候等方面更加相似。总体上看,PCA-LDA方法的准确率为89.51%,召回率为89.60%。DPLS方法的识别结果最不理想,准确率仅为79.50%,召回率仅为76.20%,可能是由于没有选择合适的预处理方法导致。SVM方法通过间隔的概念,得到对数据分布的结构化描述,基于结构风险最小化原则,泛化能力强,因此分类效果最好,准确率达到94.47%,召回率达到94.47%。综合来看,采用近红外光谱分析技术对水蜜桃进行产地溯源是可行的,结果令人满意。

3结论

本研究采用近红外光谱分析技术实现水蜜桃的产地识别,在对近红外光谱数据进行SNV预处理的基础上,利用PCA-LDA、DPLS、SVM方法对江苏、山东、福建3个省份的150个水蜜桃样品进行产地溯源研究。试验结果表明,3种方法均可识别水蜜桃的产地,其中SVM方法的识别结果最优,对江苏省、山东省、福建省的水蜜桃识别正确率分别为89.20%、95.00%、99.20%,准确率和召回率均达到94.47%。该方法可为农产品产地溯源研究提供参考。下一步研究将考虑提取与地域相关的特征波长,去除干扰信息,加快训练速率,进一步提高该方法的性能。

参考文献:

[1]管骁,古方青,杨永健. 近红外光谱技术在食品产地溯源中的应用进展[J]. 生物加工过程, 2014, 12(2):77-82.

[2]钱丽丽,于果,迟晓星,等. 农产品产地溯源技术研究进展[J]. 食品工业, 2018, 39(1):246-249.

[3]COZZOLINO D. An overview of the use of infrared spectroscopy and chemometrics in authenticity and traceability of cereals[J]. Food Research International, 2014, 60(6):262-265.

[4]LOHUMI S, LEE S, LEE H, et al. A review of vibrational spectroscopic techniques for the detection of food authenticity and adulteration[J]. Trends in Food Science & Technology, 2015, 46(1):85-98.

[5]陈璐,谷晓红,张丙春,等. 食品产地溯源技术研究进展[J].安徽农业科学, 2015, 43(36):109-111.

[6]曾楚锋,张丽芬,徐娟娣,等.农产品产地溯源技术研究进展[J].食品工业科技, 2013,34(6):367-371.

[7]张勇,王督,李雪,等.基于近红外光谱技术的农产品产地溯源研究进展[J].食品安全质量检测学报,2018,9(23):6161-6166.

[8]HU X, LIU S, LI X, et al. Geographical origin traceability of cabernet sauvignon wines based on infrared fingerprint technology combined with chemometrics[J]. Scientific Reports, 2019, 9:8256-8263.

[9]EISENSTECKEN D, STRZ B, ROBATSCHER P, et al. The potential of near infrared spectroscopy (NIRS) to trace apple origin:Study on different cultivars and orchard elevations[J]. Postharvest Biology and Technology, 2019, 147:123-131.

[10]MANFREDI M, ROBOTTI E, QUASSO F, et al. Fast classification of hazelnut cultivars through portable infrared spectroscopy and chemometrics[J]. Spectrochim Acta A Mol Biomol Spectrosc, 2018, 189:427-435.

[11]MOSCETTI R, HAFF R P, STELLA E, et al. Feasibility of NIR spectroscopy to detect olive fruit infested by Bactrocera oleae[J]. Postharvest Biology and Technology, 2015, 99:58-62.

[12]仇逊超. 红松仁脂肪的近红外光谱定量检测[J]. 江苏农业学报, 2018, 34(3):217-223.

[13]廖秋红,何绍兰,谢让金,等. 基于近红外光谱的纽荷尔脐橙产地识别研究[J]. 中国农业科学, 2015, 48(20):4111-4119.

[14]罗微,杜焱喆,章海亮. PCA和SPA的近红外光谱识别白菜种子品种研究[J]. 光谱学与光谱分析, 2016, 36(11):3536-3541.

[15]顾玉琦,刘瑞婷,寿国忠,等. 应用近红外光谱技术快速鉴别铁皮石斛的产地[J]. 江苏农业科学, 2016, 44(5):365-368.

[16]向伶俐,李梦华,李景明,等. 近、中红外光谱法融合判定葡萄酒产地[J]. 光谱学与光谱分析, 2014, 34(10):2662-2666.

[17]李勇,严煌倩,龙玲,等. 化学计量学模式识别方法结合近红外光谱用于大米产地溯源分析[J]. 江苏农业科学, 2017, 45(21):193-195.

[18]姜亦南,蔺明煊,何帅,等. 基于红外光谱法结合SIMCA模式识别不同产地三七[J]. 中医药学报, 2019, 47 (1):54-57.

[19] 李剑,李臻峰,宋飞虎,等. 基于近红外光谱的水蜜桃采摘期的鉴别方法[J]. 传感器与微系统, 2017, 36(10):48-50.

[20]王铭海,郭文川,商亮,等. 基于近红外漫反射光谱的多品种桃可溶性固形物的无损检测[J]. 西北农林科技大学学报(自然科学版), 2014, 42(2):142-148.

[21]JOLLIFFE I T. Principal component analysis[M]. New York:Springer, 2002.

[22]邵圣枝,陈元林,张永志,等. 稻米中同位素与多元素特征及其产地溯源PCA-LDA判别[J]. 核农学报, 2015, 29(1):119-127.

[23]陈庆,黄蕾,李雪梅. 基于主成分判别分析的高光谱遥感影像分类方法[J]. 地理空间信息, 2016, 14(1):76-78.

[24]贾文珅. 基于多源信息融合的龙井茶产地鉴别研究[D]. 长春:吉林大学, 2014.

[25]NELLO C, JOHN S. 支持向量机导论[M]. 北京:电子工业出版社, 2004:82-98.

[26]褚璇,王伟,赵昕,等. 近红外光谱和特征光谱的山茶油掺假鉴别方法研究[J]. 光谱学与光谱分析, 2017, 37(1):75-79.

[27]周志华. 机器学习[M]. 北京:清华大学出版社, 2016:30.

[28]褚小立. 近红外光谱分析技术实用手册[M]. 北京:机械工业出版社, 2016:115-117.

(责任編辑:张震林)

猜你喜欢

近红外光谱水蜜桃支持向量机
山中,水蜜桃熟了
水蜜桃的滋味
水蜜桃的滋味
你的脸像水蜜桃
动态场景中的视觉目标识别方法分析
论提高装备故障预测准确度的方法途径
基于近红外光谱法的藜麦脂肪含量快速检测
基于熵技术的公共事业费最优组合预测
基于支持向量机的金融数据分析研究