APP下载

红外光谱结合PCA-LDA判别道地和非道地山药

2018-02-13徐寸发徐为民

江苏农业科学 2018年24期
关键词:山药产地红外

张 芳, 周 昊, 徐 蓉, 徐寸发, 韩 伟, 徐为民, 李 勇

(1.江苏省农业科学院中心实验室,江苏南京 210014; 2.江苏省农业科学院农产品质量安全与营养研究所,江苏南京 210014)

山药为薯蓣科植物薯蓣(Dioscoreaopposita)的干燥根茎,作为药食两用的中药材,具有补脾养胃、生津益肺、补肾涩精功效,受区域气候特征、地质特点、生长习性等因素的影响,具有不同的产地特征。以广西、河北、河南等地为主的几大产地构成了国内主要山药栽培区。以河南怀庆府(今博爱、武陟、温县)所产最佳,历史悠久,质量上乘,入药疗效好,谓之“怀山药”,也称道地山药。传统的道地山药识别方法主要是感官评定法。感官评定法易受不同评定人经验和主观因素的影响,外界环境对感官评定法也会产生较大干扰,影响结果的客观性和准确性,因此,建立一种快速、可靠、方便的鉴别方法尤为重要。

红外光谱技术是一种分析物质结构和含量的有用工具,可用于未经化学方法提取样本的分析,并且具有快速、无损、灵敏等特点[1],在化工、生物、医药等方面的应用[2-5]日渐广泛,逐步取代了繁琐的、可信度不高的传统分析方法。红外光谱中所反映的是样品的整体信息,是混合样品中所有成分的叠加,只要样品的处理方法统一,样品中各种化学成分的质和量相对稳定,则其红外光谱应该是相对稳定的,地域、种质、加工方法、贮存等外界因素的影响,从红外光谱上能够反映出各自的差异性。但是,由于红外光谱固有的复杂性及待测样本中所含化合物的多样性,红外光谱解析比较困难,特别是谱图仅有细微差别的样品,如同种植物不同产地或不同栽培条件样品的红外光谱,这类光谱的差别肉眼不能有效识别,即使有的差别能够识别,但是也不能确定哪些细微差别是鉴别的关键,而隐含的一些谱峰更是无法直接利用,因此,直接运用红外光谱进行样本鉴别存在较大局限。随着化学计量学的发展,化学计量学方法被引入红外光谱数据处理领域,在数据分析方面发挥出独特优势。目前,化学计量方法结合红外光谱技术已广泛应用于食品、饮料、土壤有机质检测、矿物成分分析、药物等成分和品质分析[6-8],以及产地和真伪鉴别[9-17]等领域。

本研究利用傅里叶变换红外光谱仪鉴别道地山药,采集样本全波长透射率谱图,通过化学计量学方法对光谱数据进行统一处理,以主成分分析(PCA)法、线性判别分析(LDA)法建立化学计量模型,实现对道地山药和非道地山药的有效鉴别。

1 材料与方法

1.1 样本来源与制备

本试验样本共107个,其中道地山药样本56个,采自河南省;非道地山药样本51个,采自河北省、江苏省、山西省、山东省、安徽省、浙江省、云南省、广东省。山药样品部分采购自原产地,部分由江苏省农业科学院经济作物研究所提供。样本用毛刷刷去表面泥土,洗净,过纯水,切片,置于表面皿中,在60 ℃下干燥至恒质量,粉碎,过筛,装入密封袋并保存于干燥器中待测。

1.2 仪器设备与参数设置

试验所用的中红外光谱仪型号:美国Thermo Fisher Scientific Nicolet iS50 FT-IR型傅里叶变换红外光谱仪,扫描范围为4 000~525 cm-1,分辨率为4 cm-1,扫描次数为32次。采用衰减全反射模式,采集样本全波长透射率光谱数据。

1.3 统计分析与模型建立

采用主成分分析和线性判别分析(PCA-LDA)对山药道地性进行判别。光谱数据的采集和保持通过软件OMNIC 9(Thermo Nicolet,USA)实现。数据分析前先将原始数据进行多元散射校正,然后采用PCA法对数据进行降维处理,通过蒙特卡洛法从各个区域中随机选定一部分样本,利用LDA进行建模,对剩余样本进行判别验证,重复1 000次,统计其准确率。所有数据分析均在Matlab环境中完成。

2 结果与分析

2.1 不同产地山药样本红外光谱图的构建及预处理

山药不同产地代表样本的红外图谱(图1-a)。从谱图中可以看出,不同产地山药的谱图极其相似,很难分辨出差别,这主要是由于山药中淀粉的含量为20%~30%[18],造成谱图差异性不明显,凭借肉眼很难实现山药道地性鉴别,因此必须借助化学计量学技术对其图谱解析。

鉴于山药样品的不均一性,样品在处理中出现的诸如粒度不均匀、混合不充分,利用红外光谱测量样品时,会出现的光散射等问题,本试验利用多元散射校正预处理方法来消除散射的干扰[19]。经预处理后得到光谱(图1-b)。

2.2 不同产地山药主成分分析

主成分分析(principal component analysis,PCA)是一种常用的提取光谱特征信息的方法,利用方差最大原则,对原始光谱数据所包含的多个自变量进行线性拟合,以新的低维变量代替原始高维变量,进而达到数据降维的目的[20]。主成分个数主要由累计贡献率来决定,通常达到80%~90%时就可以用主成分代替原始变量作进一步的分析[21]。我们采用PCA对预处理后的原始数据进行降维处理,其中前7个特征矢量所对应的累积方差为88.5%(>80%),能够有效地提取出数据中的信息,PC1、PC2、PC3、PC4、PC5、PC6、PC7的权重分别为33.66%、14.89%、14.03%、10.11%、6.91%、5.20%、3.73%。前人研究结果,前3个主成分就可以反映样本的大部分原始光谱信息,本试验需要6个主成分才能达到要求,可能是因为前人是选取某一段光谱进行研究,而本试验选取整个光谱进行分析,光谱信息量太大,故需要的主成分数也多。

经主成分分析法降维处理后,用不同主成分组成二维投影见图2。PC1和PC2、PC2和PC3、PC3和PC4、PC4和PC5组成的投影图中,两类样本混合在一起,均不能将道地和非道地山药进行有效区分,PC5和PC6、PC6和PC7基本实现了道地与非道地山药的区分,但有些样本出现了重叠。所以,仅利用PCA不能有效区分道地和非道地山药。

2.3 不同产地山药PCA-LDA判别

线性判别分析(LDA)是用于判断样品所属类型的一种统计分析方法,首先找出特征向量w,将k组m元数据投影到另一个更低维的方向,使得投影后组与组之间尽可能地分开,而同一组内的关系更加密切,从而在新空间对样本进行分类,使得PCA投影后不能再分的样本经LDA投影后则得到区分。通常在解决问题的过程中,LDA抓住了样本的判别特征,而PCA抓住了样本的描述特征[22]。在PCA-LDA的分析过程中,利用蒙特卡罗模拟随机86个样品为训练集,利用LDA对前10个主成分进行模型建立,然后再对剩余21个样品进行预测分析。

以其中一次判别为例,利用PCA-LDA建立模型如下:

Y=0.012 0×PC1+(-0.055 5)×PC2+0.030 6×PC3+(-0.037 2)×PC4+0.016 0×PC5+0.060 5×PC6+(-0.071 3)×PC7+0.036 0×PC8+0.005 7×PC9+0.080 7×PC10+(-0.004 1)。

式中:Y为判别函数,当Y>0时,样品为道地山药;当Y<0时,样品为非道地山药。

从图3可以看出,道地和非道地山药样本都得到了很好的区分,训练集中,地道山药样品10、21、33、42被错误识别为非道地山药,非道地山药样品59被错误识别为道地山药;验证集中,21个样品均分类正确。在1 000次运行PCA-LDA后,训练集和验证集的分类结果,训练集鉴别道地山药的准确率为97.53%,鉴别非道地山药的准确率为98.88%;验证集中鉴别道地山药和非道地山药的准确率分别为93.64%和95.70%(表1)。试验结果表明,PCA-LDA能够有效区分道地和非道地山药。

表1 1 000次运行PCA-LDA分析结果

3 结论

仅利用红外光谱进行山药道地性判别有一定难度,也存在局限性,本研究利用红外光谱结合建立主成分分析法(PCA)、线性判别分析(LDA)法建立模型,可实现对道地山药和非道地山药的有效判别。训练集鉴别道地山药的准确率为97.53%,鉴别非道地山药的准确率为98.88%,可见,采用PCA-LDA可以在一定程度上克服样本数目少于量测变量的不足。对未知样本进行预测,验证集中鉴别道地山药和非道地山药的准确率分别为93.64%、95.70%,准确率均达到了90%以上,取得了良好的鉴别效果。本研究结果表明,红外光谱结合主成分分析和线性判别分析法建立模型有较强的鉴别区分能力,可以作为一种快速鉴别道地山药的方法,也为鉴别其他样本提供参考。

猜你喜欢

山药产地红外
网红外卖
闪亮的中国红外『芯』
治病山药 美味山药
山药提早上市栽培技术
我的“魔法山药”
警惕“洗产地”暗礁
TS系列红外传感器在嵌入式控制系统中的应用
食物离产地越远越好
测定不同产地宽筋藤中5种重金属
基于快速递推模糊2-划分熵图割的红外图像分割