APP下载

二次特征提取法用于茶叶产地的识别

2014-10-11张玮李晓苇李光张荣香

关键词:产区产地特征提取

张玮,李晓苇,李光,张荣香

(河北大学物理科学与技术学院,河北保定 071002)

二次特征提取法用于茶叶产地的识别

张玮,李晓苇,李光,张荣香

(河北大学物理科学与技术学院,河北保定 071002)

利用傅里叶红外光谱和特征基理论,对茶叶的产地进行研究.采集新茶叶样品的光谱数据,通过选择合适样品建立光谱特征基,将新采集茶叶的光谱数据在反映茶叶产地特性的光谱特征基上投影,依据茶叶产地的地域特征不同,在主成分分析思想的基础上提出了二次特征提取方法,并对比分析得出利用二次特征提取方法处理红外光谱图的可行性,而且可以有效地识别不同产地茶叶的特征.

红外光谱;特征基;产地;二次特征提取

茶叶是世界3大饮料植物(茶叶、咖啡豆和可可豆)之一[1],从中国起源,并向世界各地传播.作为已有四五千年茶种植和饮用的历史,茶叶在中国具有独特性和历史性的茶文化[2].茶树种类、种植产地和生产工艺流程的不同,导致茶叶品种繁多,无形中给茶叶的甄别带来了困难.茶树种植地的气候、光照、土壤和水质等因素对茶叶的品质影响很大,从而出现以产地名称命名的不同茶叶品牌.随着市场经济的发展和竞争,很多贸易问题摆在各大代表产区名茶的生产商和销售商面前,假冒产地、假冒名茶品牌、滥竽充数的现象时有发生,导致茶叶市场秩序混乱,真正的本产地名茶的名誉和消费者的合法权益无法受到保护.所以,更快、更准、更简单地辨别茶叶的产地有很重要的现实意义.本文选取了不同地域的25种不同的茶叶样品,采用经典的红外光谱压片法获得各种样品的红外光谱图,并结合特征提取理论(主成分分析思想),提出了二次特征提取方法.文中简要阐述了不同波长范围的选取和光谱数据的预处理,然后应用二次特征提取法分析不同产地茶叶的红外光谱图,把不同地域茶叶的红外光谱图中的光谱重叠部分分开,进而区分出不同产地的茶叶,此方法对于鉴别茶叶等其他复杂体系的特征有重要的价值.

1 实验部分

1.1 特征基理论

特征基理论是在主成分分析法的基础上提出的一种多元统计分析方法,它可以减少茶叶红外光谱图原始数据的维数,从而提取出能够反映茶叶主要信息的主要特征因素.

茶叶的光谱特征基是反映不同茶叶最大差异信息的特征因子,不同波段上的光谱包含的信息量也不同,一般把反映最大差异信息的典型茶叶进行特征提取,然后通过比较不同特征因子中所含的信息量确定茶叶的光谱特征基,然后把待测茶叶样品在这个光谱特征基上投影,进而进行特征识别.

红外光谱结合特征提取方法进行茶叶特征识别的优点是在保持主要光谱信息的前提下,用较少量的几条本征谱去替代原来复杂的红外光谱,从而使得由于重叠的谱带而无法精确分析的问题得到了解决.

二次特征提取过程是把一次特征提取过程中提取出的主要特征因子再进行一次特征提取(主成分分析),也就是再次剔除茶叶主要信息中所含的冗余变量,进而提取出其中变化相差较大变量的过程.因为在一次特征提取中提取出的第一特征因子所含的信息量最全面也最重要,所以二次特征提取是把一次特征提取的第一特征因子再进行一次特征提取.经过二次特征提取后,利用包含信息量最大的特征因子建立特征基.图1为二次特征提取流程图.

图1 二次特征提取流程Fig.1 Flow chart of the secondary feature extraction

1.2 样品制备

1.2.1 实验材料

本实验筛选出来自6个产区的25种茶叶样品,每类茶叶样品都是中上等等级茶叶品种,而且在茶叶的分类研究、等级研究等问题上具有一定的说服性.表1给出了茶叶样品选取的品种和产地情况,并对其进行了符号标示,以便下面的数据分析作图研究.

表1 茶叶样品及产地分布Tab.1 Distribution and origin of tea samples

1.2.2 实验仪器

傅里叶红外光谱仪;磨碎机;粉末压片机;电热恒温鼓风干燥箱;电子天平.

1.2.3 制备样品的流程

制备样品的过程分别是:烘干、粉碎、研磨、压片.首先,把筛选出的25种标准茶叶样品放在40℃恒温箱中烘干,大约12h烘干至恒重;然后把干燥完全的茶叶样品放入粉碎机粉碎,再经过200目(74μm)筛子筛选后将收集到的茶叶样品粉末装入塑料袋中,封好封口并标记茶叶样品的种类、时间等信息;把用筛子过目好的茶叶样品粉末和溴化钾按1∶120比例进行研磨,一定要研磨均匀至呈面状粉末(一般情况下是称取8mg标准茶叶样品粉末和960mg KBr);经研磨后茶叶样品和KBr的混合粉末还要经过压片,在18MPa压强的条件下维持2min.最后即可对做好的茶叶压片样品进行红外光谱采集.制备过程中保持室温及室内湿度不变.

1.3 波长范围的选择和数据的预处理

1.3.1 波长范围的选择

近几年经过一些学者的分析研究,茶叶主要官能团的归属基本确定,笔者认为,茶叶在1 147,1 236,1 368,1 450,1 519,1 644,3 400cm-1这几个波数附近存在较强的吸收峰[3].因此,选用中红外波段对茶叶进行红外光谱提取.

1.3.2 光谱数据的预处理

本实验经过测量得到的茶叶样品的红外光谱数据要分别进行矢量归一、一阶导数光谱和S-G平滑预处理.首先进行矢量归一处理.一般觉得每个光谱中波长点的吸光度遵循某种分布规律,然后在这个假设的基础上对每条光谱进行校正.计算过程是先求出这条光谱的平均值,然后原光谱与这个平均值相减,最后得到的数据除以这个光谱数据的标准偏差,在本质上,使原有的光谱数据标准归一化[4].通过矢量归一计算后能够去掉样品红外光谱中线性平移的影响.其次进行一阶导数光谱处理.一阶导数光谱消除基线漂移或背景干扰的影响,但也给一个更高的分辨率和更清晰的光谱分布的变化,从而减少重叠频带[5].最后进行信号平滑处理.信号平滑是祛除噪声较常用的方法之一,Savitzky-Go1ay卷积是通过多项式来对移动窗口内的数据进行多项式最小二乘拟合.如果对数据进行多次测量后计算出平均值,就能降低噪声,而且信噪比得到提高[6].

2 结果与讨论

2.1 样品的原始光谱图分析

经过傅里叶红外光谱仪对茶叶样品的进一步分析,得到来自25种不同产地地域的茶叶样品的红外光谱图,图2是6种有代表性的不同产地的茶叶的红外光谱图.由图2可以看出,图中6种茶叶样品的光谱图峰形和峰位相近,谱峰之间互有交叉,用肉眼很难分辨出茶叶的不同产地.

2.2 特征提取过程对识别不同产地茶叶的影响

本实验在选取建基用的茶叶的原产地时,所选取的茶叶既要包含要研究的君山毛尖、祁门红茶系列、安溪铁观音、四川雅安藏茶等茶叶,还要包含代表中国其他茶叶产地特征的茶叶品种.在实验中选取代表茶叶产区时,把福建产区分为闽南和闽北2个产区,把安徽产区分为黄山和祁门2个产区.之所以这样区分是因为每个茶叶产地的地域特征不同,而不同的地域受气候、土壤、海拔等因素影响很大,所以每个产区茶叶的信息要能在所建立的特征基上找到相应的位置,比如黄山和祁门茶叶要分别投影在各自地域信息位置上.

2.2.1 一次特征提取

采集湖南、四川、安徽黄山和祁门、福建闽南和闽北6个茶叶产区的茶叶红外光谱,将各个产区的茶叶红外光谱数据分别进行第一次特征提取,一次特征提取主要提取茶叶的第一特征因子和第二特征因子,因为前2个特征因子包含反映茶叶特性的主要特征成分,建立反映不同茶叶产地特性的光谱特征基,然后将光谱数据分别在特征基上投影,投影图上的每个点对应一个茶叶样本,图3为经过一次特征提取后将25种茶叶数据在特征基上的投影.

图2 6种茶叶样品的原始红外光谱Fig.2 Original infrared spectra drawing of six kinds of tea samples

图3 一次建基分析不同茶叶产地的红外光谱投影Fig.3 First foundation analysis for different tea producing area of ir projection drawing

把筛选出的待测茶叶样品在建好的光谱特征基上进行投影,由图3可以看出,经过一次特征提取后,各个产地的茶叶群聚性不明显,除安徽祁门红茶基本分布在一个区域外,其余产地的茶叶分布在不同的区域,相互交叉,基本无法分辨出茶叶的产区,由此可以看出,经过一次特征提取后,茶叶的特征基提取不纯,掺杂很多冗余的成分,无法区分不同产地的茶叶.

2.2.2 二次特征提取对25种不同产地茶叶的特征识别

采集湖南、四川、安徽黄山和祁门、福建闽南和闽北6个茶叶产区的茶叶红外光谱,将各个产区的茶叶红外光谱数据分别进行第一次主成分分析,然后分别提取出各个产区的前2个特征因子进行第2次主成分分析(即二次特征提取),建立反映不同茶叶产地特性的光谱特征基,然后将光谱数据分别在第2次提取的特征基上投影,图4为经过二次特征提取后将25种茶叶数据在特征基上的投影.

把筛选出的待测茶叶样品在建好的光谱特征基上进行投影,由图4可以看出,同种产地的茶叶聚团性良好,同种产地的茶叶基本分布同一区域内.福建闽南和闽北的茶叶分布在不同区域,安徽的祁门和黄山也分布在不同区域,符合选取茶叶产地时的区域划分.但也有个别茶叶出现偏差,分布到其他产区,比如湖南产区的北港毛尖落在安徽祁门产区,而安徽黄山的新安银针落在湖南产区.这个投影图充分表明了利用二次特征提取方法处理红外光谱图的可行性,而且可以有效地识别不同产地茶叶的特征,识别率可达80%左右.

2.2.3 二次特征提取对16种不同产地茶叶的特征识别

由图4可以看出,并不是所有茶叶都呈现良好的群聚性,比如:湖南产区的北港毛尖落在安徽祁门产区,安徽黄山的新安银针落在湖南产区,雅安藏茶落在福建闽北产区,考虑到茶叶品质性的区别,因此在二次特征提取的基础上,去掉一些聚团性比较差的茶叶重新处理,投影时将聚团性较好的16种茶叶进行投影得出投影图5.

图4 二次建基分析不同茶叶产地的红外光谱投影Fig.4 Secondary foundation analysis for different tea producing area of ir projection drawing

图5 二次建基分析16种茶叶产地的红外光谱投影Fig.5 Secondary foundation analysis for 16kinds of tea producing area of ir projection drawing

由图5可知,剔除零散的茶叶样本后,16种不同产地的茶叶聚团性很好,各个产区的茶叶基本分布在一个区域,没有交叉,因而利用二次特征提取方法可以对不同产地的茶叶进行有效地分类识别.

3 结论

利用二次特征提取方法对不同产地区域的茶叶光谱进行分析处理后,将不同产地区域的茶叶的光谱重叠部分区分开,进而区分出了不同产地区域的茶叶.从最终处理得出的投影图4和5中可以明显看出同种产地的茶叶聚团性良好,同种产地的茶叶基本分布同一区域内.这个投影图充分表明了利用特征提取方法处理红外光谱图的可行性.但是仍然可以看出并不是所有茶叶都遵循同种产地分布在同一区域这一规律,而是定位到了别的产地茶叶的区域中.同种产地茶叶的地域特征也会出现差异,这是一个很复杂的问题.经多方分析原因并排除了实验误差等原因之后,得出茶叶产地特征是一个综和性指标的认识.所在地域的天气、土壤、海拔和日照时间,甚至雨量,都可能对茶叶的产地特征产生很大的影响.

[1] 李爱国,胡子祥,庞彬妃,等.茶叶甄选与鉴别[M].成都:四川科学技术出版社,2003:3 54.

[2] 牛智有,林新.茶叶定性和定量近红外光谱分析方法研究[J].光谱学与光谱分析,2009,29(9):2417-2420.

NIU Zhiyou,LIN Xin.Qualitative and quantitative analysis method of tea by near infrared spectroscopy[J].Spectroscopy and Spectral Analysis,2009,29(9):2417-2420.

[3] 赵晓辉,聂志矗,张连水,等.茶叶及其组分的红外光谱研究[J].光学学报,2009,29(2):533 -536.

[4] 陈全胜,赵杰文,张海东,等.SIMCA模式识别方法在近红外光谱识别茶叶中的应用[J].食品科学,2006,27(4):186-189.

[5] 袁洪福,陆婉珍.现代光谱分析中常用的化学计量学方法[J].现代科学仪器,1998,5(6):9.

[6] 郝勇,陈斌,朱锐.近红外光谱预处理中几种小波消噪方法的分析[J].光谱学与光谱分析,2006,26(10):1838-1841.

HAO Yong,CHEN Bin,ZHU Rui.Analysis of several methods for wavelet denoising used in near infrared spectrum pretreatment[J].Spectroscopy and Spectral Analysis,2006,26(10):1838 1841.

[7] LUYPAERT J,ZHANG M H,MASSART D L.Feasibility study for the using near infrared spectroscopy in the qualitative and quantitative of green tea[J].Analytica Chimica Acta,2003,478(2):303-312.

[8] 夏柏杨,任竿.近红外光谱分析技术的一些数据处理方法的讨论[J].光谱实验室,2005,22(3):629-634.

[9] LEONARDO S G,TEIXEIRA A,FABIO S,et al.Multivariate calibration in Fourier transform infrared spectrometry as a tool to detect adulterations in Brazilian gasoline[J].Fuel,2008,87:346-352.

[10] ZHOW Qun,SUN Suqin,ZUO Lin,et al.Study on traditional Chinese medicine'Qing Kai Ling'injections from different manufactures by 2DIR correlation spectroscopy[J].Vibrational Spectroscopy,2004,36:207 -212.

(责任编辑:孟素兰)

On the secondary feature extraction method applied to the tea origin identification

ZHANG Wei,LI Xiaowei,LI Guang,ZHANG Rongxiang
(College of Physics Science and Technology,Hebei University,Baoding 071002,China)

The origin of tea are studied by Fourier transform infrared spectroscopy and feature-based theory.Spectral data of new tea samples are collected and spectral characteristics basis is established by selecting the appropriate sample.The spectral data acquisition of new tea project on the spectral characteristics basis that can reflect the origin of tea.Based on the regional characteristics of the different origin of tea,on the basis of the Principal Component Analysis thought secondary feature extraction method is proposed,and comparative analysis of the feasibility of processing infrared spectra by using the secondary feature extraction method can effectively identify the different origin of tea.

infrared spectroscopy;feature-based;place of origin;secondaryfeature extraction method

张玮(1984-),女,河北保定人,河北大学实验师,主要从事红外、传感技术方向研究.E-mail:lszhangwei@hbu.edu.cn

O433.4

A

1000-1565(2014)05-0479 06

10.3969/j.issn.1000 -1565.2014.05.007

2014-01 -10

河北省自然科学基金资助项目(F2010000309);国家质监局公益性行业科研专项项目(200910083-01)

猜你喜欢

产区产地特征提取
葡萄酒的产区品牌
葡萄酒的产区品牌(下)
基于Gazebo仿真环境的ORB特征提取与比对的研究
警惕“洗产地”暗礁
基于Daubechies(dbN)的飞行器音频特征提取
食物离产地越远越好
葡萄酒产区与『风土』
测定不同产地宽筋藤中5种重金属
RP-HPLC法同时测定7个产地天麻中5种成分
Bagging RCSP脑电特征提取算法