APP下载

基于Relief- F 学习算法的烟叶近红外光谱特征贡献度分析

2022-09-14刘培江

科学技术创新 2022年25期
关键词:总糖烟叶波长

刘培江

(山东烟草研究院有限公司,山东 济南 250098)

引言

随着人们对食药安全关注的提升,经常需要对农作物进行化学成分检测。目前常见的检测方式主要通过化学手段进行定量或定性分析,但这种方式通常要以破坏农作物为代价,而且化学试剂的生产、使用、处置都会对环境造成进一步污染。近红外分析技术作为一种快速、无损、绿色的化学成分检测手段,目前在很多领域已经逐步替代化学方法成为主要的检测方式。近红外光谱仪最开始的用途是分子结构理论的研究,随着近红外硬件技术的改进,获得的近红外光谱逐步趋于稳定,光谱中包含的特征信息逐步被挖掘利用起来。尤其是随着机器学习、人工智能分析技术的发展,近红外光谱中信息的价值得到了越来越广泛地重视和应用。作为近红外光谱分析技术的奠基人,Karl Norris 等人在20 世纪50 年代开始将近红外分析技术应用于谷物、饲料、水果、蔬菜等的化学成分定量检测[1]。许禄在1992 年出版的《化学计量学方法》中将多元统计变量方法引入到近红外光谱分析技术中来[2],为近红外光谱分析技术应用提供了理论和技术支撑。化学计量学成为当时近红外光谱数据预处理及定量定性分析的主流技术。经过几十年的研究发展,近红外光谱分析技术已经成为现在较具应用前景的分析技术之一,欧美许多国家已经将近红外光谱分析技术广泛应用于食品、药品等多个领域,取得了较好的经济和社会效益。

近红外光谱分析技术被广泛应用于烟草行业[3-11],主要用来进行烟草化学成分分析及测试醋酸纤维滤棒中的三醋酸甘油酯等。山东烟草于2013 年立项“山东烟叶品质快速检测与分析网络技术研究”重点科技项目,针对山东烟叶质量评价滞后、缺乏快速检测手段、质量领域信息化薄弱等实际问题,项目将利用近红外光谱分析等技术,研究烟叶常规化学成分定量分析基本模型,搭建山东烟叶品质快速分析网络系统,实现了烟叶常规六项化学成分的快速检测,初步构建了山东烟叶质量数据库与光谱数据库,并开展质量数据多维度分析,形成了“硬件终端+网络+技术模型+软件系统+分析应用+标准规范”的体系化的成套技术方案。随后该项目在山东烟叶产区进行了推广应用,2013~2021 年连续9 年组织开展全省6 个烟叶产区的烟叶质量检测与分析,每年采集数百烟叶样品进行常规化学成分检测,并利用检测结果编制印发《山东烟叶品质分析报告》,从烟叶样品的总体质量、年度质量变化、化学成分协调性、产区差异性、存在的主要问题等方面对全省烟叶质量进行了多视角分析。目前,已累计近红外光谱信息19 000 余条、烟叶内在品质信息15 000 余条,可实现烟叶粉末样品总糖、还原糖、总氮、总烟碱、钾、氯、淀粉等常规化学成分的1 分钟快速检测。

本研究将在前期项目研究的基础上进一步挖掘近红外光谱特征的价值,因为近红外光谱向量中每一维特征与烟叶化学成分定量分析的相关性(贡献度)是不同的,本文将利用Relief-F 学习算法[12]对烟叶的近红外光谱特征贡献度进行综合分析,对烟叶常规六项化学成分中每一项都找出最相关的光谱特征子集(光谱谱段),并分析之间的关系,为改进烟叶品质近红外光谱分析算法,进一步提高烟叶品质检测准确率及执行效率打好基础。

1 近红外光谱采集及预处理

1.1 样品制备与要求

为保证所采集烟叶近红外光谱的质量,在采集前需要对烟叶样品进行一系列预处理工作,所有样品制备方式与要求参考YC/T31-1996《烟草及烟草制品 试样的制备》标准执行。具体样品制备流程,见图1。

图1 烟叶近红外样品制作流程

关键操作及其注意事项如下:

(1) 样品抽样:去除样品中的杂质,比如纸屑、杂草及变质烟叶等。(2)剔除烟梗:抽掉烟叶叶脉。

(3)烘干:使用鼓风干燥箱以60 ℃烘干4 h,使样品含水率达到基本一致。

(4)磨粉:使用旋风磨磨粉,过滤网密度为40目。

(5)保存:将样品粉末装入干净的密封瓶(或者密封袋)中密封起来,充分摇动,混合均匀,放低温下避光保存。

其中,烘干与磨粉两个步骤的时间间隔不超过1h;样品制样完成后,应在2 mth 内完成化学成分检测和留样粉末样品扫描工作,以保障实验数据的一致性。

1.2 近红外光谱采集

1.2.1 仪器参数

选用福斯NIRS DS2500 近红外光谱仪进行样品光谱采集,光谱仪的主要技术参数见表1。

表1 NIRS DS2500 近红外光谱仪技术参数

1.2.2 环境温湿度

环境湿度对设备稳定性和样品物理状态的影响较大。本次实验环境温湿度为:空气相对湿度范围保持20%~70%,温度范围为20 ℃~25 ℃,每小时的温度变化不大于2 ℃,湿度变化不大于2%,以保证样品检测准确性。

1.2.3 样品光谱采集

在稳定环境温湿度条件下,将重量为20 g 左右样品粉末倒入样品杯中,放置压样器,将样品杯放在近红外设备上进行扫描。每个样品重复装样测定两次,两次扫描结果的平均值作为最终结果。

1.3 近红外光谱预处理

新采集的烟叶近红外光谱由于受样品内在状态、外在环境等因素影响,存在着各种噪声问题,这些噪声如果不加以处理会对检测结果的准确性造成影响,这就需要对光谱进行预处理工作,常用的预处理技术包括:

(1)去噪声:第一步,选择合适的窗口通过移动平滑的办法去掉高频噪声的干扰;第二步,使用微分过滤的方法去除由仪器原因产生的噪声。

(2)数据清洗:剔除无效数据,舍弃信息少的光谱频段,减少后续计算量。

(3)归一化:通过量纲变换消除样品不均匀等变化造成的影响。

经预处理后取波长在[1120,2600]的近红外光谱作为我们的实验数据,样例,见图2。

图2 预处理后烟叶近红外光谱图样例

2 Relief-F 学习算法

Relief-F 算法是一种有监督的过滤式特征选择算法,它的返回结果是关于全体特征的相关系数。Relief-F 算法的主要过程包括以下几步:

(1)初始化相关系数向量W(a) = 0,以及一个自定义整数m。

(2)随机选择一个实例(样本)Ri。

(3)在与Ri 同类的样本中找到Ri的k 个最近邻Hj。

(4)在其他每类样本中找到Ri的k 个最近邻Mj(C),其中C≠class(Ri)。

(5)对于a 中的每一维特征通过下面的公式计算其相关系数W(a):

(6)从步骤1 开始重复以上操作,直到返回所有特征的相关系数向量W(a)。

从以上算法的整个过程我们可以看到,Relief-F算法在计算特征相关系数时仅仅用到了训练数据的一些整体性质,并未涉及到任何分类器算法,这保证了算法的独立性。

3 实验和结果分析

本次实验共采集烟叶样品202 个,使用福斯NIRS DS2500 近红外光谱仪扫描得烟叶近红外光谱202 条(波长区间[1 120,2 760]),采用化学流动分析方法检测获得样品的总烟碱、总糖、还原糖、钾和氯5项指标数据,采用凯氏定氮仪设备检测获得样品总氮指标数据,所有指标的检测数据尽可能保证准确、可靠,样品参考化学成分测定和相应光谱采集时间间隔不超过1 mth。使用Relief-F 学习算法分析得出近红外光谱与总烟碱、总糖指标的相关系数,见图3。从图3 可以看出,波长区间[1 440,1 620]的近红外光谱与总烟碱具有最强的相关性,区间[1 750,2 060]的近红外光谱也具有较强的相关性;低波长[1 120,1 620]的近红外光谱与总糖具有较强相关性,尤其是区间[1 430,1 600]。使用Relief-F 学习算法分析得出近红外光谱与还原糖、总氮指标的相关系数,见图4。从图4可以看出,低波长[1 120,1 620]的近红外光谱与还原糖具有较强相关性,尤其是区间[1 440,1 610],波长2 080 nm 附近部分光谱与还原糖具有一定的相关性;高波长[1 870,2 600]的近红外光谱与总氮具有较强相关性,其中区间[1 910,2 000]的光谱相关性最强。使用Relief-F 学习算法分析得出近红外光谱与钾、氯指标的相关系数,见图5。从图5 可以看出,波长区间[1 430,1 610] 的近红外光谱与钾含量具有最强的相关性;波长区间[1 430,1 620]∪[1 910,1 985]∪[2 015,5 135]∪[2 430,2 600]的近红外光谱与氯含量具有较强的相关性。对比分析发现,除总氮外,其他五项化学成分与波长区间[1 430,1 620]的近红外光谱都具有较高相关性,光谱价值较高;总糖与还原糖与近红外光谱相关性较类似,不同的是,波长2 080 nm 附近部分光谱与还原糖具有一定的相关性,而总糖表现不明显。

图3 近红外光谱与总烟碱(左图)、总糖(右图)指标的相关系数

图4 近红外光谱与总还原糖(左图)、总氮(右图)指标的相关系数

图5 近红外光谱与钾(左图)、氯(右图)指标的相关系数

4 结论

本研究首先介绍了烟叶近红外光谱的采集及预处理过程,简单介绍了Relief-F 学习算法的运行机制,最后利用Relief-F 学习算法对烟叶近红外光谱特征与常规六项化学成分的相关性进行了深入分析,找出了贡献度最高的光谱子集(波长区间),这些光谱子集对于烟叶常规化学成分检测的价值较高。如何妥善利用本研究的结论,提高烟叶品质检测准确率及执行效率,拓宽近红外光谱在烟叶品质方面的应用范围将是我们下一步的研究重点。

猜你喜欢

总糖烟叶波长
不同部位烟叶化学成分与烟叶柔软度的关系
杯中“日出”
不同成熟度烟叶烘烤过程中大分子物质代谢动态研究
不同素质烟叶烘烤过程中生理及质地变化研究
关于新形势下烟叶生产可持续发展的思考
使用滤波器和探测器阵列的光纤陀螺光源平均波长漂移监测
基于针孔阵列型的单次曝光双波长叠层成像*
黄酒中总糖与还原糖含量测定方法比较
传统客家黄酒的发酵条件优化
避雨栽培对川农泡椒1号品质的影响