APP下载

基于图像处理的雪茄烟叶晾制期间含水率预测模型比较

2024-01-22阳苇丽郭仕平刘晓丽张洪淇刘雅洁杨兴有曾淑华

江苏农业学报 2023年9期
关键词:雪茄烟准确度纹理

杨 浩, 张 通, 阳苇丽, 向 欢, 郭仕平, 刘晓丽, 张洪淇, 刘 雷, 刘雅洁, 杨兴有, 曾淑华

(1.四川农业大学农学院,四川 成都 611130; 2.四川省烟草公司达州市公司,四川 达州 635000; 3.四川省烟草公司德阳市公司,四川 德阳 618400; 4.四川省烟草公司,四川 成都 610017)

近年来雪茄烟发展空间良好,已成为烟草市场和科研领域的研究重点[1]。含水率是雪茄烟叶在晾制期间的重要物理参数,对烟叶质量影响重大,烟叶在晾制期间的温湿度调控、晾制密度等是基于烟叶含水率进行设置的,晾制过程中的凋萎和变黄实际上也是烟叶含水率变化的体现,只有控制好含水率才能使烟叶含有的物质朝着人们期望的方向转化。目前生产上雪茄烟叶含水率的判断往往凭借眼观手摸,主观性强且误差大,定量测定方法如烘箱法[2]、快速水分测定法[3]、卡尔费休法[4]等耗时,且对烟叶有损,难以满足实际需求。

图像处理技术可以量化图像的颜色、纹理等特征,而颜色、纹理特征反映烟叶的变黄、失水、皱缩过程,是含水率预测的主要依据[5-6],图像处理技术结合机器学习的方法因具有快速、实时、准确等优点,近年来在作物含水率预测、病虫害识别、成熟度判别等方面得到广泛应用。前人对烤烟烘烤过程中烟叶含水率的预测进行了初步探索,陈飞程等[7]提取烟叶图像的颜色、纹理特征建立前馈神经网络(BPNN)对含水率进行预测,模型R2为0.998 7。杜海娜等[8]对烘烤阶段的烟叶图像进行拍摄,采用称质量法计算烟叶失水率,以颜色、纹理特征建立萤火虫算法优化支持向量机(GS-SVM)、遗传算法优化前馈神经网络(GA-BPNN)、极限学习机(ELM),结果所建模型R2均大于0.996 1。李增盛等[9]提取烟叶颜色、纹理特征建立遗传算法优化支持向量机(GA-SVM)、粒子群算法优化前馈神经网络(PSO-BPNN)、极限学习机,模型准确率分别为93.27%、89.35%、85.05%。此外,Ghosh等[10]提取Flavia和Swedish 2个植物叶片的颜色、纹理特征,并建立人工神经网络(ANN)对其进行分类识别,2个数据集的ANN准确率均超过93%。宋佳[11]对生菜叶片图像的颜色、纹理、形状特征进行提取,建立偏最小二乘回归模型(PLSR)含水率预测模型,结果R2为0.902,均方根误差仅为0.302。但基于图像处理的机器学习方法对晾制期间雪茄烟叶含水率的预测目前鲜见报道,前人的研究主要集中于烤烟,而雪茄烟叶的调制方法相比烤烟差异大,调制阶段不同,其含水率也不同,所建模型在雪茄烟叶含水率预测上难以达到预期效果。

目前常用于植物分类和预测研究的机器学习算法有BPNN、支持向量机(SVM)、ELM等。其中BPNN是一种多隐含层网络,通过梯度下降方式不断修正训练权重,其特点在于逼近数据间的相关性。ELM则是单隐含层网络,与梯度下降方法不同的是,ELM采用随机的输入层权重,输出层权重则通过隐含层输出的广义逆矩阵确定,其特点在于学习速度快、泛化能力强。在回归问题上,SVM通过将不同维度空间特征最大程度地映射到同一平面上而达到逼近效果,在处理中小型样本、高维特征时其效果理想,且SVM的核函数类型众多,从而可以灵活解决各种非线性的回归问题。本研究采用BPNN、GA-BPNN、SVM、GA-SVM、ELM、粒子群算法优化极限学习机(PSO-ELM) 6种模型对烟叶含水率的预测效果进行比较,得出优选模型,以期为雪茄烟叶的智能晾制发展提供参考。

1 材料与方法

1.1 试验材料

试验于2022年在四川省达州市峰城镇蜜甜香雪茄烟种植基地进行,供试品种为川雪1号,株距0.4 m,行距1.1 m,施氮量为202.5 kg/hm2,N含量∶P2O5含量∶K2O含量为1.0∶1.1∶2.0,其他相关栽培措施按照达州当地生产技术规范进行。采收时间为移栽后88 d,采收完后烟叶串杆挂入晾房晾制,每杆烟叶约50片,晾制房为新型密集式晾房,长、宽、高分别为15 m、6 m、8 m,共4层2路。

1.2 试验方法

1.2.1 烟叶图像采集 参考五段式晾制技术,分别在凋萎期、变黄期、变褐期、干湿交替匀色期、干筋期采集烟叶图像。图像采集装置如图1所示,上下左右均为黑色背景,左右两侧、顶部装有补光设备,光源类型为模拟晾制房的自然光,下地板为烟叶拍摄区,摄像头至烟叶距离固定为0.8 m。摄像头为海康威视8×106像素镜头工业相机,镜头型号为MVL-MF0828M-8MP。晾制阶段的判定和图像采集数量如表1所示。

1.2.2 含水率的测定 各晾制时期烟叶的含水率使用杀青烘干法[12]测定。

图1 图像采集装置示意Fig.1 Diagram of the image acquisition device

表1 雪茄烟晾制时期特征和图像采集数量

1.2.3 图像预处理 本试验拍摄设备对外界环境适应性较强,但对拍摄背景颗粒物和相机温度升高导致的电子动能增加及光电荷转移不确定性增强所产生的成像噪点适应性较差。需对图像进行预处理,增强图像信息,剔除冗余信息。本研究使用Matlab自带的图像分割器对图像背景和烟叶区域进行分割,再对分割的图像进行5×5的中值滤波,达到降噪目的。原始图像、分割后图像和中值滤波后图像如图2、图3、图4所示。

图2 烟叶原始图像Fig.2 Original image of tobacco leaf

图3 烟叶和背景分割后图像Fig.3 Image of tobacco leaf after segmented from the background

图4 烟叶中值滤波后图像Fig.4 Median filtered image of tobacco leaf

1.2.4 图像特征提取 本研究通过图像灰度共生矩阵计算反映纹理变化的能量(E)、同一性(Hg)、对比度(Ct)、相关性(Cl)、均值(Mean)、方差(Var)6个特征作为烟叶的纹理特征。提取RGB、HSV、Lab、YCrCb 4个颜色空间的12个单通道颜色特征,按表2中的计算公式,衍生出13种颜色相关的特征,最终共获得25个特征作为颜色特征。

1.2.5 数据处理和预测模型的建立 采用隔三选一法,将样本图像划分为训练集和测试集,其中训练集1 086个样本,测试集368个样本。以最初提取的31个特征作为初始特征,使用SIMCA 13.0对31个特征进行正交偏最小二乘(OPLS-DA)分析,得出优选特征。基于Matlab 2021a,以初始特征和优选特征作为模型输入,含水率作为输出,分别建立BPNN、GA-BPNN、SVM、GA-SVM、ELM和 PSO-ELM。比较所建模型的准确度,筛选出预测准确度最优的模型。

表2 图像特征指标计算公式

1.2.6 模型预测准确度评价方法 各模型对测试集的整体预测效果的评价由决定系数(R2)和均方根误差(RMSE)衡量。对各阶段的预测效果以准确度(Accuracy)衡量,准确度计算公式如下。

式中,T真实为雪茄烟叶实际含水率,P预测为模型预测含水率。

2 结果与分析

2.1 各晾制阶段烟叶含水率测定结果

各晾制阶段烟叶的含水率测定结果如表3所示,由表3可知,随着晾制进行,烟叶含水率逐渐下降。各阶段含水率间均有显著差异,其中凋萎期含水率最高,平均84.6%,干筋期最低,平均21.4%。

2.2 初始特性的提取结果

1 454个样本的颜色特征和纹理特征提取结果见表4,由方差分析结果可知,色调(H)、绿色通道值(G)、蓝色通道值(B)、灰阶值(Y)、归一化红色指数(r)、归一化绿色指数(g)、归一化蓝色指数(b1)、超红指数(ExR)、超蓝指数(ExB)、黄色指数(YI)、蓝绿指数(CI)、方差(Var)、亮度(L*)在干湿交替匀色期和干筋期间没有显著差异,在凋萎期、变黄期、变褐期间差异均达到显著水平;红色差异值(Cr)、超绿指数(ExG)、归一化红绿差值指数(NGRDI)、绿叶指数(GLI)、修正的红绿植被指数(MGRVI)、对比度(Ct)、能量(E)、绿-红差值指数(GMR)、深绿颜色指数(DGCV)、明度(V)、均值(Mean)、黄蓝色度值(b*)在5个晾制时期间有显著差异;同一性(Hg)、红绿色度值(a*)在变褐期、干湿交替匀色期和干筋期间差异不显著,其余2个时期间差异显著;饱和度(S)、红色通道值(R)、蓝色差异值(Cb)分别在变褐期和干筋期间、凋萎期和干筋期间、变褐期和干湿交替匀色期间差异不显著,其余3个时期间均差异显著;相关性(Cl)在5个时期间均没有显著差异。

表3 烟叶含水率测定结果

2.3 特征优选结果

在方差分析的基础上,进一步对初始特征进行OPLS-DA判别分析,优选出10个映射重要性值(Variable importance of projection,VIP)排名前10的特征,结果如图5所示。10个特征的R2X(表示特征对总特征矩阵的百分比解释能力)如表5所示,R2X累计为0.995 4,说明所提取的10个特征对总特征的解释能力达99.54%。最终确立颜色特征饱和度(S)、Cr、NGRDI、MGRVI、GLI、GMR、DGCV、H、红色通道值(R)和纹理特征E为优选特征。

2.4 预测模型的建立

本研究对初始特征和优选特征分别建立预测模型,最终比较平均准确度,确定预测效果最佳的模型。

表4 图像31个初始特征提取结果

S:饱和度;E:能量;Cr:红色差异值;NGRDI:归一化红绿差值指数;MGRVI:修正的红绿植被指数;GLI:绿叶指数;GMR:绿-红差值指数;DGCV:深绿颜色指数;H:色调;R:红色通道值;ExG:超绿指数;a*:红绿色度值;Var:方差;Cb:蓝色差异值;b*:黄蓝色度值;YI:黄色指数;V:明度;B:蓝色通道值;Ct:对比度;Mean:均值;Y:灰阶值;L*:亮度;ExR:超红指数;ExB:超蓝指数;r:归一化红色指数;CI:蓝绿指数;b1:归一化蓝色指数;g:归一化绿色指数;G:绿色通道值;Cl:相关性;Hg:同一性。图5 颜色、纹理特征变量映射重要性值Fig.5 Variable importance of projection value of color and texture feature variables

表5 优选特征的R2X

2.4.1 初始特征的含水率预测模型建立结果 利用初始特征的训练集样本作为输入,含水率作为输出,建立BPNN、GA-BPNN、SVM、GA-SVM、ELM、PSO-ELM预测模型。其中GA-BPNN的初始权值和阈值、GA-SVM的误差惩罚因子(c)和核函数参数(g)由遗传算法寻优获得,PSO-ELM的输入层权值、输出层权值、偏置由粒子群优化算法寻优确定,寻优过程如图6所示。GA-BPNN、GA-SVM在进化代数分别为63、62时,达到最佳适应度值,PSO-ELM在进化代数为103时,达到最佳适应度值。

模型建立后,利用测试集样本对每个模型进行测试,得到各个模型的预测值、测定值散点图(图7)。从图7可以看出,GA-SVM的预测值和真实值拟合度最优,R2、RMSE分别为0.905 8、0.081 5,其次是GA-BPNN,BPNN的R2(0.766 3)最低。

GA-BPNN:遗传算法优化前馈神经网络;GA-SVM:遗传算法优化支持向量机;PSO-ELM:粒子群算法优化极限学习机。图6 初始特征的GA-BPNN(a)、GA-SVM(b)、PSO-ELM(c)的参数寻优过程Fig.6 Parameter optimization process of genetic algorithm optimized back propagation neural network (GA-BPNN) (a), genetic algorithm optimized support vector machine (GA-SVM) (b) and particle swarm optimized extreme learning machine (PSO-ELM) (c) of initial characteristics

GA-BPNN:遗传算法优化前馈神经网络;BPNN:前馈神经网络;GA-SVM:遗传算法优化支持向量机;SVM:支持向量机;PSO-ELM:粒子群算法优化极限学习机;ELM:极限学习机。R2:决定系数;RMSE:均方根误差。图7 初始特征的GA-BPNN(a)、BPNN(b)、GA-SVM(c)、SVM(d)、PSO-ELM(d)、ELM(e)测试集的预测值和真实值散点图Fig.7 Scatter plot of predicted and true values of genetic algorithm optimized back propagation neural network (GA-BPNN) (a), back propagation neural network (BPNN) (b), genetic algorithm optimized support vector machine (GA-SVM) (c), support vector machine (SVM) (d), particle swarm optimized extreme learning machine (PSO-ELM) (d), extreme learning machine (ELM) (e) test sets for initial features

2.4.2 优选特征的含水率预测模型建立结果 利用优选特征的训练集样本作为输入,含水率作为输出,建立BPNN、 GA-BPNN、SVM、GA-SVM、ELM、PSO-ELM预测模型。其中GA-BPNN的初始权值和阈值、GA-SVM的误差惩罚因子和核函数参数以及PSO-ELM的输入层权值、输出层权值、偏置的寻优过程如图8所示。GA-BPNN、GA-SVM在进化代数分别为38、17时,达到最佳适应度值,PSO-ELM在进化次数为90时,达到最佳适应度值。

模型建立后,利用测试集样本对每个模型进行测试,得到各个模型的预测值、真实值散点图(图9)。从图9c可以看出,GA-SVM的拟合度最优,R2、RMSE分别为0.969 3、0.044 7,其次是GA-BPNN,BPNN的R2(0.847 7)最低。

GA-BPNN:遗传算法优化前馈神经网络;GA-SVM:遗传算法优化支持向量机;PSO-ELM:粒子群算法优化极限学习机。图8 优选特征的GA-BPNN(a)、GA-SVM(b)、PSO-ELM(c)的参数寻优过程Fig.8 Parameter optimization process of genetic algorithm optimized back propagation neural network (GA-BPNN) (a), genetic algorithm optimized support vector machine (GA-SVM) (b) and particle swarm optimized extreme learning machine (PSO-ELM) (c) of preferred features

GA-BPNN:遗传算法优化前馈神经网络;BPNN:前馈神经网络;GA-SVM:遗传算法优化支持向量机;SVM:支持向量机;PSO-ELM:粒子群算法优化极限学习机;ELM:极限学习机。R2:决定系数;RMSE:均方根误差。图9 优选特征的GA-BPNN(a)、BPNN(b)、GA-SVM(c)、SVM(d)、PSO-ELM(e)、ELM(f)测试集的预测值和真实值散点图Fig.9 Scatter plot of predicted and true values of genetic algorithm optimized back propagation neural network (GA-BPNN) (a), back propagation neural network (BPNN) (b), genetic algorithm optimized support vector machine (GA-SVM) (c), support vector machine (SVM) (d), particle swarm optimized extreme learning machine (PSO-ELM) (e), extreme learning machine (ELM) (f) test sets for preferred features

2.5 对5个晾制阶段含水率预测准确度结果分析

根据方法1.2.6计算初始特征和优选特征对各晾制阶段的预测准确度,结果见表6。由表6可知,各模型对凋萎期和变黄期的预测效果理想,准确度均高于90.0%,优选特征建立的GA-SVM对变黄期的预测准确度最高(98.9%),但对干湿交替匀色期和干筋期的预测准确度较低,初始特征的ELM对干筋期的预测准确度最低(68.5%)。综合考虑5个晾制阶段的预测准确度,以优选特征的GA-SVM准确度最高,对干筋期和干湿交替匀色期的预测准确度也高于87.0%。

表6 各模型对各晾制阶段的预测准确度

3 讨 论

雪茄烟叶晾制过程中的变黄、失水状态目前主要依靠人为判断,存在较强的主观性和盲目性,而烘箱法、快速水分测定法等测量速度缓慢,难以实现对含水率快速实时的判断。研究结果表明,简单的线性关系分析难以确定图像信息和含水率的关系[20-21],而通过颜色特征和纹理特征结合机器学习方法可以对含水率进行准确估算。在其他作物上,程晓婷[22]基于番茄图像的纹理、颜色特征建立神经网络对番茄含水率进行预测,模型均方根误差为1.222 7;徐腾飞等[23]通过提取玉米叶片的颜色特征对含水率进行预测,模型标准误差仅0.021;王甜等[24]提取沉香叶片的颜色、纹理特征建立RFE-RF模型预测含水率,其精度达到了91.62%。在烤烟方面,段史江等[25]对烘烤过程中烟叶的颜色特征和纹理特征进行提取,建立BPNN、GA-SVM含水率预测模型,其标准误差分别为0.048 5和0.020 0,预测准确度理想;詹攀等[26]提取了烤烟鲜烟叶的颜色、纹理特征建立极限学习机模型对其含水率进行预测,模型平均绝对误差仅0.007 9。本研究首次对雪茄烟叶晾制期间的图像进行采集,并测定其含水率,提取出颜色特征和纹理特征,分别选用初始特征和OPLS-DA筛选的优选特征作为输入,建立含水率预测模型。结果表明,用优选特征建立的GA-SVM 的决定系数(R2)达到了0.969 3,均方根误差仅0.044 7,预测效果理想,这与陈飞程等[7]、张娟利等[27]所建模型准确度接近。此外,在本研究中,随着晾制进行,烟叶含水率逐渐降低,与赵晨等[28]、范宁波[29]的研究结果一致。

本研究中,无论是使用初始特征还是优选特征,GA-SVM预测效果均好于GA-BPNN和PSO-ELM,这与谢滨瑶等[30]、李增盛等[9]的研究结论一致。原因是BPNN和ELM 2类算法是模拟神经元传递信息,采用非线性函数的形式通过连接权值和偏置对输入特征进行映射,以达到预测效果,而晾制阶段中的颜色特征较为接近,尤其是干湿交替匀色期和干筋期,因此难以达到十分精准的预测。SVM是基于结构最小风险原理将不同维度样本映射到高维空间,在空间中确定一个平面,使得样本尽可能映射在该平面上,从而达到较好的预测效果。此外,本研究采用遗传算法对SVM的c、g参数进行寻优,解决了常规SVM的c、g参数敏感、难以确定的问题。OPLS-DA筛选的特征建立的模型准确度均高于初始特征所建模型,表明OPLS-DA可以作为优选方法,筛选与预测响应相关性高的特征指标。

本研究的烟叶拍摄环境是在补光均匀的暗箱内,最大程度地降低了外界光照、风力、人为走动等的影响,将烟叶在晾制期间的变黄、失水与皱缩状态充分体现在所拍摄的图像上,使得所建模型的平均预测准确度均高于80.0%。本研究发现,优选特征和初始特征所建立的模型对干湿交替匀色期、干筋期样本的预测准确度较低, ELM的干筋期初始特征预测准确度仅68.5%。原因是在雪茄烟晾制过程中,变褐期以后叶面颜色基本确定,更多的是烟筋的干燥过程,而这2个时期叶面颜色比较接近,故导致预测准确度较低,但干湿交替匀色期和干筋期是烟筋最后的干燥时期,重要性比前3个时期低,在实际预测中造成的偏差对最终烟叶质量影响小。在今后的研究中,可对这2个时期进一步细化晾制的前、中、后阶段,提取和含水率相关性更高的特征进行预测。

4 结 论

通过以上研究,可得出以下结论:①各晾制阶段烟叶含水率差异显著,随着晾制进行,含水率逐渐下降,凋萎期含水率平均84.6%,干筋期含水率平均21.4%。②优选特征建立的GA-SVM对雪茄烟叶全晾制阶段的含水率整体预测能力相较于本研究其他模型表现最佳,R2和RMSE分别为0.969 3、0.044 7。③优选特征建立的GA-SVM对各晾制阶段含水率的预测准确度较高,其中干筋期预测准确度最低,但也高于87.0%。

猜你喜欢

雪茄烟准确度纹理
不同移栽期对雪茄烟生育期及农艺性状等的影响
基于BM3D的复杂纹理区域图像去噪
CORESTA 2019年SSPT联席会议关注新烟草、吸烟行为研究和雪茄烟
使用纹理叠加添加艺术画特效
幕墙用挂件安装准确度控制技术
TEXTURE ON TEXTURE质地上的纹理
动态汽车衡准确度等级的现实意义
消除凹凸纹理有妙招!
高炉重量布料准确度的提高
对电子天平的误差及保证其称量准确度的探讨