APP下载

基于粒子群算法和支持向量机的黄花菜叶部病害识别

2022-04-15张永梅武玉军

中国农学通报 2022年8期
关键词:识别率病斑形状

孙 瑜,张永梅,武玉军

(1山西农业大学信息科学与工程学院,山西 太谷 030801;2大同大学,山西 大同 037000)

0 引言

大同黄花是山西省地方名优蔬菜品种,已成功申报国家级特色农产品,同时入选全国第二批产业扶贫典型范例[1]。大同民间黄花菜主要通过分株繁殖的方式获取种苗,易产生病害,同时大同黄花菜种植不断扩张,从全国的黄花主产区调运黄花种苗也引入了病害[2]。黄花菜病害导致减产可达10% ~20%[3],及早精确识别发现并防控病害,能够有效减少病害对黄花菜产量和质量的影响。计算机图像识别技术已广泛应用于农作物病害识别,利用数字图像技术可实时监测作物生长状况。李旺[4]以黄瓜叶部病害为研究对象,提取黄瓜叶部颜色、形状和纹理特征,基于支持向量机(SVM)训练分类模型,实现了对黄瓜叶片常见3种病害的识别。杨英茹[5]针对小样本及复杂环境,使用滑动窗口将番茄叶部病害切割成小区域图像实现病害区域分割,提取颜色纹理特征(CCL),基于CCL-SVM对番茄早疫病、白粉病、斑潜蝇和健康叶片实现分类识别。郭小清等[6]以番茄晚疫病、花叶病、早疫病叶片图像为研究对象,提取四维H分量等量分割波段的颜色特征和三维均值、对比度和熵的纹理特征作为输入,用粒子群算法(PSO)优化SVM模型参数,特征融合模型识别准确率高达90%。刘翠翠等[7]以川麦冬叶部3种病害图像为对象,采用K-means聚类算法分割病斑,通过特征融合构成特征向量进行主成分分析,基于支持向量机设计多级分类器实现病害识别。董斌等[8]提出了带有粒子权重和粒子之间相关度函数的PSO参数寻优算法,基于改进的PSO优化SVM的分类算法分类,提高病理图像分类的准确率。顾兴建等[9]实现了番茄叶部病斑分割与识别,针对番茄叶部病斑大小不一、形状不规则、病斑分割需要大量像素级标记等问题,提出一种多尺度U网络,以同时实现番茄叶部病斑分割与病害识别。当前针对黄花菜叶部的病害识别研究还较少,多基于单一特征参数进行模式识别,准确度不高,且大棚种植图像识别容易受到环境光线影响,进而影响叶片病害的识别。本研究以高寒地区大棚采集的黄花菜叶部病害图像为研究对象,利用数字图像处理技提取目标颜色特征、HOG特征和形状特征,建立多特征融合模型,利用PSO优化SVM参数建立分类模型,以期实现黄花菜叶部病害的无损、高效、快速识别,为实现智慧农业提供理论参考和技术参考。

1 材料与方法

1.1 试验材料

本数据图像采集时间为2021年4月15—20日,采集地点位于山西省大同市云州区的农户种植大棚(113°20′-113°55′E,39°43′-40°16′N),拍摄相机为3D-1MP02-V92,CMOS型感光元件,采集图像初始分辨率为3024像素×4032像素,拍摄输出图像格式为JPG。在图像采集过程中使用白色背景板,减少由于土壤及环境光线产生的噪声。采集不同程度病害叶片图像120张和健康叶片200张,共计320张。CPU型号为Intel Core i7,内存16G,硬盘容量1T,处理软件MatlabR2021a。为了提高识别模型的训练速度和训练精度,图片尺寸统一裁剪为480像素×640像素。

1.2 图像预处理

对图片依次进行去雾处理、中值处理和均衡处理。受光线影响大棚内采集的图片偏暗且有光影,采用基于暗通道先验的图像去雾算法减少环境光照造成的图像局部阴影的影响[10]。中值滤波算法可以消除图像中脉冲噪声、椒盐噪声等[11]。采用对比度受限的自适应直方图均衡算法(CLAHE)能够突出感兴趣区域特征,降低边界伪影[12]。图1为病害叶片及预处理的结果图,图2为健康叶片及预处理结果图。

图1 病害叶片处理图

图2 健康叶片处理图

叶片病害识别的感兴趣区域是目标区域即病害区域,图像分割就是将病害区域和其他区域分割开来,图像特征的提取要基于图像预处理和图像分割[13]。病斑区域叶片颜色发生了变化,故基于K-means聚类算法对均匀色彩空间CIEL*a*b*做图像分割[14]。首先图像从RGB空间转换为Lab空间,然后设置聚类数为2,对Lab空间的颜色分量(a*、b*)进行K-means聚类,提取出单个病斑后,对病斑图像做形态学处理,平滑病斑边缘,填充病斑孔洞,得到完整病斑图像[15]。

病害分割效果图如图3a所示,K-means聚类的方法从病害图像中分割病斑区域,分割效果较好,提取出的图像较好地体现了病斑的外在特征。图3c为健康叶片的图像分割结果,叶片可从背景中分割出来。用加权平均法将彩色图像转化为灰度图像,降低图片维度,减少图像数据量,增加数据之间的可对比性,消除特征值范围之间的差异,灰度化结果如图3b、d所示。

图3 图像分割及灰度化结果图

1.3 特征提取

1.3.1 颜色特征提取 颜色特征是最容易区分的特征信息,Stricker和Orengo提出一种简单有效的颜色特征表示方法,通过计算矩来描述颜色分布,颜色信息主要分布在低阶矩中,用一阶矩(平均值)、二阶矩(方差)和三阶矩(标准差)表达图像的颜色分布,矩以数学方法为基础[16]。

1.3.2 HOG特征提取 方向梯度直方图(histogram of oriented gradient,HOG)是一种特性描述子,通过计算与统计图像局部区域的梯度方向直方图来构成特征[17]。在一幅图像中,梯度方向密度可以描述局部目标的表象与形状,实现方法如图4所示。

图4 HOG特征提取步骤图

1.3.3 形状特征的参数提取 形状特征是图像中感兴趣区域所体现的几何细节特征,是形状表达和匹配的区域特征描述方法,形状特征稳定且不受光线等影响[18]。形状特征在图像处理及图像分割的基础上实现的,图像中的矩可用来抽取图像的形状特征,低阶矩反映主要低频信息,高阶矩反映高频细节信息。采用有关形状定量测度的几何参数法得到目标区域的面积和周长。计算过程:(1)首先检测像素边缘;(2)检测并记录垂直方向、水平方向连读的周长像素点;(3)得到计算目标的高度a和宽度b;(4)计算出周长像素点的总数,得到目标区域周长L、面积S。

根据面积、周长参数不能完全识别病斑,由面积、周长参数计算出能够代表区域图像形状特点的参数,包括矩形度和伸长度。矩形度R是检测到目标形状的面积与其外接矩形面积的比值,计算如式(1)。R越接近1则越接近矩形。

伸长度E是所检测出目标外接矩形宽与长的比值,计算如式(2)。检测图像形状的细长程度与伸长度成反比。

1.4 基于粒子群算法-支持向量机识别模型

1.4.1 支持向量机基本算法 支持向量机(support vector machine,SVM)是基于统计学习理论中VC维理论以及结构风险最小原理,在一定数量的样本之间根据信息模型复杂度和学习能力解析出最优折衷,主要用于分类与回归分析[19]。SVM具有可靠的理论基础,利用支持向量机确定分类边界,其原理不包含一些统计方法,减少了归纳到演绎的冗杂过程,很大效率地简化了分类,改变非支持向量样本不会改变训练模型,可靠性高。SVM的学习过程是在高维空间中寻找一个分类超平面,将不同类别的样本点分开,使不同类别样本点之间的间隔最大,该分类超平面即为最大间隔超平面对应的分类器,称为最大间隔分类器[20]。原理如图5所示,特征向量(以二维为例)映射为空间中的点,圆圈和方块表示不同的2类,实心圆圈和方块表示距离平面最近的点。

图5 SVM分类原理图

支持向量机用核函数代替最优分类面的内积,不同的内积核函数表现为不同的SVM算法,其中径向基核函数RBF(radio basic function)是最常用的非线性核函数[21],适用于小样本、高维数据的识别,SVM引入径向基核函数RBF需要确定参数惩罚因子c和核参数g[22-25]。

1.4.2 粒子群算法优化支持向量机 分类器的优化算法最常用的是群智能算法,主要是模仿自然界中的生物种群行为[26]。粒子群(particle swarm optimization,PSO)算法的原理是通过计算每个粒子位置的目标函数值找到个体最优位置和整个粒子群的最优位置,每个粒子受一定随机扰动后决定下一步运动,粒子群作为整体向着目标函数的最佳点移动完成算法优化,最后找到最优参数惩罚因子c和最优径向核参数g[27]。粒子群优化算法的原理如图6所示。

图6 PSO算法原理图

由经验值得到粒子群算法设置初始参数,种群最大数量N为20,最大进化数量为200,参数局部搜索能力参数c1为1.5,参数全局搜索能力参数c2为1.7。

1.4.3 Kennard-Stone算法 Kennard-Stone将所有叶片样本从中选择预定数目的训练样本和验证样本,同时输出训练集和验证集在原样本集的编号信息,方便样本查找。具体过程是:(1)选择训练样本,计算两两样本之间欧式距离,选择距离最大的2个样本。(2)分别计算剩余的样本与已选择的2个样本之间的距离。(3)对于每个剩余样本,记录其与已选样品之间的最短距离,然后选择这些最短距离中的最长距离对应的样本,作为第3个样本。(4)重复步骤(3),直至所选的样品的个数等于事先确定的训练样本数目为止,剩余的样本,作为验证样本。

1.4.4 基于PSO-SVM识别模型步骤(1)图像预处理,包括去雾、滤波、图像分割以及灰度化;(2)分别提取图像颜色特征、HOG特征和形状特征,并对特征数据归一化处理;(3)调用Kennard-Stone算法分类数据集,将数据划分为训练集、验证集,训练集:验证集=9:1;(4)基于单一特征及多特征融合训练SVM模型及PSOSVM的模型并做分类识别。

2 结果与分析

2.1 基于单一特征和多特征SVM模型识别结果

基于单一颜色特征、HOG特征和形状特征,通过SVM交叉验证,SVM模型选择径向基核函数RBF,得到SVM训练模型的最优参数惩罚因子c(8.1)和最优核参数g(13.2),基于不同特征参数SVM模型叶片病害识别结果如表1所示,基于颜色特征的SVM模型识别率为71.67%,识别率最低,基于HOG特征的SVM模型识别率最高,识别率为78.33%,因为叶片中病害区域相对于健康区域发生较明显变化。基于形状特征的SVM模型识别率76.67%。基于单一特征的SVM分类模型识别率都不理想,融合颜色特征、HOG纹理特征和形状特征参数,基于特征融合的SVM模型识别率提高至81.67%,说明基于多特征融合的SVM模型有利于更好地识别叶片病害区域。

表1 基于不同特征参数的识别结果

2.2 基于PSO-SVM模型识别结果

基于PSO通过交叉验证优化SVM算法,选择RBF核函数(t=2),经过多次训练后,得到SVM训练模型的最优参数惩罚因子c(2.3073)和最优核参数g(12.2195),基于多特征融合的SVM模型及PSO-SVM模型叶片病害识别结果如表2所示,基于PSO-SVM模型识别率从81.67%提高到92.39%。

表2 不同SVM模型识别结果

3 结论

本研究以黄花菜叶片病害为研究对象,提出了基于粒子群算法-支持向量机(PSO-SVM)的特征融合的叶片病害识别算法,该模型识别率准确率较高,满足在农田大棚的光照环境下应用。

(1)基于PSO-SVM特征融合的叶片病害模型识别率高,识别率可达92.39%,PSO粒子群算法优化了SVM训练惩罚因子和径向基核参数,提高了分类模型识别率。

(2)基于单一特征的SVM模型中,基于HOG特征识别率最高,识别率为78.33%。基于图像颜色特征、HOG特征和形状特征融合的SVM模型的识别率要高于基于单一特征的SVM模型的识别率,基于特征融合的SVM模型识别率提高至81.67%。

(3)图像预处理算法对于图像特征提取以及模型建立很重要,图像去雾算法改善了采集图像时光线对图像的影响,去除图像阴影,突出颜色、纹理、形状特征;对比度受限的自适应直方图均衡算法(CLAHE)加强了叶片的感兴趣区域的特征,提高了图像分割提取目标区域的识别效率。

4 讨论

数字图像技术与机器学习可应用于黄瓜、番茄、黄花菜等作物病害叶片的识别。笔者基于数字图像处理技术提取出黄花菜叶片图像的3种单一特征,建立的SVM模型识别率分别为71.67%、78.33%、76.67%。陈荣[28]基于单一纹理特征灰度共生矩阵和支持向量机识别茶叶病害识别率为86.67%。说明单一特征不能完全反映叶片病害特征。笔者基于颜色特征、HOG特征和形状特征建立的SVM模型病害识别率为81.67%,高于单一特征的识别率。李旺[4]通过增加特征参数,基于黄瓜叶片颜色特征、纹理特征、形状特征3类特征的14个参数的SVM模型病害平均识别率为96%,说明参数融合有效地增加了识别准确度。当叶片发病较轻病灶区域颜色特征或形状特征体现不明显时,或多种病害在颜色特征较为接近,基于多个特征参数有助于提高模型识别准确度,但同时也增加了计算数据量和时间,可以从多个参数中提取贡献度较高参数用于建立模型。笔者建立基于多特征融合的PSO-SVM模型识别率为92.39%。郭小清等[6]以番茄病害叶片图像颜色特征和纹理特征基于PSO-SVM模型识别准确率达90%。说明粒子群算法PSO有助于优化SVM的参数,提高模型的识别精度。

猜你喜欢

识别率病斑形状
档案数字化过程中OCR技术的应用分析
套袋对柠檬果实外观品质的影响
基于PCA与MLP感知器的人脸图像辨识技术
科技文档中数学表达式的结构分析与识别
Ophiognomonia castaneae协同板栗褐缘叶枯病病原菌致病作用的研究
火眼金睛
人工智能现状和发展
分一半
轻松治愈花斑癣
轻松治癒花斑癣