APP下载

基于朴素贝叶斯分类的柑橘叶片溃疡病诊断

2021-09-10束美艳魏家玺周也莹董奇宙陈浩翀黄智刚马韫韬

关键词:溃疡病贝叶斯朴素

束美艳,魏家玺,周也莹,董奇宙,陈浩翀,黄智刚,马韫韬

(1.中国农业大学土地科学与技术学院,北京 100193;2.广西大学农学院,南宁 530004;3.北京市退役军人事务局,北京 100020)

中国是柑橘重要的原产地之一。近年来,柑橘产业快速发展,已成为我国柑橘主产区农业增效和农民增收的重要渠道之一。柑橘果树病害的发生是柑橘果实减产和品质下降的主要原因之一[1],给果树从业者带来经济损失。因此,及时、快速、准确地获取病害信息,对柑橘生产的病害防治、品种改良、产量提升都具有重要意义。对我国柑橘种植产量影响较大的主要病害有炭疽病[2]、柑橘黄龙病[3-4]和柑橘溃疡病[5]等,其中柑橘叶片溃疡病是最为常见和严重的病害之一。在柑橘叶片溃疡病的染病初期,其叶片上会有较小的黄斑出现,随后小黄斑呈现海绵状,且伴有螺纹或螺丝状[6]。在染病后期,染病处叶片内部从中央断裂,该区域呈现灰白色,病情严重时会导致叶片和树梢枯死[7]。而对果树病害诊断的传统方法主要依赖于种植户或技术员的目视判断[8]。该方法虽然简单易行,但存在较大的主观性,特别是对于柑橘叶片溃疡病,病斑占叶片的比例决定了病害的严重程度,而目视判断法难以准确量化其严重程度。

近年来,快速发展的图像分割技术为作物病害严重度诊断提供了新的手段。田间作物图像能有效反映作物生长发育、营养状况、病虫害严重度等信息[9-10]。借助计算机图像处理技术对作物病害图像进行信息解析,可自动诊断病害严重程度[11],在提升诊断效率的同时,可有效提升其准确性和客观性。在病害的识别过程中,图像的精准分割是后续准确识别病害的关键。利用图像分类技术诊断病害严重度的主要依据有光谱[12]、颜色[13]、纹理[14]、形状[15]等特征。从病斑识别方法来看,主要有回归和分类2 大类,具体算法有偏最小二乘回归[16]、高斯过程回归[17]、支持向量机[18]、均值聚类[19-20]、人工神经网络[21]等。目前,朴素贝叶斯分类算法已被广泛应用于图像分类领域,但其应用于柑橘叶片病斑识别的研究尚未见报道。本研究在不同病害严重度的柑橘叶片数码图像的支持下,将朴素贝叶斯分类法应用到柑橘叶片溃疡病斑识别中,使得常见的图像分割转变为统计学中的概率方法,依据隶属概率实现柑橘叶片溃疡病斑提取,并对比朴素贝叶斯、固定阈值、自适应阈值和支持向量机4种方法在柑橘叶片溃疡病诊断中的准确性和有效性,旨在探索朴素贝叶斯分类算法在柑橘叶片溃疡病严重度诊断中的应用能力。

1 数据采集及预处理

1.1 数据采集

柑橘叶片溃疡病图像采集于广西壮族自治区南宁市武鸣区的柑橘果园内。该果园属于亚热带季风气候区,年平均气温约21.7 ℃,雨量充沛,年均降雨量1 300 mm。采用定植方式进行柑橘种植,定期对柑橘的树木形状进行适当的修整以保证果树枝条处于更新状态。在柑橘生长过程中,按照常规管理方式施用有机肥。由于柑橘树对土壤含水量的需求在60%~80%之间,因此,一旦低于60%则进行灌溉。

为保证叶片样本的代表性和全面性,按不同生长阶段、叶位、叶色、叶片大小、病斑大小等共采集到200 张柑橘溃疡病叶片,部分原始图片如图1 所示。将采集的叶片带回实验室,展开并平铺在平整的白色硬纸板上以采集数码影像。采用数据线将华为荣耀10手机与电脑进行连接,通过电脑控制相机进行拍摄,具有2 400 万有效像素。固定拍摄角度和光照条件,以保证相同的成像环境。

图1 柑橘叶片溃疡病部分原始图片Fig.1 Some original images of citrus leaf canker disease

1.2 数据预处理

叶片图像预处理主要包括去噪(降低噪声)和增强(提高色彩对比度)。其中,去噪采用中值滤波法,增强则采用直方图均衡化方法。

中值滤波法是一种高效的、非线性滤波方法[22]。该方法通过选择适宜的模板,将模板中心位置和其他需要被更换的位置进行重合,读取该模板在灰度范围内的全部像素点的灰度数值,并按照其大小顺序进行排列,选取其中值再次替换到模板的中心点[23]。中值滤波法能够消除一部分图像噪声,同时,能够确保获得完整的柑橘叶片病斑边缘。

直方图均衡化是一种能够使图像对比度增强的方法[24]。将一幅图像的直方图分布变成近似均匀分布,可增强图像的对比度。在直方图均衡化过程中,首先确定一幅连续的图像,p表示原始影像上像素点的灰度值,通过函数T运算可得Q=T(p)。其中,0≤p≤1。给定一个p值则对应一个Q值,且T必须满足在区间[0,1]中单调递增,所以当p在区间[0,1]时,Q取值范围也为[0,1]。经过直方图均衡化处理之后可以获得分布均匀性好的图像,更有利于后期图像的分割。预处理前后柑橘叶片溃疡病样例如图2所示。

图2 预处理前后柑橘叶片溃疡病样例图Fig.2 Sample diagrams of citrus leaf canker disease before and after pretreatments

1.3 叶片样本病斑目视解译

采用人工目视解译的方式提取叶片样本的病斑面积信息,将其作为图像分割算法的训练集和验证集。具体步骤包括:首先,将叶片RGB 图像导入ArcGIS 10.6软件中,新建一个存放面状要素的矢量数据层;其次,将新建图层设置为可编辑状态,沿着病斑的边界依次描点,绘制出整个病斑边界,形成一个闭合区域(沿病斑边界描点时保持线条平滑,过渡自然),当一个叶片存在多个病斑时,对每个病斑单独勾绘多边形;最后,在矢量化过程完成后,为数据建立拓扑关系,获取每个样本叶片上的病斑面积。采用病斑面积占整个叶片面积的百分比来表征柑橘叶片溃疡病的病害程度,病斑面积占比越大,则代表病害程度越高。

三个平台各有特色,“智慧职教云”整合了国家项目成果和自有资源,构建专属在线课程,支持混合式学习、翻转课堂等教学创新实践,助力“互联网+”时代的高素质技能型人才培养。翻转课堂作为国内外教育改革的新浪潮[2],已经逐步成为职业教学改革的一个重要环节。

2 研究方法

本研究采用阈值分割、自适应阈值分割、支持向量机、朴素贝叶斯4 种分割方法来识别柑橘叶片溃疡病斑,并以手工勾绘的叶片病斑数据验证这4种方法的识别精度,以相同样本的运算时间评价各种方法的运行效率。具体步骤如下:

1)将200张柑橘叶片图像分成训练集和验证集2 个部分,其中,训练集共140 张图像,验证集共60张图像。为保证实验数据的一致性和结果的可比较性,4种方法均采用同一训练样本集和验证集。

2)采用中值滤波及直方图均衡化2种方法对图像进行去噪、增强等前期处理,以剔除成像过程中产生的噪声和光反射带来的影响。

3)分别采用4 种分割算法提取叶片溃疡病斑,对病斑区进行二值化处理,以手工勾绘的病斑面积为基准,通过比较分割时间以及误分割率,评价这4种方法对提取柑橘叶片溃疡病的应用能力。

2.1 叶片溃疡病斑提取算法

2.1.1 阈值分割法

阈值分割法是根据分割对象及其图像特征点得到适宜的阈值而将图像分割成2部分的方法。阈值的精准度直接影响病害识别精度。其中:固定阈值法是通过人工观察分析病害图斑和背景的像素直方图差异,选择适宜的阈值以实现对图像分割的方式[25]。这种方式操作过程简单,但需要多次的尝试来确定合适的阈值。在实际工作中,面对不同生育期、不同拍摄条件的叶片图像分割时,通过不断地积累分割经验对阈值进行反复调试,从而确定出一个最优的阈值来进行图像分割[26]。自适应阈值法是在固定阈值分割的思想上,通过一定的计算规则由计算机自动迭代得到阈值的方法[27]。自适应阈值法中应用最广的是最大类间方差法。该方法通过设定阈值,将图像划分为前景和背景,再计算前景与背景的类间方差。确定分离效果时,2 类组分的类间方差越大说明图像前景与背景之间的差异越大,达到最大时即确定该阈值为分离性最强的最佳阈值[28]。

本文通过固定阈值和自适应阈值2种方式实现柑橘叶片溃疡病斑分割。考虑到RGB 图像可使用的特征信息较少,将所有样本图片进行HSV和LAB变换,形成了H、S、V、L、A、B 六维特征空间的样本集。分别用固定阈值和自适应阈值分割法分析6种特征的直方图分布:若前景和背景差异显著,灰度直方图上则会出现2 个明显的波峰,并在波峰之间出现明显的波谷,据此判定为病斑像素与健康像素存在较大的特征差异,阈值分割法则会表现出很好的分割效果。基于这一原则,选择最佳特征图像作为2种阈值分割法的数据源。

2.1.2 支持向量机法

2.1.3 朴素贝叶斯法

朴素贝叶斯法是贝叶斯分类学中使用较为广泛的算法。该算法本身来源于贝叶斯定理。在确定目标时,认为各部分的属性特征相互独立,每个对象的特征矢量的维度也都相互独立,互不相关[32]。在进行病斑区域分割时,将训练集分成前景和背景,并确定前景与背景的属性特征。基于朴素贝叶斯法的病斑提取同样进行HSV 和LAB 变换,形成六维特征空间的颜色空间。随机选取2类数据样本图像上的像素点进行分析,求得每个特征属性的概率值,并根据概率最大的类别来判定该像素的隶属类别。

2.2 精度评价方法

本研究从误分割率和运行时间2个方面对以上各种方法进行效果评价与分析。采用目视判读的方法对验证集RGB图像进行病斑数字化,作为各种算法精度验证的准真值。首先,擦除图像中的阴影和健康部分,保留病斑区域,进行二值化处理,统计每个样本图像的病斑像素数量,并与每种分割算法的病斑识别结果进行对比分析,计算误分割率,同时,统计每种算法的运行时间。为了分析不同病害程度对分割效果的影响,将误分割率划分为6 个区间,按照0~1%、>1%~5%、>5%~10%、>10%~15%、>15%~20%、>20%~100%对4 种算法在6个区间内的叶片数量进行统计。误分割率的计算公式如下:

3 结果与分析

3.1 基于4 种方法的叶片溃疡病识别

运行阈值分割算法前,需筛选适合病害识别的图像波段。将RGB数码照片进行HSV变换和LAB变换,获得H、S、V、L、A、B 6个通道图像(图3)。综合各通道图像病斑区域与背景区域的颜色对比情况,选取直方图具有显著特征的L、A、B通道进行分析,结果如图4所示。当前景和背景差异显著时,A通道直方图上出现2 个明显的波峰,并在波峰之间出现明显的波谷(图4A),阈值分割法表现出很好的分割效果。从图4B可以看出,B通道直方图具有明显的波谷,但右侧波峰不显著。而在L 通道直方图上没有明显的波峰和波谷(图4C)。表明通道B和L对病斑像素和健康像素存在混淆。因此,选择通道A图像作为病害阈值分割的数据源。

图3 柑橘叶片溃疡病原图和HSV、LAB颜色空间的各通道图Fig.3 Original image of citrus leaf canker disease and images of HSV channels and LAB channels

图4 柑橘叶片溃疡病A、B、L通道直方图Fig.4 Histograms of citrus leaf canker disease of A,B,L channels

基于阈值分割法的病斑识别结果如图5 所示。确定固定阈值时采用图像直方图和像素点颜色差异相结合的方式计算160张训练图像样本的阈值均值,然后运行阈值分割算法实现病斑区域的识别,结果如图5B 所示。自适应阈值法与固定阈值法在确定阈值时存在不同,后者的阈值是唯一的,而前者则需计算前景与背景之间的最大颜色类间方差,其最大方差对应的阈值为最优分割阈值,分割结果如图5C所示。可见:固定阈值法能够较为准确和完整地把柑橘叶片病斑区域识别出来,但存在少量的病斑像元漏分现象。运用自适应阈值分割时,病斑区域也均能够被有效识别出来,但影像的边缘部分几乎都有被误认为病斑而被分割出来的现象,且存在部分高亮区域被误识别为病斑的情况。

图5 基于固定阈值法和自适应阈值法的病斑识别结果Fig.5 Recognition results of disease spots based on fixed threshold and adaptive threshold methods

从图6 可以看出,朴素贝叶斯法对叶片溃疡病的诊断效果明显优于支持向量机。由于叶片边缘存在阴影,支持向量机容易将边缘的健康像元误判为病斑像元,而朴素贝叶斯法不存在边缘误判现象。病斑大小也对2 种方法的判断正确率存在影响。支持向量机存在过分割现象,容易将病斑的相邻健康像元误判为病斑像元,而用朴素贝叶斯法识别的病斑大小与人工目视解译病斑较为一致。因此,从视觉效果来看,朴素贝叶斯法对叶片溃疡病斑的诊断效果优于支持向量机法。

图6 基于支持向量机和朴素贝叶斯法的病斑识别结果Fig.6 Recognition results of disease spots based on support vector machine and naive Bayesian methods

3.2 精度评价

3.2.1 误分割率分析

不同误分割率区间内的叶片数量如图7 所示。在0~1%区间,朴素贝叶斯法的效果最佳,有12 个叶片样本,固定阈值法有4个样本,自适应阈值法和支持向量机法仅有1 个样本叶片,说明后2 种算法对于叶片溃疡病识别精度较低。在>1%~5%区间,朴素贝叶斯法有34 个样本,接近总样本量的一半,进一步说明该算法的精度和稳定性较高,而固定阈值法的叶片样本数为21个,自适应阈值法和支持向量机法均为9 个。对于误分割率>5%~15%的区间,朴素贝叶斯和固定阈值法的叶片样本数随着误分割率的升高而逐渐减少:在>5%~10%区间分别是12个和16个;在>10%~15%区间,分别为2个和11 个。在>15%~20%区间及以上,朴素贝叶斯法不存在误分割样本,说明朴素贝叶斯法的误分割率最高在15%以内。在>20%~100%区间,固定阈值法不存在误分割叶片样本,说明其最大误分割率在20%以内,而自适应阈值法和支持向量机法的叶片样本数在此范围最多,分别是19个和24个,表明这2 种算法识别柑橘叶片溃疡病斑存在较大误差。

图7 不同误分割率区间病害叶片样本量分布Fig.7 Distribution of the number of diseased leaves in different incorrect segmentation rate intervals

总体上,朴素贝叶斯法误分割率集中于0~5%的区间内,不存在较大的分割误差。因此,相对于其他3 种算法,朴素贝叶斯法在柑橘叶片溃疡病识别方面具有较好的分割能力。4种算法的平均误分割率统计如表1 所示。可以看出:朴素贝叶斯法误分割率最低,对于溃疡病斑的识别精度较高;支持向量机法误分割率最高,对于溃疡病斑的识别精度最低;固定阈值法和自适应阈值法介于二者之间。此外,朴素贝叶斯法在前期颜色特征筛选时也可以有效地消除阴影的干扰,可以准确区分背景和病斑。

表1 4种方法的病斑误分割率Table 1 Incorrect segmentation rate of disease spots by four methods

3.2.2 算法运行时间分析

运行时间是考量图像分割算法优劣的一项重要指标。采用同样的电脑配置计算4种图像分割算法的运行时间,结果如表2 所示。可以看出:2 种阈值分割法的计算时间较少,这是由于阈值分割法进行前景和背景分割时仅需设定相应的阈值。但前期确定颜色通道和分割阈值需进行反复调试,使得总体效率较低。支持向量机耗时多于阈值分割法。朴素贝叶斯法主要基于朴素贝叶斯分类器,通过计算各种颜色特征值隶属于背景或前景的概率,进而构建概率函数来判定像素隶属类型。朴素贝叶斯所需运行时间为3.75 s,高于阈值分割法,略低于支持向量机法。综合考虑前期调试时间和算法运行时间,朴素贝叶斯法的运行效率最优,且其病斑识别精度最高,可作为判定柑橘叶片溃疡病严重度的最优算法。

表2 4种分割方法的平均运行时间Table 2 Average performance time of the four segmentation methods

3.2.3 讨论

对于固定阈值分割法,选取误分割率较高的柑橘叶片进一步分析其误差来源(图8),发现其误分割率高的主要原因是病斑颜色与背景色相近,采用唯一的阈值提取病斑时,难以有效区分多种干扰因素下的前景和背景。说明该方法适用于图像前景和背景像素呈现2 个波峰的情况,可在波谷区域反复调试出最佳阈值。该方法简单易行,但易受光照条件和图像质量的限制,导致识别精度较低。

图8 病害原图与固定阈值漏分割图Fig.8 Original disease images and leakage segmentation images with fixed threshold method

对于自适应阈值分割法,主要根据病害图像本身的像素值差异进行阈值自主确定,从而实现病害像素的提取。该方法不依赖于人为判断,客观性较强。其缺点在于存在一定的过度分割现象,当病斑像素值与非病斑像素值存在一定的相似性时,非病斑像素容易被划分为病斑,如图9所示。通常,柑橘叶片溃疡病前期表现为淡黄色,与背景色相近,后期病斑颜色加深,与叶片背景产生了较大差异,因此,自适应阈值在溃疡病后期的分割效果较好,而在前期则产生较明显的漏分和错分现象。

图9 病害原图与自适应阈值过度分割图Fig.9 Original disease images and over-segmentation images with adaptive threshold method

另外,2种阈值分割法仅采用单一特征来进行整幅图像的病害分割,不确定性较高,特别是对于图像背景复杂、颜色特征较多的图像,难以准确识别出病斑区域,因此,阈值分割法具有一定的局限性[33-34]。

对于支持向量机法,同样存在一定的过度分割现象,当叶片图像存在一定比例的深色阴影时,易与病斑像素值存在特征重叠。由于选取颜色特征无法考虑到所有阴影部分的干扰,因此,阴影区域容易被判断为病斑区域,特别是在叶片边缘部位。此外,使用的4 种方法均是基于颜色特征进行的,今后将尝试融入更多的特征信息,包括纹理特征和形状特征等,以期进一步提高柑橘叶片溃疡病的识别精度。

4 结论

本文在叶片尺度提出了一种适用于柑橘叶片溃疡病快速诊断的图像分割技术。通过对比分析4种图像分割方法对柑橘叶片溃疡病识别的精度和效率,提出了基于朴素贝叶斯分类的柑橘叶片溃疡病诊断方法,解决了叶片尺度的柑橘叶片溃疡病快速诊断的应用需求。研究结果表明,朴素贝叶斯的分割效果最佳,误分割率为3.58%,远优于支持向量机(17.50%)、固定阈值法(7.83%)和自适应阈值法(16.37%)。对于相同运行环境下的运行时间,固定阈值法<自适应阈值法<朴素贝叶斯法<支持向量机法。综合分割效果和运行时间,4 种方法中朴素贝叶斯法最优,能有效提升柑橘叶片溃疡病的诊断精度和诊断效率。

猜你喜欢

溃疡病贝叶斯朴素
澳大利亚:拟利用狗检测柑桔溃疡病
四川认定两个抗溃疡病猕猴桃新品种
隔离朴素
基于贝叶斯定理的证据推理研究
基于贝叶斯解释回应被告人讲述的故事
气象因子对秭归柑橘潜叶蛾及溃疡病发生的影响分析
朴素的安慰(组诗)
他是那样“笨拙”和朴素——30多年后,我们为什么还需要读路遥?
最神奇最朴素的两本书
租赁房地产的多主体贝叶斯博弈研究