APP下载

深度学习在小麦害虫分类研究中的应用

2024-01-13徐雪环李红丹贾心语张博达蒲海波

四川农业大学学报 2023年6期
关键词:分辨率害虫准确率

徐雪环,贾 岚,李红丹,贾心语,张博达,周 飓,蒲海波,2*

(1.四川农业大学信息工程学院,四川 雅安 625000;2.四川省雅安市数字农业工程技术研究中心,四川 雅安 625000)

由于小麦生长周期长,小麦害虫是影响小麦产量和质量的最大因素之一,因此小麦害虫的治理显得格外重要[1-3]。精准防治小麦害虫的关键在于准确鉴定昆虫的种类,从而采取有针对性的防治措施,提高防治效果和经济效益[4-5]。目前小麦害虫识别主要面临以下问题:一是部分害虫体积小,样本难以采集导致不同类别间存在数据不平衡的问题;二是小麦害虫类间相似性高,不同种类害虫具有相似的形态和生态特征导致类间区分难度高;三是类内差异大,同一类害虫体型、颜色和形态具有较大差异。除此之外,现有小麦害虫数据集的图像分辨率较低,也会影响模型的分类性能。总之,精准分类小麦害虫是一项具有挑战性的任务,需要采用多种技术手段来解决上述问题[6]。

随着深度学习技术在农业领域的应用日益广泛,小麦害虫识别的研究通过深度学习技术也取得了进一步的发展。Chen P.等[7]使用数码相机在麦田中拍摄了546 张小麦螨虫图像作为数据集,采用VGG16、ZFNET等基准网络对小麦螨虫进行识别和计数;K.Sabanci 等[8]提出AlexNet 卷积模型和BiLSTM 循环模型的混合网络对害虫损害的小麦籽粒进行识别检测;K.Thenmozhi等[9]提出了深度卷积模型在NBAIR数据集、Xie1、Xie2数据集进行测试,分别得到了96.75%、97.47%、95.97%的精度;Xia D.N.等[10]在Xie1数据集的基础上,提出新的虫害数据集MPest,并改进VGG19 卷积网络来解决作物害虫分类问题。但以上研究的数据集都存在研究的害虫种类单一、各个作物的害虫类别无明显区分的问题。对于深度学习模型来说,网络分类的性能很大程度上取决于数据集样本数量和质量,为此,Wu X.P.等[11]提出了IP102 大型害虫数据集,其中小麦害虫的种类有9类。但该数据集存在类间数据严重不平衡、图像质量低等问题,对于害虫的识别带来了较大的影响。因此,在小麦害虫识别的深度学习研究中,数据集的样本数量和质量是一个重要的因素,需要加以重视。

随着深度学习网络层数增加,图像分类任务需要更多的训练样本以提高网络学习特征的能力[12],因此数据增广是提高网络分类性能的有效方法。传统数据增广即在原始数据的基础上进行变形,例如A.A.Alfarisy 等[13]使用旋转、水平翻转、垂直翻转、随机裁剪的方式扩增害虫数据集;M.Khanramaki 等[14]采用旋转、镜像、加入高斯噪声的方式对害虫数据集增强;类似的还有杨红云等[15]采用平移、翻转和旋转等操作处理水稻害虫图像。这些传统数据增广方法在害虫数据集的扩增方面都取得了显著的效果。另一方面,使用基于对抗生成网络I.GOODFELLOW[16]的数据增广方法生成与原始数据极其相似的假图像[17],来达到数据集增广的目的,但这些样本并不是真实存在。因此,在害虫数据集的扩增方面,传统数据增广方法仍然是主流的方法。

低分辨率小麦害虫图像由于细节少、个体小、类间差异小等因素,对小麦害虫网络的识别具有挑战性[18],因此获得高分辨率小麦害虫图像作为训练数据对于提高整体识别准确率至关重要。M.H.Maqsood等[19]利用SRGAN网络对小麦病害图像进行上采样提高图像的分辨率,得到了总体测试为83%的精度。Wen J.A.等[20]设计了一种基于增强超分辨率ESRGAN网络的作物病害分类网络,显著提高了作物病害分类的准确性。Zhang Z.等[21]提出一种基于双生成对抗网络(WGAN-GP 网络和Real-ERSGAN[22]网络)的生成高质量水稻叶病害图像的方法,提高模型的识别性能。以上方法都取得了良好的效果,证明了提高图像的分辨率可以帮助网络更好地关注细节信息,从而提高网络的识别精度。

近年来,注意力机制已被广泛应用于深度学习模型中,以帮助网络更好地分辨图像中的重要区域,从而提高模型对目标的识别准确度。曾伟辉等[23]在胶囊网络上引入CBAM 机制,在复杂背景下准确率达到了99.19%。张鹏程等[24]成功将ECA[25]模块引入到MobileNetV2 模型中,模型的分类准确率达到了93.63%。Zheng T.F.等[26]在EfficientNet V2 模型中引入CA 坐标注意力机制,在IP102 数据集上达到94.0%的识别准确率。S.Janarthan等[27]提出基于双注意力的轻量级网络,为识别不同的植物害虫提供高性能模型。在模型中引入注意力机制的策略有助于加强对重要特征的关注程度,提高了害虫等小目标的识别精度。

1 材料和方法

1.1 样本数据集

本试验采用IP102 中的小麦害虫数据集,该数据集包含9 种小麦害虫,共3 418 张图片。分别为Bird cherry-oat aphid(黍蚜)、Cerodonta denticornis(麦黑斑潜叶蝇)、English grain aphid(麦长管蚜)、Green bug(麦二叉蚜)、Longlegged spider mite(长腿蜘蛛螨)、Penthaleus major(麦圆蜘蛛)、Wheat blossom midge(麦黄吸浆虫)、Wheat phloeothrips(小麦根皮蓟马)和Wheat sawfly(小麦锯叶蝇),将数据集按照8∶2的比例划分为训练集和测试集。小麦的各类害虫示例如图1。

图1 IP102中小麦害虫各类别图像Figure 1 Images of various categories of wheat pests in IP102

鉴于IP102 数据集存在目标物不清晰、可识别内容过少、背景过于杂乱等原因,图2 展示了IP102小麦害虫中难以辨认需要被剔除的样本。图中可以看到在这些样本中,小麦害虫位于密集的小麦植株中,甚至无法被肉眼观察到,导致小麦害虫的位置和形态难以被准确地识别和标注,因此这些样本引入的误差和噪声会对模型的训练和评估产生负面影响。为确保标注数据集的质量和准确性,对IP102 小麦害虫数据集进行筛选和剔除[28]。共剔除586张,剩余2 832张小麦害虫样本。

图2 IP102小麦害虫中难以辨认的样本Figure 2 Samples to be excluded from the IP102 wheat pest dataset

1.2 协同增广增强策略

1.2.1 数据增广

在图3 中,展示了IP102 小麦害虫数据集中各类别的数量,图中可直观地看出IP102 小麦害虫数据集呈长尾分布。其中黍蚜虫害数量最多为708张,麦黑斑潜叶蝇虫害数量最少为137张。

图3 IP102小麦数据集各类别害虫数量Figure 3 Several samples for each pest category in the IP102 wheat dataset

数据集的不平衡情况可以通过不平衡率IR(imbalanced ratio)进行判定。不平衡率可以表示为数量最多类别样本数与数量最少类别样本数之比。本文引用了M.Galar等[29]的研究,其判别公式如下:

其中,N{max}表示数量最多类别的样本数,N{min}表示数量最少类别的样本数,IR 值越大,数据集的不平衡程度越高。由公式得出IP102小麦害虫数据集的不平衡率IR 的最大值为5,说明该数据集存在着严重不平衡问题。

为了避免分类器的偏见,确保分类器对于各个类别的处理能力相当,需要对数据集进行平衡处理。本文使用传统数据增强对清洗后的数据集增广,增广方法如旋转、镜像、平移来增加视角、位置方面的偏差,进而增强模型在不同角度的鲁棒性;亮度变换来模拟光照亮度偏差,增强模型在不同光照条件下的鲁棒性;高斯噪声对图像施加噪声干扰,提高模型对噪声干扰和冗余信息的过滤能力。如图4 展示了麦黑斑潜叶蝇的增广图像,第一张图片为原始图片,从左往右依次使用亮度变换、镜像变换、旋转180度和高斯噪声。

图4 麦黑斑潜叶蝇增广图像示例Figure 4 Example of data augmentation image of Cerodonta denticornis

1.2.2 超分辨率增强

图片输入分辨率是影响模型分类效果的重要因素,而原始数据集部分图片分辨率较低,害虫的特征边界与背景难以区分影响分类效果,使用超分辨率数据增强方法可以对害虫特征边界进行增强。Real-ESRGAN 模型是基于生成对抗网络GAN 的超分辨率增强模型,该模型目的是解决真实场景下的图像模糊的问题。

Real-ESRGAN 模型使用高阶退化建模过程来模拟更真实的训练图像。公式(2)[22]所示为经典退化模型,其是高阶退化过程的基础。具体合成低分辨率输入图像过程为地面实况图像y与模糊核k进行卷积操作,卷积后的图像执行具有比例因子r的下采样操作。接下来进行噪声添加,最后对低分辨率图像进行JPEG压缩。高阶退化模型则是通过多次重复经典退化过程来更准确地模拟真实图像中的退化现象。如公式(3)所示,阶数(n)表示重复的次数。此外,Real-ESRGAN模型还使用sinc滤波器来解决图像中的振铃和过冲伪影现象。滤波器的设计如公式4,其中i和j是滤波器的坐标,ωc是滤波器的截止频率,J1是第一类一阶贝塞尔函数。Real-ESRGAN模型通过使用高阶退化建模和sinc滤波器来更准确地模拟真实世界中的图像退化现象,并提高图像的质量。

Real-ESRGAN 模型生成器结构由卷积层、16个顺序连接的残差密集块(RRDB)、上采样以及卷积输出层构成,生成器结构图5所示。

图5 Real-ESRGAN模型生成器Figure 5 Real-ESRGAN model generator structure

判别器结构摒弃了ESRGAN中的VGG网络,选择带有光谱归一化(SN)的U-net模型[30],使得模型可以从像素角度进行判别,实现既能保证图像整体真实的情况下,还能注重图像细节,判别器结构如图6所示。

图6 Real-ESRGAN模型判别器(带SN的U-Net模型)Figure 6 Structure of Real-ESRGAN model discriminator (U-Net model with SN)

在IP102数据集中,大约有1/3的图像分辨率小于200×200,这意味着这些小麦害虫图像会被模型自动填充到合适大小,从而无法提供足够的细节信息给深度学习模型进行训练[31],导致模型学习能力受到限制。本文使用Real-ESRGAN 超分辨率模型对小麦害虫图像以×4的比例因子执行超分辨率,从而给深度学习模型提供更多的小麦害虫细节信息。图7展示了部分害虫类别低分辨率和高分辨率图像对比。增强后的小麦害虫图像表现出了更加清晰明显的边缘和真实细致的纹理特点。对于麦二叉蚜、麦圆蜘蛛和小麦据叶蝇,超分辨率增强后其肢体、触须的颜色更加鲜艳,与小麦的边界区分更清晰明显。对于长腿蜘蛛螨和麦黄吸浆虫,其腿部轮廓更真实,纹理更锐利,具有更加真实和细腻纹理的高分辨率小麦害虫图像,有助于提高模型的分类识别能力。

图7 部分害虫超分辨率增强前后对比Figure 7 Comparison of partial pests before and after super-resolution enhancement

1.3 ECA-EffV2模型架构

1.3.1 ECA注意力机制

通道注意力机制是一种用于增强卷积神经网络特征表达的方法,其目的是使得不同的特征通道拥有不同的权重,使得网络能够有选择性地关注或忽视某些特征。近年来,SENet 在网络中引入通道注意力,显著提高了模型的性能。但研究发现SENet 的降维操作会对特征的提取产生负面影响,获取通道间依赖关系效率低[32]。ECA注意力机制通过采用一维卷积和自适应大小的卷积核来避免降维,为特征图重新分配权重,实现模型选择性强调重要特征、抑制无用特征。ECA模块如图8所示。

图8 ECA注意力机制结构图Figure 8 ECA attention mechanism structure

1.3.2 ECA-EffV2模型

本文基于EfficientNetV2 网络进行研究,EfficientNetV2 是EfficientNet 的改进版本,其准确率达到了当前的SOTA 水平,具有更快的训练速度和更少的参数量,是一种快速轻量级的网络模型。EfficientNetV2 网络主要由卷积、Fuse-MBConv 模块、MBConv模块堆叠而成。为了更有效地关注小麦害虫特征,本文提出ECA-EffV2 模型,用ECA 模块替换Fuse-MBConv 和MBConv 卷积中的SE模块,以增强模型对不同特征的学习能力。通过这种方式,ECA-EffV2 可以更好地利用每个通道之间的依赖关系,提高模型对小麦害虫特征的感知能力,从而获得更高的识别准确率。ECA-EffV2 模型架构如图9所示。

图9 ECA-EffV2网络结构图Figure 9 ECA-EffV2 network structure

1.4 实验环境及评价指标

本文的实验环境包括Intel(R) Core(TM) i9-10900K CPU @ 3.70 GHz 处理器、16 GB RAM,NVIDIA Quadro RTX 5000显卡和128 GB内存,软件环境为Windows操作系统,使用PyCharm平台和Py-Torch 深度学习框架进行实验,模型详细参数设置如表1所示。

表1 模型详细参数Table 1 Detailed parameters of the model

本文采用准确度(accuracy)、精确率(precision)、特异性(specificity)、召回率(recall)和F1-Score 作为模型评价指标。具体计算公式如下:

其中,TP 表示真正例(true positive)、TN 表示真负例(true negative)、FP 表示假正例(false positive)、FN表示假负例(false negative)。

其中,精确率(precision)评估模型预测为正例中实际为正例的比例,特异性(specificity)评估模型预测为负例中实际为负例的比例,召回率(recall)评估实际为正例中被模型预测为正例的比例。F1-Score 综合精确率和召回率的评价指标。比较模型在不同评价指标下的表现,我们可以评估模型的性能和优缺点,并指导和支持模型的改进和优化。

2 结果与分析

2.2 原始数据集与增广后的数据集在不同模型上评估

为了解决IP102小麦害虫数据集存在的类间不平衡问题,首先对小麦害虫数据集进行清洗,再使用传统数据增广方法进行样本量扩充,重新整理得到大规模小麦害虫数据集:IP-AugWheat,共25 176张小麦害虫样本,扩充后的各类别数量如图10所示。由公式(1)得出,扩充后的小麦害虫数据集的IR值为1,即各类别的样本数量相当,达到了数据平衡的状态。这样处理后的数据集可以更好地满足模型训练和测试的需求,提高模型的性能和泛化能力。同时,通过对类别不平衡问题的处理,还可以避免模型对数量较少的类别进行忽略或误判的情况,提高模型的整体效果。

图10 数据增广后各类数量图Figure 10 Number of pest categories for IP-AugWheat

为了方便记录,本文将IP102 小麦害虫数据集记为IP-Wheat。用VGG16[33]、AlexNet[34]、Efficient-Net[35]和EfficientNetV2[36]4 个模型在IP-Wheat 和IPAugWheat上评估,并分别记录了模型在测试集上的准确率和参数量。具体结果如表2所示,在IPWheat 上,EfficientNetV2 模型的准确率最高,为72.5%;EfficientNet 模型的准确率最低,为62.9%。而在IP-AugWheat 上,4 个模型的识别性能均有显著提升。其中,EfficientNetV2 模型的准确率达到83.8%,相比原来提升11.3%;AlexNet模型的准确率达到79.5%,相比原来提升15.1%。实验结果表明,数据增广可以有效地提高模型的泛化能力和识别性能。

表2 4个模型在IP-Wheat和IP-AugWheat上的表现Table 2 Performance of the four models on IP-Wheat and IP-AugWheat

由表可见,在2个数据集上,EfficientNetV2模型的准确率均明显高于其他3 个模型,并且参数量相对较少,具有更好的性能和效率。本文使用EfficientNetV2模型对IP-Wheat和IP-AugWheat中的各类害虫进行详细评估。在图11中,展示了小麦各类害虫数据平衡前后的精确率,各类别的精确率都有显著的提升。而麦黑斑潜叶蝇的精确率却存在下降现象,由100%降到92.7%,我们认为这一现象是由于增广前麦黑斑潜叶蝇样本数量最少,测试集中仅有27张,且麦黑斑潜叶蝇与其他类害虫特征差异大,区分较明显,因此测试精确率较高。经过增广后,在麦黑斑潜叶蝇的测试集数量达到569张,其他类害虫的测试数量也增加的情况下,模型学习到各类害虫的特征更多,出现错分现象,因此麦黑斑潜叶蝇的精确率降低到92.7%。同样的,小麦据叶蝇的精确率也存在下降现象。但总体来说,数据平衡后,小麦各类害虫的分类精确率普遍高于不平衡数据集上的精确率。

图11 数据增广前后各类准确度对比Figure 11 Comparison of the precision of IP-Wheat and IP-AugWheat for various categories of pests

2.3 Real-ESRGAN 超分辨率增强方法在不同模型下的评估

为了解决小麦害虫数据集存在图像模糊,害虫与背景边界不清晰等问题,采用Real-ESRGAN 模型对IP-AugWheat 进行超分辨率增强,得到高分辨率数据集:IP-AugESRWheat。在IP-AugESRWheat上使用VGG16、AlexNet、EfficientNet 和Efficient-NetV2 模型进行分类评估,试验结果如图12所示,直观地显示出4 个模型在IP-AugESRWheat 上表现均有较大提升。如EfficientNetV2在IP-AugESRWheat上的分类精度达到了92.2%,相比低分辨率数据集提升了9%。VGG16 网络在IP-AugESRWheat 上的分类精度达到了89.3%,相比低分辨率数据集提升了10.7%。试验结果表明,本文提出的基于传统增广方法和超分辨率增强方法的图像处理技术路线,得到清晰纹理的大规模高分辨率图像能够显著提升模型分类的性能。

图12 4个模型在超分辨增强前后的准确率比较Figure 12 Comparison of accuracy of four models on IP-AugWheat and IP-AugESRWheat

2.4 ECA注意力机制评估

为了提高模型对关键特征的提取能力,减少无效特征的干扰,本文在EfficientNetV2上引入ECA机制。基于Grad-CAM[37]技术,对EfficientNetV2 和ECA-EffV2 模型在小麦害虫识别任务中的表现进行可视化分析,如图13所示,在麦二叉蚜的热力图中,EfficientNetV2模型将关注点集中在虫的头部和小麦枝干上,而ECA-EffV2模型将关注点更多地分配到虫的整个身体和肢体区域,表明ECA-EffV2模型对于麦二叉蚜虫的整体特征具有更高的关注度。在麦圆蜘蛛和麦黑斑潜叶蝇的热力图中,ECAEffV2 模型能够更全面地关注到躯体、头部和肢体等重要特征,而EfficientNetV2模型仅关注到虫体的局部区域,未能捕捉到虫体的整体特征,这说明在某些情况下,EfficientNetV2模型可能会忽略某些重要特征。在麦黄吸浆虫的热力图中,ECA-EffV2 也能够准确地识别麦黄吸浆虫的轮廓,并将高权重的注意力精准地分配到麦黄吸浆虫的各个部位,而EfficientNetV2模型仅根据头部特征来识别害虫,可能会对类间特征差异小的小麦害虫识别造成困难。ECA-EffV2 模型相对于EfficientNetV2 模型在小麦害虫特征区域识别任务中具有更好的性能,从而证明了该改进方法的有效性。

图13 EfficientNetV2与我们的模型热力图对比(图片来自于IP-AugESRWheat数据集的麦二叉蚜、麦圆蜘蛛、麦黑斑潜叶蝇和麦黄吸浆虫)Figure 13 Comparison of EfficientNetV2 and ECA-EffV2 heat maps from the IP-AugESRWheat dataset of English grain aphid,Longlegged spider mite,Cerodonta denticornis,Wheat blossom midge

2.5 方法评估

为了验证本文提出方法的有效性,比较了增广方法、超分辨率增强方法和ECA 机制在EfficientnetV2模型性上的各个指标,具体评估结果如表3所示。可以看到ECA-EffV2 模型在IP-AugESRWheat中小麦害虫识别的平均准确率达到了94.8%,Precision 达到了94.7%,Recall 达到94.8%,Specificity 达到了99.3%,F1_Score达到了94.7%。同时参数量也得到了较大的优化。综合来看,本文结合数据增广、超分辨率增强和注意力机制等方法,有效提高了小麦害虫识别的准确率和稳定性,为小麦害虫识别提供了技术支持。

表3 总方法评估Table 3 Total method evaluation

为了进一步分析,我们在图14 展示了混淆矩阵,横坐标代表小麦各类害虫的真实标签,纵坐标代表小麦各类害虫的预测标签。图14(a)中,麦二叉蚜只有40%的测试图像被分类正确,32.3%被分错为麦长管蚜,27.7%被分错为黍蚜。这是因为黍蚜、麦长管蚜、麦二叉蚜三类小麦害虫均存在个体小,颜色相似导致类间差异小、极易被错误识别。同样,长腿蜘蛛螨和麦圆蜘蛛也容易被错分。图14(b)中,各类害虫的分类准确率均有显著提高,其中麦二叉蚜的测试图像中识别正确的样本数达到92.2%,仅有7.8%被误分类。图14(c)中,由于超分辨率增强技术将小麦害虫的肢体细节更清晰,害虫类间差异更明显,可直观地观察到各类害虫被分类正确的个数都明显增加。图14(d)中,ECA 注意力机制的引入能有效地提取到害虫特征,避免干扰因素的影响,观察到预测值密集地分布在对角线上。

图14 混淆矩阵图例Figure 14 Example of confusion matrix

3 结论

我们发现解决数据不平衡和图像低分辨率问题对小麦害虫分类任务十分显著。不平衡数据集导致模型偏差增加,对较少类别进行错误分类,本文对IP102 数据集中难以标注的样本进行清洗剔除,采用传统数据增广方法得到真实存在的大规模小麦害虫数据集:IP-AugWheat,增强模型对害虫目标的鲁棒性。在EfficientnetV2模型上达到了83.2%的准确率,有效地提高了模型的泛化能力和整体预测性能。低分辨率样本缺失图像的细节特征,使得模型难以区分不同类别之间的差异,本文采用Real-ESRGAN超分辨增强方法提高图像分辨率,得到大规模、高质量的IP-AugESRWheat 小麦害虫数据集。在EfficientnetV2模型上达到了92.2%的准确率,表明本文提出的通过整合增广方法和Real-ESRGAN 超分辨率技术,有效地解决了现有小麦害虫研究方法所面临的挑战,并取得了显著的改进,为小麦害虫识别提供了有效的技术方案和数据支撑。为了抑制无关特征并加强模型对小麦害虫本身的关注度,采用轻量级的ECA 机制,得到高效轻量的ECA-EffV2 模型。该模型在IP-AugESRWheat上分类性能达到了94.8%的准确率,同时显著地降低了整体参数量,为小麦害虫识别提供了有效的技术支撑。因此,本文方案对现有小麦害虫识别研究具有重要的推动作用,同时我们的方法也可以应用到玉米、水稻和大豆等田间作物的害虫识别中。

未来,我们将会有以下方面的工作:首先,我们将采用实地采集、室内饲养等方式继续收集小麦害虫数据集,尤其是麦黑斑潜叶蝇、麦圆蜘蛛等样本数少的种类。采用无监督或半监督学习方式识别小麦害虫,降低人工标注成本。其次,我们将采用蒸馏学习、剪枝和量化等方法压缩模型,将模型部署到移动设备上,达到真正通过深度学习技术助力农业高效、智能、可持续发展。

猜你喜欢

分辨率害虫准确率
蜗牛一觉能睡多久?
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
冬季果树常见蛀干害虫的防治
EM算法的参数分辨率
原生VS最大那些混淆视听的“分辨率”概念
高速公路车牌识别标识站准确率验证法
枣树害虫的无公害防治
基于深度特征学习的图像超分辨率重建