APP下载

基于卷积神经网络的田间麦穗检测方法研究

2023-06-20张合涛赵春江王传宇郭新宇李大壮苟文博

麦类作物学报 2023年6期
关键词:麦穗特征提取小麦

张合涛,赵春江,王传宇,郭新宇,李大壮,苟文博

(1.西北农林科技大学信息工程学院,陕西杨凌 712100;2.北京农业信息技术研究中心,北京 100097;3.国家农业信息化工程技术研究中心/数字植物北京市重点实验室,北京 100097)

检测调查小麦生长发育过程是栽培管理的关键任务,在小麦灌浆期阶段[1]对麦穗进行检测计数,可以用来估测产量[2-3]、评估品种和栽培管理措施的优劣。小麦穗数的调查以往多采用人工手动计数的方法,费时、费工、准确性差,难以大规模开展。随着近年来植物表型[4]测量技术发展的更新迭代,机器视觉方法在农作物表型研究中的应用取得了较大进展。激光雷达、热成像、数字图像等技术方法在麦穗识别检测中取得了良好的效果。其中,图像处理技术[5]逐渐成为麦穗识别检测的关键技术,提升了识别检测质量和统计精度。

已有学者基于麦穗的颜色、纹理、几何等特征利用传统计算机方法对其实现识别检测,利用形态学重建理论[6]、凹域平滑方法[7]、分水岭算法[8],成功地检测出目标麦穗。但在不同麦田采集的小麦样本形态差异明显,利用形态学重建理论检测小麦的方法难以推广应用于其他的麦田;凹域平滑方法首要的要求是实现对麦穗平滑处理,但实际应用中即使对二值图像进行腐蚀、膨胀等操作,也很难达到理想的平滑要求;分水岭算法需要计算麦穗的区域极值,考虑到田间环境下拍摄的小麦图像像素偏低、曝光过度等问题,对此种情况的图像难以精确计算,容易导致过度分割。

基于机器学习算法麦穗检测计数也有大量研究工作。Xu等[9]使用K-means算法对麦穗进行图像分割。Olgun等[10]依靠DSIFT进行特征提取后借助支持向量机分类算法,最终对麦穗进行识别检测。林滢等[11]通过随机森林算法对冬小麦进行产量估算,判断预测时间和影响产量的因素,得到了较为准确的数据。机器学习对麦穗的识别和检测精度,依赖于从图像上提取的特征,传统的图像特征提取算法在田间小麦图像上欠缺准确性和鲁棒性,易受外界环境条件和作物本身遮挡的影响。

近些年来,许多研究者利用深度学习在计算机视觉、图像数据分析[12]、多媒体应用[13]等很多领域取得了一定进展。深度学习优势在于自动从大量的图像中提取有用的学习特征,无需设置特征值。如,张领先等[14]利用深度卷积网络对麦穗进行特征提取及检测,并设计麦穗检测计数应用程序对其进行可视化操作;陈佳玮等[15]构建了MobileNetV2-YOLOV4深度学习模型对灌浆期小麦进行识别,并开发安卓软件对田间小麦进行预测和结果预览处理等功能;孙俊等[16]在人群计数网络CSRnet上进行改进和构建WECnet网络,实现麦穗的计数统计;Liu等[17]总结得出,深度学习在麦穗识别上具有很强的鲁棒性。然而,大田小麦生长密集,加上风的扰动,图像中麦穗分辨率低,存在模糊现象,阳光直射导致麦穗存在一定的过度曝光现象,从而减少麦穗图像中纹理等特征。为了克服上述问题,本研究改进YOLOv5检测算法,提出了YOLOv5-αTB麦穗识别检测模型,增加了麦穗计数精度和算法鲁棒性。

1 材料与方法

1.1 数据来源与处理

1.1.1 图像采集

数据集图像采集获取的地点位于北京市农林科学院院内实验田(39°56″N,116°16″E),种植小麦品种为洛麦、济麦、丰抗、淮麦、京花等30个品种,于2020年10月上旬种植,每个小区种植一个品种,小区面积为6.75 m2(2.25 m×3 m),小麦株距为0.05 m,行距为0.2 m。拍摄设备为自主研发的田间作物高通量轨道式表型平台,该平台搭载Microsoft,Kinect V2.0图像采集设备,拍摄像素为5×106像素。本研究使用的数据图像是2021年5月拍摄的小麦灌浆期图像,轨道式表型平台在每天上午9:00-10:00以及下午2:00-3:00定时对大田间小麦进行垂直图像拍摄。每天获取的小麦图像有1 050张,每一个小区拍摄图像35张左右。图1展示了北京市农林科学院地理位置及拍摄获取的小麦图像。

图1 小麦种植地图及拍摄数据图像Fig.1 Wheat planting map and captured data image

1.1.2 数据预处理

为了提升检测模型的鲁棒性,数据集中涉及30种小麦图像且选取不同日期拍摄的数据图像。表型平台获取的小麦灌浆期植株图像中,原始图像分辨率为4 096×3 000像素。由于原始图像中包含的麦穗数量偏大,每一个麦穗在图像中所占面积过小,会影响检测模型运行效率和精度,导致处理时间过长、处理速度过慢、识别检测效果不佳等问题出现。利用图片编辑器,对获取的原始小麦图像进行批量裁剪。裁剪的统一标准是保留原始图像中间部分,裁取的尺寸为1 024×1 024像素。

对图像进行筛选、清洗,剔除掉过于模糊的、不含麦穗等问题的图像。借助LabelImg标注工具对小麦原始数据图像进行逐张标注,在图像中用矩形框对每一个麦穗进行框选,矩形框的顶点的位置坐标会保存在XML文件中。XML文件还包含了麦穗的标签、图像的大小、图像的文件名称等一系列的信息。图2是标注麦穗图像及标注数据内容的数据预处理阶段。

图2 数据预处理Fig.2 Pre-processed datasets

1.1.3 数据增强

由于表型平台获取的小麦数据集数量有限,为了提高模型检测的鲁棒性,故采用数据增强的方式对小麦数据集进行数据扩充。具体采用的增强算法:(1)图像亮度调整,对原始图像的亮度进行变换(原始为1倍),进行0.3倍、0.5倍、1.2倍、1.6倍调整;(2)图像翻转和旋转,旋转以中心坐标为基点,每张图像进行三张随机角度(0°~90°)旋转;(3)图像噪声添加,使用高斯噪声对图像进行处理,噪声的强度5~20之间随机数值;(4)图像相互嵌入,让目标图像和其他无关图像进行裁剪后相互嵌入,增加样本复杂度,提升检测效果;(5)图像缩放,对原始图像进行放大或缩小、水平纵向拉伸等操作。经过对数据集的扩充由原来的232张数据图像扩增至4 043张图像。将数据图像按照PASCAL VOC2007格式制作成训练测试数据集,训练集、验证集、测试集的比例是8∶1∶1。

1.2 灌浆期小麦麦穗识别检测模型建立

1.2.1 YOLOv5检测模型

本研究是基于YOLOv5(you only look once)目标检测算法的基础上实现的,YOLO系列的模型还包括YOLOv1[18]、YOLOv2[19]、YOLOv3[20]、YOLOv4[21]。YOLO的优势体现在能够利用卷积神经网络提取特征直接来预测物体的分类和位置,所以在速度方面较Two Stage检测算法更快。YOLOv5目标检测算法是在基于YOLOv3特征提取的主干网络Darknet53的基础上借鉴了CSPNet[22]而设计出的CSPDarknet53,对物体特征具有更强的提取能力。在特征融合部分继续沿用YOLOv4的特征金字塔(feature pyramid networks,FPN)[23]和PANet,但是YOLOv4中采用的都是普通的卷积操作,而YOLOv5借鉴CSPNet中的CSP2结构,进一步加强了特征融合的功能,使得YOLOv5在检测复杂环境背景下有较优的检测效果,更能将检测主体与背景区分开来,大大提升了模型的检测性能。

1.2.2 Transformer模块

YOLOv5模型的主干特征提取网络CSPDarknet53在本研究相对复杂的小麦生长环境下具有一定的局限性,存在麦穗图像过度曝光、纹理特征不明显及由微风导致拍摄的图像模糊问题,对麦穗数据集特征提取存在一定的难度。将Transformer模块加入到YOLOv5特征提取网络的末端部分,可有效提升对相互遮挡物体的检测性能[24]。Transformer模块是由编码器和译码器组成,而编码器的任务是将位置编码转换成序列,为下一环节提供有效的语义信息。由于本研究仅利用Transformer提升麦穗识别检测的性能,故将编码器与YOLOv5主干特征提取网络结合,形成YOLOv5-αTB的新主干网络。

Transformer的编码层是由两个子层组成:第一个子层以一个多头自注意力层(multi-head self-attention layer)为核心结构,第二个子层以一个前反馈全连接层(multilayer perceptron,MLP)为核心结构。编码器更能提升获取特征图中的局部信息的能力,将Transformer放在YOLOv5特征提取网络末端部分最主要的是因为经过多层特征提取层后,特征图在网络末端部分分辨率偏低,如此可以提升整个模型对麦穗识别检测的精确度。

1.2.3 多尺度特征融合

随着特征提取网络层数的加深,每一层网络上都存在一定的特征丢失现象。为了更好提取融合特征,通常在特征提取网络层和输出层增加一个多尺度特征融合层,以增加目标物体的检测精度。而YOLOv5模型中特征融合使用的是特征金字塔网络(feature Pyramid networks,FPN)和PANet。FPN的原理是将提取到的高层的特征语义信息通过上采样的方式向下层进行逐一传递融合,是一个从上而下融合的网络,通过此网络得到初步的预测特征图。PANet则是将FPN的输出特征图作为输入,是一个自下向上的特征金字塔,经过PANet的处理最后得到预测的特征图。将两种网路结合后,前者通过网络层将特征自上向下逐层传递加强了语义特征效果,而后者则将特征自下向上逐层传递加强定位特征效果,从而获得更加完善特征聚合的效果。

FPN和PANet的组合仅仅是简单的、垂直水平特征融合,在复杂情况下对物体特征融合效果不是很好。BiFPN能够更加快速方便地进行多尺度特征融合,每一特征层增加一个额外的权重值,让网络学习不同权重值的特征。BiFPN的主要原理是特有的双向交叉尺度连接和加权特征融合,不同于PANet。其作用就是对不同尺寸下的特征进行相应的融合,所做的工作就是通过各层次特征的相应融合,输出一个新的特征,其变换函数f计算公式如下:

(1)

(2)

式中Pl代表所在层提取的特征,in表示输入,out表示输出。FPN、PANet和BiFPN三种特征融合网络结构如图3所示。

图3 三种特征融合网络结构图Fig.3 Diagrammatic forms of the three feature fusion network structures

1.2.4 改进损失函数

损失函数能很好地反映模型数据和真实数据之间的差异,从而对模型进行改进、优化。为了更好提升YOLOv5检测模型的训练检测效果,尽可能地拟合真实框。在边界框回归损失函数中,YOLOv5采用的是GIoU Loss[25],其公式如下:

(3)

(4)

其中,A表示真实框,B表示测试框,C表示同时包含真实框和检测框的最小外接矩形框。

GIoU Loss是在IoU Loss的基础上进行优化改进的,都是一种距离度量。IoU Loss在检测框和真实框没有重叠时,loss值下降为0,梯度消失,会导致优化模型失败。因此,GIoU Loss在IoU Loss基础上增加了最小外接矩形检测框,这样就可以成功解决IoU Loss存在的弊端等问题。但GIou Loss也存在一定的缺陷,当真实框和检测框出现包含或被包含时,GIoU Loss会退化成IoU Loss,两者均会出现梯度消失现象,无法继续优化模型。而CIoU Loss增加了回归三要素中的长宽比问题,考虑了特征间的几何属性,即纵横比、中心点距离与位置、重叠面积,从而实现运算更快收敛和优化,具有更好的性能。CIoU损失函数公式为:

(5)

(6)

(7)

其中,b、bgt分别代表预测框和真实框的中心点,ρ代表的两个中心点间的欧氏距离,w和h分别是预测框宽和高。但是CIoU Loss在检测麦穗这样小目标物体时,识别检测效果还是不佳,存在目标物体误识、漏识等现象。

本研究用边界回归框损失函数α-CIoU替换掉YOLOv5中使用的DIoU损失函数。α-CIoU Loss损失函数是基于现有的CIoU Loss的一种统一幂化,具有一个Power IoU和一个附加的α正则项,测试过程中效果明显的超过现有的损失函数,且通过调节α使得检测器可以实现不同水平的回归精度调整,具有较大的灵活性。Α-CIoU Loss为小目标数据集和噪声提供了更强的鲁棒性,其公式如下:

(8)

1.2.5 YOLOv5-αTB小麦麦穗识别检测模型建立

由于YOLOv5特征提取末端部分增加了Transformer模块,CSPDarknet53特征提取网络对田间背景下麦穗的特征提取能力得到增强,进而提升了该模型的识别检测性能。而PANet对这种密集遮挡且清晰度不高、过度曝光的图像融合存在缺陷,从而导致模型最后的检测部分效果较差。因此,本研究用BiFPN替换原模型中的PANet,以提升模型的泛化能力。而IoU Loss存在缺陷,本模型也是利用α-CIoU Loss进行替换,进一步提升模型的鲁棒性,将大大提升本次试验的准确度。YOLOv5-αTB麦穗识别检测模型网络由三部分构成,分别是主干网络部分、特征融合部分以及检测部分(图4)。其中各模块结构组成如图5所示。图6为麦穗识别检测系统示意图。

图4 YOLOv5-αTB网络结构图Fig.4 Network structure of YOLOv5-αTB Chart

图5 YOLOv5-αTB各模块结构图Fig.5 Structure of YOLOv5-αTB each module

图6 麦穗识别检测系统Fig.6 Identification and detection system for wheat ears

1.3 模型训练环境

本研究的试验环境中,操作系统为Windows10,CPU型号为Intel(R)Xecon(R)Gold 5218R CPU @2.10GHz,GPU型号为NVIDIA Geforce RTX 3090,显存为24.0G,数量2。该YOLOv5-αTB识别检测模型是基于Pytorch深度学习框架,编程语言为Python,使用CUDA 11.1版本和CUDNN 8.0.4版本对深度学习模型进行计算加速。训练迭代次数为1 000次,初始学习率为0.001,动量设置为0.9,batch size为16。

1.4 评价指标

本研究结果通过检测精度来对麦穗识别检测模型进行评估,将模型的识别检测效果分成了四种情况,分别是真阳性(TP)、假阳性(FP)、真阴性(TN)、假阴性(FN)。如果模型检测框和麦穗边界框的IoU大于设定的阈值0.5,则将该预测框设定为TP,反之设定为FP。如果小麦边界框没有匹配到预测框,则存在漏检现象设定为FN。在该试验数据下,不需要用到TN指标,其中前景总是为麦穗。TP是正确检测到麦穗的数量,FP是错误检测到的数量,FN是未检测的数量。精确度(precision,P)和召回率(recall,R)定义为:

(9)

(10)

模型识别检测图像上存在误检、漏检现象,仅仅使用精确度或者召回率来衡量该模型的性能,存在较大的缺陷,因而引入了平均精度(AP),以对模型的精度和性能有更好评判。AP的范围在0到1之间,其值越接近1,说明该网络模型的精度越好,越接近0则说明精度越差。

(11)

2 结果与分析

2.1 YOLOv5-αTB识别检测模型结果分析

从图7可以看出,随着训练轮数的增加,YOLOv5-αTB识别检测模型的精确度、召回率、平均精确度逐步增加,但当训练轮数增加到300轮后,各精度指标提升效果趋于平缓。从精确度和召回率的关系看,P-R曲线越靠近右上角,曲线下方面积越大,说明该模型越优,识别检测麦穗效果越好。

图7 YOLOv5-αTB模型各指标图Fig.7 Index chart of YOLOv5-αTB model

2.2 不同麦穗识别检测模型对比与分析

为进一步分析YOLOv5-αTB模型对麦穗识别检测的效果,选取了该领域上主要的检测模型Faster R-CNN[26]、OLOX[27]、RetinaNet[28]进行精度对比试验,进而比较其试验精度。结果表明,在相同环境下,YOLOv5-αTB模型对麦穗识别检测的平均精度为88.64%,而Faster R-CNN、YOLOX和RetinaNet的平均精度均较低,分别为54.10%、65.25%和49.30%;而YOLOv5-αTB的平均精确度较YOLOv5模型也有一定的提升,后者的平均精确度为85.72%。

为了更加直观地了解各个模型的识别检测效果,从测试集中选取10张图像使用各深度学习模型进行识别检测并手动统计检测出的麦穗数目以及错误检测成麦穗的数目(表1)。与人工手动计数的真实麦穗数目相比,Faster R-CNN模型和RetinaNet模型效果欠佳;YOLOX模型仅在2个图像中识别检测效果优于YOLOv5-αTB模型,但其错误检测率偏高,不适用田间复杂环境麦穗检测。总体上,Faster R-CNN、RetinaNet、YOLOv5(s)、YOLOX和YOLOv5-αTB模型识别检测麦穗的准确率分别为62.60%、18.80%、 94.62%、96.64%和97.00%,误检率分别为0%、0%、0.34%、3.27%和0.07%。

表1 不同模型的检测数量比较Table 1 Comparison of detection quantity between different models

将其中1张图像通过各模型识别检测后,可视化结果为图8。各检测模型均使用矩形框对测试的小麦图像进行麦穗框选。红色框表示模型测试输出结果框,绿色框表示漏检麦穗,橙色框表示误检。综合对比表1以及图8可以看出,Faster R-CNN和RetinaNet模型的检测精度较低,存在大量的漏检现象,较多的麦穗无法很好地被识别检测出,适用性较低。而YOLOX模型的检测精度虽然高,能够检测出图像中绝大部分麦穗,但误检率较高,常把叶尖、杂草尖等相似尖状类物体误检成麦穗或者是存在一个麦穗重复检测两次的情况。而YOLOv5-αTB模型的检测精度相比于其他检测模型高,误检率较低,具有较好的大田适用性。

图8 不同模型的检测结果可视化Fig.8 Visualization of test results of different models

3 讨 论

YOLOv5模型在田间复杂背景下获取的麦穗数据集时麦穗图像采集效果会受到微风、光照等因素的影响,图像存在模糊、过度曝光等问题,模型鲁棒性较差,识别检测时误、检漏检现象较多,适用性不好,难以在大田场景中应用。本研究对YOLOv5模型的特征提取主干网络、特征融合结构、损失函数三部分进行改进,构建了YOLOv5-αTB模型,很好地解决了原模型对麦穗识别检测过程中存在的这些问题。结果表明,在测试集上,YOLOv5-αTB模型的精确度、召回率和平均精度分别为99.95%、81.86%和88.64%,其中平均精度较YOLOv5模型提升2.92个百分点;在检测统计麦穗数量上,相对于人工计数结果,该模型识别检测精度约97.00%,误检率约为0.07%。在大田小麦麦穗灌浆期识别检测中,该模型准确度也明显高于该领域其他主流模型。

随着计算机技术和人工智能技术的快速发展,基于卷积神经网络的田间麦穗检测方法也趋于成熟。本研究工作内容可拓展至大部分小麦品种甚至其他的农作物,为广大的农业研究人员和从业人员提供在田间开展产量、评估品种和栽培管理措施的优劣等方面的技术手段。在农业领域中,利用卷积神经网络方法在田间作物试验中的广泛应用提供了其他新思路。例如,叶面积指数测定、病虫害识别与诊断、群体叶绿素状况测定等方面均有广泛的应用前景。小麦麦穗识别检测受自然环境的约束,也与小麦生长阶段、穗部性状相关,因而YOLOv5-αTB模型的应用效果需要进一步的实践检验,其精度也有待于进一步提升。

猜你喜欢

麦穗特征提取小麦
五月麦穗金灿灿
主产区小麦收购进度过七成
孔令让的“小麦育种梦”
叶面施肥实现小麦亩增产83.8千克
彩虹色的雨
哭娃小麦
麦穗穗
基于Daubechies(dbN)的飞行器音频特征提取
拣麦穗
Bagging RCSP脑电特征提取算法