基于改进Unet的小麦茎秆截面参数检测

2021-07-30朱成宇胡小春王令强

农业机械学报 2021年7期

陈燕朱成宇胡小春王令强

(1.广西大学计算机与电子信息学院，南宁 530004； 2.广西多媒体通信与网络技术重点实验室，南宁 530004;3.广西财经学院信息与统计学院，南宁 530007; 4.广西大学农学院，南宁 530004)

0 引言

倒伏不仅严重影响小麦植株的正常发育，而且不利于正常的机械化收获[1]。研究小麦的抗倒性有利于实现小麦高产、稳产和优产。作物茎秆的力学特性与其微观结构如皮层/半径、机械组织比例、维管束数目等密切相关[2-3]。姚金保等[4]发现小麦茎秆机械组织细胞层数、厚度，维管束数目、面积以及髓腔大小与抗倒性密切相关。SHAH等[5]研究发现，与小麦和水稻抗倒伏性最相关的性状是株高、茎秆直径和厚度、上下节间强度、茎粗壁以及木质素和纤维素在茎壁中的积累和穗重。冯素伟等[6]从小麦的外部形态、内部显微结构及生理性状等方面综合分析了小麦茎秆的抗倒伏性，结果发现，小麦抗倒伏性与茎秆截面面积、大维管束数量成正相关关系。KONG等[7]研究发现，小麦茎强度与茎直径、茎壁显著相关，更厚的茎壁和节间干重增加也能帮助提高茎强度。刘唐兴等[8]研究分析表明，茎秆的主茎细胞、木质部和维管束对茎秆抗倒性有重要影响。陈桂华等[9]研究得出，水稻单茎抗推力与茎粗、维管束数目呈显著正相关。人工测量和分析相关茎秆形状，不仅过程繁琐，而且极易受到主观状态的影响。如何精确测量作物的微观结构信息、客观准确地获取表型数据、从宏观到微观对植物进行系统展示、为农作物优质丰产研究提供可靠依据已成为研究抗倒伏机理急待解决的问题。

目前，利用图像处理技术对作物微观结构进行种类识别、作物分类、产量预测和品质分析等研究已成为当前作物表型组学的研究热点[10-12]。徐胜勇等[2,13]分别基于模板匹配和扇环形区域分割完成对小麦茎秆截面参数的测量，包括小麦截面面积、截面直径、维管束数量和面积。郝雅洁等[14]通过对小麦植株进行侧拍和俯拍，再对获得的图像进行预处理，构建了小麦叶片面积的测量模型。左卫刚等[15]将小麦颗粒的尺寸、颜色、纹理作为特征，构建基于人工神经网络(ANN)的多层感知机(MLP)模型，实现了对小麦籽粒的分类。许鑫等[16]提出基于Harris角点检测和K-means聚类的分割算法对小麦苗进行识别。目前，对作物的图像分割研究主要基于图像RGB颜色通道及HSV通道的图像处理技术，再通过处理后的图像分析得到作物品种分类或作物参数与特征之间的回归关系。卷积神经网络(CNN)[17-19]在图像分割上效果显著[20]。U-Net[21]结构在医学细胞图像分割中取得了很好的效果。CE-Net[22]提出上下文编码模块，该模块由一个多尺度的密集空洞卷积模块和一个残差多路径池化模块构成，可多角度捕获具有高水平语义信息的特征。张慧春等[23]认为，高通量、自动化、高分辨率的植物表型信息采集平台与分析技术对于加快植物改良和育种、提高产量和抗病虫害能力至关重要。程曼等[24]对表型研究中的传感器、平台和信息分析现状进行了整体分析和总结，提出应综合考虑实际需求及经济合理性进行选择和设计。杨知等[25]利用LinkNet卷积神经网络模型对高分辨率遥感影像进行了水体信息提取。

文献[2]为研究小麦茎秆截面提供了很好的方法，但该方法只有在厚壁和维管束亮度显著低于相邻组织时才能获得较高的检测精确度，当厚壁和维管束的亮度接近或高于相邻组织时，检测精确度下降。另外，当染色过程导致的图像之间或图像内部色差较大时，该方法对截面和髓腔尺寸的测量误差会增加，甚至无法对维管束的数量和面积进行识别和测量。

为解决上述问题，本文融合ResNet50和Unet深度学习网络构建维管束和背景区域的语义分割模型Res-Unet，搭建对截面、髓腔、厚壁和背景的语义分割模型Mobile-Unet，在此基础上，对小麦茎秆截面尺寸、髓腔尺寸和维管束面积等茎秆微观结构的相关参数进行检测。

1 数据集来源和标注

测试数据集来源于文献[2]，共110幅图像，图像分辨率为1 024像素×1 280像素。随机选取其中的85幅作为训练集、10幅为验证集、15幅为测试集。首先对训练集的样本图进行分析。图1所示为其中3幅样本图像。从图中可看出样本之间的形状、颜色和边缘等均存在较大差异。图1a中的图像两侧着色不统一，左侧维管束邻近区域颜色较浅，右侧维管束邻近区域颜色较深，而且左下方的厚壁部分有残缺。图1d维管束整体与邻近区域颜色差明显，厚壁无明显残缺，是便于处理和提取特征的样本类型。图1g右下部分的维管束较模糊，左上侧的厚壁存在缺失。此外，样本之间的通道数也存在差异。因此使用传统的图像处理方法对小麦茎秆截面显微图像相关参数的识别存在一定的局限性[2,14]。

使用Labelme工具分别对维管束和截面进行标注。对物体逐点标注形成分割图像(标签)并生成json文件；对json文件转换后得到维管束标注图和区域标注图。在维管束的标注图中，单幅截面图的维管束分布较均匀，但每个截面的形状存在较大差异；而且与厚壁距离较近的维管束尺寸偏小，容易与厚壁部分混淆。在厚壁、髓腔和截面的标注图中，厚壁部分与相邻组织区分度较低，有时还存在厚壁缺失的情况。因此，对维管束、厚壁等的像素级精确分割难度较大；而且难以用区域划分对所有样本图像进行有效识别。

2 网络结构设计

参数检测的网络模型由两部分组成。由于维管束和背景区分难度较大，因此一部分是由提取特征能力较强的ResNet50作为骨干网络并与Unet融合而成的Res-Unet网络模型，用于对小麦茎秆截面显微图像的维管束进行像素级识别，可保证丢失较少的精度；另一部分是由轻量级网络模型MobileNet和Unet融合而成的Mobile-Unet网络模型，用于检测、分割小麦截面中的厚壁、髓腔等区域，可提高模型分割的速度。

2.1 Res-Unet网络模型

Res-Unet的基础卷积块主要借鉴残差模块思想，ResNet50的基本残差单元由恒等块和卷积块构成，可极大缓解深层网络梯度消失的问题[23]。Res-Unet网络结构如图2所示，分为编码器(虚线左侧)和解码器(虚线右侧)两部分。编码器对输入图像进行下采样，捕捉输入图像的上下文信息，提取图像的分层语义信息特征，如轮廓、边缘、纹理、尺寸和颜色等；解码器使用反卷积进行上采样保证对特征的精确定位；此外，编码器同时直接将特征信息传递到同高度的解码器部分，提供更精细的特征，如梯度信息等。

Res-Unet网络模型通过将编码器和解码器对应的特征图进行拼接，能够用浅层网络保存较好的细节位置信息辅助分割。输入图像为小麦截面显微结构的彩色图像，输出为将维管束和背景分割后的图像。其中维管束区域为红色，背景区域为黑色，最终实现对维管束的精确分割。

如图2所示，网络各部分的工作过程如下：

(1)编码部分。输入图像首先经过一个卷积核为7×7、步长为2的卷积层和一个最大值池化层，将图像尺寸缩小至原始图像的1/4，通道数增至64，用于提取维管束的纹理和边缘等浅层特征；然后第1个卷积块和2个恒等块不改变图像尺寸，仅增加通道数，使7×7卷积层和池化层提取的浅层特征更准确；后续的每一个卷积块均将图像尺寸缩减至卷积前的一半，卷积块和恒等块进一步帮助提取维管束的特征，直至图像尺寸缩减至输入图像的1/16，通道数达到1 024。

(2)解码部分。每次上采样操作后经过一个3×3的卷积层，不断提取维管束的深层特征，再与同高度的解码器输出进行通道合并操作，对整体特征进行整合，帮助对维管束精确识别；保证输入前后通道数不变，不引入额外计算参数，最终输出维管束和背景分割后图像。

2.2 Mobile-Unet网络模型

Mobile-Unet使用深度可分离卷积(Depth-wise separable convolution，DSC)将标准卷积分解为空间卷积(Depthwise convolution，DC)和通道卷积(Pointwise convolution，PC)，模型如图3所示。DC是逐通道的卷积，一个卷积核负责一个通道；PC是采用1×1卷积核的普通卷积。DSC先用DC对不同输入通道分别进行卷积，然后再用PC将上面的输出进行整合，这样可保持模型性能的前提下降低模型大小，同时提升模型速度。DC和PC关系为

(1)

式中K——DC的卷积核尺寸

N——输入特征图数量

O——输出特征图数量

Mobile-Unet实现流程为：首先输入图像经过一个3×3卷积层并做批标准化，然后经过ReLU激活函数增加非线性能力；第1个DC步长设置为1，将通道数增加至64；第2个DC是下采样操作，步长设置为2，该操作完成后图像长宽均减少一半、通道数增至128，可提取较深层的特征；每次下采样后的首个DC与第1个DC类似；后续DC与第2个DC类似，不断进行下采样操作，直到图像尺寸变为7×7、通道数为512，完成图像的下采样操作。解码部分与Res-Unet类似，也是上采样操作后与解码部分做通道合并操作，输出分割截面、厚壁、髓腔和背景的分割图像。

3 实验与分析

实验硬件环境为i5 6300HQ 2.3 GHz、16 GB内存、NVIDIA GeForce GT965M显卡，操作系统为Windows 10专业版，编程语言为 Python 3.6，深度学习框架为Tensorlow 1.15.0和Keras 2.2.5。

3.1 模型训练

模型训练的图像预处理主要是对原始图像进行图像增强；对图像数据分别采用去均值化和归一化的预处理。在训练时设置模型初始权重和损失函数，并选定模型使用的优化器。

3.1.1图像增强

由于分割数据集数量较少，而且维管束分割中正负样本极不均衡，因此需对原始数据集进行图像增强处理，以扩充训练数据集的图像数量。图像增强操作包括随机翻转、高斯模糊、仿射变换、图像截取和填充等[27]。由设计的网络模型对每幅图以一定概率随机选择其中一种或几种操作实现图像增强[27]。图4为图像增强效果图，图4a为原图随机实施图像增强操作后的样例图。图4b为进行水平翻转、多频噪声掩膜、高斯模糊和仿射变换4种操作后的效果图；图4c为进行中值模糊和对比度变化操作后的效果图；图4d为进行水平翻转和浮雕效果操作后的效果图；图4e为进行水平翻转、垂直翻转、均值模糊和灰度化操作后的效果图；图4f为进行仿射变换、像素点随机去除和随机截取与填充操作后的效果图。

3.1.2图像数据预处理

图像数据预处理主要用于减少图像变形对模型的影响和减少模型拟合的时间。

采用去均值化方法对维管束参数测量的图像数据预处理。去均值化主要有两个作用：一是移除图像平均亮度、降低图像亮度，在不影响判断物体位置的前提下突显各样本的特征；二是降低输入值，以避免在反向传播时出现梯度爆炸的问题。去均值化的具体操作是：指定在ImageNet训练数据集的平均像素值来实现与图像数据生成器相同的效果，R、G、B通道分别减去103.939、116.779、123.68，移除图像中的相同部分，凸显图像特征，完成数据特征标准化。部分样例图去均值化前后的效果如图5所示。从图5可见，降低图像亮度后维管束的特征更明显、更清晰可见。

采用归一化方法对测量截面、厚壁和髓腔参数进行图像预处理，使各个特征的尺度控制在相同的范围内，便于找到最优解、提升精度。归一化计算公式为

(2)

式中xmin——特征最小值

xmax——特征最大值

x——处理前像素值

x*——处理后像素值

3.1.3参数配置

由于本文使用小样本数据集，因此通过迁移学习的共享参数方式，将在大规模数据集(ImageNet)上训练好的ResNet50网络权重应用到小麦茎秆截面切片图像的训练模型上，不仅可缩短训练模型的时间，还可获得更好的测试结果、预防过拟合。

选择交叉熵损失函数作为两个分割模型的损失函数进行训练，损失函数Loss计算公式为

(3)

式中n——样本数量

yi——第i个样本真实值

损失函数用于衡量模型预测效果，表现为预测数据与实际数据的差距程度。

3.1.4优化器

使用的模型优化器Adadelta不需要人工设置学习率，每维均有单独的动态学习率，而且对超参数不敏感，还能减小梯度下降算法的计算量。此外，Adadelta对于大梯度、噪声和不同结构具有鲁棒性。迭代公式为

(4)

式中 Δx——更新量

g——梯度

RMS——均方根

gt——第t次迭代的梯度

3.2 评估指标

参照文献[2]使用均方根误差(RMSE)和平均相对误差(MRE)分析参数测量指标的精度。但实验过程中发现存在MRE和RMSE的评估效果良好、检测误差较大的情况。因此本文增加了精确率(Precision)、召回率(Recall)、F1值(F1-score)、平均交并比(Mean intersection over union，mIoU)作为评价指标。目的是在像素级考虑测量结果的准确性和有效性，作为评价维管束、髓腔、厚壁和截面分割效果的依据。

3.3 维管束特征提取

维管束特征的提取是通过Res-Unet模型实现，可极大减少图像之间的色差对测试结果的影响，有助于完整地提取维管束的浅层特征和深层特征，从而将维管束与相邻组织进行精确分割。但由于手工切片的染色操作原因，有些图像中存在微小的噪点，造成对该类图像的维管束误判。因此依据所有识别为维管束的面积作为判断依据，获取面积平均值，并将面积小于平均值30%的点判定为噪点并删除。

存在噪点的样例如图6所示。从图6中可见，用绿色标出的4个点是极微小的噪点，如果不去除，会造成错误地把噪点识别为维管束，从而影响相关参数的计算。通过去噪的操作后，可消除此类噪点的影响，从而保证Res-Unet模型对图像中每个像素进行准确分类，为后续维管束相关参数计算提供可靠的依据。

维管束特征提取的部分测试结果图如图7所示。从图中可看出，即使图7a和图7c在颜色和亮度上存在较大差异，而且图7a中维管束和周围组织区分不明显，但从图7b和图7d的分割结果看，Res-Unet模型对维管束的位置、尺寸和数量的检测性能表现良好，预测结果较准确。

3.4 实验结果分析

首先通过截面直径、面积等7个参数的均方根误差(RMSE)和平均相对误差(MRE)分析各指标的精度；再通过厚壁、髓腔等4个参数的精确率、召回率、F1值和平均交并比来评价模型。实验结果表明，15幅测试图像的截面直径、截面面积、髓腔面积、维管束数量和面积的检测时间为324 s，即平均每幅图像测试时间为21.6 s。

3.4.1RMSE和MRE结果分析

(5)

(6)

表1 两种方法的测试结果

3.4.2精确率、召回率、F1值和平均交并比结果分析

Mobile-Unet网络的实验结果如表2所示。其中，髓腔尺寸和截面尺寸的精确率、召回率和F1值的效果最好，均不小于98.50%，平均交并比稍低，为91.90%。说明Mobile-Unet网络对染色后的截面细胞与背景色差十分敏感，大大降低了厚壁阴影误差和背景噪声的影响，从而保证了髓腔和截面在精确率、召回率、F1值和平均交并比获得较高的数值。

表2 网络在小麦数据集的精度结果

由于手工操作导致切片染色不均匀，截面的薄壁组织特征与维管束特征十分相似，容易导致维管束附近的像素点可能被检测为正例(维管束)，而维管束被检测为负例(背景)，从而影响维管束的识别精度。Res-Unet网络针对维管束识别精确率、召回率和F1值都不小于87.29%，平均交并比为89.48%，说明Res-Unet网络具有良好的性能。

从表2可得，本文网络性能良好，可准确获取小麦茎秆机械组织相关参数。