APP下载

基于多源图像融合的自然环境下番茄果实识别

2021-10-13王文杰杨智宇刘成良

农业机械学报 2021年9期
关键词:红外聚类番茄

王文杰 贡 亮 汪 韬 杨智宇 张 伟 刘成良

(上海交通大学机械与动力工程学院, 上海 200240)

0 引言

我国是番茄种植面积最大,生产总量最多的国家[1]。目前,国内番茄采摘主要依靠人工进行。一方面,受人口老龄化影响,劳动力资源紧缺导致劳动力成本不断升高[2];另一方面,人工采摘效率较低,而且质量无法保证。因此,研究番茄果实识别算法,提高采摘设备的自动化、智能化水平对缓解人力资源紧缺,提高生产效率具有重要意义。

随着农业自动化、智能化技术的不断发展,机器视觉技术已经成为农业采摘机器人的核心技术之一[3-5]。图像分割是机器视觉技术的前提和关键[6]。由于番茄果实表皮柔软,而末端执行器一般为金属结构,且动作简单,前期的图像分割精度较低会导致果实采摘损伤率高。因此,提高图像分割的准确率和精度是目前国内外研究的热点问题。传统图像分割算法一般使用RGB图像,以颜色阈值作为分割依据[7-9],对图像中的几何形状和空间位置等深层特征的提取较为困难,算法的适应性差。特定的阈值参数只针对特定的场合,当自然环境变化,如光照变化时,设定的阈值参数失效进而导致识别失败。

近年来,随着计算机硬件性能不断提升,深度神经网络(DNN)方法凭借其强大的特征提取能力和自主学习能力被广泛应用于农作物目标检测[10-11]。与传统算法相比,神经网络模型能够提取出图像的隐性特征(无明显实际含义的特征),并通过自我学习和迭代得出划分的依据[12-16]。增加图像的信息量能够提高分割的准确率和精度,使用多源图像是一种有效方法。通过加噪声、改变图像亮度、对比度等方法对样本集进行数据增强,基于深度学习的果实识别算法在场景变化的自然环境具有更好的检测效果,但存在一定的局限性,例如需要大量训练样本,样本标注工作量大、训练时间长等问题。

自然环境下,环境复杂多变,干扰因素多,信息量大,特征提取困难;番茄果实柔软易损,图像分割精度要求高;单源RGB图像对重叠、粘连果实识别效果不佳;传统样本集标注方法重复性高,工作量大。为此本文在Mask R-CNN的基础上,提出一种基于多源图像融合的图像分割算法,借助聚类方法完成样本集的快速标注,以提高标注效率和检测精度,实现对番茄果实图像精准分割。

1 实例分割算法模型

1.1 图像配准及多源图像融合

番茄在温室种植环境下,光线变化、重叠粘连等复杂情况很难用单纯的RGB图像经过深度学习模型进行准确预测,而加入深度信息与红外信息将有利于这些样本的预测,提高分割精度[17]。如图1所示,深度图像不受光照影响,能通过深度信息区分不同番茄个体,红外图像中心亮周围暗的特点有利于提取边缘特征。

本研究使用不同传感器采集到的多源图像,其分辨率存在差异。普通彩色图像的分辨率为1 920像素×1 080像素,而深度图和红外图的分辨率为512像素×424像素,需要使同一样本下的图像具有相同的分辨率。由于不同传感器视野范围不同,简单的图像缩放不能实现图像配准,通过转换矩阵可以实现像素点的精准匹配。采集到的深度图和红外图的图像分辨率均为512像素×424像素,下面以红外图向RGB彩色图匹配为例说明图像配准的过程。一般地,红外图像像素坐标(X,Y)和彩色RGB图像的像素坐标(x,y)关系式为

(1)

式中T——坐标变换矩阵

a1~a8——待求解参数

可以利用棋盘标注图像获得多组(远大于4组)对应的(x,y)和(X,Y)坐标,然后通过最佳平方逼近法求得超定方程组的最小二乘解,得到矩阵T,进而得到分辨率为1 920像素×1 080像素的红外图像。

特别地,Microsoft官方提供了可以获得红外图和彩色图对应映射关系的内置函数MapDepthFrameToColorSpace,生成坐标映射关系表,然后通过坐标关系映射表得到配准后的图像。图2描绘了图像配准的过程,深度图和红外图通过矩阵T或者坐标关系映射表生成与彩色图匹配的红外图和深度图。

多源图像融合将针对同一目标采集到的多源信道图像综合成高质量图像,能够最大限度地挖掘各个信道的有用信息,提高图像信息的利用率,便于后续计算机模型的读取和处理[18]。图像可以视为一个矩阵,配准后的彩色RGB图像(1 920像素×1 080像素×3)、深度图像(1 920像素×1 080像素×1)、红外图像(1 920像素×1 080像素×1)具有相同的分辨率(1 920像素×1 080像素),可以融合成一幅图像(1 920像素×1 080像素×5)。如图3所示,融合后图像具有r(红色)、g(绿色)、b(蓝色)、d(深度)、i(红外)5个通道的信息,r、g、b、d、i分别为各通道对应数值。图像融合公式为

F=C∪D∪I=(x,y,r,g,b,d,i)

(2)

其中

C=(x,y,r,g,b)
D=(x,y,d)
I=(x,y,i)

式中C——彩色图像D——深度图像

I——红外图像F——融合后图像

1.2 基于聚类算法的数据集快速标注方法

完整的训练数据不仅要包括清晰有效的图像信息,还需要有充分有效的标注信息。已知番茄果实图像区域准确对应的语义标签,能够帮助神经网络进行有效地自我学习和迭代。对于大量的开放环境中番茄果实图像样本数据集,其标注难点在于,语义分割任务需要对图像中的每一个具体像素点分配语义标签。一方面,数据集标注工作任务量大,需要投入大量的时间和精力;另一方面,人工长时间标注出错率高,标注过程会受标注者的主观因素影响。因此,一种能够提高标注效率、缩短标注时间的辅助标注工具或算法是必要的。

目前,有许多公开的标注工具如VIA(VGG Image Annotator,图4a)、Labelme(图4b)等能够辅助研究人员进行标注工作。然而,这些标注工具只能对标注对象使用矩形框框选或者折线包络等粗略的标记,无法满足对图像中每个像素分配语义标签的像素级标注需求。针对这一问题,本文提出一种基于聚类算法的半自动快速标注方法,利用融合后图像信息广泛且综合的特点,将像素点的颜色、深度和红外信息作为聚类特征,沿用K-means算法的思想对场景进行初步分割,在此基础上完成样本集标注工作。

K-means是一种常用的聚类算法[19-20],根据数据样本内部特征的相似性,将一个数据集划分为固定数量的不相交子数据集[21],算法一般过程为:计算所有样本到所有聚类中心的距离并分配给最近的聚类中心,循环迭代直到全局样本到各自聚类中心的距离之和最小,无法继续优化时算法结束。

基于K-means聚类的样本集快速标注算法流程如图5所示,所使用的特征包括:像素点横坐标x、像素点纵坐标y、像素点红色分量Fr(x,y)、像素点绿色分量Fg(x,y)、像素点蓝色分量Fb(x,y)、像素点深度值Fd(x,y)、像素点红外强度Fi(x,y)。输入为经过图像配准和融合后的样本图像F,迭代次数设置为2 000。聚类中心数量k和分类特征权重wj为人工超参数需要多次调试后选择合适值输入。分类特征权重wj是相对值,表示相对于其它特征的重要程度,默认为1。标注过程如图6所示:①根据K-means聚类算法,图像根据其特征不同被分割为许多子区域。②根据分割图像的效果通过改变各个特征权重wj进行细微调整,接着选择成熟番茄果实所在色块。③通过图像二值化处理,生成最终标注图像。根据国家标准GB 8852—88,本文选择红熟中后期,即着红面4/10以上的番茄果实作为研究对象,标注过程中红熟中后期番茄的选择由人工完成。

该算法完成了像素级的精确标记,极大地减轻了研究人员的工作负担,一幅图像的标注时间由原来的60 s降低到20 s左右。对于个别样本图像,使用K-means聚类算法初步分割效果不能满足标注精度要求,需要手动进行调整。

1.3 基于扩展Mask R-CNN的图像实例分割算法

Mask R-CNN综合了研究成果,沿用了Faster R-CNN的思想,采用ResNet-FPN架构进行特征提取,与Faster R-CNN相比添加了Mask预测分支,不仅能够实现物体分类、定位,还能进行实例分割。与语义分割相比,实例分割对同类物体更精确。Mask R-CNN的优点在于:具有较高的精度,较快的运行速度,较强的泛化性能,被广泛应用于各种场景。但是在农业采摘场景中,Mask R-CNN模型存在一定的不足:农业场景中番茄成熟果实相互遮挡,由于卷积网络实例分割依赖于纹理特征和颜色差异,而相互覆盖成熟番茄果实表面平滑,颜色均匀,果实的边界难以被准确分割。为适应多源融合图像的特点,发挥多源图像的优势,本文在Mask R-CNN的框架上进行扩展,其模型框架示意图如图7所示,网络输入由原来的RGB图像更改为多源融合图像,网络输出为目标物体的类别、最小包络框和目标物体像素级掩膜结果。由于输入图像的维数由传统的3维更改为5维融合图像,因此本研究对ResNet[22-23]浅层网络结构进行修改,并将修改过的网络部分参数进行高斯随机初始化。因为输入后为全卷积神经网络,所以只需修改第1层参数。加载权重参数排除conv1,调整heads包含的网络层将conv1添加至训练层。迁移学习是指预先使用大量通用数据对模型参数进行粗调,然后使用本地数据进行微调[24-25]。利用迁移学习的优势,先使用ImageNet数据集对特征提取网络ResNet50预训练,然后使用本地制作的番茄果实数据集训练。

数据增强能够提高模型的精度和泛化性能,针对自然环境下的任务特点,通过改变图像亮度、对比度、添加高斯噪声等方式(图8)对原始数据集进行数据增强操作,强化模型对光线变化的适应能力。

2 实验验证和比较

2.1 样本采集及模型训练

Microsoft的Kinect相机是一种被广泛应用的多模态视觉传感器,可以同时采集RGB图、红外图和深度图[26]。近年来大规模数据集(如ImageNet、COCO等)为计算机视觉研究工作提供了便捷,研究人员在缺乏实验条件和样本数据集的条件下,能够借助现有数据集资源实现一些基础、普适的计算机视觉任务[27-28]。但对于具体的数据驱动的计算机视觉识别模型,还需要提供大规模标注良好的样本数据集进行针对性训练。

本文样本采集于上海市金山区某现代温室示范基地番茄设施温室(图9),在计算机和Kinect V2相机平台上,编写控制程序采集开放农业环境下的番茄果实图像。共采集了2 000份(约30 GB)样本作为训练集原始材料,其中每份样本包含一幅RGB彩色图像(1 920像素×1 080像素)、一幅红外图像(512像素×424像素)、一幅深度图像(512像素×424像素)和一张坐标映射关系表。

将采集到的图像进行预处理,并通过配准、融合等图像处理方法生成融合图像。通过数据增强操作将2 000份样本扩充到12 000份,随机选取9 600幅作为训练集,1 200幅作为验证集,1 200幅作为测试集用于模型训练。模型训练时采用0.001的初始学习率训练头部网络层,然后以0.000 1的学习率训练整个网络层,根据模型在验证集的效果调整模型超参数。

服务器配置为:Intel Xeon(R) CPU E5-2620 v4 @ 2.10 GHz×32,16 GB的NVIDIA TESLA P100 GPU,运行内存128 GB。基于上述训练策略在服务器上经过8 h迭代,训练误差逐渐下降并趋于稳定,最终得到网络参数文件,模型训练完成。

2.2 基于多源图像融合的扩展Mask R-CNN算法实验验证

为了评估模型的性能,验证模型对成熟番茄果实的检测效果,使用测试集中没有参与模型训练的番茄果实图像进行模型预测,其实现过程为:首先,将最终得到的模型参数文件加载到神经网络模型中,然后输入待检测图像,经过约0.45 s得到模型预测结果。预测结果包括3部分:目标物体的类别、目标物体的边界框以及目标物体的掩膜。

由于原Mask R-CNN对于果实检测已经可以取得很好的效果,因此与原Mask R-CNN算法模型相比,基于多源图像融合的扩展Mask R-CNN算法模型性能及检测效果的变化难以直接在检测结果图像中体现出来,因此需要引入量化指标对模型进行评价。

假设一幅图像中判断为成熟番茄的成熟番茄数目为TP,判断为环境背景的成熟番茄数目为FP(漏检数目),将未成熟番茄或枝叶判断为成熟番茄的数目为TN(误检数目)。

检测准确率(Accuracy)可以表示为

(3)

实例分割的精度可以用交并比pIoU(Intersection over union)表示[29],计算式为

(4)

式中P——模型预测的成熟番茄果实区域

T——实际的番茄果实所在区域

farea——计算某区域像素数的函数

消融实验是研究神经网络系统的一种有效方法[30]。分别使用RGB通道数据、RGB+D通道数据、RGB+I通道数据、RGB+D+I通道数据进行消融实验训练,并在相同的200份测试集上进行测试,得到模型的检测准确率和IoU结果如表1所示。与基于RGB彩色图像传统Mask R-CNN检测模型(检测准确率为95.4%、交并比为0.851)相比,基于多源融合图像的检测模型性能都有一定提升,RGBD模型检测准确率为97.4%、交并比为0.897,RGBI模型检测准确率为96.0%、交并比为0.891,而基于RGBDI融合图像的Mask R-CNN模型的检测准确率为98.3%、交并比为0.916。

2.3 算法效果对比

文献[31]提出的YOLO v3算法是目前应用最广泛的目标检测算法之一,使用基于残差神经网络的Darknet-53作为特征提取器,采用多尺度融合的方法进行类别和位置预测。

分别使用基于多源图像融合的扩展Mask R-CNN检测模型、基于YOLO v3算法的检测模型和传统Otsu阈值分割算法对测试集中的番茄图像进行测试,图10为3种算法不同光线条件的预测结果对比,图11为Otsu算法模型与扩展Mask R-CNN算法模型预测结果局部细节对比。Otsu算法受环境因素干扰较大,模型预测结果噪声明显,检测准确率较低。例如,当亮度提高时,番茄果实高亮部分会检测失败。当亮度降低时,番茄的底部阴影部分由于太暗而无法识别(图10c),在实际采摘作业过程中,枝叶摆动、光线变化都会导致识别效果无法满足需求。此外,对于粘连果实,即当两个番茄距离很近时,Otsu算法无法进行单独区分。YOLO v3算法能够区分独立的番茄果实个体,受光线变化影响小,但算法输出结果为目标边界框,只能表示大致区域而无法实现对目标的精确定位。基于多源图像融合的扩展Mask R-CNN图像分割算法综合了深度图、红外图和彩色图的信息,通过对图像的颜色、形状、纹理、空间位置关系等特征进行深度挖掘,其检测效果明显好于Otsu算法和YOLO v3算法。其优点在于:①检测准确率更高,图像分割效果更好。Otsu算法以主要颜色信息作为阈值,识别结果中存在许多白色噪点,而扩展Mask R-CNN识别结果有完整的番茄轮廓。②抗干扰能力更强,光线变化对检测效果几乎没有影响。③能够进一步区分不同番茄果实个体。

2.4 扩展Mask R-CNN算法的不足

在实际识别过程中,扩展Mask R-CNN模型也存在许多不足之处:Mask R-CNN使用滑动窗格的方法寻找窗格中的最佳目标,因此部分番茄果实识别结果的边缘存在小部分缺失(图12a,检测边缘是直线而不是弧线);当番茄枝叶遮挡住番茄果实的1/5以下时,有时会被误识别为番茄的一部分(图12b);当枝叶遮挡区域超过2/3时,可能出现漏检现象(图12c)。番茄果实的枝叶遮挡问题工况复杂,涉及要素多,可作为未来研究和探索的重点。

3 结论

(1)提出了一种基于多源图像融合的扩展Mask R-CNN图像实例分割模型,其特点在于使用了彩色、深度、红外融合图像作为神经网络的输入,有效地扩充了图像的信息密度。

(2)提出了使用K-means聚类算法对数据集进行快速标注的方法,提高了图像标注效率,单幅图像标注时间由原来60 s左右减少到20 s左右。

(3)与以输入单一RGB图像的Mask R-CNN模型相比,基于多源图像的扩展Mask R-CNN算法其检测精度由95.4%提升至98.3%,交并比由0.851提升至0.916。

(4)与传统Otsu检测算法和YOLO v3算法相比,该算法能够区分不同番茄果实个体,图像分割结果清晰,边缘轮廓完整,且受光线变化影响小,适合自然环境下的作业需求。

猜你喜欢

红外聚类番茄
一种傅里叶域海量数据高速谱聚类方法
网红外卖
秋茬番茄“疑难杂症”如何挽救
一种改进K-means聚类的近邻传播最大最小距离算法
闪亮的中国红外『芯』
AR-Grams:一种应用于网络舆情热点发现的文本聚类方法
8路红外遥控电路
TS系列红外传感器在嵌入式控制系统中的应用
HOME家系列
基于Spark平台的K-means聚类算法改进及并行化实现