果实采摘机器人多目标视觉识别方法研究

2022-11-30唐维道

中国新技术新产品 2022年17期

唐维道

（上海邮电设计咨询研究院有限公司，上海 200092）

0 引言

国内外专家对果实的识别的研究非常多，但是普遍存在果实识别率不高的情况，果实识别的主要方法有Sobel边缘提取、Hough变换以及果萼特征识别等，这类方法主要通过判断果实的颜色、形状等特征对果实进行识别，主要应用在小范围、单目标的果实识别工作中，但是识别多目标果实的效率较低[1]。利用K-means算法可以进行多目标识别，该方法的优点较多，例如聚类简单、运算速度快等，如果出现大数据集，那么该方法不仅处理效率高，而且还可以伸缩。然而，该方法存在一个问题，在识别过程中，过于重视初始中心点，因此会经常出现局部最优解，这样就会降低果实的识别效率[2]。针对这个问题，该文提出了一种新的聚类果实识别方法，对K-means算法进行改进，并且以猕猴桃为例对算法进行验证，测试结果表明，该方法可以提高多目标果实的识别率，很好地解决了局部最优解的问题。

1 颜色空间转换

如果要准确地进行目标分割，就必须有合适的颜色空间，普通的图像大都属于RGB颜色空间，该颜色空间主要由三基色组成，分别是红色、绿色和蓝色，因为3种颜色之间的相关性很强，所以没有办法对3种颜色进行独立运算，也就无法实现独立的图像分割和处理。Lab颜色空间是CIE（国际照明协会）确定的色彩标准模式，任何图像的任何颜色都可以在Lab颜色空间中进行表达，Lab颜色空间也是最均匀的颜色空间，与设备没有关系，非常适合接近自然光照的场合。因此，该文所提出的方法使用Lab颜色空间，并在该颜色空间下对猕猴桃目标图像进行分割。Lab颜色空间的色域更宽阔、均匀，更接近自然光照，并且各个色域相对独立，可以更好地对多目标果实进行分割、识别和定位[3]。

Lab颜色空间可以通过XYZ空间进行转换，主要由3个要素（L、a和b）构成。其中，L表示亮度特征，a和b表示色彩分量，取值范围为-128～+127。+127a代表红色，-128a代表绿色，+127b代表黄色，-128b代表黄色。所有的颜色由这3 个值交互变化组成。RGB空间可以通过公式（1）转换到XYZ颜色空间。

XYZ和Lab颜色空间的转换如公式（2）、公式（3）所示。

式中：R为RGB颜色空间下的红色分量，G为RGB颜色空间下的绿色分量，B为RGB颜色空间下的蓝色分量；X、Y和Z为3个假想原色的分量；Xn、Yn和Zn为正常光照下的刺激值；f为校正变量；t为校正标量。

将图像转换到Lab颜色空间后，就可以利用K-means聚类算法对颜色空间进行聚类分割。

多果实猕猴桃图像的Lab图像空间转换结果如图1所示。

2 改进K-means聚类算法的多目标果实识别方法

设样本集为A={a（1），a（2），…，a（n）}，每个a（n）∈R（m），R（m）是m维欧式空间。把这一类样本聚集成K个族类，初始的K个聚类中心定义成{φ（1），φ（2），…，φ（k）}，φ（k）∈R（m）。计算每个样例属于的类，如公式（4）所示。

式中：a（i）为样本；φ（j）为类聚中心。

再计算每个类的聚集中心，如公式（5）所示。

式中：j为类聚中心的数量，j为整数。

重复上述过程直至聚类收敛。

初始类聚中心的选择是改进算法的关键，不变矩是表征区域特征重要的参数，用f（x，y）表示流型图像，r+s（r、s为整数）阶矩和中心矩的离散化如公式（6）、公式（7）所示。

式中：p为p数字图像距和中心距离散化坐标。

图像比例的变化对图像有较大的影响，为了避免这样的影响，可以使用对中心矩进行规格化的方法，如公式（9）所示。

式中：φrs为中心矩的离散化表达式；φ00为中心矩的坐标。

当r+s的值为2或者3时，就可以建立7 个不变矩，这样就可以消除平移、缩放以及旋转对图像的影响。7个不变矩构成一组特征量，具有旋转、缩放和平移不变性，如公式（10）所示。

式中：I为不变矩。

d（i）的类聚中心如公式（11）所示。

式中：vi为d（i）的类聚中心。

重新计算类聚中心，如公式（12）所示。

公式（12）中的函数h的功能是判断xi的类别是否属于j类，如公式（13）所示。

为了提高多目标果实的识别率，该文采用高斯模板进行平滑处理，这样就可以降低图像的模糊程度[4]，如公式（14）所示。

式中：G为高斯模板。

高斯模板种类多样，无论哪一种模板都是由（2k+1）×（2k+1）的矩阵I组成，（i，j）位置的元素值由公式（15）决定。

式中：λ为标准差，λ=0.8；k为元素值，常数。

使用该方法可以使同类间像素距离最小，反之则间距离最大[5]。使用该方法对猕猴桃多果实进行处理的结果如图2所示。由图2可知，通过该方法可以把图像分为3类。

3 测试结果

为了验证该文所提出的算法的正确性，随机选取多幅图像和其他识别算法进行对比测试。算法基于MATLAB（version2018a8）实现。该文测试了10 幅图像，选取其中3幅图像的识别效率。

图像拍摄装置主要由机器视觉、辅助补光和电脑3个部分构成，机器视觉装置为微软相机，在拍摄过程中可以根据天气状况和拍摄时间选择不同的辅助补光设备。另外，也可以根据光照选择不同的补光设备。使用数据线将机器视觉拍摄的各种图像传输给电脑。

机器视觉装置的拍摄的图像动态分辨率是2304×1728 dpi，最大帧频是30 fps，使用自动对焦的方式拍摄各种猕猴桃的图像，图像格式为jpg格式，图像的粉绿设置为640×360 pt，传递图像信息的数据线为USB3.0接口。处理图像的电脑为华为笔记本电脑MateBook14s 2022 英特尔Evo12代酷睿标压i5 16G 1T/14.2英寸90Hz触控/高性能轻薄本。辅助光装置为无级可调光LED影视平板灯，其参数为CM-LED 1200HS，最大照度为1 m 。

由图3可知，Otsu阈值分割法噪声大，识别率最低，R-G分割算法虽然识别率提高了，但是噪声较大，该文所提出的算法的优势比较明显，不但识别率进一步提高，而且还很好地控制了噪声。为了验证该文所提出的算法的优越性，还对4种算法的识别率和算法执行时间进行了定量分析。

由表1可知，该文所提出的算法的正确平均识别率达到96.95%，比R-分割算法的正确平均识别率80.51%高16.44 %，比Otsu阈值分割算法的正确平均识别率5.39%高91.56 %，比传统K聚类法的正确平均识别率89.65%高7.3 %。

表1 算法的识别率对比测试结果

该文提出的果实采摘机器人多目标视觉识别方法将试验的猕猴桃多目标果实从背景中分割出来，从而完成了识别果实的任务，同时运用高新模板和改进K-means聚类算法，这样就可以避免出现局部最优解的情况。在进行图像处理前，对图像进行通道变换，充分利用高斯模板，在RGB 通道下对图像进行平滑处理，这样就能保证可以正确识别果实。在 Lab通道下完成了 K-means 聚类，这样就可以将图像分为果实、树叶及其他背景。

4 结语

该文论述了一种果实采摘机器人多目标视觉识别方法。首先，进行色彩的空间转换。其次，在传统K-means多目标识别方法的基础上对算法进行改进，解决了传统K-means多目标识别方法存在局部最优解的问题。该文以猕猴桃为例对算法进行验证，通过与其他算法测试结果进行比较可知，该文所提出的算法在提高果实识别率的同时，还降低了噪声，具有较大实用价值。