基于深度学习的竞赛系统中机器人运动目标检测

2021-06-27阳永清

电子设计工程 2021年12期

阳永清

（长沙师范学院信息与公共实验管理中心，湖南长沙 410100）

摄像机是最为常用的视觉传感器，将摄像机加入到机器人以后，可将摄像机作为控制器，使机器人通过对被测物体或工件的图像获取、目标特征提取、检测与数据分析[1]，将机器人的机械运动与机器视觉的检测技术融合起来，逼真地模拟出人体的头眼或手眼功能，根据环境观测与任务目标完成不同的作业任务，降低工业产品的工程设计难度[2]。竞赛系统机器人运动目标检测存在无用区域，易出现噪声及空洞现象，存在误检率较高的问题，因此，有必要对竞赛系统机器人运动目标检测进行深入研究。

国内外都在积极研究机器人运动目标检测方法，以期将机器人应用于重复性、高强度、劳动量大的工作领域，在国内外机器人竞赛中取得了优异的成果，因此，研究了帧间差分法与背景差分法两种机器人运动目标检测方法[3]。虽然目前研究的帧间差分法与背景差分法都可以让机器人检测出运动目标，但是帧间差分法在应用的过程中会引起噪声和空洞；背景差分法只能在特定的背景中检测出运动目标。

因此，针对帧间差分法与背景差分法存在的问题，重点研究竞赛系统中机器人运动目标检测，利用深度学习算法，让机器人可以在竞赛系统中检测运动中的目标时，不会受到无用区域因素的干扰，且适应竞赛系统中场景变化。

1 检测方法

1.1 建立目标图像获取模型

将机器人获取运动目标图像的摄像头看作模型的中心Oc，Yc是机器人获取运动目标时产生的光轴，这条光轴与投影平面A相互垂直，此时在机器人获取运动目标图像的摄像头平面右侧创建虚拟投影平面A′[4]。建立以Oc为原点，Yc为Y轴，Zc为X轴的机器人获取运动目标图像摄像头的图像获取模型，如图1所示。在图1 机器人摄像头运动目标图像获取模型中，P为机器人捕捉图像过程中的任意一点，其成像在平面A上的投影点是P′，在平面A′的投影点是P″，Xc为X轴投影，并将x、o、y图像的平面坐标以及像素坐标u、o、v设置在图1模型中。

图1 运动目标图像获取模型

根据图1 建立数学关系式，设机器人获取运动目标图像摄像头焦距为f，则有：

将式（1）带入运动目标图像获取模型，则有：

式（2）为运动目标图像获取数学矩阵模型。机器人在竞赛系统中寻找运动的目标机器人，通过图1 或式（2）获取运动目标图像，且这个图像属于运动目标范围图[5]。因此机器人在获取到运动目标图像后，需要对运动目标进行标定，在标定运动目标图像后，将获取的图像进行分割处理，进而提取运动目标特征。

1.2 运动目标标定

机器人获取到图像后，想要在机器人竞赛系统中获取运动中的准确位置，需要将图1 模型中的几何位置、属性参数，与坐标系中的一一对应，进而分割图像、提取运动目标特征、确定运动目标位置。因此提取图1 模型中的像素坐标系u、o、v和图像坐标系X、O、Y，如图2 所示。

图2 像素坐标系和图像平面坐标系

图1 中的光轴与图像平面的中心重合，因此将这个重合点作为像素坐标系和图像坐标系的中心点O，将像素坐标系提取为因此设图像平面坐标系单位距离上的像素值为dx和dy，则有：

将式（3）带入像素坐标系和图像平面坐标系，则有：

式（4）即图像平面坐标系矩阵。联立式（2）和式（4），设则有：

式（5）中m即为机器人获取图像中标定的运动目标，根据标定的运动目标m即可分割机器人获取的图像。

1.3 图像分割

机器人在检测到运动目标时，需要将运动目标从背景图像中提取出来，因此需要分割图像，增强运动目标的辨识度，将检测目标与背景图像进行区分，进而提取运动目标的特征[7]。因此，设图像中运动目标颜色阈值为H1和H2，并将图像分割成3 个区域：背景区域Z1、Z3，目标区域Z2。由于颜色存在色调、亮度和饱和度3 个基点，而色调在颜色特征中具有单调唯一性，且由可见光光谱中各分量成分的波长来确定，因此采用颜色的色调基点区分图像背景和运动目标[8]。所以，设色调值小于图像阈值H1的像素组成背景区域Z1，色调值在图像阈值H1和H2之间的像素组成目标区域Z2，色调值大于图像阈值H2的像素组成背景区域Z3。由于颜色色调存在变化差异，因此需要设置颜色的基本色调，作为区分背景区域与目标区域的色调值[9]。因此，设基本色调值为H0，且H1=H2=H0，依照经验取像素色调值为ε，目标区域Z2的图像面积为N，背景区域Z1、Z3中重新归类到目标区域Z2的像素数为n1、n2，背景区域Z1像素的色调值为Hi，背景区域Z3像素的色调值为Hj，则有：

当式（6）中背景区域Z1的像素色调值Hi符合H1-Hi＜ε时，将背景区域Z1这一部分像素重新归类至目标区域Z2；当式（6）中背景区域Z3的像素色调值Hj符合Hj-H2＜ε时，将背景区域Z3这一部分像素重新归类至目标区域Z2[10]。不断重复这一步骤，直至将图像所有区域都重新归类，然后将背景区域Z1、Z3合并，即完成图像分割。图像分割结束，即可提取出目标区域Z2中运动目标特征。

1.4 基于深度学习提取运动目标特征

将深度学习看作可导的得分函数，通过将图像目标区域的像素与深度学习中的每个元素按位置相乘、相加后作为该区域中心点的像素值，并在函数中输入分割好的目标区域图像Z2，输出不同分类的图像像素，并深度学习图像特征，从而激活图像上任意位置的特征激活值[11]。因此，设深度学习的卷积核w的大小为a∗b，输出图像特征为g，则有：

在式（7）的运算过程中，深度学习的卷积核会按照一定的速度学习输入目标图像，然后激活目标图像上任意位置的不同特征值，其特征值激活过程如图3所示[12]。

图3 深度学习特征值激活过程

深度学习可以反向传播卷积核，让卷积核在传播过程中提取目标区域图像的基本视觉特征，在深度学习中输入卷积核，卷积会自动生成二维激活图，将这些二维激活图映射在深度方向上并叠加[13]。卷积核即可输出目标区域图像的特征值，此时即可检测运动目标位置。

1.5 运动目标检测

将机器人所处的竞赛系统看成一个四维向量，设机器人在k时刻检测运动目标时，竞赛系统状态为Xk，在x轴和y轴上的运动目标坐标为xsk、ysk，速度为xvk、yvk，机器人检测运动目标间隔周期为T，则有竞赛系统四维向量基于式（7）的计算结果可知，机器人观测到的目标特征为g，目标所在区域为Z2，因此机器人在k时刻的观测特征向量Z2gk为，m为机器人运动目标位置参数[15-16]。此时令机器人获取运动目标图像时间间隔为Δt，设运动目标在x轴和y轴上的加速度为xak、yak，则有机器人所获取运动目标的运动方程：

若机器人在检测运动目标时不存在误差，即机器人检测到的位置为运动目标位置，则有：

联立式（8）、（9），则有：

式（10）计算结果即为机器人检测到的运动目标。该检测机器人运动目标将机器人获取图像中的目标进行标定，将目标从图像中分割出来，进而提取出运动目标特征，从而可以实时检测运动中的目标，以此达成机器人在竞赛系统中检测机器人运动时的位置。

2 实验结果及分析

为了验证文中研究设计的运动目标检测方法，实验在Delphi 7.0 集成开发环境和OpenCV 2.5 下完成，实验采用视频行为识别数据库上的测试视频，且该测试视频拍摄镜头固定，视频大小为300×400，真彩色格式，帧率为30 fps，使用TMi3-3110M 主频2.4 GHz 的PC 机计算。竞赛系统机器人实验路径如图4 所示。

图4 实验路径示意图

机器人从启动区A点出发，以曲线方式运动到B点，再由B点以直线方式回退到D点，最后D点原地扭转航向角，直线运动到E点附近。

将文中提出的运动目标检测方法记为实验A组，将引言里提到的帧间差分法与背景差分法，分别记为实验B 组和实验C 组。基于机器人检测运动目标的特点，从运动目标特征提取和运动目标检测两个方面分析3 组检测方法，检测机器人运动路线、背景和移动背景特征，是否符合实际目标特征和运动路线。为了保证实验测试结果的可靠性和真实性，进行50 次实验，并将所得特征和运动路线按实验次序绘成图形，直观上比较不同检测方法的差异。

2.1 第一组实验测试

从行为识别数据库上的测试视频中选取一组背景移动视频，机器人在运动过程中，观察到的背景在不断变化，采用PC 机检测机器人运动过程中，提取变化背景特征实验结果，如图5 所示。

图5 背景特征提取图

从图5 中可以看出，在只有室内背景时，实验B组和实验C 组检测效果夸大，凡是出现在机器人视野内的，都会给机器人带来干扰，当有移动背景出现时，机器人会将移动背景扩大化。而实验A 组却可以很好地屏蔽背景的干扰，准确识别出移动干扰背景的具体位置。因此，实验A 组明显优于实验B 组和实验C 组，可以准确提取目标特征，屏蔽背景干扰。

2.2 第二组实验测试

从行为识别数据库上的测试视频中选取一组机器人竞赛视频，该视频中记录了一个机器人从右至左行驶的小段距离，该机器人的移动前和移动后的位置如图6 所示。该机器人在行驶过程中为匀速行驶，且行驶的目标中心轨迹曲线应是从右至左的平滑曲线，且曲线的首尾位置应与图6 中车辆移动前位置和移动后位置相符。

图6 运动目标移动前后位置

针对该视频，分别使用3 种检测方法检测该机器人，并提取了3 种检测方法所检测出的运动目标区域，利用重心法找出目标中心，在连续帧中记录3种检测方法所检测到的运动目标轨迹，其检测结果如图7 所示。

图7 机器人中心轨迹

从图7 中可以看出，实验B 组检测到的机器人位置存在突变，与图6 所示的目标机器人行驶的实际情况不符；实验C 组提取到的机器人行驶轨迹明显过短，且检测到的移动前位置和移动后位置与图6所示的目标机器人行驶的实际情况存在差别；实验A 组移动前后位置与图6 所示的目标车辆行驶的实际情况一致。由此可见，实验A 组检测方法可以准确检测出运动目标运动前后位置，且在运动过程中，也不会失去运动目标，可以实时检测运动目标所在位置。

通过机器人手臂与控制者手臂之间执行动作的一致性程度，判断机器人上肢映射完成情况，该实验包括左臂、右臂两组动作测试[17-18]。

由图8可以看出，从体感控制结果来看，机器人能够较好地识别控制者的控制指令，完成相应的任务。

图8 机器人上肢体感控制测试

为进一步验证检测方法的有效性及其时间性能，统计了两次实验机器人检测运动目标过程中存在的检测率、误检率以及平均每帧检测时间，其检测结果如表1 所示。

表1 检测结果数据

从表1 中可以看出，3 种检测方法对运动目标检测率均高达90%以上，可以完整检测到运动目标，但在检测过程中，实验A 组的误检率低于实验B 组和实验C 组，平均每帧检测到运动目标的时间同样高于实验B 组和实验C 组。综合上述实验结果可知，文中研究的检查方法检测率高，检测速度快，可以准确提取背景和移动背景特征，并实时检测运动目标。

3 结束语

文中研究的运动目标检测方法，充分发挥了深度学习目标图像特征提取的优势，降低机器人对运动目标特征提取的困难度，特征提取误差控制在最小范围内，检测运动目标结果控制在合理范围内，且可以实时检测运动目标。但是该研究检测方法，并没有考虑机器人检测多运动目标的问题，也未曾考虑在极端复杂环境下，机器人对障碍物的识别功能。因此，在今后的研究与分析中，应该尝试从三维角度来进行运动目标特性分析，考虑多个运动目标出现时，机器人对检测目标的识别程度，将机器人的实时避障功能、路径规划功能与目标检测及跟踪功能相结合，让机器人可以在极端复杂的环境下检测跟踪运动目标。