服务机器人视觉导航系统的应用研究<br/>——以双目视觉导航系统为例

服务机器人视觉导航系统的应用研究
——以双目视觉导航系统为例

2024-02-03黄琴艳

信息记录材料 2024年1期

黄琴艳

（上海信息技术学校上海 200331）

0 引言

服务机器人应用技术已经不再单纯局限于生活空间，相关的技术越来越成熟广泛，特别芯片和电子产品生产成本的降低，家庭服务机器人的生产成本大幅降低，终端销售市场规模呈现高速增长的态势。根据统计数据显示，全球服务机器人的市场规模从2016 年的54 亿美元增长至2020 年的110.3 亿美元，年均复合增长率达19.9%［1］。

作为与人类共同完成或协助人类完成指定任务的智能产业设备，服务机器人主要集成了计算机技术、液压气动技术、电子信息技术等，综合智能认知、智慧运动和自适应学习等为一身的综合系统［2－3］。当前研究领域中，视觉感应技术是服务机器人研发中最为核心的技术，技术的高度直接决定了服务机器人产业发展的未来。而我国的相关技术目前还处于初期阶段，还需要广大的科研工作者共同努力，为其发展提供支撑和贡献。

1 服务机器人导航技术研究现状

服务机器人在人类的生活中，主要是为人类提供方便生活的智能化服务，因此，实现服务机器人的自由移动首先要解决其导航问题，在此基础上，机器人才能自主完成自主移动和物品的准确抓取。服务机器人运动导航系统的工作原理是机器人在运动时利用自身安装的传感器，明确其在工作环境中的所在位置和自主姿态［4］。当工作目标的坐标方位已知的时候，机器人就可以自主规划运动，完成人类规划的任务。本研究主要针对视觉导航技术开展研究。

1.1 视觉导航系统

人类在自然环境中生活，需要从外获取大量的信息，其中至少85%以上都是通过视觉获取的，视觉获取外部信息时具有全面和时效性强等特点，是人类生活中最为重要的感知内容［5］。机器人和人类的基本结构不同，因此，人类的视觉技术应用于机器人是通过一定的流程实现的。具体流程为：首先，机器人利用自身传感器获取环境信息，实现自主决策和执行任务；其次，通过内部运算芯片、定位算法、机器人自身的摄像机，对识别出的环境及物品进行图像处理；最后，机器人根据运算数据规划运动和工作轨迹。

1.2 视觉导航系统关键技术

服务机器人的导航依赖于机器人自身的摄像机。导航方式是双目视觉导航技术，该技术是通过对两个不同视角拍摄的图像进行数据的三维恢复，产生实时的运动位置信息。由此可见，双目视觉导航的视野更广，机器人可以实时取得更加准确的位置数据，直接有效提升了导航的精准性。因此，当今双目视觉导航应用得更多、更广泛。

2 双目视觉导航技术的定位算法

一个完整的双目视觉导航过程主要包括摄像机的目标识别、目标定位、环境匹配、三维数据恢复等步骤［6］。双目视觉导航技术的工作原理与人类视觉的感知过程十分相似，是从两个不同的角度分别对同一物体进行实时的图像定位，从而明确该物体三维实时信息的过程［7］。

双目视觉导航定位的工作原理图如图1 所示，对于环境中的某一位置点P，摄像机的角度中，P点左右两个成像点分别是PL和PR，机器人此时无法确定P点坐标，而且，它的两个投射点OL也不能被准确地测量。当使用OL和OR两个摄像头共同对准P点，并准确地测量出PL和PR的投射，那么P的坐标将得到精准的测量，它可以由OLPL和ORPR两条直线的焦点唯一确定。

图1 双目立体视觉原理图

2.1 双目视觉系统的标定方法

通过获取两个摄影头的内部和外部信息，可以进行双目标定，从而确定两个摄影头的相互位置。这包括两个摄影头的轴心和方向的变化，也就是两个摄影头的外部信息［8］。如果将P作为一个参考值，假设R1和T1表示左侧拍摄器的轴心位置的变化，并且它们的轴心位置将会发生变化，这两个变化将会导致PW＝的值的变化，其中PW＝（P1－T1）；PW＝（P2－T2）。PW代表着一个物体的位置，它位于全球的坐标系，并且它位于两台不同的摄影机的坐标系P1和P2。因此，应使用（P1－T1）＝（P2－T2）来表示双目视觉。

2.2 目标识别技术

通过使用目标识别技术，可以有效地检测出目标物的存在，从而实现高效的机器人视觉定位。该技术的核心原则是：从图像中抽取出有价值的元素，经过深入的数据挖掘和计算，将其转换成可以被检测的形式，从而实现快速、高效的目标识别。当前，最流行的目标鉴定技术包括：以图像和文字作为指示，以及以物体的外观和结构作为指示［9］。

2.3 几何不变矩算法识别

机器人视觉识别技术常用的算法有形状描述识别、矩识别等。随着视觉识别技术的不断发展，几何不变矩算法凭借准确、快速等特征，已经成为当前视觉识别算法中广泛应用的领先技术。

通过几何不变矩算法，可以将图像分割成7 个独立的区域，并通过欧氏距离法来比较它们之间的相似度，从而确定哪些区域更接近目标区域。这一过程需要对图像进行二值化处理，以获得更准确的结果。

几何不变矩算法由7 个独立的矩形组成，这些矩形可以是二维的、可变的，也可以是多维的，可以用于实现任何形状的变换，如旋转、平移和缩放。

通过几何不变矩的方法，可以实现对目标的准确识别。

①通过设定一个特定的阈值，可以计算出模板的几何不变矩。 ②通过使用滤波算法，可以消除图片上的噪声，从而更好地进行后期的数据分析。 ③通过利用灰度差的原则，可以把原始的图片变换成仅包含0 和1 两个像素的数字，从而实现对图片的二值化。 ④通过二值化处理，可以提取出图像中的区域，并计算出每个区域的轮廓。 ⑤通过计算图像中轮廓的几何不变矩，以及它们与模板的几何不变矩之间的欧氏距离，来确定它们之间的关系。 ⑥通过比较各个轮廓的欧氏距离：如果低于预先设定的阈值，就可以断定该轮廓所在的区域就是目标物；如果未发现图像轮廓，就需要检查阈值的设置是否合理，如果符合，就可以断定该场景中没有目标物；如果不符合，就需要重新调整阈值。 ⑦通过形心计算，可以获取目标区域的图像坐标。

2.4 场景立体匹配

双目视觉系统在完成定位后，需要将左右两摄像机的图像进行匹配，建立两个图像之间的联系，再实现立体空间坐标点的测量。在实际测量过程中，利用获取的两幅图像来恢复空间中目标点的三维姿态，需要在两张图片中找到相应的匹配关系，这一过程也就是场景立体匹配。

在将三维世界的信息投影到二维图像平面的过程中，部分有用信息丧失，同时大量的噪声干扰了三维信息恢复的难度，为了降低这些不良因素的影响，减小立体匹配过程中的误匹配概率，学者们针对立体匹配过程提出了极线约束、唯一性约束、相似性约束、连续性约束和顺序一致性约束等几项约束条件。

2.5 三维信息的场景恢复

对于立体图像的视觉识别，完成了摄像机标定以及目标识别与立体匹配之后，接下来的工作就是利用这些数据对物体进行三维重构。对于摄像机任意放置的双目视觉系统，目标物形心P在图像像素坐标系下的坐标P1和P2已经通过目标识别以及立体匹配过程得出，设左右摄像机的透视投影矩阵分别是M1与M2，则可以得出Zc1的矩阵。

其中，（u1，v1，1）与（u2，v2，1）分别是目标物形心在左右图像像素坐标系中的齐次坐标，（X，Y，Z，1）是目标物形心在世界坐标系下的齐次坐标，（i＝1，2；P＝1，2，3；q＝1，2，3，4）分别是Mi在第P行，第q列的元素。消去Zc1和Zc2，就可以得到关于X，Y，Z的四个线性方程。其中P1和P2是P的对应点，因此该矩阵有唯一的P值与之对应，而在实际应用中，并不能得到精确解，采用最小二乘法求出P点在世界坐标系下的坐标：P＝（ATA）－1ATb。

3 服务机器人视觉重定位技术

重定位技术对于服务机器人的室内长期运行至关重要，它可以帮助机器人更好地适应实际环境。当系统重新启动，它将会使用之前储备的地理信息来完成各种工程操作，例如定位和指引。通过感应器检测，可以重新定位已经存储的地图上的物体的位置。

经过一周的室内操作，可以创造一张三维地图M3D，它的原始地理坐标是A，而且它的第一个关键帧就是｛OM｝，这样就可以将整个地图的空间范围精确地定义下来。当机器人在执行任务时，如果相邻关键帧之间的特征能够很好地匹配，就能够更精确的预测它的位置。因此，利用关键帧技术来创建一张地图，其中包含了关键帧及其相关的三维数据，这些数据也被用于构成一套完整的地理信息系统。通过使用地图上的节点，能够更好地了解周围的情况，从而使用机器人来实现自我监控。

3.1 融合特征法和卷积神经网络的视觉重定位算法

当前，重定位算法的视觉化方法包括特征提取法和卷积神经网络算法。利用特征法，研究人员能够从多个图像样本中抽取出有意义的信息，这些信息包括颜色、形状、亮度和其他因素。这种方法能够有效地预测出图像之间的关系，而且能够获得较好的重建效果。然而，当这些条件不利时，这种方法的准确性会受到影响，有时会出现较大的偏差。使用卷积神经网络进行重定位可以提高模型的准确率，因为它能够从一个模型中提取多个位置，并且能够根据不同的外部条件进行调整。然而，这种算法也存在一些缺陷，比如它的准确率可能会受到外部因素的影响。

本文旨在探索一种新的技术，以便让机器人能够以更加稳健的方式进行重新定向。该技术将两种技术有效地整合，即当需要的特征数量较大时，采用特征分析，而当需要的数据较少时，采用卷积神经网络来计算。算法整体结构如图2 所示。

图2 视觉重定位的算法实现流程

3.2 重定位算法的设计实现

视觉重定位的算法实现（见图2），主要通过以下流程：基于视觉词袋模型的相似图像检索—特征法求解位姿—基于卷积神经网络的位姿求解—算法选择。实现的过程的主要内容包括：

（1）以词袋模型为模式的相似图像检索。词袋模型是将图像特征表述为离散的视觉单词，构成视觉字典，在图像检索时，将图像特征映射到字典中最近邻视觉单词上，通过计算视觉字典间距离来度量图像的相似度。

（2）基于特征法的重定位。双目视觉识别系统通过特征提取和匹配，在两张图像中获取匹配的二维目标点，对于深度相机等传感器可直接获得二维目标特征点的深度值，然后，使用相关公式求解图像对应的相机位置。

（3）基于卷积神经网络的重定位。通过训练一个神经网络实现对输入图像的位姿估计，能够直接估计图像的绝对位姿。算法需要使用图像及对应的位姿作为训练集，训练网络参数。通过对输入图像进行多次裁剪，选择出与训练集图像相似度高的图像进行位姿回归。

（4）算法选择。特征法只能在匹配的特征点数量足够且正确匹配情况下获得较高精度的位姿，若特征点数量稀少则误差很大或求解位姿失败。基于卷积神经网络算法可估计出任意输入图像的位姿，但精度不足。因此，结合两种方法的优势，在特征匹配较好情况下，使用特征法，否则，使用卷积神经网络的算法。

4 结语

就服务机器人系统的应用而言，要构造出类似人类双眼的立体视觉导航系统，还有很多关键技术需要突破和优化，未来的研究方向首先是如何建立更加有效的双目体模型，以匹配更多的约束信息，降低立体匹配的难度。其次是研究新的适用于立体视觉的计算理论和匹配策略，有效解决灰度失真、几何畸变、噪声干扰等问题。最后是应用算法和场景的优化，减少运算量，提升系统的实用性。

随着光学传感器、电子芯片技术和无线网络技术的快速发展，双目视觉导航技术必将迎来新的技术突破，实现应用场景的全面优化。服务机器人双目视觉识别导航技术有着重要的研究价值和广阔的应用前景，需要广大的科研工作者共同努力，为其发展提供支撑和贡献。