一种基于双目视觉传感器的遮挡目标期望抓取点识别与定位方法∗

2021-10-27王煜升张波涛吴秋轩吕

传感技术学报 2021年8期

王煜升张波涛吴秋轩吕强

(杭州电子科技大学自动化学院，浙江杭州310018)

家庭服务机器人所处的环境通常是混杂无序的，待操作目标种类繁多，形状不规则，其通用随机抓取任务面临极大的挑战，如图1所示。而目标的识别与定位则是执行抓取任务的前提。在非结构或半结构化的室内环境中，物体的放置具有随机性，通常存在自遮挡或相互遮挡的现象，这种遮挡属于频繁出现、干扰严重、亟待解决的问题。

图1 家庭环境中的遮挡情况

近年来，遮挡问题引起了一些研究者的注意并对其进行研究探索，提出了一些遮挡目标的识别方法，例如:文献[1]基于轮廓[2]片段空间关系，分别提取模板图像与目标图像骨架[3]关键点与质心建立坐标系，然后在各自图像建立一种空间关系约束准则以实现遮挡识别。上述方法在特定条件下的图像处理具有较高的识别率，但是在室内对常用物体进行遮挡识别时实用性相对较小；Mirunalini等人[4]采用基于尺度不变特征变换(SIFT)与卡尔曼(Kalman)滤波的遮挡识别方法，将具有很好跟踪性能的Kalman滤波算法与SIFT结合，实现遮挡目标的跟踪。然而其方法主要侧重于识别与跟踪，针对遮挡目标抓取问题比单纯的识别更具挑战性。

目标物体的位置信息是家庭服务机器人精确抓取的关键因素之一。TOF[5](Time of flight，飞行时间测距法)作为一种常用测距传感器，可以实现远距离测量，但其计算量大，资源消耗较多，一般用于无人驾驶领域；结构光相机[6]以其成本低、近距离范围精度较高等优势被广泛使用，不足之处在于易受光线干扰，室外效果较差；相较于上述两类相机，双目相机可以直接测量空间目标点的三维信息[7－9]，受环境干扰较小，可以实现目标物的精确定位。因此本文选用双目相机作为视觉传感器。

双目视觉模拟人类的视觉[10]功能，属于实现机器人感知外部环境[11]的关键技术之一。随着智能生活的发展，室内服务机器人[12－15]越来越成为研究的热点，双目相机以其结构简单、非接触感知以及适应性强等优势在机器人移动抓取中具有重要作用，近年来越来越多研究学者将双目相机应用于机器人抓取领域。物体的形态特征例如颜色[16]、纹理等经常被视为一种区分目标物与其他物体的手段之一，Ren Y等人[17]利用双目相机对具有明显颜色特征的目标物进行颜色分割获取其三维坐标，进而实现机械臂抓取。该方法对具有明显颜色特征的物体具有较好表现，而在颜色相近区域内该方法并不适用。此外，也有学者将多种特征检测算法进行融合从而达到精确识别的目的。例如文献[18]将颜色识别与Canny边缘检测进行融合，对感兴趣区域内的目标进行识别定位以提高机械臂抓取精度。若在一个较为复杂的环境中，其感兴趣图像内的纹理信息偏多，对区域内轮廓提取难度加大，可能无法实现有效定位抓取。

受限于实际环境的不确定性，家庭服务机器人的抓取对象极有可能被其他物体遮挡，但目前的目标抓取研究大多针对非遮挡目标，或者特殊任务下的特殊目标，多数研究学者的研究内容都是基于非遮挡物体进行的。因此，利用局部信息对遮挡目标进行准确识别具有重要实际意义。对于已知物体，机器人可直接根据已规划好的候选抓取位姿对目标进行后续操作，然而在一个不确定性的复杂环境中，抓取物体未知，物体距离位姿不明，目标存在遮挡，室内机器人通过视觉传感器仅能获取目标物体的部分非完整信息，机器人需要分析该非完整信息以规划出准确的抓取位姿，这使得目标物体定位与抓取问题更具复杂性。若机器人在对被遮挡目标进行定位抓取[19－20]时采取无遮挡的取点方法，所获抓取点位置可能产生漂移，甚至脱离物体，难以实现准确的抓取点定位。对遮挡目标抓取点定位需要解决以下问题:①在保障实时性的前提下，采用准确的识别策略对被遮挡的目标进行检测识别。②在目标物体被遮挡时，机器人能够排除遮挡物的干扰，在未遮挡的区域上选取合适的抓取点并实现精确定位。

针对上述问题，本文提出一种基于双目视觉的遮挡目标期望抓取点识别与定位方法，采用随机一致性采样对特征点实现多次筛选，消除误匹配，对特征点检测与匹配进行优化。构建了一种物体期望抓取位置定位策略，用于对被遮挡目标物体的期望抓取位置定位，根据常用物体的相似性与差异性对常用物体进行分类，模仿人类抓取物体的经验与习惯，构建了机器人抓取不同类别物体的期望位置模型，基于该模型对物体的期望抓取位置采样，建立了期望位置模型库，利用期望位置模型库对目标物体无遮挡部分区域进行匹配定点，确定该物体在双目左右摄像机中的抓取点位置。最后根据同一目标物体在左右两幅图像像素点偏差与几何关系恢复其三维坐标，实现双目定位，算法流程如图2所示。

图2 算法流程图

1 Multi-RANSAC-SURF遮挡目标识别

机械臂的手眼协同对算法实时性要求较高，为提高识别算法的实时性，本文构建了分层过滤的随机抽样一致性(Multilayer Random Sample Consensus，Multi-RANSAC)误匹配消除方法。第一层采用较大的欧式距离对目标图像中大量匹配点进行过滤筛选，然后对所得到结果进行较小欧式距离的精细过滤筛选。并将其与SURF(Speeded Up Robust Features，加速稳健特征)结合，构建了Multi-RANSAC-SURF目标识别策略。在该策略中，首先使用SURF与FLANN(Fast Library for Approximate Nearest Neighbors，快速最近邻搜索包)进行关键点检测与匹配，在此基础上，加入Multi-RANSAC算法消除误匹配。而后通过变换矩阵计算物体边界，对遮挡目标进行外接模板还原，最终实现遮挡识别，具体算法框架如图3所示。

图3 Multi-RANSAC-SURF遮挡目标识别流程

SURF算法使用局部Hessian(黑塞矩阵)对关键点进行定义[21]。Hessian是一个由多元函数二阶偏导数构成的方阵，用以描述极点处的局部曲率。图像某像素点X处的矩阵定义如下:

式中:σ是滤波系数，它表示图像被平滑的程度，Lxx(X，σ)、Lxy(X，σ)、Lyy(X，σ)为高斯函数g(σ)与像素点X处的卷积。由于积分图像中任一点像素点灰度值等于在该像素点之前所有灰度值总和，图像中任意矩形框的像素值之和的计算复杂度仅为常数级，SURF利用积分图像的计算优势，将近似两个高斯内核差的盒式滤波器[22](如图4(b)所示)进行卷积来计算Hessian，由Dxx(X，σ)、Dxy(X，σ)、Dyy(X，σ)代替，得到近似构建的Hessian矩阵:

图4 两种滤波器

其行列式为:

式中:ω为权重值取0.9[23]。将关键点定义为det(Happrox)超过某个阈值的局部极值。

给定任意新的旋转图像，都可以找到相同的关键点，这就是SURF的旋转不变特性。SURF为每个特征点分配一个主方向以保证其旋转不变，其原理是以特征点为中心，在半径为6 s(s为特征点所在的尺度值，表示尺度系数)的邻域内，计算所有点在x(水平)和y(垂直)方向的Haar小波响应，同时使用高斯加权函数对Haar小波的响应值进行加权，然后使用一个60度的扇形滑动窗口(如图5所示)，统计其范围内所有点的水平、垂直响应之和，选择最长矢量方向作为特征的主方向。

图5 圆形邻域

基于旋转不变特性，在进行遮挡目标识别时，无需考虑物体的旋转方向，任意摆放位置都可以确定两个关键点是否为正确匹配项。

2 基于期望位置模型的匹配定位

针对遮挡目标的定位抓取问题，本方法的基本原理如下:首先，构建物体期望位置抓取模型，并基于该模型预先对不同种类目标的模板进行离线采集，然后，建立期望抓取位置模型库，该模型库包含多种候选模板；当利用上文所提Multi-RANSACSURF获取遮挡目标所在外接矩形区域后，便在已构建好的期望抓取位置模型库中进行检索，将检索结果与目标进行匹配，以此定位被遮挡目标的期望抓取位置，系统框架如图6所示。

图6 期望位置匹配定位框架图

2.1 期望位置定位抓取模型

本文所提期望位置抓取模型主要考虑了以下两个方面:①模仿人类抓取常用物体时的经验与习惯；②目标被部分遮挡时，如何对其抓取位置进行定位。模型具体内容如下:针对生活常用物体，按类别分为瓶状物体、书本类物体、水杯类物体以及小型物体，然后分别确定这几类物体的期望抓取位置，总结为以下四类常用物体的期望位置定位抓取模型(图7)和期望位置模型参数表(表1)。基于该期望位置抓取模型与参数表，在实现遮挡目标识别基础上，基于期望位置模型库对识别到的目标进行匹配定位。设目标的长度为col，高度为row，m、n为比例参数，左上角像素坐标为(temloc.x， temloc.y)，定位抓取点坐标为Point(x，y)。

表1 常见物体期望位置模型参数

图7 期望位置定位抓取模型

表达式为:

2.2 期望位置模型库

在上述期望位置模型基础上，对这几类常见物体的期望位置进行图像采集，构建一个期望位置模型库，该模型库包含每类物体期望位置若干处左右双目图像的模板图(如图8所示)。

图8 部分期望位置模型库

本文采用融合模板匹配算法的期望位置匹配策略，即基于2.1节所构建的期望位置抓取模型，采用模板匹配算法利用模板图对检测到的目标进行定位，寻找该类物体在左右图像中的最佳抓取位置。基于该策略，在整个图像区域发现与给定子图像匹配的小块区域。模板匹配首先需要一个模板图像T(给定子图像)和一个待检测图像S，然后在待检测图像上，从左到右，从上到下计算模板图像与重叠子图像的匹配程度，匹配程度越大则相同性就越大，采用标准化差值平方和匹配(CV＿TM＿SQDIFF＿NORMED)算法进行图像相似度计算，其原理是:利用图像与模板各像素归一化的平方和进行匹配，匹配值越低，相似度越高。

设T(x，y)为模板，I(x，y)为待检测图像，R(x，y)为描述相似度的函数:

3 基于双目视觉的期望抓取位置定位方法

相机成像坐标与世界坐标之间存在一个映射关系，称之为矩阵表示，摄像机标定就是为了找出这种矩阵表示，标定结果的准确性决定后期定位的精度，本文采用张正友标定法进行摄像头标定。摄像机标定主要涉及这三个参数:内参、外参和畸变。

内参:摄像机坐标与理想坐标系的关系，内参数公式A:

式中:u0、v0为中心像素坐标，fx、fy为u、v轴的有效焦距。

畸变D:

式中:k1、k2、k3为径向畸变参数，p1、p2为切向畸变参数。

外参:摄像机在世界坐标系的位置和方向，主要包括旋转矩阵R、平移矩阵T，其中旋转矩阵R:

式中:ri(i∈[1，9])为旋转参数。

平移矩阵T:

式中:tx、ty、tz为平移参数。

完成标定之后利用Bouguet算法进行校正，Bouguet算法的宗旨在于重投影变化达到最小，以实现畸变最小化目的，最终得到的重投影矩阵Q:

式中:(cx，cy)为主点，c′x为右侧视图的x轴主点。如果主光线相较于无限远，那么Q的右下角数值为0，即cx＝c′x，至此，标定过程完成。

3.1 平行双目视觉测距

图9 为平行双目视觉模型。两个摄像头共面且位于同一水平面，其各项性能指标均相同。C1、C2两个光心相距为b，焦距为f，空间某一位置坐标P在两个摄像头成像平面的坐标分别为P1(xl，yl)、P2(xr，yr)，定义视差d＝xl－xr。

图9 平行双目视觉模型

假设左摄像头成像坐标系与世界坐标系重合，那么根据三角测量原理，可以求出P点的世界坐标(X，Y，Z):

3.2 误差参数分析

以深度值Z为例，设Δx为偏离误差，那么:

则距离误差ΔZ:

由此可知，偏离误差越小，双目测距误差越小。

4 实验结果与分析

本文采用的双目相机如图10所示，其参数如表2所示。使用22 mm×22 mm的11×8(11、8分别是行、列交叉点数量)棋盘格标定板(图11)进行相机标定实验，其中标定板初始位置位于双目相机光心中间正前方20 cm处，标定板在图像中的面积占比要高于50%，然后分别从正对、左倾、右倾、上倾、下倾等角度拍摄标定板进行双目标定。

图10 双目相机

图11 标定黑白棋盘格

表2 双目相机参数

标定参数中，左摄像头内参矩阵:

畸变:

右摄像头内参矩阵:

畸变:

旋转矩阵:

平移向量:

根据上述参数，采用Bouguet算法进行立体校正，所得到的重投影矩阵Q如下:

所得摄像头焦距为698.4像素，基线长度b(baseline，左右相机光心之间的距离)为120.717 mm。

4.1 遮挡场景下的识别

本文选取保温杯、书本、水杯、遥控器等四类家庭中的常用物体作为实验对象。为了体现相对真实的遮挡环境，随机选取了一个实验场地进行测试，使用方形纸盒作为遮挡物，将目标固定在500 mm位置处，对上述物体进行基于Multi-RANSAC-SURF的遮挡识别实验。与此同时，为探究不同遮挡比例对本文所提算法的影响，按照25%~30%、40%~50%以及65%~70%的遮挡比例分别从定性与定量角度进行对比，实验结果如图12所示。

图12 不同遮挡比例的识别结果

为了进行定量比较，分别统计上述四类物体在不同遮挡比例下的特征点正确匹配数，如表3与图13所示。

图13 不同遮挡比例特征点数比较图

表3 不同遮挡比例下的特征点正确匹配数量

由图12可以看出，分别按照25%~30%、40%~50%和65%~70%的遮挡比例对四类目标进行识别，目标均可以被有效识别并框出，说明本文所提识别算法有较好的鲁棒性；由表3和图13可见，随遮挡比例增加，特征点正确匹配数随之下降，说明识别精度随遮挡比例增加而降低。

为验证本文所提识别算法的实时性，另选取两种识别算法KAZE和SIFT进行对比，统计三种算法的运行时间，所得结果如表4所示。由表4对比结果可以看出，本文所提算法的实时性优于其他两种算法。

表4 三种算法的目标检测时间

4.2 基于双目视觉的期望抓取位置定位

在完成遮挡识别基础上，基于期望位置抓取模型，利用预先构建好的期望位置模型库进行匹配定位。考虑到家庭服务机器人抓取目标的可及范围通常在500 mm左右，因此实验主要对500 mm处的算法性能进行测试，同时也对其他距离的部分性能指标进行了测试，如:300 mm、800 mm。图14为不同物体的定位抓取位置，表5~表8为500 mm位置处定位结果。

由图14可见双目定位结果符合本文所述的期望位置，由表5~表8给出的测量结果可以看出使用该期望位置模型可以实现较高精度的双目定位，具有良好的空间一致性。与此同时，为探究不同距离双目定位精度，另选取了300 mm和800 mm对目标物进行对比测试，以验证不同距离下的定位效果，部分实验数据如表9~表12所示。

表8 以遥控器为研究对象在500 mm定位结果

表9 不同距离下保温杯的定位结果

表12 不同距离下遥控器的定位结果

图14 基于期望位置定位模型的双目定位结果

表5 以保温杯为研究对象在500 mm定位结果

表6 以书本为研究对象在500 mm定位结果

表7 以水杯为研究对象在500 mm定位结果

表10 不同距离下书本的定位结果

表11 不同距离下水杯的定位结果

为了更好地表征实验结果的准确性，本实验引入平均误差，具体公式如下:

式中:Ea为平均误差，S为实际值，Si为实验测量值，n为实验次数。统计不同距离下X、Y、Z坐标的平均误差，结果如表13~表15所示。

表13 不同距离下目标X坐标的平均误差单位:mm

表15 不同距离下目标Z坐标的平均误差单位:mm

表14 不同距离下目标Y坐标的平均误差单位:mm

由表9~表15分析可知，所提方法的定位精度并非越近越高，距离较近(300 mm)时由于左右相机视角问题，存在较大的视差影响，双目测距的误差相对较大；距离较远(500 mm、800 mm)时双目测距效果较好，误差较小。

5 结论

本文提出了一种基于双目视觉传感器的遮挡目标期望抓取点识别与定位方法，首先利用Multi-RANSAC-SURF算法对被遮挡目标进行识别；在此基础上完成双目摄像头的标定，获取双目相机的内参与外参；然后利用本文提出的期望位置定位抓取模型，构建一个期望位置模型库，利用该模型库进行未遮挡目标区域匹配，并确定左右相机中期望位置对应的像素坐标，同时结合双目定位算法，实现了被遮挡物体的期望位置较高精度的定位。实验结果表明，本文所提出的期望位置抓取模型具有较好的应用价值。