APP下载

地面无人平台3D目标检测算法综述

2021-10-21安旭阳苏治宝杜志岐李兆冬

车辆与动力技术 2021年3期
关键词:激光雷达特征提取卷积

安旭阳, 苏治宝, 杜志岐, 李兆冬

(中国北方车辆研究所,北京100072)

近年来,地面无人平台技术得到了空前发展,对高效和实时的感知系统提出了更迫切的需求.目标检测作为感知层的重要组成部分,其性能优劣决定了地面无人平台的自主行驶水平.传统的2D目标检测算法是首先利用手工设计的特征描述对输入图像进行特征提取,然后获取候选目标的边缘或纹理特征,最后采用分类器SVM或Adaboost对目标进行分类.常用的特征描述子有HOG[1]、SIFT[2]和BRIEF[3]等,但是在复杂场景下的泛化能力较弱.而基于深度学习的目标检测算法利用卷积神经网络自动提取候选区域的目标特征,泛化能力得到了极大提高.2013年,Ross等作者提出R-CNN算法,采用选择性搜索算法在图像上生成约2 000个候选区域,引入AlexNet网络对区域目标进行特征提取,通过SVM对目标进行分类[4],检测准确率显著提高,但是大量的候选区域提取工作使得算法的检测速率较低.Faster-RCNN网络[5]采用区域提议网络代替选择性搜索算法生成候选区域,引入共享卷积运算对区域目标进行特征提取,极大提高了检测精度和速度.华盛顿大学的Joseph等作者提出YOLO[6]算法,将候选区域提取和目标分类预测看作一个回归问题,直接在图像上输出目标的类别和位置,在保证检测精度的条件下极大提高了目标检测的速度,能够达到实时性要求.

虽然以深度学习为代表的2D目标检测算法占据主导地位,能够在像素层级上正确、高效地完成目标检测,但是仍无法获取目标的位置姿态、尺寸和运动状态.若能够实现3D目标检测,则可以获取目标的类别、空间位置和朝向信息,可直接应用于地面无人平台的导航行驶.与图像相比,点云不仅能够提供精确的几何特征而且对光照的鲁棒性较好,但是独特的置换不变性和旋转不变性使得直接利用神经网络处理数据难以取得较好的检测结果.近年来,部分专家学者开始将2D目标检测算法采用的神经网络结构引入到3D目标检测领域,不断优化网络结构,致力于提升算法的精度和鲁棒性.目前3D目标检测算法可根据采用传感器种类分为4个方向:1)基于单目相机的目标检测;2)基于激光雷达的目标检测;3)基于多传感器融合的目标检测;4)基于立体视觉的目标检测.

1 单目相机目标检测

目前基于单目相机的2D检测仅能提供目标在二维图片中的像素位置和相应类别的置信度,无法回归出目标的三维尺寸和朝向,更不能提供地面无人平台环境感知的全部信息.而基于单目相机的3D目标检测一般先在图像上检测目标的候选边界框,根据2D-3D几何约束或者地面参考等先验信息估计目标的3D边界框.虽然采用单一的RGB相机在3D物理场景中预测目标的位置和朝向具有挑战性,然而提高检测精度将会极大降低地面无人平台感知系统成本.

清华大学Chen等作者提出Mono3D网络,如图1所示,以传统的2D检测框架获得候选感兴趣区域,通过能量最小化原则将候选目标映射到3D空间中,然后通过编码语义分割信息、上下文信息、大小和位置先验信息以及典型物体形状等特征为每个候选框评分[7],但是3D空间比2D空间大的多,极大增加了计算量,每帧的检测时间约为4.2 s.2019年,香港中文大学的Li[8]等作者提出单目3D检测网络GS3D,首先利用Faster-RCNN和补充网络对目标的2D边界框和观测视角进行预测;然后根据预测目标的种类估计3D边界框的大小,主要是因为自动驾驶场景中相同种类目标的3D尺寸分布是低方差和单峰的;最后对图像进行卷积处理,通过仿射变换将可见3个表面映射到指定的维度上完成特征提取,融合3个平面映射后的特征和2D边界框特征,进而获得精确的3D边界框,每帧的检测时间约为2 s,如图2所示.

图1 Mono3D网络结构图

图2 特征表面提取

2021年,香港科技大学和城市大学的Liu等作者改进了3D锚点滤波方法,以地面先验和统计先验信息作为补充信息,设计了新的神经网络模块,充分利用先验信息进行3D目标预测[9].

2 激光雷达目标检测

激光雷达主要由发射系统、接收系统和处理系统组成.其工作原理是向目标发射激光束,根据接收信号返回的时间差计算雷达与目标的距离,从而获得目标的位姿、尺寸和材质.点云的精度能够达到毫米级,可以用于3D目标检测.但是点云是一种不规则的数据结构,主要存在2种表征方式对点云数据结构进行处理:1)基于网格或体素的方法;2)基于点的方法.前者利用体素或鸟瞰图将不规则的点云转换为规则的表征方式,然后采用PointNet及其变种[10-11]提取点云特征,计算成本相对较低但是易造成特征丢失.后者直接在原始点云上提取目标特征,计算成本较高但能获得较大的感受野.

斯坦福大学的Qi等作者提出用深度学习网络直接处理点云数据,为目标分类、语义分割构建了统一的体系架构[10].PointNet利用空间变换网络解决了点云旋转不变性问题,应用最大池化方法解决了点云无序性问题.然而PointNet仅对每个点进行表征,无法整合局部结构信息特征,PointNet++[11]借鉴分层提取特征思想有效解决了这个问题.PointNet++的每层分为采样、分组和特征提取3部分.采样是利用最远点采样法从点云中提取较为重要的点;分组是在采样层提取中心点的周围查找k个临近点构建1个组;特征提取是将每个组送入PointNet网络进行卷积和池化操作,选择获得的特征作为中心点特征,然后重复进行下一层操作.因此,每一层的中心点都是上一层的子集,层数越深,中心点数目越少,但是包含的局部信息越多,特征提取的效果越好.

2019年,香港中文大学-商汤科技联合实验室的Shi等作者融合了点和体素网格的特征提取方法,构建了新型3D检测网络PV-RCNN,充分利用了3D体素卷积提取候选区域的高效性和点的可变感受野特性,保证能够学习更多具有区分性的点云特征[12].首先将体素化后的原始点云输入基于3D稀疏卷积的编码器中,学习多尺度语义信息生成初始3D候选区域,通过Voxel Set Abstraction模块将在多个神经层上学习到的体素特征量汇聚成小的一系列关键点;然后利用RoI-grid池化模块在每个感兴趣区域中随机采样一些网格点作为球心,聚合周围的关键点特征,以保证能够学习更小颗粒度的特征并对初始候选区域进行修正.与传统的池化层相比,RoI-grid模块编码了更丰富的上下文信息,用于准确预测目标的置信度和位置,如图3所示.

图3 PV-RCNN网络结构图

3 多传感器融合的目标检测

激光雷达能够获得场景中目标精确的空间坐标,但是点云的稀疏性导致远距离检测精度较低.相机采样图像的分辨率较高,能够提供充足的环境纹理和颜色信息.因此,融合图像层级上的2D特征和激光雷达的3D特征将能够提高3D目标检测的精度和速度.

2017年,清华大学的Chen[13]等作者提出MV3D网络,以图像和点云作为原始数据输入,将点云坐标分别投影成鸟瞰图和主视图,增加了视场维度.鸟瞰图由高度、强度和密度进行编码表征,并离散到分辨率为0.1 m的二维网格中.由于激光点云比较稀疏,所以选择将点云投影到圆柱面生成稠密的点云主视图.然后利用鸟瞰图生成候选3D区域,并将其投影到主视图和图像中,采用RoI池化方法将3个特征整合到一个维度,最后采用卷积神经网络对场景中的目标进行分类和定位,如图4所示.

图4 MV3D网络结构图

2018年,滑铁卢大学的Ku[14]等作者在MV3D的基础上提出了AVOD网络,首先取消了点云主视图输入,在点云鸟瞰图中增加强度特征;其次,采用FPN网络代替VGG16进行特征提取,保证特征图相对原始输入是全分辨率的,并且能够结合底层细节和高语义特征,提高小目标的检测精度;最后,采用裁剪和调整方式代替RoI池化进行特征整合.此外,MV3D网络仅给出8个顶点,并未对边界框进行约束,由24维(3×8)向量进行表征,而AVOD利用底面和高度对3D边界框进行约束,由10维(2×4+2)向量表征,有效降低了编码维度,如图5所示.

图5 边界框编码方式

2019年,多伦多大学的Ku等作者提取了细粒度语义信息,用于提高3D目标检测的朝向精度[15].首先,利用深度补全算法[16]对场景中的点云进行稠密化处理,通过RGB颜色对点云进行着色;然后,利用VMVS模块将虚拟相机放置在候选目标周围构建新视点,同时保留目标的外观特征;最后,利用CNN网络从新视图中回归目标的朝向.KITTI测试结果表明,方法与开源3D检测器AVOD-FPN结合使用时,行人的朝向检测精度优于先前发布的算法.

2021年,田纳西大学诺克斯维尔分校的Nabati[17]等作者将雷达和图像进行融合提出了CenterFusion算法.首选利用CenterNet网络提取候选目标的中心点,采用视锥方法将雷达检测结果与候选目标中心点进行数据关联;然后通过回归候选目标的深度、旋转角度和速度对先验检测结果进行修正,在不借助额外信息的条件下能够提高速度估计的精确度,如图6所示.

图6 CenterFusion网络结构图

4 立体视觉目标检测

立体视觉借鉴了人类双眼“视差”原理.两个或多个相机从不同的空间角度观测场景中的目标,可以获得不同视角下的图像.根据像素匹配原理,利用三角测量技术计算对应像素之间的视差进而解算三维目标的深度,如图7所示.

图7 双目视差原理

台湾交通大学的Chang等作者提出了金字塔立体匹配策略PSMNet,该策略可分为空间金字塔池化和3D卷积神经网络两个模块.前者充分利用了全局的上下文信息,将不同尺度和位置的上下文整合为代价量,后者利用多个堆叠的沙漏网络和中间监督方法调整代价量[18].然而PSMNet是为视差估计设计的而不是目标检测.由于前景和背景是联合估计的,所以目标边界外立体视觉匹配的深度通常不够准确,并且现有网络在损失函数中计算的是视差而不是目标点云位置.为此,乔治敦大学的Pon等作者提出了一种二维边界框关联和以目标为中心的立体视觉匹配策略,仅仅估计感兴趣区域目标的视差[19].首先采用MS-CNN[20]二维检测器获得左右视图的边界框,通过结构相似索引[21]进行图像间的数据关联,然后传递到以目标为中心的立体网络中生成视差图和实例分割掩码,最后转化为点云,利用基于激光雷达的3D检测网络预测目标的3D边界框.

香港中文大学的Chen[22]等作者提出了端到端的3D目标检测框架DSGN,核心思想是通过空间变换将2D特征转化为有效的3D特征结构.以双目左右图像作为输入,利用权重共享的孪生网络提取特征构建平面扫描体.通过微分变形将平面扫描体转化为3D几何体,在三维世界中构建几何体,最后利用卷积神经网络进行3D目标检测,如图8所示.

图8 DSGN网络结构图

5 发展趋势

基于单目相机的3D目标检测只需普通的RGB相机作为硬件设备,能够显著降低感知设备的成本.借鉴以深度学习为主导的2D目标检测技术,通常目标位置和朝向的预测精度较高,但是依赖外界先验信息的深度估计精确度较低,无法为地面无人平台提供充足的感知信息.由于激光雷达的分辨率随着距离的增大而变得稀疏,尤其是远距离的小目标相似度较大,基于激光雷达的3D目标检测算法经常会出现误检或漏检现象,但是相对距离较近的目标检测的精度较高.基于立体视觉的3D目标检测虽然能够得到目标的深度信息,但是需要逐像素匹配,计算复杂度较高,目前一般达不到实时性要求.此外,相机的基线长度限制了测距范围.基于多传感器融合的3D目标检查算法能够结合相机高分辨的特征、激光雷达或毫米波雷达的精确深度特征,提高了远距离小目标的检测精度.此外,基于相机的目标检测能够为后续的3D目标检测提供初始候选区域,减少激光雷达检测的搜索区域,提高了3D目标检测的速度.4种检测方法的均值平均精度(Mean Average Precision,mAP)如表1所示.

表1 3D目标检测方法对比

6 结束语

3D目标检测是地面无人平台环境感知能力的关键技术,提高算法的速度、精度和鲁棒性是今后的重点研究内容.本研究在单目相机、激光雷达、多传感器融合和立体视觉4个维度对当前的3D目标检测算法进行了研究,并且详细比较了不同方法的执行细节和优缺点,认为采用神经网络算法或卡尔曼滤波、粒子滤波等算法融合图像特征和点云特征是3D目标检测的重要研究方向.

猜你喜欢

激光雷达特征提取卷积
手持激光雷达应用解决方案
基于3D-Winograd的快速卷积算法设计及FPGA实现
法雷奥第二代SCALA?激光雷达
基于Gazebo仿真环境的ORB特征提取与比对的研究
从滤波器理解卷积
基于激光雷达通信的地面特征识别技术
基于Daubechies(dbN)的飞行器音频特征提取
基于激光雷达的多旋翼无人机室内定位与避障研究
基于傅里叶域卷积表示的目标跟踪算法
Bagging RCSP脑电特征提取算法