APP下载

基于模板替换的室内场景建模方法研究

2020-05-21张肇轩王诚斌朴星霖王鹏杰尹宝才

图学学报 2020年2期
关键词:特征提取检索向量

张肇轩,王诚斌,杨 鑫,朴星霖,王鹏杰,尹宝才

基于模板替换的室内场景建模方法研究

张肇轩1,王诚斌1,杨 鑫1,朴星霖2,王鹏杰3,尹宝才1

(1. 大连理工大学计算机科学与技术学院,辽宁 大连 116024;2. 鹏城实验室,广东 深圳 518055;3.大连民族大学计算机科学与工程学院,辽宁 大连 116600)

当前,室内场景建模相关研究已经取得很多进展,特别是基于多视角融合的建模框架与基于单视角的建模框架的提出,增强了机器人的环境感知能力。但仍然存在以下不足:①基于多视角融合的建模方式预处理时间长,建模完成后需线下优化过程,不能满足特定条件下的建模需求;②基于单视角的建模算法输出一般为体素,建模质量较低,信息缺失严重,对于场景细节无法精确刻画,难以满足机器人交互的要求。特提出一种基于模板替换的室内场景建模方法研究。首先,预处理由设备采集到的三维点云场景,分割出存在点云缺失的单个对象,并利用虚拟扫描技术采样对象表面点并计算法向量与曲率。采用八叉树网格结构,将点云的法向量与曲率信息分别存入网格中,再利用卷积神经网络(CNN)提取高维特征向量,将其与数据库中三维对象特征进行欧氏距离比较,得到检索序列。从序列中挑选出最相似的对象,利用迭代就近点(ICP)配准方法,与扫描场景进行配准,完成场景优化。对提出的网络模型在2个基准数据集上进行测试并表现出良好的性能。

机器人;室内场景建模;卷积神经网络;迭代就近点配准;点云

三维模型的质量优劣对机器人交互、场景理解、无人驾驶等领域的研究有重要的影响。近些年随着三维采集设备的更新及建模算法性能的提高,建模质量有较大提高。但是,由于采集过程中一些客观条件限制,如图1所示,模型存在缺失、噪音的情况时有发生,模型的精度还不能达到要求。为解决这一问题,需要对扫描得到的模型进行优化。目前,解决该问题的方法主要有 2种:①模型补全,即利用缺失区域周围的点云信息将残缺部分拟合;②模型替换,即在数据库中寻找与扫描模型最为相似的模型,再将检索出的数据库模型与原扫描场景进行配准。本文采用模型替换的方法。深度学习技术的发展,为解决计算机视觉领域传统问题提供了新的思路和方法。深度学习,特别是卷积神经网络在二维图像领域表现出强大的学习与抽象能力,在许多与二维图片相关的视觉任务(分割、识别)中表现出色。正是这种高性能的表现,使用卷积神经网络(convolutional neural network,CNN)与三维对象进行分析成为新的研究热点。利用CNN对三维对象进行分析与处理,得到更具一般化、信息更丰富、表示更加浓缩的三维对象特征,利用这些特征来解决三维领域一系列有挑战性的工作。SU等[1]提出基于多视角CNN提取三维对象特征的方法,将三维对象多角度渲染为多张轮廓图,利用CNN将其特征进行融合,得到更加丰富的高维特征信息,用于分割与分类任务,但该方法较依赖于视角选择的合理性。MATURANA和SCHERER[2]将三维数据0~1体素化以满足卷积操作要求,通过体素化的方式可以直接在三维空间进行卷积、下采样操作,其网络模型虽解决了三维数据稀疏性高、不规则的问题,但是分辨率较低,对于模型的细节不够敏感。TATARCHENKO等[3]针对0~1体素分辨率不高的问题,采用八叉树网格重新对数据进行组织,以提高网络处理数据的分辨率,但是该方法进行卷积、下采样操作需要消耗大量的时间,时间成本较高。CHARLES等[4]通过使用CNN提取了二维投影的特征信息,并将其融合至三维体素信息中,最终得到高维特征。SONG等[5]同样使用了CNN对输入的单张深度图像进行了特征提取、融合,从而恢复出完整的场景体素表达。本文提出的模型采用八叉树网格对数据进行重新组织,将点云的2个具有代表性的特征,法线方向与曲率存入网格之中,通过CNN的卷积与下采样操作,将三维对象映射于高维向量空间,将模型相似度与高维空间中的点之间的距离相关联,以达到模型检索的目的,本文模型在ModelNet40[6]及ShapeNetCore55[7]基准集上做测试,表现出良好的性能。本文方法采用的特征提取模型相较于基于多视角与基于体素的方法,多项测试指标均有较大的提高,同时由于采用八叉树的组织方式,网络训练与测试时间大大缩短,时间成本进一步减少。检索出相似模型后,本文利用迭代就近点(iterative closest point, ICP)配准[8]的方法,将模型与原场景进行拼接与配准,完成精细化建模任务。

1 预处理

本文采用DAI等[9]提出的单视角建模框架,首先对室内场景进行初次建模。该算法提出一种新颖的、实时的、端到端重建框架来完成建模任务,对原有的姿态估计与帧优化策略进行改进,采用基于彩色图与深度图作为输入的高效分层方法。但该算法受限于视角稀疏与自我遮挡等客观条件,建模场景存在点云缺失的情况,如图2所示。由于本文提出的建模框架针对单个目标对象进行数据库中模型检索、替换与配准,故需对原始场景进行分割以得到信息缺失的目标对象。本文采用文献[4]提出的点云分割算法得到目标点云对象。

图2 场景中存在信息缺失的目标对象

该方法使用点对称函数与目标对称网络解决点云顺序不固定与点云旋转的难题,通过引入新的损失项来约束由于参数量大而导致的矩阵正交情况。最终,网络使用多层感知机为每个点生成高维度特征向量,经由非线性分类器处理,输出每个点的分类向量,以完成对场景的分割。分割后目标对象如图3所示。

图3 场景对象分割

2 三维模型体素化表达

为满足CNN输入的要求,需对分割完成后的目标对象与数据库中的模型进行预处理以达到规则化的数据要求。预处理步骤如下:

步骤1.提取目标对象表面法向量与曲率信息;

步骤2.使用八叉树将点云对象网格化,并建立相应的哈希索引表。

2.1 点云表面法向量与曲率

本文采用虚拟扫描技术对点云密集区域进行采样,选择法向量方向变化最大的点作为采样点的特征点,将该点的法向量与曲率信息作为点云区域的底层特征。同时将14个虚拟相机放置在点云截断球体中心位置,朝向不同的方向,并在每个方向发射出16 000束平行光线,当光线与点云的表面相交时,即可将相交点视为对表面点的采样。在采样点周围区域选取法向量变化最大的点作为该区域的特征点,并计算某点与其临近点之间法向量夹角的算术平均值为

确定的法向量之后,取临近个点的曲率并求平均值,作为的曲率信息,即

其中,C为个临近点的曲率。

2.2 八叉树结构构建

八叉树具有自适应尺寸的三维网格结构,是二维的四叉树结构在三维空间的拓展,与传统的体素网格相比,可以在相同分辨率下显著减少对存储的消耗。传统的八叉树结构中每个节点均含有指向子节点的指针,从而使访问某节点的时间与树的深度呈线性比例关系,最终导致处理结点间的运算需要大量的时间,尤其是在处理高分辨率对象的情况下。为此,本文采用WANG等[10]提出的较新的八叉树生成算法解决上述问题。该算法建立多个哈希表,表中分别存储八叉树中结点位置与状态信息,通过表中的键值可快速查找节点的父子节点与兄弟节点位置信息,大大的缩短卷积操作所需的时间。图4为用一个二层的四叉树结构表示二维图形。

本文在建模框架中,将场景中目标对象与数据库对象分别以八叉树的形式进行表达。首先将点云模型置于单位长度的正方体包围盒中,并对其进行广度优先递归操作。递归过程如下:当遍历至八叉树的第层时,递归访问所有包含模型边界的节点,并将包含模型边界的包围盒进行8等分作为该节点的+1层子节点,若某节点中不包含模型的任一部分时,停止对该节点的划分操作。八叉树创建完成后,为减少进行卷积、下采样等操作所需要的时间,本文借鉴WANG等[10]提出的算法,为八叉树的每一层节点均建立多个哈希表,且存储一层中所有树节点的位置信息及标记信息,进而保证子节点可以通过访问散哈希中的键值快速找到父节点与兄弟节点位置。

哈希表可按类型分为以下2类:

(1) 散列哈希表:表中的键值表示第层节点与其第–1层父节点的相对位置关系,并按照升序

排列存入向量中,求键值得到

其中,xyz为八叉树体素空间的坐标位置。

(2) 标记哈希表:表中第[]位置的键值为,该层[]节点为层的第个非空节点,如节点为空则键值为0。使用标记哈希表可快速的得到父节点的子节点,例如八叉树的层结点的标签向量,对于索引为的非空节点,其第1个子节点的位置为=8×([]–1),同时[,+1,…,+7]为第1个子节点的相邻节点。

在哈希表中进行卷积计算过程为

其中,Oijk为被卷积的相邻节点;T(n)(·)为Oijk节点中存储的n通道特征向量;为卷积层的权值,如果Oijk不存在,T(Oijk)设置为0。

3 特征提取网络

特征提取网络目标为抽象出三维对象更加一般化的特征,将包含有法向量与曲率信息的八叉树网格作为输入,输出高维特征向量作为检索的依据。本文的网络结构如图5所示。

图5 检索网络结构

特征提取网络的目标在于将输入点云模型映射为高维空间中的一个向量,为可分别输入存储曲率信息与法向量信息的八叉树网格,首先对上述 2个网格进行4次卷积与下采样操作,从而得到 2个64维特征向量;然后,对2个特征进行融合,并将其输入至后续的特征提取网络,经过2次卷积与下采样操作后,得到256维向量;最后,将256维特征向量输入至全连接层,经softmax操作后得到55维向量,此向量即为特征提取网络的输出结果。本文在卷积操作之后对数据进行批标准化,从而可以消除数据分布对网络训练的影响,同时在下采样操作之前加入了非线性激活函数即为修正线性单元激活函数,从而提高了模型的表达能力。为防止过拟合的情况发生,本文在全连接层之后加入Dropout层。将卷积操作、批标准化、修正线性单元激活函数、下采样操作合并为一个基本操作单元用Q表示,特征提取网络中每一层的特征图数目设定为2max(1,9–),卷积层的卷积核设定为3。最终,浅层特征提取可表述为

训练特征提取网络所使用的损失函数为交叉熵损失函数,即

其中,为期望的输出;为神经元实际输出;()为权重衰减项。

4 ICP配准

其中,和为旋转平移矩阵,该算法能够比较准确地得到两帧点云间的变换矩阵,为了克服其对于点云场景初始位置比较敏感的限制,特别是当点云的初始变换矩阵选取得极不合理而导致陷入局部最优点的问题。本文在预处理阶段将扫描模型与数据库模型正方向朝向一致,并通过将目标对象与数据库对象进行配准以获取相应的位姿参数,最终通过融合的方式完成场景建模的过程。

5 实验结果与实验分析

本文的特征提取网络可应用于三维对象分类与检索任务中,本文在ModelNet40[6]数据集上进行三维模型分类的实验以检验网络模型在分类任务上的表现,ModelNet40[6]数据集包含有40个大类,12 311个三维模型用于训练与测试。网络在分类任务上性能表现及与其他模型对比实验结果见表1,其中的精确度计算如下

其中,f为网络预测的三维对象标签信息;y为对象的真实标签信息;1(·)为符号函数为测试集合对象的总数目。

分析实验数据可知,本文提出的网络模型在三维分类任务中的精确度优于利用自编码网络进行特征提取的3DShapeNet[6],同样与基于CNN但使用0~1体素网格的VoxNet[2]相比,精准度有明显提升,说明八叉树结构与法向量、曲率特征使得三维对象间更有区分度。与基于多视角特征融合的GIFT[11]方法相比,精准度有明显提高,说明本网络结构可以直接从三维点云学习到数据分布规律。与利用一系列滤波器提取体素的浅层特征的FPNN[12]相比,分类预测的精准度较高,说明本文的特征提取网络能得到更具有代表性的特征。

表1 三维对象分类实验精准度统计表

为验证特征提取网络在检索任务中的表现,本文采用5个通用的指标衡量网络的性能。实验使用ShapeNetcore55[7]数据集作为实验数据,测试集中每个对象均作为查询模型,整个测试集作为待检索目标集合。检索实验中,对于生成的检索序列中的每一个对象,为其设置一个状态值,当网络对目标模型预测的类标签与序列中的已知的类标签一致时,状态值为1,反之状态值为0,其准确率与回归率分别表示为

其中,t为在检索序列中正值的数目;f为在检索序列中与目标模型类标签不一致的对象的数目;f为在该序列中没有被检索出的对象模型;t+f为数据集合中该类模型的总数。

准确率和回归率的计算并没有什么必然的相关性关系,但是,在大规模数据集合中,这2个指标往往是相互制约的。在实际中需要根据具体情况做出取舍,本实验引入F-Score综合权衡这2个指标,即

当=1时,称为F1-Score,此时精确率和回归率权重相同,视为同等重要。

本实验引入平均精度均值指标衡量检索模型的性能,即

其中,为每个类的平均检索精度;为需要预测类的总数,且的计算为

其中,precision为类中每一对象的精确度;N为每一类对象的总数。

本文利用归一化折损累积增益NDCG指标衡量得到检索序列的相关度指标,与检索目标相关度越高的对象在序列中排名靠前,且NDCG值越高,即

其中,为折扣累积获得,即

其中,1为检索序列中每一项的得分,分值与序列中每一项与检索目标对象类与子类标签是否一致有关,当类和子类一致时计为2分,只有主类别相同,子类别不同的项计为1,完全不匹配的为0。本文体征提取网络完成模型检索实验后,利用检索结果计算得到相应的5个测试指标结果,并与相应的算法进行了对比,实验结果见表2。

表2 三维模型检索实验效果评估

实验结果表明,本文模型在检测检索性能的各项数据上均优于基于多视角与0-1体素的方法,特别是NDCG指标准确率可达90%,表明检索中备选对象的排名顺序准确度较高。与CM-CNN,Channel-Wise,ZFDR[13]等基于二维视角融合与逐通道进行特征提取的算法相比,本实验的检索准确度更高。

在经过特征提取网络得到相应的特征之后,待替换对象通过与数据库模型进行特征的匹配与检索,得到最相似的模型集合,人为挑选出最相似的模型进行下一步的配准。首先将2个模型的正方向保持一致,然后通过最近点匹配算法不断地进行 2个点集的匹配以完成场景配准任务,配准结果如图6所示,场景内的椅子与桌子均被数据库中最相似模型进行替换。

图6 场景建模结果图

综上所述,本文提出的基于模板替换的室内场景建模框架,利用数据库中相似的三维模型替换信息缺失的目标对象再经过场景配准完成场景建模任务。该框架对于场景中存在结构损失严重,有大部分缺失的目标对象时有较好的建模效果,原因在于基于模板替换的方式使用整体替换的方式进行建模,只要特征提取网络能得到较好的特征,并且能检索出相似的模型,有利于得到较好的场景复原效果。所以当场景中信息缺失较严重时,采用模板替换的建模方式往往有不错的效果。但是,当要完成的任务需要比较精细化的建模效果时,且对于真实性要求较高或对位置信息比较敏感时,基于模板替换的建模框架由于数据库容量的限制会造成检索出的模型与真实对象有较大的偏差。同时,由于本文使用场景配准的方式进行重建,配准的误差也将影响模型的质量,当配准的误差较大时,将导致三维对象的位置与位姿将有较大的偏差而不能满足交互的要求。

6 结束语

三维建模是智能机器人导航与环境感知的重要技术前提,通过对场景进行详尽的描述与建模,机器人能通过这些信息进行下一步交互。对不同应用环境下进行场景建模,进而对场景进行分析而做出准确的场景评估,对精确评估场景状况、有效提供下一步交互动作具有重要意义。针对现存研究工作的不足,本文将重建结果的表现形式定位为点云,解决了传统方法因输出为体素导致的分辨率较低的问题,同时利用CNN对特征进行提取,加速了模型匹配的进程,从而可以在较短时间内完成重建。

本文的主要工作为基于数据库模板替换的方式对三维场景进行重建。通过CNN提取目标对象的高维度特征并依据特征相似度,在数据库中检索出最相似三维目标模型,通过配准的方式完成场景重建。

本文的创新点是利用数据驱动的方式,以CNN提取更加具有抽象性、更加具有一般性的特征,利用此高维度特征作为检索的依据,能在数据库中检索出更加相似的模型,完成重建。

本文的不足在于数据库模板替换的方式虽然可将不可见部分进行补全,但是受限于数据库的容量限制,建模的细节往往与真实场景有较大 差距。

[1] SU H, MAJI S, KALOGERAKIS E, et al. Multi-view convolutional neural networks for 3D shape recognition[C]//2015 IEEE International Conference on Computer Vision (ICCV). New York: IEEE Press, 2015: 945-953.

[2] MATURANA D, SCHERER S. VoxNet: a 3D convolutional neural network for real-time object recognition[C]//2015 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). New York: IEEE Press, 2015: 922-928.

[3] TATARCHENKO M, DOSOVITSKIY A, BROX T. Octree generating networks: efficient convolutional architectures for high-resolution 3D outputs[C]//2017 IEEE International Conference on Computer Vision (ICCV). New York: IEEE Press, 2017: 2088-2096.

[4] CHARLES R Q, SU H, MO K C, et al. PointNet: deep learning on point sets for 3D classification and segmentation[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 652-660.

[5] SONG S R, YU F, ZENG A, et al. Semantic scene completion from a single depth image[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 1746-1754.

[6] WU Z, SONG S R, KHOSLA A, et al. 3D ShapeNets: a deep representation for volumetric shapes[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2015: 1912-1920.

[7] CHANG A X, FUNKHOUSER T, GUIBAS L, et al. Shapenet: an information-rich 3D model repository[EB/OL]. (2015-12-09) [2019-08-15].https://arxiv.org/abs/1512.03012.

[8] RUSINKIEWICZ S, LEVOY M. Efficient variants of the ICP algorithm[C]//Proceedings 3rd International Conference on 3-D Digital Imaging and Modeling. New York: IEEE Press, 2001:145-152.

[9] DAI A, NIEßNER M, ZOLLHÖFER M, et al. Bundlefusion: real-time globally consistent 3D reconstruction using on-the-fly surface reintegration[J]. ACM Transactions on Graphics (ToG), 2017, 36(3): 24-32.

[10] WANG P S, LIU Y, GUO Y X, et al. O-CNN: octree-based convolutional neural networks for 3D shape analysis[J]. ACM Transactions on Graphics (TOG), 2017: 36(4): 72-80.

[11] BAI S, BAI X, ZHOU Z C, et al. GIFT: a real-time and scalable 3D shape search engine[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 5023-5032.

[12] LI Y, PIRK S, SU H, et al. Fpnn: field probing neural networks for 3D data[C]//Advances in Neural Information Processing Systems. New York: Curran Associates, 2016: 307-315.

[13] LI B, JOHAN H. 3D model retrieval using hybrid features and class information[J]. Multimedia Tools and Applications, 2013, 62(3): 821-846.

Indoor scene modeling method based on template replacement

ZHANG Zhao-xuan1, WANG Cheng-bin1, YANG Xin1, PIAO Xing-lin2, WANG Peng-jie3, YIN Bao-cai1

(1.School of Computer Science and Technology, Dalian University of Technology, Dalian Liaoning 116024, China;2. Peng Cheng Laboratory, Shenzhen Guangdong 518055, China;3. School of Computer Science and Engineering, Dalian Nationalities University, Dalian Liaoning 116600, China)

Nowadays, much progress has been made in the research of indoor scene modeling, especially the modeling frameworks based on multiple perspectives and single perspective, which has enhanced the robot’s environment perception. However, the following shortcomings still exist: ①The modeling method based on multiple perspectives requires a long pre-processing time, and the offline optimization process is required after the modeling is completed, which cannot meet the modeling requirements under specific conditions. ②The modeling algorithm based on single perspective is mainly output with voxels, so the modeling quality is low, and the information is missing seriously. The details of the scene cannot be accurately characterised, and it is difficult to meet the requirements of robot interaction. In view of the above deficiencies, this paper puts forward a method of indoor scene modeling based on template replacement. First, the three-dimensional point cloud scene is preprocessed to segment a single object with missing point cloud, and then the virtual scanning technology is used to sample the surface points of the object and calculate the corresponding normal vector and curvature. Next, the octree mesh is used to store the normal vector and the curvature information respectively. Furthermore, the high-dimensional feature vectors are extracted by the convolutional neural network (CNN), and the Euclidean distance is compared with the features of three-dimensional object in the database, so as to obtain the retrieval sequence. Finally, the most similar objects are selected from the sequence, and the iterative closest point (ICP) registration method is used to register with the scanning scene to complete the scene optimization. In this paper, the proposed network model is tested on two benchmark data sets and shows good performance.

robot; indoor scene modeling; convolutional neural network; iterative closest point registration; point cloud

TP 391

10.11996/JG.j.2095-302X.2020020270

A

2095-302X(2020)02-0270-07

2019-08-16;

2019-09-21

国家自然科学基金项目(91748104,61972067,61632006,U1811463,U1908214,61751203);国家重点研发计划项目(2018AAA0102003)

张肇轩(1994–),男,吉林松原人,博士研究生。主要研究方向为计算机视觉。E-mail:zhaoxuanzhang@mail.dlut.edu.cn

杨 鑫(1984–),男,吉林四平人,教授,博士,博士生导师。主要研究方向为计算机图形学。E-mail:xinyang@dlut.edu.cn

猜你喜欢

特征提取检索向量
向量的分解
聚焦“向量与三角”创新题
空间目标的ISAR成像及轮廓特征提取
瑞典专利数据库的检索技巧
在IEEE 数据库中检索的一点经验
基于Gazebo仿真环境的ORB特征提取与比对的研究
基于特征提取的绘本阅读机器人设计方案
一种基于Python的音乐检索方法的研究
基于Daubechies(dbN)的飞行器音频特征提取
向量垂直在解析几何中的应用