APP下载

基于迁移学习的三维模型特征提取方法研究

2020-02-21宋欣悦任爽向静文

电子技术与软件工程 2020年13期
关键词:迁移学习三维模型卷积神经网络

宋欣悦 任爽 向静文

摘要:本文为提高三维模型检索性能,解决因训练数据不足导致卷积神经网络模型过拟合的问题,提出一种基于迁移学习和多特征融合的三维模型检索算法。基于多视图的方法,借助发展较为成熟的图像特征提取技术,将迁移学习引入卷积神经网络模型训练中,对不同领域且存在不同分布情况的数据进行映射。通过改进的领域适配方法(DDC)减小域间差异。基于多个源模型、多个目标模型学习,比单一模型具有更强泛化能力与鲁棒性。对通用特征进行PCA降维与特殊特征进行融合,获得更强的特征表示能力。提出一种基于迁移学习的三维模型特征提取技术路线,以验证集的平均查全率和平均查准率作为评估指标,以查准一查全曲线作为评判曲线。旨在提高三维模型检索的效率和准确率,以适应目前小数据集挖掘研究浪潮。

关键词:三维模型;特征提取;多视图;迁移学习;卷积神经网络

随着5G的迅速发展,其低时延、高带宽的特性真正打开了全连接世界的大门。为智能终端发展与虚拟现实体验带来更多可能。依托于计算机建模技术的发展以及各种三维建模软件的广泛应用,三维模型数量呈爆炸性增长,而三维模型的逼真度、丰富度等对用户体验起到了至关重要的作用。为了高效的管理与复用,以期借助计算机对三维模型进行快速、高精度的自动化检索,减少创造产品的时间和金钱代价,模型的特征提取成为其检索效果好坏的关键环节之一。因此,三维模型特征提取技术成为研究热点。三维模型特征提取有三大类方法:基于体素的方法、基于点云的方法与基于多视图的方法。基于体素的方法占用大量的计算力和存储空间,对硬件计算能力要求较高;基于点云的方法由于点云无序,输入处理模型时点的排序一定会存在一个序列,让网络不受序列的影响挖掘点云的内部特性是难点所在;基于多视图的方法对噪声的抗干扰能力强,并且能够借助发展较为成熟的图像特征提取技术提高三维模型特征提取的能力,因此,近年来很多学者将图像特征提取利用的深度学习方法引入到三维模型。典型工作有:基于全景视图的DeepPano算法[1]、基于几何图像的Geometry Image[2]算法,以及多视角下的卷积神经网络Multi-view Convolutional Neural Networks,MVCNN[3-5]、基于成对图像的Pairwise算法[6]等。但是利用深度学习的方法在小样本数据集上的泛化性能有待提高,卷积神经网络被广泛用于模型识别与检索领域,效果的好坏很大一部分原因来自数据规模是否能够支撑计算,为了减小数据规模的影响力,基于迁移学习的卷积神经网络模型迅速发展并在多个领域得到了应用。已有学者基于迁移学习思想,将己训练的卷积神经网络进行微调,用于图像的分类、检测和分割。本文提出一种基于迁移学习的三维模型特征提取方法,提高卷积神经网络在小规模三维数据集上的迁移学习能力。通过基于多视图的方法,将三维模型用一组多视图表示,将迁移学习的思想引入卷积神经网络模型训练中,对不同领域且存在不同分布情况的数据进行映射,很好的解决样本数据量不足的问题,取得更好的效果。通过改进的领域适配方法(DDC)减小域间差异。基于多个源模型、多个目标模型学习,比單一模型具有更强泛化能力与鲁棒性。对通用特征进行PCA降维并与特殊特征进行多特征融合,获得更强的特征表示能力。

基于多视图的三维模型检索关键步骤通常包括三步:二维视图的获取、特征提取和相似性度量,如图1所示。

1 二维视图的获取

三维模型的二维视图可以通过虚拟摄像机拍摄的方式获得,本文采用光场描述法对三维模型进行处理并提取其特征。

光场描述法LFD(Light-Field Descriptors)[7]采用模型的视觉相似性匹配三维模型,具体指标是使用光场中的图像差异来衡量相似度。录制空间为一个多面体,具有十二个面和二十个顶点。该方法首先对一个三维模型进行预处理,如平移、缩放等。紧接着在二十个顶点处放置摄像头,得到一组视图组,包含二十张视图,这些视图可以粗略地表示三维模型的形状特征。然后对视图组进行特征提取,包括三十五维的Zemike特征和十维的Fourier描述符。

2 特征提取

获得三维模型的多视图后需要进行二维视图的特征提取。虽然二维图像特征提取的研究己久,并且相当成熟。但三维模型经过拍照或投影等获取的视图较仅仅为二维图像的特征提取还是有较大难度的。因为一个三维模型的多视图之间有空间相关性,不能割裂。三维模型特征提取过程中,深度学习本质上也是一种概率统计模型,因此训练深度学习模型需要大量的训练样本,样本量不足可能导致模型准确率低下。引入迁移学习的理论训练出具有高识别率卷积神经网络的方法具有重要意义。

2.1 改进领域适配方法

为了最小化领域间的差异,领域适配方法(DDC)被提出,其通过在源域和目标域之间添加自适应层来达到目的。深度迁移学习方法采用了最小化最大均值差异(MMD)来衡量概率分布差异,它利用核空间中源领域与目标领域间的概率分布均值来量化差异值[8]

DDC只在网络框架中适配了一层网络。因此需要确定适应层的位置,选取方法为逐层计算源数据与目标数据之间的MMD距离,之后将距离最小的层作为自适应层进行知识迁移。这可能无法达到很好的知识迁移效果,因此,可以对DDC进行改进,通过添加更多的适配层进行联合,增强知识迁移的效果,提高通用特征提取准确率。

2.2 多源多目标模型

有学者提出引入迁移学习使用图像数据集微调预训练模型来解决小样本带来的过拟合问题[10],相对于现有的深度迁移学习方法直接使用源模型与目标模型抽取特征,采用更多的源模型迁移特征[11],更多的目标模型提取特殊特征,有利于改善最后融合特征的组合比例,且具有更强的特征表示能力。由于模型的自身结构不同导致所抽取的特征不同,导致采用同一种方法使用不同的模型所得到的识别率有所差别,怎样充分利用这些源模型的通用特征与目标模型的特殊特征将是本文的重点研究内容,通过提出一种基于多源多目标模型的迁移特征融合学习方法来解决这个问题。旨在放大各个算法的优点,增强泛化能力与鲁棒性。见图3。

本文研究的多源多目标模型的迁移特征融合学习方法的总体思想如下:利用不同结构的深度神经网络可以抽取到不同的特性,首先在相关大数据集上预训练得n个的源CNN模型,分别将源模型在目标数据集上进行DDC迁移适配学习,获得n个通用特征;然后在目标小数据集上训练得m个适合小数据集的目标模型,获得m个特殊特征;最后将获得的基础通用特征经过PCA降维后与直接在特定领域数据集上训练模型得到的特殊特征进行融合。

本研究选取两个源模型,三个目标模型,不同模型通过排列组合进行结果对比。(模型A与模型B组合记为A-B)

在本研究中,每种特征提取算法针对视图的某一个或几个方面的信息进行描述,最终得到一个特征描述符。将多个不同的特征组合起来,形成一个新的特征,这是一种常见的可以提高检索性能的方法,但是这种方法有两个很明显的问题:一是组合后的特征向量维度很高,计算起来速度很慢,导致系统效率降低,并且过多的通用特征会导致特殊特征在特征融合后的比例减小,这一点将利用特征降维的方法来解决;二是不同特征之间存在信息冗余和相互影响的情况,使得组合之后的特征未必能很好地提高系统的检索精度,这一点将利用特征融合来解决。

2.3 特征降维

随着采用的源模型数目增多,得到的融合通用特征维数也越来越大,往往会使得在目标数据集上训练而来的特殊特征在最后的多源融合特征中所占比例太小,对后面相似度度量所起到的影响微乎其微,可能导致最后得到的检索模型缺乏普适性,特殊特征没有发挥其应有的作用。对于此问题,我们采取的办法是将抽取到的通用特征进行降维处理,使得最后得到融合特征维数降低,减少检索模型的训练时间,并且改善最后的融合特征的组合比例。

常见的降维算法有主成分分析(Principal Component Analysis,PCA),线性判别分析(Linear Discriminant Analysis)、特征选择(Feature S election)等;其中,PCA降维方法在机器学习中很常用,是一种无参数的数据降维方法。在进行PCA降维之前,需要确保所有数据处于同一标准下。利用线性投影,将高维空间的数据投影到低维的空间中,并期望在所投影的维度上数据的方差最大(投影后的数据尽可能的分开),以此使用较少的数据维度,同时保留住较多的原始数据样本点的特性。

本文首先将每一张图片样本通过改进的DDC适配网络学习后的源模型转化为通用特征向量数据,将其保存,再应用PCA算法进行降维处理。

2.4 特征融合

对于一个模型,将两个用不同特征计算得到的相似度进行加权线性相加,得到一个新的相似度:

3 相似性度量

在任何多媒体信息检索中,无论信息载体是图片、音频、视频还是三维模型,相似性度量都是至关重要的一环。基于多视图的三维模型检索中的图片匹配与传统的图片检索算法的相似度度量有所不同。传统的图片检索匹配只是单对单的匹配问题。而多視图匹配是从三维模型中提取出来的一组图片序列与另一组图片序列之间的匹配,因此属于多对多的匹配问题。

在数学中,豪斯多夫距离量度主要用于度量空间中真子集之间的距离。在豪斯多夫距离定义中,集合中的某点与另一集合中欧氏距离最近的点定义为匹配对。所有匹配对中的最大值表示两个集合之间的距离。严格数学定义如下:

4 检索性能评价指标

在信息检索领域,判断检索结果好坏时,查全率(Recall ratio)与查准率(Precision ratio)是两个最常用的指标。它们表示系统的“过滤能力”,即让和检索对象相关的对象“通过”,“阻止”无关对象。查准率和查全率可以精准的反应检索效果的好坏。在三维模型检索领域也不例外,常用的检索性能评价指标为平均查全率(AverageRecall,AR)和平均查准率(Average Precision,AP)。其中,检索结果为10个三维模型,与检索对象相关的对象定义为相似度排序前10名,则,

平均查全率的计算公式如下:

一般经常使用查准一查全曲线(Precision-Recall Curve)来评判三维模型检索算法的检索性能。查准一查全曲线是信息检索的重要性能评估指标,横轴表示平均查全率,纵轴表示平均查准率,曲线围成的面积越大表示方法越好。

5结束语

三维模型的特征提取为三维模型检索技术中的关键环节。针对特征提取精度的提高,本文旨在提出一种技术路线一一基于迁移学习的三维模型特征提取方法。旨在提高三维模型检索的效率和准确率,以适应目前小数据集挖掘研究浪潮。

从理论的角度本文对已有的研究进行了分析与改进,实验论证方而还有所不足,在之后的日子里将继续进行下去,通过实验对本文提出的技术路线进行完善。

参考文献

[1] SHI B, BAI S, ZHOU Z, et al. DeepPano: deep panoramicrepresentation for 3D shape recognition [J]. IEEE SignalProcessing Let ters,

2015, 22 (12):

2339-2 343.

[2]SINHA A,JING B,RAMANI K. Deep learning 3D shapesurfaces using geometry images [C] //Proceedings of the14th European Conference Computer Vision. Amsterdam,Netherlands:

Springer. 2016:

22 3-240.

[3] SU H,MAJI S,KALOGERAKIS E,et al.

Mul t i-view convolutional neural networks for 3D shaperecognition [C] //Proceedings of the 2015 IEEEInternat ional Conference on Compu ter Vi S ion.Piscataway:

IEEE, 2015:

945-95 3.

[4] WANG C,PELILLO M,SIDDIQI K,et al.

Dominantset clustering and pooling for mul ti-v iew 3Dobject recognition [J/OL]. arXiv preprint arXiv:1906. 01592, 2019.

[5]MA Y X,ZHENG B,GUO Y L,et al. Boosting multi-viewconvolutional neural networks for 3D object recognitionvia view saliency [C] //Proceedings of the 12th ChineseConference on Image and Graphics Technologies.Heidelberg: Springer, 2017: 199-209.

[6] JOHNS E,LEUTENEGGER S,DAVISON A J. Pairwisedecomposition of image sequences for active multi-view recognition [C] //Proceedings of the 2016 IEEEConference on Computer Vision and Pattern Recognition.Washington, DC: IEEE Computer Society, 2016: 3813-3822.

[7] CHEN D, TIAN X, SHEN Y et al. On Visual

SimilarityBased 3D Model Retrieval [C],/Computer Graphics Forum.Blackwell Publishing,

Inc, 2003: 22 3-2 32.

[8] GRETTON A, BORGWARDT K M, RASCH M J,

et al. Akernel two-sample test [J]. Journal of Machine LearningResearch, 2012, 13 (Mar):72 3-77 3.

[9] BORGWARDT K M,GRETTON A, RASCH MJ,

et al. Smola.Integrating structured biological data by kernelmaximum mean discrepancy. In Bioinformatics, 2006.

[10]劉颖,张帅,范九伦.基于迁移学习及特征融合的轮胎花纹图像分类[J].计算机工程与设计,2019, 40(0 5):1401-1406.

[11]徐露露.基于深度卷积特征的迁移学习在图像识别上的应用研究[D].华南理工大学,2018.

作者简介

宋欣悦,硕士学位。研究方向为虚拟现实、大数据分析。

任爽,博士,副教授。研究方向为虚拟现实、区块链、大数据分析。

向静文,硕士学位。研究方向为虚拟现实、区块链。

猜你喜欢

迁移学习三维模型卷积神经网络
奇异值分解与移移学习在电机故障诊断中的应用
基于深度卷积神经网络的物体识别算法
大数据环境下基于迁移学习的人体检测性能提升方法