APP下载

基于深度学习的三维空间的人体行为图像扫描算法研究

2021-03-18

宁夏师范学院学报 2021年1期
关键词:三维空间卷积物体

陶 婧

(芜湖职业技术学院 公共管理学院,安徽 芜湖 241000)

目标识别技术是一种通过各类算法对目标进行特征识别的技术.早期的目标识别技术包括文字识别、二维图像识别技术、三维空间物体识别技术,维度越高识别技术的难度越大[1].19世纪60年代二维图像识别技术开始起步,随着计算机技术的飞速发展,人们找到了提高二维图像识别效率的方法.将计算机技术与图像处理技术相结合,大大提高了二维图像识别的精准度[2].随着二维图像的数据复杂化以及动态图像的发展,普通的目标识别技术已经不能满足科技发展的欲望.由此,三维目标识别技术应运而生.三维图像识别技术是通过对三维空间的某一物体进行三维观察取样,然后通过二维识别技术对每一维图像进行特征识别,最后将每一维的特征整合到一起得到三维物体在三维空间中的位置和姿态[3].目前,三维目标识别技术是计算机视觉技术领域的研究热门.其在军事领域导弹制导、智能领域无人驾驶、工业自动化智能机器人、航天遥感技术以及生物医药设备领域等发挥着重要作用.

随着新型目标识别技术的发展,目标识别技术所能达到的领域越来越接近于人眼功能.深度学习诞生于21世纪初,是由“神经网络之父”Hinton提出的一种在神经网络算法基础上的一种全新的训练方法[4].深度学习算法有效避免了神经网络算法中的过拟合的问题.随着信息科学的发展,大数据时代已经来临,并且随着CPU等硬件系统计算能力的提升,大规模数据非线性计算也越来越多.因此,利用深度学习算法对大数据的研究是必不可少的.深度网络是一种模拟人脑行为寻找规律特征的算法,包含多个神经网络模块,通过每一层神经网络对数据进行特征提取和抽象,每一层神经网络中还分为多个单元层,通过多层筛选对数据进行特征提取,低层特征经过再提取就得到了高层特征.提取的特征越来越抽象,也越具有代表性[5].由此,三维识别技术在利用特征对目标进行识别的过程中也更为精确.本文研究将深度学习算法更高效的应用到三维目标识别技术领域,为三维识别技术领域提供一种新的研究方向,并且扩展了深度学习算法的应用领域.

1 颜色-深度物体识别与深度学习理论

本文主要研究了基于深度学习算法的颜色-深度(Red/Green/Blue-Depth,RGB-D)物体识别技术.本文对RGB-D物体识别技术进行了详细的分析,并对目标识别技术中的深度学习算法的几种典型的网络模型进行了详细的阐述.

1.1 RGB-D物体识别技术

在目标识别技术中,通常用的方法是利用多幅二维图像的点集特征来确定三维物体在空间中的位置和姿态信息.深度成像传感器可以检测三维空间中的目标物体表面上的各个点三维坐标信息.深度成像传感器输出的图像被称为深度图像.其原理是通过对目标物体发射连续的近红外脉冲,利用深度成像传感器接收由物体反射回的光脉冲.通过比较发射光脉冲与反射回的光脉冲的相位差,可以推算到光脉冲之间的传输延迟进而得到目标物体相对于发射器的距离,最终得到一幅带深度信息的图像(Depth).

通过识别物体的颜色信息,在图像上体现相应的红(R)、绿(G)、蓝(B)三种颜色以及相互叠加得到的颜色,得到的图像即为二维彩色图像(RGB).RGB图像的优势在于不仅可以体现物体的颜色特性,将RGB图像转化为灰度图像时还可以体现物体的纹理特征,如图1.

图1 RGB图像转化的灰度图像

RGB图像和Depth图像之间的比较见图2.

图2 RGB图像和Depth图像之间的比较

对于三维空间的物体,如果只单独采用RGB图像或者深度图像进行识别,一般获取的识别效果并不理想.将RGB特征与深度特征采用有效的融合方法进行融合,可以有效提高物体识别率.因此,提出了RGB-D物体识别技术.RGB-D物体识别技术是在用于检测三维空间中物体表面的目标点在三维空间中距离成像设备的距离的三维传感器的基础上,采用RGB摄像机检测三维空间中物体表面的纹理、轮廓和颜色等特征.弥补了基于二维图像的识别方法缺少空间立体感、空间位置等信息的不足,对于物体识别的研究具有非常重大的意义.

该技术的算法的框架如图3,主要为特征提取、融合和识别三个过程.提取特征部分主要采用多层匹配追踪算法从深度图像及RGB图像中分别提取出深度特征和RGB特征.融合特征部分是采用特征级融合方法将上述得到的特征进行深度融合,得到融合特征.特征识别部分是运用SVM分类器进行分类识别,并根据特征融合情况调整融合参数,对识别寻优.

图3 RGB-D物体识别技术算法的实现框架

RGB-D物体识别技术的硬件系统主要由三维传感器成像设备以及微软研发的Kinect摄像机组成.在实际应用中,整个成像设备可以减少光照变化、阴影、视角变化等外界因素对物体识别的干扰,获取图像鲁棒性的特征,稳定地反映物体表面的三维几何特性,得到高质量的RGB图像和深度图像.并且这两种图像之间的信息保证完全独立,可以相互结合使用.

1.2 深度学习算法

深度学习算法是一种类似于人脑的寻找潜在联系的算法.深度学习算法能够在大规模的数据当中将数据特征从具体到抽象,并且可以进行多层传递.深度学习算法是人工神经网络的进化版.一个深度学习算法中通常包含三层或者三层以上的神经网络模型.在功能上比神经网络算法更加具有可行性.目前,深度学习算法广泛应用于在线语音识别、图像识别、人脸识别以及智能系统识别技术中.深度学习模型包含多种,本文主要分析自动编码机和深度卷积神经网络模型.

自动编码机是一种非监督的学习网络.在无外界干扰的条件下,它能够自行的对输入数据进行特征提取.自动编码机的基本单元图如图4.

图4 自动编码机的基本单元图

图4中,自动编码机中主要包含一个输入层、一个隐含层和一个输出层.其中,可以通过增加隐含层的个数来提高特征的准确性.自动编码机的编码过程和解码过程可以由公式(1)和公式(2)来表示.

h=f(W1x+b1),

(1)

(2)

在公式(1)中,h为输出矢量,f为自动编码机在寻找特征时不断学习获得的一个特征提取函数,W1为输入层与隐含层之间的权值,x为输入矢量,b1为对应的偏置.在公式(2)中,W2为输出层与隐含层之间的权值,b2为对应的偏置.

自动编码机的目标函数是以重构出来的误差最小.从而可以不断更新迭代权值和偏置参数.

深度卷积神经网络是监督神经网络的一种.卷积神经网络中包含多个隐含层.其中,隐含层包括卷积层、池化层和全连接层.卷积层和池化层的主要作用就是在输入层的大量数据中寻找特征,最终得到特征图层.卷积层主要用于将输出层的特征数据进行增强,并且可以降低无关的其余杂质数据.卷积层的卷积运算主要根据公式(3)进行.

yj=F(Wjx+bj),

(3)

其中,Wj为共享权值,bj为共享偏置,F为激活函数,常用的激活函数有sigmoid函数、tanh函数以及ReLu函数.

在数据进行了卷积层经过卷积运算后,被运往池化层部分.池化层利用了图像数据局部相关性的原理,对卷积后的数据进行采样.采样数据保留了原始数据的特征信息,并且减少了数据量,大大减少了数据处理量.池化层中池化的处理方法有两种:平均池化和最大池化.池化过程的示意图如图5.

图5 池化层中池化过程

由图5可以看出,池化层首先将由卷积层输出的数据进行区域划分,然后对每一个区域的数据进行平均值或者最大值进行求解,并作为池化结果进行输出.

总结上述阐述,RGB-D物体识别技术是数据获取以及数据判别的重要技术.而深度卷积神经网络算法是处理数据,寻找数据特征的主要算法.两者的结合可以实现对三维空间中物体进行捕捉、处理以及识别的过程.深度卷积神经网络在一定程度上不仅增强了原始数据种独有的特征,并且降低了其中的干扰杂质数据,使得辨识效率和精度大幅增加,是一种非常好的处理手段.

2 基于深度卷积神经网络的RGB-D物体识别技术

随着单层卷积神经网络-递归神经网络(Convolutional Neural Network-Recurrent Neural Network,CNN-RNN)算法的诞生,学者们利用该算法对图像进行处理以便辨识需要,但是这产生了一个更大的弊端.使得RGB-D物体识别技术获取了RGB图像之后,需要将图像的大小控制在某一固定的范围.因此,图像会得到不同程度上的压缩以及拉伸.这样使得图像在一定程度上失真.导致整个识别系统的识别精准度下降.为了解决这个问题,需要对获取的图像进行处理,既不损失原始图像的信息又可以适应RGB-D识别方法固定的输出大小.

本文在原算法的基础之上进行了改进,提出了单层卷积神经网络-空间金字塔池化层-递归神经网络(CNN-SPPL-RNN)算法.本文提出了利用空间金字塔池化层(Spatial Pyramid Pooling Layer,SPPL)里层代替卷积神经网络中的池化层,直接对RGB图像中的卷积特征进行2D金字塔池化,对Depth图像中的卷积特征进行3D金字塔池化.

CNN-SPPL-RNN算法的基本组成包括单层卷积神经网络(CNN)、空间金字塔池化层(SPPL)以及递归神经网络(RNN).三者的相互关系示意图如图6.

图6 CNN-SPPL-RNN算法的基本构成示意图

图6详细介绍了CNN-SPPL-RNN算法的整个运行过程.本文从两个方向对提出的CNN-SPPL-RNN算法进行了验证.首先,利用RGB摄像机获取RGB图像或Depth图像;对图像进行数据化,利用k-means聚类算法进行处理,并同时学习两类图像视角的卷积滤波器系数.然后滤波除去多余的杂质数据;经过卷积运算获得具有低级数据特征的单层神经网络数据矩阵;利用2D金字塔池化算法对每一层数据矩阵进行池化操作;将池化后的数据作为多个固定树型递归神经网络的输出,使数据特征进一步得到提炼,最终得到更加高级的数据特征.

3 实验验证

本文借鉴了华盛顿大学相关研究人员的WRGB-D数据集以及2D3D数据集,利用MATLAB仿真平台进行了程序编写.从数据集中随机采样了400000个子块.利用聚类算法得到了128个滤波器系数.其中RGB方向的滤波器尺寸为9×9×3,Depth方向的滤波器尺寸为9×9.然后通过卷积运算可以得到卷积特征.神经网络N=64的固定树型RNN神经网络.利用RNN神经网络对RGB方向和Depth方向的特征maps进行进一步的特征提取.随机权值取[-1,1]直接的随机数,激活函数选用tanh.结合RGB方向和Depth方向的抽象特征,最终得到组合特征.

本文在WRGB-D数据集上对RGB方向和Depth方向的抽象特征数据进行验证.并验证本文提出的CNN-SPPL-RNN算法,实验结果如下表.

表1 WRGB-D数据集结果对比

由上表可以看出,经过WRGB-D数据集的对比,可以得出通过RGB方向和Depth方向得到的数据特征平均分辨率达到了91.9%和93.2%.二者结合使用的平均分辨率达到了93.7%.经过实验验证,识别准确率达到了90.8%.这证明了本文提出的CNN-SPPL-RNN特征提取算法具有非常高的精准度.

4 结论与展望

针对三维空间中实物目标识别中存在的问题以及现存识别技术中存在的弊端,本文利用了深度神经网络,将该网络应用到了三维空间目标识别技术当中.深度神经网络能够快速准确地提取大数据中的特征数据.本文根据深度神经网络的这种特性提出了CNN-SPPL-RNN算法.实验数据表明,当采取CNN-SPPL-RNN算法来对三维空间实物进行识别的精准度达到了90%以上.本文还将RGB方向和Depth方向相结合,组成针对三维物体的组合特性.根据实验数据表明,组合特性对三维实物的识别准确率达到了93.7%.这些实验数据证明了本文提出的CNN-SPPL-RNN算法可以应用到三维目标识别系统中,该方法是可行的.

猜你喜欢

三维空间卷积物体
前庭刺激对虚拟环境三维空间定向的影响及与空间能力的相关关系
基于3D-Winograd的快速卷积算法设计及FPGA实现
深刻理解物体的平衡
卷积神经网络的分析与设计
从滤波器理解卷积
红领巾环保走进三维空间——“6·5世界环境日”活动方案
超时空转换(时空启蒙篇)
三维空间的二维图形
基于傅里叶域卷积表示的目标跟踪算法
揭开物体沉浮的秘密