具有旋转运动模糊不变性的卷积神经网络: RMBI-Net①

2022-08-31郭锐郝优许溟贾丽∗李华③

高技术通讯 2022年6期

关键词：准确率卷积神经网络

郭锐郝优许溟贾丽∗ 李华③

（∗中国科学院计算技术研究所智能信息处理重点实验室北京100190）

（∗∗中国科学院大学北京100049）

（∗∗∗92728 部队北京100036）

（∗∗∗∗91977 部队北京100036）

0 引言

图像的旋转运动模糊在高速旋转的导弹导引头所拍摄的图像中很常见,快速、准确地识别模糊目标具有重要的意义。图像的旋转运动模糊是在相机成像的曝光时间内及相机与目标相对旋转运动导致的。近年来,卷积神经网络（convolutional neural network,CNN）及其衍生的网络在计算机视觉领域应用非常广泛,极大地促进了该领域的发展,CNN 在许多任务中表现远超过了传统的手工特征采样。例如LeNet[1]、VGGNet[2]和ResNet[3]等网络。这些网络在特定任务中实现了非常好的性能。研究发现,对于没有遵从经典采样原理的CNN 衍生网络（如VGGNet、ResNet 等）,其网络的泛化能力不能得到保障,它们对于平移、尺度、旋转并不具有不变性[4]。针对特定的应用场景,理想的网络应具有相应的不变性,这会大幅降低训练的复杂度并提升网络性能。研究人员提出了很多方法来解决神经网络中不变性的问题。

解决CNN 不变性最常用的方法是数据增强,该方法简单有效,已经成为神经网络处理数据的一般方法,然而该方法的缺点也很明显。首先是消耗大量的计算时间和网络容量来对样本进行学习,同时还会增加网络过拟合的风险。其次,这种不变性是从数据中习得的,而不是网络本身的固有属性,对于每一个新的任务,都要重新进行学习。其他用于训练神经网络具有不变性的方法,大致可以分为以下3 类。

第1 类是增强输入的方法。这是数据增强的一个变体,它通过对每一层卷积操作的输入进行增强,而不是对输入数据进行增强[5-6]。这类方法可以使CNN 获得全局不变性,但它们在本质上与数据增强的方法没有太大区别,并不能降低训练的复杂度。第2 类是通过增强滤波器的方法来使网络获得不变性。它们通过对每一个卷积层的滤波器进行旋转或其他增强,来使网络获得不变性[7-8]。这类方法都受滤波器的形状制约,不能将滤波器进行任意的操作,且计算复杂度与前一种方法基本相当。第3 类是通过修饰滤波器来使网络获得不变性[9]。这类方法引入了经典的计算机视觉如谐波滤波器、傅立叶变换等来使CNN 获得旋转不变性,但是显著增加了计算成本。

本文主要研究手工特征提取与CNN 的结合方法。基于Gaussian Hermite（GH）矩旋转运动模糊不变量（rotational motion blur Gaussian-Hermite moment invariants,RMB_GHMI）[10],计算CNN 隐藏层特征图上的RMB_GHMI,从而实现将旋转运动模糊不变性引入到CNN 中的目的,使网络本身具有一定的旋转运动模糊不变性。实验结果表明,该方法可以大幅改进典型CNN 对于旋转运动模糊图像的分类及识别准确率。

1 相关工作

许多研究致力于手工特征提取与CNN 的结合,它们大致可分为以下3 类。

第1 类是利用CNN 作为特征提取工具,再将CNN 特征与手工设计特征相结合。文献[11]将CNN 提取的特征与手工特征输入到支持向量机中用于诊断骨质疏松症。文献[12]提出了一种CNN与手工特征融合的框架识别户外人脸表情。

第2 类是将手工特征集成到神经网络中,使网络具有不变量的性质。文献[13]提出了空间变换网络（spatial transformer network,STN）,可以将相关的区域变换到同一标准形状,以此来减少学习过程中的形状外观的变化,提高学习效率。文献[14]提出了一种方向响应网络（oriented response networks,ORN）,将离散傅立叶变换引入到网络中来丰富卷积模板的形式,使网络能够对不同的方向进行响应。针对CNN 中间层特征维度高、含噪声较多的问题,文献[15]提出了CNN 特征降维的方法,首先利用主成分分析对CNN 特征进行降维,在数据层面和人类感知层面证明了其有效性;然后将降维后的CNN特征作为区域特征向量,利用多水平超像素分割和随机森林回归构建了一个融合手工特征及降维CNN 特征的显著性检测模型。

第3 类是将手工特征的设计方法直接引入到CNN 中。文献[16]提出了卷积通道特征,将CNN特征和随机森林等方法相结合。文献[17]提出了局部二值卷积,用几个重构的卷积核替代了局部二值卷积中的中心插值的方法。文献[18]提出了Gabor 卷积网络,将Gabor 滤波器应用到CNN 中,增强了CNN 对于方向和尺度的鲁棒性。文献[19]将尺度不变特征变换（scale-invariant feature transform,SIFT）特征和CNN 特征结合到一起,在统一的框架中使用视觉特征来进行高效的检索。

2 基于GH 矩的旋转运动模糊不变量

根据旋转运动模糊退化模型[10],该类图像的形成是对原图像作一系列旋转变换后的结果的叠加均值。本节首先给出旋转运动模糊图像GH 矩的定义,再将该GH 矩代入旋转GH 矩不变量中筛选出低阶次具有稳定不变性的旋转变换和旋转运动模糊的GH 矩不变量,即RMB_GHMIs,构成一组特征向量应用于图像检索、目标识别等任务。图1 所示为典型的清晰图像和该图像旋转运动模糊后的示例。

图1 原图像与旋转运动模糊后图像示例

2.1 模糊图像的GH 矩

结合旋转运动模糊的退化模型和GH 矩的定义,模糊图像g（x,y）的GH 矩如式（1）所示。

离散情况下模糊图像的GH 矩如式（2）所示。

2.2 旋转运动模糊图像的GH 矩不变量

式（1）给出了模糊图像GH 矩与原图像GH 矩的关系式,构建旋转运动模糊矩不变量的关键就是要寻找各项系数之间的关系。

基于上述算法,文献[10]得到了5 个四阶以内平均相对误差在5%以内的不变量,组成了具有相当稳定性的旋转运动模糊特征向量,记作RMB_GHMI-5,如式（3）所示。

其中,ghmpq为图像的旋转运动模糊GH 矩。

经过实验测试和对比,该特征向量对旋转变换和旋转运动模糊具有很好的不变性和区分性,即便在高斯噪声、椒盐噪声、泊松噪声、乘性噪声相当严重的情况下,仍能保持良好的识别性能,且比起同类方法,图像检测的准确率有了显著提升。当模糊增大至人眼都无法辨别的程度,图像内容发生了巨大改变,RMB_GHMI-5 依然保持了很好的性能[10]。因此,在旋转运动模糊图像检索和模式识别领域,基于手工特征的旋转运动模糊GH 矩不变量具有非常重要的应用价值。

3 RMBI-Net

本节将介绍旋转运动模糊不变卷积神经网络（rotational motion blur invariance convolutional neural network,RMBI-Net）的构造过程,详细说明RMB_GHMI-5 是如何与CNN 相结合,使得CNN 具有了旋转运动模糊不变性。

如式（3）所示,所有的RMB_GHMI 都可以表示几个GH 矩的线性组合。矩的计算本质上可以是一种卷积运算,因此,可以将不变量改写为卷积形式并通过神经网络实现。接下来给出RMBI-Net 的构造和训练策略。

构造RMBI-Net 的思路为计算CNN 隐藏层特征图上的RMB_GHMI,通过构建RMBI 层实现RMBI操作。RMBI 层包含一组函数映射,输出每个通道的特征映射的RMB_GHMI-5。RMBI 模块如图2所示。

图2 RMBI 模块示意图

图2 中,RMBI 层为所实现的不变量RMB_GHMI-5 的计算层。该层的输入可以是任意通道个数的特征图,对于特征每一个通道,都可以看作是一个二维图像,对其进行不变量RMB_GHMI-5 的计算,该层的输出为n组RMB_GHMI-5 组成的特征向量。

基于RMBI 层,可以将其结合到任意经典的神经网络结构中,将其与神经网络结合,提升网络对于旋转模糊变换的鲁棒性。RMBI-Net 基本的网络结构如图3 所示,将RMBI 层应用到每一层的特征图上,并将输出与网络最终的特征层级联,可以得到最终的网络输出。RMBI-Net 的训练策略是所有的参数都在一个端到端阶段进行训练和更新,全连接层返回的梯度将为卷积滤波器的更新参数。而对于RMBI 层,只向前传播到它的后续层,并不进行误差的方向传播。通过对比不同的训练策略,端到端的策略会使整个训练过程更加顺利。

图3 RMBI-Net 端到端网络结构与训练策略示意图

神经网络的优势在于其可以进行有效的特征提取,产生大量的特征图,并通过学习的方法得到较高的准确率,但不变性是神经网络所缺乏的。不变量的优势在于通过手工设计推导,可以精确计算得到图像的旋转运动模糊的不变特征,但是不变特征的维度是该方法的一个限制。本文提出的RMBI-Net的方法,通过计算神经网络特征图的不变量,一方面可以增加不变量的个数,另一方面可以将不变性引入到神经网络中,提高网络对于旋转运动模糊的鲁棒性。之后将进行实验,对该方法的性能进行详细分析。

4 实验与分析

本实验的目的是评估RMBI-Net 对分类结果的影响,因此,没有使用其他网络优化方案以及调整训练超参数来提高准确率。实验运行平台中央处理器为Intel Core i7 7700,显卡为GeForce GTX1080Ti,深度学习框架为TensorFlow 2 on Windows 10。为了保证实验的客观性、可比性和再现性,本文选择较为基础且典型的LeNet[1]、Z2CNN[20]和NIN[21]等3 种CNN 进行改进,并实现改进前后的对比实验（如LeNet 与RMBI-LeNet）。改进前后的网络使用相同的超参。改进前3 种网络的结构如图4所示。

图4 网络结构图

LeNet 使用随机梯度下降法（stochastic gradient descent,SGD）训练策略,主要用于手写体字符的识别和分类,部分超参为（base_lr:0.01,momentum:0.9,weight_decay:0.0005,lr_policy:"inv",gamma:0.0001,power:0.75,max_iter:10 000）。

Z2CNN 使用Adam 来求解,由7 个卷积层（每层有20 个通道）、激活层（ReLU）、dropout 层以及归一层组成。部分超参为（base_lr:0.01,momentum:0.9,momentum2: 0.999,delta:0.0001,weight_decay:0.0001,lr_policy:"step",gamma:0.1,stepsize:15 000,max_iter:20 000）。

NIN 由一个全局池化层和3 个MLP 层组成。部分超参为（base_lr:0.025,momentum:0.9,lr_policy:"step",gamma:0.05,stepsize:10 000,max_iter:13 000）。

4.1 基于MNIST 的验证实验

MNIST[1]数据集包含70 000 张从0～9 的28 ×28 张手写数字图像,其中包含60 000 个训练样本和10 000 个测试样本。基于MNIST,本文构造了与其对应的旋转运动模糊后的数据集MNIST-rmb。数据构造方法是对每一张图片进行10 °～90 °随机角度旋转运动模糊后,添加sigma=0.01高斯噪声。变换后的数据集记为MNIST-rmb。原数据集MNIST与变换后的数据集MNIST-rmb 示例如图5 所示。

图5 MNIST 示例与MNIST-rmb 示例对比

本实验分为2 种训练策略,第1 种为利用MNIST-rmb 训练集对改造前后的网络进行训练,然后在MNIST-rmb 的测试集上进行测试,上述3 种常规的CNN 和改造后的RMBI-Net 在改造前后的的混淆矩阵对比如表1～3 所示。可以看出,经过改造的CNN 具有了很强的旋转运动模糊不变性,在控制实验中,RMBI-Net 的准确率相比于原网络,提升了近30%。充分说明了本文所提出改造方法的有效性。

表1 LeNet 和RMBI-LeNet 在MNIST-rmb 上的混淆矩阵对比

表2 Z2CNN 和RMBI-Z2CNN 在MNIST-rmb 上混淆矩阵对比

表3 NIN 和RMBI-NIN 在MNIST-rmb 上的混淆矩阵对比

续表3

第2 种为仅利用MNIST 数据集中的训练集对改造前后的网络进行训练,在MNIST-rmb 的测试集上进行测试,上述3 种常规的CNN 和改造后的RMBI-Net 在改造前后的混淆矩阵如表4～6 所示。从表中可以观察到,即便在没有学习旋转运动模糊图像的情况下,RMBI-Net 的准确率相比于原网络依然提升了近24%～34%,证明了RMBI-Net 对于原网络的大幅改善成效。

表4 LeNet 和RMBI-LeNet 在MNIST-rmb 上的混淆矩阵对比

表5 Z2CNN 和RMBI-Z2CNN 在MNIST-rmb 上混淆矩阵对比

表6 NIN 和RMBI-NIN 在MNIST-rmb 上混淆矩阵对比

续表6

以上2 种训练策略生成的改造前后的网络准确率如表7 和表8 所示,可以看到RMBI-Net 比相对应的典型CNN 分类准确率有了显著提升,验证了本文提出的RMBI-Net 方法的优越性。

表7 由MNIST-rmb 训练的CNN 和RMBI-Net 准确率

表8 由MNIST 训练的CNN 和RMBI-Net 准确率

4.2 基于CIFAR-10 的验证实验

为了进一步验证RMBI-Net 的适用性,本文选择更加复杂且真实的数据集CIFAR-10[22]进行同上的数据集变换生成CIFAR-10-rmb,并执行同上2 种网络训练策略的验证实验。相比于MNIST 数据集,CIFAR-10 是RGB 图像,而MNIST 是灰度图像;CIFAR-10 的图片尺寸为32 ×32,比MNIST 28 ×28 稍大;MNIST 是手写字符,CIFAR-10 含有现实世界中的真实物体,不仅噪声很大,而且物体的比例、特征都不相同。这些特点都为CNN 分类带来更大的挑战。两种训练策略生成的改造前后的网络准确率如表9 和表10 所示,可以看到RMBI-Net 比原网络的分类准确率依然有明显提升。在更复杂的场景中,进一步验证了RMBI-Net 的优越性。

表9 由CIFAR-10-rmb 训练的CNN 和RMBI-Net 准确率

表10 由CIFAR-10 训练的CNN 和RMBI-Net 准确率

4.3 实验结果分析

在传统仅使用手工特征分类场景中,特征向量的维数对于准确率有着至关重要的影响。尽管RMB_GHMI-5 对于旋转和旋转运动模糊理论上是具有不变性的,但是对于类似于CIFAR-10 这样更为复杂的场景,更多维的特征向量显然会有更好的性能。但是在本文的方法下,由于有了神经网络强大的学习能力,低维特征向量的劣势会减弱。同时,传统的网络也会因为手工特征的加入,具备了一定的旋转运动模糊不变性,显著增强了网络在此退化情况下的鲁棒性。另外,由于CNN 都是多层结构,每一次在特征图上的不变量运算所得到的特征映射都相当于增加了手工特征的维数。同样,类似本文的方法也可以很容易地扩展到其他手工特征提取方法与CNN 的结合,实现不同应用场景下的网络增强。

5 结论

本文提出一种将旋转运动模糊不变量与神经网络结合的CNN 架构。通过在隐藏层计算RMB_GHMI-5 的特征图,将RMB_GHMI-5 具备而神经网络缺失的旋转运动模糊不变性融入到CNN 的网络结构中,并在不同数据集、不同网络训练方法的分类实验中验证了RMBI-Net 可以大幅提升经典CNN 对于旋转运动模糊图像的分类性能。该方法的缺点是会增加计算复杂度,但可以通过设计更高效的计算不变量的算法解决,使得网络效率进一步提升。另外,通过引入更高维的特征向量,也有望进一步提升改进后网络的性能。