APP下载

基于深度稀疏表示的超分辨率图像重建

2022-06-02施华李燕陈译

中国新通信 2022年6期
关键词:深度学习

施华 李燕 陈译

【摘要】    探讨传统的稀疏表示算法模型,结合深度神经网络方法,从稀疏求解、数据字典、深度学习框架的角度对基于深度稀疏表示的超分辨图像重建进行研究。实验针对单通道和多通道图像的进行尺度超分辨率重建,以及针对像素值损毁图像从进行幅值超分辨率重建,在主观可视化和客观指标上均取得了较好的重建效果。

【关键词】    稀疏表示    深度学习    图像修复    超分辨率重建

引言:

基于稀疏表示的图像重建是计算机视觉领域的难点与热点问题。传统的稀疏表示[1-2]依赖于压缩传感理论,它对采样信号带宽不作要求,而是采用稀疏性约束。随着深度学习的兴起,SRCNN算法[3]的出现,开启了深度学习在超分辨率图像重建中的应用。它是一个低分辨和高分辨之间端到端的非线性映射关系的学习算法,在重建效率方面远胜于传统重建方法。在此基础上VDSR算法[4]被提出,它使用非常深的神经网络模型来进行模型预测,结合残差学习来进行超分,对深度学习在图像超分辨率重建领域产生了较大影响。借鉴稀疏表示算法在数据重构中的泛化能力,基于稀疏表示的深度学习被提出[5],成为深度学习在图像超分辨重建中的典型应用。国内研究者在基于深度稀疏的图像超分辨重建领域也开展了相关的研究。文献[6]将深度稀疏重建应用于小样本的人脸识别;文献[7]将深度稀疏重建应用于视频中的3D人体姿态估计;这些方法大都在具体应用场景,从稀疏表示的约束与求解、深度学习算法的适应性等两个角度进行探讨。本文将传统的稀疏表示方法融入深度卷积神经网络中,针对单通道灰度图尺度重建、多通道彩色图尺度重建和损毁图像幅值重建军等三方面探讨图像的修复重建工作。

一、基于深度稀疏表示的图像重建算法

(一)噪声信号下的稀疏问题求解

在压缩传感的框架下,压缩传感与稀疏表示在数学概念上对等,都要求信号稀疏。如下图1所示,在压缩传感中,x是高维原始信号,y是低维压缩信号。在稀疏表示中,D是过完备字典,y是原始信号在字典D下的稀疏表达,通过稀疏重建去恢复或逼近原始信号x。CS框架下过完备字典的稀疏表示模型要求:信号y是稀疏的,α为信号y的稀疏表示,约束条件要求‖α‖0尽可能地小。

由上式知,传统的稀疏研究分为两个方面:i)稀疏分解,关注α的分解问题;ii)字典建立,关注D的建立过程。在实际测量过程中信号y=Dα一般会引入噪声n,于是变成y=Dα+n。此时,式(1)的等式约束优化问题改为式(2)的不等式约束。其中,ε为噪声或非严格稀疏引入的偏差。

在式(2)中,当p=0时,就是提及的贪婪算法模型;论文采用经典的正交匹配追踪算法(OMP)[1],它是一种典型的贪婪的迭代算法。其基本思想是:它需要将所选的原子利用Gram-Schmidt正交化方法进行正交化处理,再将信号在这些正交原子构成的空间上投影,得到信号在各个已选原子上的分量和残差分量,然后用相同方法分解残差分量。

(二)数据字典的表示

对于过完备字典D(D∈R中L>>n)的构建,通常有基于分析的方法与基于学习的方法。在基于分析的方法中,字典是公式化的,它通过数学模型计算所得,这种方法的字典结构性较好,并有快速数值计算方法,由隐式矩阵表示。常用的有DCT字典,小波字典等,这种字典结构相对固定,对不同类型的数据自适应能力差。

论文初始字典为经典的DCT字典,矩阵元素为如下(3)式。将式中dct(i, j)矩阵归一化后,对DCT矩陣张量积就能得到n×k的初始DCT字典。

基于学习的方法是从一些样本中通过机器学习推理而来,也称学习字典,它的优化问题可以采用如下式(4)稀疏性约束。在训练学习字典时,需要对数据字典进行初始化(如采用DCT字典),该方法对于原图像的效果重建效果更好,但需要一个学习过程。

(三)深度稀疏表示算法

在深度卷积神经网络(CNN)的特征空间对图像特征进行提取和修改,设计的深度特征迁移模型包含三个部分:1.编码器;2.解码器;3.特征迁移模块。

在图像底层特征表示中,无论是采用图像原始的像素还是图像的局部特征描述,其数据往往都处于高维空间,且数据形式上通常都不是稀疏的。论文探讨的图像稀疏特征学习模型即是在图像局部特征提取的基础上,采用SR模型,对图像局部特征描述子进行稀疏编码,再经过特征池化等操作,使得图像内容最终由一个高维的稀疏向量来表示。其流程如图2所示。

二、实验设计与结果分析

(一) 数据字典的设计

论文采用传统的K-SVD算法[8]解决稀疏系数与学习字典的生成问题。实验中探讨了DCT、全局和自适应字典三种方法,如图3所示。其中,DCT字典采用公式(3)、(4)生成。全局字典从与自身图像无关的数据库选取适量图像通过K-SVD的字典更新训练得到。实验从LabelMe图像库中随机取出15000张图像,得到接近200000个图像块,经过训练得到了全局化的字典,如下图3(b)所示;这种字典包含的特征来自众多不同的场景,从而在一定程度上保证了数据的多样性。图3(c)的自适应字典是在初始字典基础上,利用待处理图像lena本身进行字典训练,这种方式恢复效果更好,图像细节更丰富,但局限于特定图像重建。

(二)单通道灰度图像的超分辨率重建

表1中的源图从与Gonzalez等[9]的著作相配套的网站上下载。对比从SSIM 结构相似性和PSNR峰值信噪比两个方面进行3×3的图像重建,结果如表1所示。实验是基于全局字典的深度稀疏重建,并与最近邻插值法、基于K-VSD的全局字典法进行比较。通过大量测试数据的对比,最近邻插值法的结果相对差一些,但其优势在于速度比较快;基于经典的稀疏表示重建算法强于最近邻插值法;而论文所提出的基于全局字典的深度稀疏算法从统计结果看优于其他两类算法。

(三)基于多通道的图像重建

对于RGB三通道彩色图像,直观的理解就是针对三通道分别处理。但这个方法会引起了一定的问题。图像变成了三通道,相较于灰度图像在信息量上增加3倍,采用相同大小的字典不足以充分表达RGB三通道的色彩多样性。论文通过增加字典的尺度,并引入 文献[10]中的通道间的约束度量方法。

假设y和x两个图像块是(R,G,B)的列向量,则定义如下式(5)的内积来衡量它们间的关联:

实验中进行的是2×2的图像重建。如果不建立图像三通道的关联,会产生一定的色彩偏差,而建立关联的图像则更真实。

(四) 基于深度稀疏的损毁图像重建

实验针对损毁图像的修复进行探讨,不是从尺度上进行LR到HR的重建,而是从数据丢失的角度进行探讨。实验中进行了大量的数据测试,图5是标准的castle图的修复效果。

图5(a)是源图像;图5(b)是在RGB三通道中随机丢失了80%像素值,在实现上直接将该像素值置为0,当同一坐标处RGB值同时为0时,即为绝对的黑点。损毁后的图片存在着大量这样的黑点。 图5(c)是采用深度稀疏后的修复效果图,主观可视化上基本还原了目标的本来面貌。

三、結束语

随着人工智能与大数据应用不断拓展,社会生活对高分辨率影像的需求与日俱增。采用硬件方式提升分辨率存在成本昂贵和技术瓶颈等问题,而软件的低成本和低门槛的特点会有着广阔的应用前景。此外,超分辨率重建问题也是计算领域典型的欠定问题,存在数学理论共性;该问题的探讨有着一定的理论意义。后续随着传感压缩理论的不断完善与深度学习方法的更新推进,图像超分辨率重建将会逐步由现有的3×3和4×4尺度扩展到更高尺度的计算。

作者单位:施华    李燕    陈译    厦门理工学院光电与通信工程学院

参  考  文  献

[1] S. Mallat, Z. Zhang. Matching pursuits with time-frequency dictionaries[J]. IEEE Transactions on Signal Processing. 1993, 41(12):3397-3415.

[2] D. L. Donoho. Compressed sensing[J]. IEEE Transactions on Information Theory. 2006, 52(4):1289-1306.

[3] Dong C, Loy C C, He K, et al. Image super-resolution using deep convolutional networks[J]. IEEE transactions on pattern analysis and machine intelligence, 2015, 38(2): 295-307.

[4] J.Kim, J.K.Lee, K.M.Lee. Accurate Image Super-Resolution Using Very Deep Convolutional Networks[C]. 2016, CVPR

[5] S.Simone, C.Danilo, H.Amir; U.Aurelio. Group sparse regularization for deep neural networks[J]. Neurocomputing. 2017, 7:81-89.

[6] 马晓,张番栋,封举富. 基于深度学习特征的稀疏表示的人脸识别方法[J]. 智能系统学报. 2016,11(03):279-286.

[7] 王伟楠,张荣,郭立君. 结合稀疏表示和深度学习的视频中3D人体姿态估计[J]. 中国图象图形学报. 2020,25(03):456-467.

[8] M. Aharon, M.Elad, A.Bruckstein. K-SVD: An algorithm for designing overcomplete dictionaries for sparse representation[J]. IEEE Transaction on Image Processing. 2006, 54(11):4311-4322.

[9] R. C. Gonzalez, R. E. Woods. Digital image processing(影印版)[M]. 北京: 电子工业出版社, 2016.

[10] J.Mairal, M.Elad and G.Sapiro. Sparse Representation for color image restoration[J]. IEEE Transactions on Image Processing. 2008,17(1): 53-69.

猜你喜欢

深度学习
从合坐走向合学:浅议新学习模式的构建
面向大数据远程开放实验平台构建研究
基于自动智能分类器的图书馆乱架图书检测
搭建深度学习的三级阶梯
有体验的学习才是有意义的学习
电子商务中基于深度学习的虚假交易识别研究
利用网络技术促进学生深度学习的几大策略
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
深度学习算法应用于岩石图像处理的可行性研究