APP下载

基于稀疏表示与人脸结构的人脸幻构技术研究

2018-09-10黎兆文胡晓

现代信息科技 2018年3期

黎兆文 胡晓

摘 要:虽然基于稀疏表示的方法重构人脸图像有着样本库需求小的优点,同时对于平滑区域的恢复也有很好的效果,但是人脸成分以及轮廓边缘细节仍然较为模糊。为了解决这一问题,本文提出了结合稀疏表示的梯度估计边缘优化方法,该方法利用样本库中高分辨率的人脸成分以及边缘梯度统计空间对低分辨率输入人脸进行细节恢复和边缘锐化。实验结果表明,该方法对人脸图像结构的细节恢复有较为理想的表现效果。

关键词:稀疏表示;梯度估计;人脸结构;人脸幻构

中图分类号:TP391.41 文献标识码:A 文章编号:2096-4706(2018)03-0001-05

Face Animation Technology Based on Sparse Representation and Face Structure

LI Zhaowen,HU Xiao

(School of Mechanical and Electrical Engineering,Guangzhou University,Guangzhou 510006,China)

Abstract:Although the reconstruction of face images based on sparse representation has the advantages of small sample base and good effect on the recovery of the smooth region,the face composition and the outline edge details are still relatively vague.In order to solve this problem,this paper proposes a gradient estimation edge optimization method combined with sparse representation,which uses high resolution face components and edge gradient statistical space in sample database to restore and sharpen the edges of low resolution input faces.Experimental results show that this method has a satisfactory effect on detail restoration of face image structure.

Keywords:sparse representation;gradient estimation;face structure;face magic

0 引 言

在人脸识别、取证等应用中,准确地识别和跟踪是不可或缺的,同时这也给人脸图像质量提出了更高的要求。在实际应用中,涉及到人脸图像分析、生物分析等的技术都面临着捕获的图像质量差的问题。可行的增强方法是将低分辨率(LR)输入图像进行超分辨率处理,来得到高分辨率(HR)输出图像。要实现这一目的有两种可行方式,即提高硬件技术或者使用软件提高图像质量。提高硬件技术需要昂贵的改善成本,所以使用软件技术来改善图像质量具有极高的吸引力。

人脸超分辨率(Face super-resolution,FSR),或者称为人脸幻构技术(face hallucination,FH)是一种从超分辨率(super-resolution,SR)的问题中具体到人脸图像范畴这一特定的领域技术,专注于从监控摄像头或某一图像系统中获得超清人脸图像。

由于人脸图像复杂的结构特征,制定的SR算法不能适用于FSR。在FSR技术领域,更加关注人脸的结构细节。Baker和Kanade[1]作为FH研究的先驱者,利用高斯拉普拉斯金字塔,从LR图像中获得的特征金字塔被用来重建HR图像。

然而该方法没有很好地对人脸进行建模,而且人脸HR图像也遭受了偽影。在文献[2]中Liu等人提出了一种新的两步法,首先建立一个用于检索人脸的全局结构的全局模型和一个捕捉图像的高频细节的局部模型,然后将它们集成起来生成HR图像。在文献[3]中,Freeman等人提出了一种基于学习的SR算法,学习LR输入图像的K-近邻(K-NN)对应的LR与HR图像之间的联系。

基于样本学习的图像超分辨率重构是通过建立LR与HR训练样本之间的映射关系,并根据映射关系对LR输入图像重构出理想的HR图像。Yang等人最先将信号的稀疏表示理论应用到基于样本学习的图像超分辨率中[4,5],其核心思想是训练一对LR、HR联合字典,在LR字典中求解出LR图像块对应的稀疏表示系数,再对LR字典中的原子进行线性组合,重构出对应的LR图像块。Zeyde等[6]对Yang等人的方法做了改进,采用K奇异值分解算法(K-singular value decomposition,K-SVD)和正交匹配追踪算法(Orthogonal matching pursuit,OMP)进行稀疏编码,该方法简化了算法的结构和计算复杂度。文献[7]提出了一种基于双重稀疏性字典的SISR方法,由于训练数据集取自样本图像的小波变换域,因而具有双重稀疏性的优点,即使在缺乏样本图像的情况下,也能获得较好的重构效果。

在稀疏字典的训练过程中,由于沿着边缘收集的图像块比在光滑区域收集的图像块要少,使得字典对光滑区域的恢复能力比边缘要好。针对基于稀疏表示重构得到的HR人脸图像边缘模糊问题,本文引入边缘梯度估计以及寻找最接近的HR人脸成分,以添加合理的边缘信息,如图1所示。

1 基于稀疏表示的纹理重构

设信号y∈RmXn,稀疏表示模型为:

y≈x=Dα (1)

其中,α为含k个非零项的稀疏向量

稀疏重构的退化模型为:

Y=GLX (2)

其中,Y为LR图像,X为HR图像,G为高斯核,L为下采样算子。结合公式(1),得到全局约束模型为:

min‖GLX-Dα‖2 (3)

基于稀疏表示的重构模型为:

(4)

其中,DH、Dl分别为HR稀疏字典、LR稀疏字典,PH、Pl分别为HR图像块提取矩阵、LR图像块提取矩阵,X为重构HR图像,Y为输入LR图像,i,j为提取的图像块位置,γ,β,λ为权衡系数。

1.1 稀疏字典训练

根据公式(2)的退化模型,对HR训练图像队列{Hj}进行退化处理,得到LR训练队列{Lj},并进行特征提取,得到LR特征队列{Fj}。在文献[8]中,Freeman等人利用高通滤波器提取了LR图像的边缘信息作为特征。在文献[9]中,Sun等人利用高斯微分滤波器提取LR图像的轮廓作为特征。在文献[10]中,Chang等人将LR图像的一阶导和二阶导作为特征。本文利用canny算子提取LR图像边缘作为LR图像的特征进行LR稀疏字典的训练。

(5)

(6)

其中, , ,M、N分别为LR图像块与HR图像块以列向量形式表示的维度大小。

在字典训练过程中,本文以高斯随机矩阵为初始化字典,以Z=Dc*Xc(:,i)初始化稀疏表示矩阵。先固定稀疏字典Dc并更新稀疏表示矩Z;再固定稀疏表示矩Z,更新稀疏字典Dc迭代形式计算稀疏字典Dc。当Dc与Z收敛时结束迭代计算,得到最终的稀疏字典Dc。

1.2 纹理图像重建

稀疏表示向量计算模型:

(7)

将LR输入图像Il进行特征提取以及图像块分割,得到特征块队列{ij}根据公式(7)对ij计算稀疏表示向量αj。根据hj=Dh·αj,得到HR图像块。将所有HR图像块组合即得到重构的HR图像X。但是基于图像块重构的HR图像存在块状的残影。在文献[5]中Yang等人利用了LR输入图像Il与重构图像X的下采样之间的残差作为逆向映射约束,以改善残影问题。本文利用迭代逆向映射进行全局约束。

(8)

其中,H为上采样算子,ξ为阈值。最终得到的XH作为纹理图像。

2 基于梯度估计的边缘重构

XH在平滑区域的表现已经不错,但是在边缘以及眉毛、眼睛、鼻子、嘴巴等这些人脸特征方面的表现却强差人意。接下来要对XH进行针对性的高频细节恢复。先对XH进行梯度化,得到XH的纹理梯度图Ub,以保留人脸图像的全局信息。本文采用图像平移相减的方法快速获取8个方向的梯度图。

2.1 人脸成分梯度图

在得到的人脸纹理图像中,平滑区域有较好的保护和兼容性,但是在人脸成分和边缘细节方面仍然有较为明显的丢失。而眉毛、眼睛、鼻子、嘴巴这些人脸成分作为人脸图像中最为重要的图像信息,应当重点进行重构处理,以添加合理的高频成分。

本文中,在HR人脸序列中查找出最优的HR图像并提取相关的人脸成分作为丢失的高频信息的补充。将人脸成分分为左眉毛、右眉毛、左眼、右眼、鼻子和嘴巴六个区域。由于表情动作的不同,眼睛与眉毛的位置与形态结构并非绝对的对称。不同于文献[11,12]中将一对眼睛或一对眉毛作为一个区域单位,本文将眼睛与眉毛的左右部分作为独立的区域单位,以匹配与输入图像Il对应区域的形态结构更为符合的HR人脸成分Cj。

为了得到准确有效的人臉成分的梯度,利用文献[13]中的人脸检测及位置标记方法对HR人脸图像库中的各个HR图像进行了人脸标记,并且记录了是否带有眼镜这种遮挡物。

将输入图像Il进行双三次插值处理得到插值HR图像Ib并对其进行人脸标记。然后将插值HR人脸成分的n个标记{xjb,yjb}n与HR图像库中的对应区域标记{xjH,yjH}n进行比对。

(9)

根据公式(9)求出非反射对称转换矩阵T,其中θ为旋转因子,λ为缩放因子,Δx,Δy为平移因子。对HR人脸库中每一张人脸的各个人脸区域都进行转换校准,不同于文献[14,15,16]中只对眼睛进行水平校准,只是眼睛的水平校准虽然运算量小,但无法确保其它成分区域方向位置等匹配。

假设{Hj}为HR图像库的人脸成分队列。通过公式(10)得到对应的LR人脸成分队列{Lj}。

(10)

G为高斯核,↓为下采样。

根据Ib的人脸成分标记点,创建一个HR遮掩图Mh,其中属于人脸成分c的像素值为1,除外为0,如图2所示。LR遮掩图Ml可以通过公式(10)获得。

(11)

根据公式(11)求出匹配的Lj。其中V为Il的梯度图,Vj为Lj的梯度图,S为序号j的序号队列。由于从HR到LR是一个数据丢失的过程,当出现如眼镜框这类带有狭小边缘宽度的遮挡物时,在LR恢复HR的过程中容易忽略眼镜框这些数据。因此,在匹配成分区域序列{Lj}时,要在带眼镜标记序列与不带眼镜标记序列两个分组中确定匹配的数据集。

当确定出最优的HR图像后,利用HR遮掩图Mh得到人脸成分区域C。并将人脸成分C进行8个方向平移相减,得到人脸成分梯度图Uc。

2.2 人脸轮廓梯度图

人脸轮廓通常用很小像素宽度的图像边缘表示。在超分辨率上,提出了好多自然图像的边缘统计方法[17]。当对缺口边缘用插值强化时,尽管创造出来的边缘看起来可以,但可能会保留具有较大影响的人为误差(尤其在锋锐的边缘)。本文通过学习统计先验来保护边缘结构和恢复边缘锐度。

对于Il的各像素p,计算在k个方向的方向相似性。

(12)

式中,m为以p为中心的图像块,Qk为p在k方向的邻域图像块,τ为系数。设{Sk}为从输入图像Il计算得到的K个方向相似性图,Sk 分别由fk(p),p∈Il组成。在LR方向相似性图Sk上采样得到HR方向相似性图Tk的过程中,为不改变序列{Sk}到{Tk}的比例关系,采用双线性插值。

(13)

式中,Ok由fk(p),p∈I组成,I由Il采样进行初始化。根据公式(13),计算出边缘平滑且清晰连续的HR图Id。本文利用整幅图像计算方向相似性,既方便了计算,又降低了噪声对像素点的影响。利用(14)中的8个矩阵进行线性结合成16个方向的梯度算子,从而计算出16个方向的相似性图。

(14)

由于在公式(13)中缺少约束边缘锐利的正则项,Id的边缘虽然清晰连贯,但并不锐利,如图3所示。为了对Id恢复锐利,需要建立一个边缘梯度统计空间帮助Id进行锐化。在理想的状态下,边缘的的结构是关于边缘中心对称的,由此接下来要确定图像Id的边缘中心。

(15)

图3 平滑处理示意图

m为梯度量度,q,r为像素点p在两个相反方向上的相邻像素点。根据公式(10)和公式(13),对HR图像队列{Hj}进行下采样和方向相似性求解,得到LR样本图像队列{Lj}及方向相似性图队列{Idj}。根据公式(15)对图像队列{Lj}、{Idj}求出图像边缘中心。设mp为图像Id中的p点的梯度量度,mp'为HR样本图像Hj中p点的梯度量度,c=f(p,d)为图像Id中p点在距离d内最接近的边缘中心点。提取(mp',mp,mc,d)作为边缘梯度统计空间的特征,将(mp,mc,d)作为分组,收集各HR样本图像Hj中的mp'值,求平均记作。根据(,mp,mc,d)作为维度建立空间。由于点c受点p和距离d约束,点c必然不连续存在,所以建立的边缘梯度统计空间也不连续。

(16)

Ud(p)为图像Id的梯度图,对输入图像Il根据公式(13)得到图像Id,并根据公式(15)提取特征(mp,mc,d),在统计空间中寻找对应的,最后根据公式(16)得到轮廓梯度图Ue。

2.3 人脸逆向恢复

在前文已经得到了纹理梯度图Ub,人脸成分梯度图Uc,轮廓梯度图Ue,接下来需要将3个梯度图进行整合。

(17)

其中wc为人脸成分提取过程的遮掩图Mh(如图2),we(p)=min{1,(p)},(p)为公式(16)得到的轮廓梯度图对应的像素点梯度量度。

(18)

根据公式(18)求解输出图像Ih。

根据公式(19)计算全局差异Ψa,其中Xl为初始化HR图像XH下采样得到LR图像,Il为输入LR图像,↑为上采样处理:

Ψa=(Xl-Il)↑ (19)

根据公式(20)计算局部差异Ψc,其中Λ为XH的梯度图:

为全局差异

Ψc=U-Λ (20)

根据公式(21)计算图像总差异Ψ:

为局部差异

Ψ=Ψa+Ψc (21)

根据公式(22)计算图像总差异系数μ0:

为图像总差异

μ0=‖Xl-Il‖2+‖U-Λ‖2 (22)

根据公式(23)计算累HR图像Im,由HR图像减去图像差异所得,其中β为系数,控制图像差异:

Im(t)=XH-β(t)·Ψ (23)

为系数,控制图像差异

(24)

将Im(t)代入公式(22)得到μ(t),結合公式(24),若μ0-v>0,计算公式(25):

XH*=XH-β(s)·Ψ (25)

若μ0-v<ξ(ξ为阈值),XH*作为最终输出图Im;否则继续迭代计算公式(19)、(20)、(21)、(22)、(23)、(24)和(25)。

3 实验与分析

本文采用了Multi-PIE[18]人脸数据库以及自建LABface数据库来测试所提出的人脸重构方法。训练图像为2184张320*240分辨率的正脸多表情Multi-PIE人脸以及300张320*240分辨率的正脸微笑表情的自建LABface人脸。在数据集中对每个图像都预先标记了姿态标签与位置标签,并手动生成用于训练图像的眼镜标签。测试集由40张60*40分辨率的自建LABface正面人脸组成,其中的人物身份不与训练集重合。输入LR人脸图像由原始HR测试图像通过公式(10)下采样得到,式中缩放因子为4,高斯核宽度为1.6。本文通过计算峰值信噪比(PSNR)与结构相似度(SSIM)评价重构产生图像的质量。

(26)

(27)

式(26)、(27)中,为重建HR图像,x为原始HR图像,μ、μx和σ2、σx2分别为对应的均值和方差,σx为协方差,C1和C2为常数。

如图4所示,利用梯度估计进行细节恢复后,眉毛、眼睛、鼻子、嘴巴都有了明显的改善,边缘对比也实现了一定程度的强化。

由图5、图6、图7分析可得,本文提出的方法主观上与其他方法相比,细节更清晰,轮廓更明显,块状残影也较少。客观上,PSNR与SSIM数值都有一定程度的提高。

PSNR 33.5db 32db 31.1db 31.2db 31.3db 31.2db

SSIM 0.89 0.86 0.81 0.81 0.81 0.82

图5 本文方法重构结果

Input bicubic Yang10[16] Irani91[19] Proposed Source

PSNR 31.1db 31.3db 31.1db 33.5db Infinite

SSIM 0.86 0.85 0.84 0.89 1

图6 未戴眼镜人脸重构结果对比

Input bicubic Yang10[16] Irani91[19] Proposed Source

PSNR 30.1db 30.3db 30.3db 31.1db Infinite

SSIM 0.85 0.84 0.84 0.81 1

图7 佩戴眼镜人脸重构结果对比

4 结 论

本文提出了一种利用图像结构改善基于稀疏表示人脸重构技术的方法。人脸的图像结构分为三部分,人脸成分、边缘和平滑区域。这些区域梯度图的整合能够实现优秀的视觉质量,改善了稀疏重构对于人脸结构细节恢复不精细的问题。实验结果表明,该算法产生的人脸超分辨率图像的细节具有良好的表现效果,尤其在人脸成分的恢复方面,细节更加精细。

参考文献:

[1] S.Baker,T.Kanade.“Hallucinating faces,”in Fourth IEEE International Conference on Automatic Face and Gesture Recognition.Proceedings,IEEE,2000:83-88.

[2] C.Liu,H.-Y.Shum,and C.-S.Zhang.“A two-step approach to hallucinating faces:global parametric model and local nonparametric model,”in Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2001(1):1–192.

[3] W.T.Freeman,T.R.Jones and E.C.Pasztor,“Examplebased super-resolution,” Computer Graphics and Applications,IEEE,2002,22(2):56-65.

[4] YANG J C,WANG Z W,LIN Z,et al.Coupled dictionary learning for image super-resolution [J].IEEETransactions on Image Processing,2012,21(8):3467-3478.

[5] WRIGHT Y J,HUANG TS. Image super-resolution via sparse representation [J]. IEEE Transactions on Image Processing,2010,19(11):2861-2873.

[6] ZEYDE R,ELAD M,PROTTER M.On single imagescale-up using sparse representations [C].//International Conference on Curves and Surfaces.Springer-Verlag,2010:711-730.

[7] AI N,PENG J Y,ZHU X,et al.SISR via traineddouble sparsity dictionaries [J].Multimedia Tools andApplications,2015,74(6):1997-2007.

[8] W.T.Freeman,E.C.Pasztor,O.T.Carmichael,“Learning lowlevel vision,”Int. J.Comput. Vis,2000,40(1):25-47.

[9] H.Chang,D.-Y.Yeung,Y.Xiong.“Super-resolution throughneighbor embedding,” in Proc. IEEE Conf. Comput.Vis.PatternClass,2004(1).

[10] S.Baker and T.Kanade,“Limits on super-resolution and how to breakthem,”IEEE Trans.Pattern Anal.Mach. Intell,2002,24(9):1167-1183.

[11] Li Y,Liu J,Yang W,et al.Multi-pose face hallucination via neighbor embedding for facial components [C].//IEEE International Conference on Image Processing,IEEE,2015:4037-4041.

[12] C.-Y.Yang,S.Liu,and M.-H.Yang..“Structured face hallucination,”in Proc.IEEE Intl Conf.Computer Vision and Pattern Recognition,2013.

[13] M.F.Tappen and C.Liu.A Bayesian approach to alignmentbased image hallucination. In ECCV,2012.

[14] C.Liu,H.-Y.Shum,and W.T.Freeman.Face hallucination:Theory and practice. IJCV,2007,75(1):115–134.

[15] X.Ma,J.Zhang,and C.Qi.Hallucinating face by positionpatch. PR,2010,43(6):2224–2236.

[16] R.Fattal.Image upsampling via imposed edge statistics. In SIGGRAPH,2007.

[17] J.Sun,Z.Xu and H.-Y.Shum.Image superresolution using gradient profile prior. In CVPR,2008.

[18] GROSS R,MATTHEWS I,COHN J,et al.Multi-pie [C].2008-06-15,S.l.:s.n.,2008:1-8.

[19] M.Irani and S.Peleg.Improving resolution by image registration [J].CVGIP,1991,53(3):231–239.

作者簡介:黎兆文(1991.08-),男,汉族,广东人,硕士。研究方向:人脸图像处理。通信作者:胡晓(1969-),男,湖南人,教授,硕士。研究方向:智能信号处理;人脸检测和识别;医学信号处理。