APP下载

基于眼优势的非对称失真立体图像质量评价

2019-12-12唐祎玲江顺亮徐少平刘婷云李崇禧

自动化学报 2019年11期
关键词:视点非对称邻域

唐祎玲 江顺亮 徐少平 刘婷云 李崇禧

由于立体图像质量评价(Stereoscopic image quality assessment,SIQA)算法能够为各类图像处理系统的参数设置及性能优化提供可靠的依据,受到了研究者广泛的关注[1−4].目前,绝大部分SIQA算法主要针对左右视点图像失真类型相同、失真程度相近的对称失真立体图像.然而在实际应用中,左右视点图像容易出现失真程度不同或失真类型不同的非对称失真的情况,许多SIQA 算法在评价非对称失真立体图像时效果不佳.如何充分利用立体图像中包含的非对称失真信息,提高SIQA 算法对非对称失真立体图像的评价准确性是亟待解决的问题.

早期的SIQA 算法主要利用已有的2D 全参考图像质量评价算法预测立体图像左右视点的质量值,并将两个视点的质量均值作为立体图像最终的质量值[5].然而,人类视觉系统(Human visual system,HVS)主要是依赖大脑的初级视觉皮质对双目视觉输入进行处理并建立立体认知的[6−7],其处理过程的生理机制非常复杂[8],并非是简单的左和右眼输入质量的平均效果.因此,当左右视点图像出现非对称失真的情况时,算法的评价准确性会明显下降.

近年来,一些学者模拟HVS 中双目竞争的工作原理,采用将左右视点图像的质量值或特征进行加权平均的方式来提高立体图像质量的预测准确性.例如,Wang 等[9]提出一种基于信息内容和失真权重的结构相似性(Information content and distortion weighted structural similarity,IDWSSIM)算法,将左右视点图像的质量预测值的加权平均值作为立体图像质量值.Shao 等[10]使用字典学习方法计算左右视点的特征权重,并采用加权平均的方式融合左右视点的多种特征值.另一些学者基于HVS 中简单细胞和复杂细胞的工作原理,建立了双目能量响应[11−12]、独眼图像(Cyclopean image,CI)[13]等多种融合模型来提高SIQA 算法的性能.例如,Chen 等[14−15]采用Gabor 滤波响应对双目视觉刺激强度进行建模,生成独眼图像,构造了全参考的Chen FR[14]和无参考的Chen NR[15]算法.Su 等[16]合成了收敛独眼图像(Convergent cyclopean)来构造无参考SIQA 算法.Shen 等[17]基于深度图、显著图(Saliency map)以及独眼图像来实现无参考SIQA 算法.Liu 等[18]则提出立体整合质量(S3D integrated quality,SINQ)算法,基于左右视点图像的空间活动度量(Spatial activity)来获得独眼图像实现SIQA.尽管上述基于一幅融合图像的SIQA 算法部分地模拟了双目信息在人脑中的汇聚过程,部分地提高了算法的评价准确性,但这类算法只是以左视点或右视点图像中的一幅作为主视图,将另一幅图像与主视图进行融合,不能全面地描述立体图像中所有的失真信息,在评价非对称失真立体图像的质量时准确性仍然不能令人满意.

为此本文基于Hubel 和Wiesel[7]发现的眼优势(Ocular dominance)现象,即视觉皮层中存在两类分别对左眼和右眼输入产生更为强烈响应的双目细胞(Binocular cells)[8],提出一种基于眼优势的非对称失真(Ocular dominance based asymmetrically distorted,ODAD)SIQA 算法.分别以左和右视点图像作为主视图生成两幅不同的融合图像,来模拟视觉皮层的左和右眼优势柱对双眼信息的处理.ODAD 算法的模型如图1 所示.

图1 基于眼优势的非对称失真立体图像质量评价算法框图Fig.1 The diagram of asymmetrically distorted SIQA algorithm based on ocular dominance

与使用单幅基于Gabor 滤波响应独眼图像的SIQA 算法[13−18],以及使用左右眼优势之间的差异及视差补偿的SIQA 算法[19−20]不同,ODAD 算法利用失真图像的梯度幅值响应图像(Gradient magnitude response image,GMRI)来模拟人类视觉输入刺激,分别以左和右视点图像作为主视图,合成两幅融合图像(左和右融合图像)来增强算法对非对称失真图像的评价准确性和鲁棒性.在提取双目图像特征时,利用旋转不变统一局部二值模式(Rotation invariant uniform local binary patterns,RIU-LBP)[21]直方图描述左右融合图像的特点和差异,利用皮尔逊线性相关系数(Pearson linear correlation coefficient,PLCC)获取融合图像邻域像素之间的相关性变化.同时,采用非对称广义高斯(Asymmetric generalized Gaussian distribution,AGGD)模型拟合单目图像的GMRIs 及其邻域像素之间乘积图的统计分布,并利用PLCC 来量化GMRIs 邻域像素之间的相关程度.最终,利用自适应增强的支持向量回归(Support vector regression,SVR)算法将双目与单目图像的感知特征值映射为立体图像质量值,并在多个基准测试数据库上验证所提出算法的性能和执行效率.

1 梯度幅值响应图像

经典的Gabor 滤波器因其可以通过在频域的多个尺度和多个方向上的图像信息来描述图像轮廓,在许多SIQA 算法[14−16]中被使用.但是Gabor变换是一种非正交变换,其不同特征分量中存在较多冗余信息,且计算所耗费的时间和存储空间较大,会使算法的效率降低.而图像中局部梯度幅值最大的像素点也可以形成物体的轮廓,能够描述人眼感知系统非常敏感的图像局部语义结构信息[22−23].因此,本文使用图像的梯度幅值响应来模拟人类视觉刺激输入强度.

对给定的图像I(x,y),可以使用高斯偏导数滤波器计算GMRI(G(x,y)),具体计算公式如下:

其中,∗是卷积操作,fd(x,y|σ)是应用在图像水平和垂直方向的高斯偏导滤波器,g(x,y|σ)是各向同性高斯函数,σ是高斯函数的尺度参数.

为了说明GMRI 和Gabor 滤波图像的不同,图2以一幅失真图像为例,给出该图像及其GMRI 和Gabor 滤波图像[14−15].从图2 可以看出,尽管Gabor滤波响应更为明亮一些,但Gabor 滤波图像的边缘较为模糊,而GMRI 的边缘信息更加清晰,说明梯度幅值响应能够更好地测量局部区域的亮度强度变化,刻画出图像的结构信息.此外,以LIVE Phase I 数据库[14]中的10 幅 640×360 的图像为例,计算10 幅图像的GMRIs 的平均时间只需要0.0103 s,仅是计算Gabor 滤波图像[14−15]平均时间4.6516 s的0.22 %,说明了使用梯度幅值的高效性.

图2 失真图像及其GMRI 和Gabor 滤波图像Fig.2 The distorted image,the GMRI,and the Gabor response image

2 左右融合图像的生成

2.1 眼优势柱的视觉原理

Hubel 和Wiesel 在研究猫和猕猴的视觉皮层时发现视觉皮层中存在着多种工作机制不同的细胞[7,24].其中,有一些细胞只能被左眼或右眼所驱动,即是被单目(Monocular)驱动的.还有一些细胞能够被双目(Binocular)同时驱动,且两眼输入对双目细胞的影响并不完全相同,存在眼优势现象,即双目细胞对某一只眼的输入存在偏好,更多地根据该眼的输入强度来产生响应信号.

图3 猕猴视觉皮层的横截面示意图Fig.3 A cross section through striate cortex in macaque monkey

图3 以猕猴视觉皮层的一个横截面示意图[7]来说明眼优势现象.其中,截面的上边界是视觉皮层的表面,下边界是视觉皮层V1 层与脑白质(White matter)之间的边界.Hubel 和Wiesel 将电极沿垂直方向和斜向方向插入视觉皮层,来检测视觉皮层不同区域的细胞对左右眼输入的响应情况.当从视觉皮层垂直方向插入电极时,检测到的所有双目细胞只对左眼或右眼的输入存在更为强烈的响应;将电极斜插入视觉皮层,会交替检测到对左眼或右眼输入响应更为强烈的双目细胞.图3 将对左眼与对右眼输入响应更为强烈的区域分别标记为 LR和 RL,则可以看到在视觉皮层的水平方向上存在着交替相邻的 RL和 LR区域.视觉皮层的第4 层(IVc 层)还包含了只对左眼与只对右眼输入产生响应的区域,分别标记为L 和R.Hubel 和Wiesel 将这些水平方向相邻的垂直条带区域称之为眼优势柱,眼优势柱内所有细胞都只对来自于左眼或来自于右眼的输入产生更强的响应.1997 年,Menon 等[8]通过功能磁共振成像的方法证实了人类的视觉皮层中同样存在眼优势现象及眼优势柱.

2.2 左右融合图像的生成

由眼优势的视觉原理可以看出,眼优势柱中存在两种不同的双目细胞.然而,目前大部分基于单幅独眼图像的SIQA 算法[13−18]仅仅模拟了人类视觉皮层中左眼优势柱中双目细胞的功能,忽略了右眼优势柱中的双目细胞.因此,本文分别以左和右视点图像作为主视图,合成两幅融合图像来模拟视觉皮层中左和右眼优势柱中两类双目细胞的功能,实现非对称的立体图像质量评价.

以左视点图像作为主视图生成左融合图像的计算方法为:

其中,FL(x,y)为左融合图像,IL(x,y) 和IR(x+d,y)表示左视点图像和经过移位后的右视点图像,ELL(x,y)和ELR(x+d,y)表示左和右眼视觉刺激的刺激强度(权重系数),GL(x,y)为左GMRI,GR(x+d,y)为根据视差d移位后的右GMRI,d为左和右视点图像之间的视差,采用Chen 等在文献[14]中所使用的滑动窗口SSIM[25]算法来计算.

以右视点图像作为主视图生成右融合图像的计算方法为:

其中,FR(x,y)为右融合图像,IL(x−d,y)和IR(x,y)表示经过移位后的左视点图像和右视点图像,ERL(x−d,y)和ERR(x,y)表示左和右眼视觉刺激的权重系数,GL(x−d,y)和GR(x,y)分别对应移位后的左GRMI 和右GRMI,d为左右视点图像之间的视差.

为了说明左和右两幅融合图像的特点和差异,从WATERLOO-IVC 3D IQA Phase II 数据库[26](以下简称为IVC Phase II 数据库)中选取4 类失真图像作为示例,在图4 中给出这些失真图像及其左右融合图像.其中包括高斯模糊(Gaussian blur,GB)对称失真、JPEG 对称失真、左视点为白噪声(White noise,WN)失真右视点为JPEG 失真的非对称失真以及左视点为GB 失真右视点为WN 失真的非对称失真图像.图4 中将融合图像中用矩形框所圈的人的头像部分放大显示,以便展示更多融合图像的细节信息.

从图4(a)和4(b)可以看出,GB 对称失真以及JPEG 对称失真图像的左和右融合图像较为相似.从图4(c)可以看出,GB-WN 失真图像的右融合图像更多显示出WN 失真的特性,而左融合图像相比于右融合图像更为模糊.此外,图4(d)所示的WN-JPEG 失真图像也有着类似的特性.由此可见,当立体图像为对称失真图像时,其左和右融合图像十分近似;当左右视点图像失真类型不同时,左和右融合图像存在着明显的差异,左融合图像与左视点图像更为相近,右融合图像与右视点图像更为相近.

图4 各类失真图像及其左右融合图像(从左至右的图像依次为左视点、右视点、左融合和右融合图像)Fig.4 The distorted images and their left and right fusion images for various distortion types (Images from left to right are left view,right view,left fusion image,and right fusion image)

为了量化这种眼优势效果,选取WATERLOO-IVC 3D IQA Phase I 数据库[9](以下简称为IVC Phase I 数据库)中的100 幅失真立体图像(其中包括对称失真图像26 幅,非对称失真图像74 幅),计算各图像的左右融合图像(记为FI-L 和FIR)与左右视点图像(记为I-L 和I-R)之间的相关性及相似性,将所有图像的相似性与相关性的中值列在表1 中.其中,相关性用两幅图像之间的PLCC 值来表示,相似性用SSIM 算法来计算.从表1 可以看出,无论是对称失真还是非对称失真图像,FI-L 与I-L 之间的相似性和相关性比FI-L 与I-R 之间的相似性和相关性取值更大,而FI-R 与IR 之间的相似性和相关性取值也明显大于FI-R 与I-L 之间的相似性和相关性.其原因在于左和右融合图像分别是以左和右视点图像作为主视图生成的,分别包含了更多左视点和右视点图像的信息,模拟了眼优势的效应.

3 图像质量特征提取与评价模型

视觉信息的处理是一个十分复杂的过程,双目视觉实现了两眼信息的融合,而单目视觉信息为立体视觉提供了最基本的保障[7].因此,本文从模拟HVS 双目汇聚特性的左右融合图像和描述图像单目特性的左右GMRIs 中提取多种图像质量特征,用于立体图像质量预测.

3.1 双目图像特征提取

失真立体图像的左和右融合图像之间存在着细微的差别,这种差别在非对称失真立体图像的左右融合图像中尤为突出.本文利用RIU-LBP 算子[21]和邻域像素之间的相关系数,来获取左右融合图像中能够描述这些细微差别、反映图像质量改变的特征作为双目统计特征.

LBP 是一种经典的描述图像局部结构信息的纹理算子.RIU-LBP 是一种扩展的LBP 编码,用于提高LBP 的描述能力,其基本思想是以中心像素为阈值,在半径为R的圆形邻域内,选取P个与中心像素距离相等的点gi(i=0,1,···,P−1)与中心像素gc的灰度值进行比较,并通过统一化处理编码,使编码种类降低到P+2 种,以获取图像中的大尺寸结构特征.RIU-LBP 的定义为:

其中,P为邻域像素的个数,R为邻域像素的半径,U指空间转换时0-1 和1-0 转换的次数,s(gi−gc)是融合图像的一个局部区域内邻域像素gi(i=0,1,···,P−1)与中心像素gc的比较函数.最终,将左右融合图像的RIU-LBP 直方图统计作为图像的双目特征.RIU-LBP 直方图定义为:

其中,k∈[0,P+1],P+1是RIU-LBP 中包含的编码最大值,c为常量,用于避免为零的情况出现.本文设置P=8,R=1,则可以得到0-9 共十种编码的统计直方图.

图5 给出了图4 所示四种失真立体图像的左右融合图像RIU-LBP 直方图.从图5 可以看出,对称失真立体图像的左右融合图像的RIU-LBP 直方图分布近似相同,而非对称失真立体图像的左右融合图像的RIU-LBP 直方图存在明显差异,说明RIU-LBP 直方图能较好地描绘出左右融合图像中所包含的差异信息.

表1 失真立体图像的两幅融合图像与左右视点图像之间的相似性和相关性Table 1 The similarity and correlation between the two fusion images and the stereo pair

图5 各类失真图像的左右融合图像的RIU-LBP 直方图Fig.5 RIU-LBP histograms of the left and right fusion images for different distortion types

另外,自然图像中各像素与其邻域像素之间存在着紧密地联系,当图像结构因为失真而发生改变时,邻域像素之间的密切关联性会发生改变[27].为了量化失真对融合图像相邻像素之间关联性的改变程度,本文计算了左右融合图像在水平(ρh)、垂直(ρv)、主对角线(ρm)和次对角线(ρs)方向上邻域像素之间PLCC 值.PLCC 的计算方法具体如下:

其中,F是尺寸为W ×L的左右融合图像,X和Y是各转换图像中的子块,子块大小为M ×N,m=1,2,···,M和n=1,2,···,N是像素索引,和分别是X和Y的均值,P(X,Y)为X和Y的PLCC 计算函数.PLCC 的取值范围为[−1,1],其绝对值越大表示邻域像素之间的相关性越强.

为了说明融合图像在四个方向上邻域像素之间的PLCC 值与立体图像质量的关系,从LIVE 3D IQA Phase II 数据库[28](以下简称为LIVE Phase II 数据库)中选取4 幅主观评价差值(Difference mean opinion score,DMOS)值不同的失真立体图像作为示例,图6 给出了各图像的左右融合图像在四个方向上邻域像素之间的PLCC 取值变化图.其中,PLCC 根据DMOS 值按从大到小的顺序排列,DMOS 值越大表示图像质量越差.可以看出,尽管所选立体图像的失真较为复杂,各失真图像的左和右融合图像在四个方向上的PLCC 取值都会随着DMOS 值的减小而减小,说明邻域像素相关性特征可以描述图像质量的改变.

3.2 单目图像特征提取

单目图像特征从左右视点的GMRIs 中获取,具体包括统计分布特征、邻域像素乘积图统计分布特征以及邻域像素之间的相关性特征.首先采用均值减损对比度归一化方法[27]对左右视点的GMRIs进行处理,使GMRIs 具有显著的统计特性,便于提取感知特征.具体归一化方法为:

图6 左和右融合图像的邻域像素之间PLCC 值取值变化图Fig.6 The variation of the PLCC values between neighboring pixels in the left and right fusion images

其中,G(i,j)是尺寸为M ×N的GMRI,i=1,2,···,M,j=1,2,···,N;µ(i,j)和σ(i,j)分别为GMRI 的局部均值和方差;C 为常量,用于避免出现局部方差为零的情况;ωk,l是长和宽分别为(2K+1)和(2L+1)的二维高斯加权函数,K=L=3.

图7 归一化GMRIs 的统计分布(以右视点为例)Fig.7 The distribution of normalized GMRIs (take the right view as an example)

归一化GMRI 的分布具有一定的统计规律.以IVC Phase I 数据库中的失真立体图像为例,图7给出了GMRIs 的统计分布图(限于篇幅仅给出右视点的GMRIs).可以看出,JPEG 对称失真、GB 对称失真以及GB-WN 非对称失真图像的GMRIs 的分布具有拉普拉斯分布的特点,且分布的左右拖尾长度不一致;WN-JPEG 非对称失真图像的GMRI 的分布更趋近于高斯分布,且分布存在明显的偏移,即分布的均值不为零.因此,本文使用非零均值的AGGD 模型来拟合这些统计分布.

非零均值AGGD 模型参数的具体计算方法为:

其中,α是AGGD模型的形状参数,和反映分布在左右两侧的衰减程度,µ是均值,当µ0时,说明分布存在偏移.记将左和右GMRIs的统计分布参数 (α,σ2,µ)作为单目图像特征之一.

左右GMRIs 的相邻像素之间的关联性改变也可以用来衡量图像质量的变化.一方面,利用图像邻域像素之间乘积图的统计分布来描述失真带来的图像局部结构的变化情况.另一方面,通过GMRIs 邻域像素之间的PLCC 来度量失真对图像邻域像素之间关联性的改变程度.

归一化的GMRI 在水平(Dh)、垂直(Dv)、主对角线(Dm)和次对角线(Ds)方向上邻域像素之间的乘积图定义为:

其中,N(i,j)是经过归一化处理的GMRI.为了说明邻域像素乘积图的统计特性,图8 给出了IVC Phase I 数据库中4 类失真图像的GMRIs 在水平方向邻域像素之间乘积图的统计分布.

图8 GMRI 在水平方向的邻域像素乘积图统计分布(以右视点为例)Fig.8 The distribution of the neighboring products of GMRI along horizontal direction (take the right view as an example)

从图8 可以看出,GMRIs 的邻域像素乘积图的统计分布符合零均值非对称广义高斯分布的特点,因此本文采用零均值AGGD 模型来拟合其分布[27].零均值AGGD 模型参数可以利用式(23)来计算,计算时将式(23)中的µ设置为0.计算所得的α是零均值AGGD模型的形状参数,表示分布在左右两侧的衰减程度.另外,计算η=(βr−βl)Γ(2/α)/Γ(1/α),将左右GMRIs 在四个邻域方向的(α,σl2,σr2,η)作为单目图像特征之一.

此外,本文还利用式(15)∼(18)计算两幅GMRIs 在水平、垂直、主对角线和次对角线四个方向上邻域像素的PLCC 值作为单目图像质量特征之一.

3.3 总体评价模型

ODAD 算法从左和右融合图像分别提取的双目统计特征包括:10 维RIU-LBP 直方图特征和4 维邻域像素的相关性特征.从左和右GMRIs 中分别提取的单目图像特征包括:3 维统计分布特征,4 维邻域像素的相关性特征,以及16 维邻域像素乘积图的统计分布特征.为了获取最终用于图像质量预测的感知特征,本文基于视觉特征整合作用假说[29]对上述特征做了进一步的整合.通过计算左和右GMRIs 特征的均值,来模拟视觉皮层单目细胞之间的相互作用.通过计算左和右融合图像特征的均值,来模拟不同眼优势柱之间的相互作用.这样,在一个尺度上可以得到37 个经过整合的视觉特征.考虑到多尺度方法可以获得更多对图像质量变化敏感的特征,本文最终在2 个尺度上提取了74 个特征值来描述图像质量.

在将感知特征映射为图像质量值时,最常使用的方法是训练SVR 预测模型.SVR 是针对小样本统计估计和预测学习准确性较高的回归模型,其预测准确性和泛化能力很大程度依赖于其核心函数的参数选择.通常来说,使用单一的SVR 预测模型就可以在单个测试数据库上得到非常高的预测准确性.然而,在不同测试数据库上执行交叉验证实验时,使用单一的SVR 预测模型稳定性并不高.为了保证预测模型在单个测试数据库上的预测准确性,并提高预测模型在交叉验证实验中的稳定性,本文利用AdaBoost 算法以及多个不同的SVR 构成一个稳定性更高的预测模型,简记为AdaBoost-SVR.

AdaBoost-SVR 质量预测模型的结构如图9 所示.算法的基本思想是训练多个弱学习算法来构成一个更加稳定的准确性高的强学习算法,在训练过程中不同的学习算法可以跟踪训练集的分布,并自适应地根据弱假设误差率调整每个样本的权重.

图9 中,将T个SVR 作为AdaBoost 算法中的多个学习模型.Di为第i个SVR 的分布,ai为第i个SVR 的权重,i=1,2,···,T.对特征向量为X的图像,第i个SVR 预测的质量值为计算多个预测值的加权和就可以得到立体图像的质量值.为了训练AdaBoost-SVR 预测模型,首先利用LIBSVM[30]软件包在测试数据库上训练单一的SVR 预测模型(使用径向基核函数作为核函数),记录多组使单一SVR 具有较优预测准确性的参数,然后选取T组参数训练T个SVR.

图9 基于Adaboost-SVR 的预测模型Fig.9 AdaBoost-SVR based prediction model

对于包含K 个训练样本的训练集{(X1,y1),···,(Xj,yj),···,(XK,yK)},yj ∈R,yj为第j幅图像的真实质量值,Xj为每幅图像的特征向量,为第i个SVR 预测出的第j幅图像的质量值.利用训练集数据依次训练T个SVR,第i个SVR 的分布Di计算如下

其中,l(x)是一个二元指示函数,当x大于阈值t时,l(x)为1,否则l(x)为0,σ是一个在[0,1]之间的常量,本文中设置T=3,σ=0.1 .结合图像质量预测值与其真实质量值之间的差值与对应的分布Di,j,计算第i个SVR 的误差

为了使错误率较高的SVR 权重较低,错误率较低的SVR 的权重较高,第i个SVR 的权重ai计算公式为

最终的图像质量值计算公式为

4 实验结果与分析

4.1 实验环境配置

本文所提出的算法在IVC Phase I[9]、IVC Phase II[26]、LIVE Phase II[28]和LIVE Phase I 数据库[14]上执行了测试.其中,IVC Phase I、IVC Phase II 和LIVE Phase II 数据库为对称与非对称失真混合数据库,分别包含330 幅、460 幅和360 幅失真立体图像;LIVE Phase I 为对称失真数据库,包含365 幅失真立体图像.对比算法包括:全参考算法SSIM[25]、MSSSIM[31]、IDW-SSIM[9]和Chen FR[14]算法,无参考算法Chen NR[15]、Su[16]、SINQ[18]和BRISQUE[27]算法,以及文献[32]和文献[33]新近提出的算法,其中文献[33]算法是基于卷积神经网络的S I Q A 算法.为了描述简便,下文将SSIM 算法简写为SS,MSSSIM 算法简写为MS,BRISQUE 算法简写为BR,IDW-SSIM 算法简写为IDW,Chen FR 算法简写为CF,Chen NR 算法简写为CN,SINQ 算法简写为SI.由于CN[15]、Su[16]、文献[32]和文献[33]算法代码未公开,实验数据均来自对应文献.IDW[9]在IVC Phase I 和IVC Phase II 数据库的实验数据来自于文献[9]的2017 年扩展版算法的实验结果.将各算法预测的图像质量值与DMOS 或平均主观值(Mean opinion scores,MOS)之间的斯皮尔曼秩相关系数(Spearman rank order correlation coefficient,SROCC),PLCC 和均方根误差(Root mean squared error,RMSE)作为预测准确性指标.实验的硬件平台为Intel i7-6820HQ、2.7 GHz CPU,16 GB 内存,编程环境为MATLAB 2014b.

4.2 算法的准确性与鲁棒性

为了说明ODAD 算法评价非对称失真立体图像的准确性,在IVC Phase I、IVC Phase II 和LIVE Phase II 数据库的非对称失真图像部分进行测试,测试结果列于表2.这三个数据库分别包含252、330 和280 幅非对称失真图像.实验中,所有无参考SIQA 算法采用8:2 的比例将测试数据库随机分配为训练集和测试集,保证两个子集无重叠,并以1 000 次实验的SROCC、PLCC 和RMSE 中值进行比较.从表2 可以看出,ODAD 和IDW[9]在IVC Phase I 和IVC Phase II 数据库的准确性最高,在LIVE Phase II 数据库上SI[18]和ODAD 的评价准确性最高.由于IVC Phase I 和IVC Phase II 数据库中包含了两个视点失真类型不同的复杂非对称失真图像,绝大部分对比算法在这两个数据库上的评价准确性都较低,但ODAD 的SROCC 和PLCC 均达到0.95 以上,且RMSE 取值最低,说明ODAD 在预测非对称失真立体图像质量时具有最好的评价准确性.

表3 和表4 还分别列出了各算法在IVC Phase I、IVC Phase II 和LIVE Phase II 数据库的对称失真图像和整体数据库上的测试结果.实验时,无参考算法仍然采用8:2 的比例将数据库中各部分的图像分为无重复图像的训练集和测试集,将1 000 次重复实验结果的中值进行对比.

表2 各算法在基准测试数据库中的非对称失真图像部分预测结果比较Table 2 The comparison between SIQA algorithms on the asymmetrically distorted images in benchmark databases

表3 各算法在基准测试数据库中的对称失真图像部分预测结果比较Table 3 The comparison between SIQA algorithms on the symmetrically distorted images in benchmark databases

从表3 可以看出,ODAD 算法在IVC Phase I 和IVC Phase II 数据库上的三个评价指标明显优于大部分对比算法,仅在LIVE Phase II 数据库的对称失真图像部分评价准确性稍低,说明该算法在评价对称失真图像时也可以获得较高的评价准确性.从表4 可以看出,在混合了对称与非对称失真图像的整体数据库测试中,ODAD 算法的各项性能指标均优于其他算法的指标,说明ODAD 算法的准确性和鲁棒性相对最好.

此外,表5 还给出各算法在经典的对称失真立体图像数据库LIVE Phase I 数据库上的测试结果.从表5 可以看出,ODAD 算法在LIVE Phase I 数据库上的SROCC 和PLCC 达到0.96 以上,明显优于其他对比算法,且RMSE 最低,这也进一步说明ODAD 在评价对称失真立体图像时可以获得较高的准确性,具有较好的鲁棒性.

4.3 交叉验证实验

为了进一步验证ODAD 算法的通用性,执行交叉验证实验.以IVC Phase I 数据库和LIVE Phase II 数据库为例,分别将这两个数据库作为训练集,将另外三个数据库作为测试集(仅对无参考的BR[27]、SI[18]和ODAD 算法进行比较).表6 列出了各算法预测值与人类主观评价值之间的SROCC和PLCC.可以看出,由于交叉实验中训练集和测试集包含的失真图像的内容、失真类型、失真程度等差异较大,各算法的评价准确性都不是特别高.相对来说,ODAD 算法训练的预测模型对不同的测试数据库仍具有较好的适应性,说明本文所提取的图像特征及预测模型具有较好的泛化能力.

表4 各算法在对称与非对称失真数据库上的预测结果比较Table 4 The comparison between SIQA algorithms on the symmetrically and asymmetrically distorted databases

表5 各算法在LIVE Phase I 数据库上的SROCC、PLCC 和RMSE 比较Table 5 The comparison between SIQA algorithms in terms of SROCC,PLCC,and RMSE on LIVE Phase I database

表6 交叉验证实验结果Table 6 The experimental results on cross database tests

4.4 算法的一致性

为了对比各算法预测值与人类主观评价值的一致程度,以IVC Phase I 数据库为例进行实验.其中,全参考算法SS[25]、IDW[9]和CF[14]算法直接计算出所有图像的质量值;无参考算法BR[27]、SI[18]及ODAD 算法采用8:2 的比例将数据库随机分为训练集和测试集,用训练集图像训练预测模型,然后预测测试集图像的质量值,取5 次重复实验的结果进行对比.各算法的预测值与图像MOS 值对比的散点图如图10 所示.可以看出,ODAD 算法的散点分布较其他算法的聚集更为紧密均匀,说明该算法预测结果与人类感知的一致性更高.

4.5 不同特征对算法性能的影响

ODAD 算法通过整合从立体图像的左右融合图像、左右GMRIs 中提取的多种感知特征,实现了图像质量预测.为了详细地分析使用不同特征对算法评价准确性的影响,表7 列出了使用不同特征组合的ODAD 算法在各数据库上的实验结果.将仅使用左右GMRIs 的图像特征的算法记为ODADGM;在ODAD-GM 基础上增加了左融合图像特征的算法记为ODAD-CL;在ODAD-GM 基础上增加了右融合图像特征的算法记为ODAD-CR;ODAD-148 表示直接使用四幅转换图像特征的算法;ODAD 表示使用整合的74 维特征的算法.从表7可以看出,尽管ODAD-GM 算法仅包含单目图像特征,算法的预测准确性较采用经典NSS 特征的算法的预测准确性已有大幅的提升,说明本文采用的基于非零均值AGGD 模型和PLCC 所提取的单目图像特征具有更强的描述能力,可以更好地反映图像质量变化.ODAD-CL 和ODAD-CR 算法包含了部分融合图像特征,评价准确性较ODAD-GM 有所提升.同时,由于ODAD-CL 和ODAD-CR 算法只使用了一幅融合图像的特征,两个算法的评价准确性较为接近.

图10 各对比算法在IVC Phase I 数据库上预测值与MOS 值的散点分布图Fig.10 The scatter plots of the MOS values versus the quality scores predicted by the competing algorithms on IVC Phase I database

表7 各部分特征对ODAD 算法性能影响Table 7 The influence of each part of features on the performance of ODAD

ODAD-148 和ODAD 算法因为采用了两幅融合图像的特征,在大部分测试数据库上获得了更好的评价准确性.而ODAD 对四幅转换图像的特征做了进一步整合,在包含了复杂非对称失真图像的IVC Phase I 数据库和IVC Phase II 数据库上测试时,获得了最高的评价准确性.综上可知,ODAD算法同时使用两幅融合图像的特征,并采用特征整合的方式可以更加准确地描述失真立体图像的特性,有利于提高算法的评价准确性和鲁棒性.

4.6 SVR 个数对算法性能的影响

为了比较使用不同个数的SVR 对算法评价准确性的影响,本文对比了使用不同个数SVR 的AdaBoost-SVR 预测模型执行独立数据库和交叉数据库实验的测试结果,实验结果对比如图11 所示,其中SVR 个数为1 时的AdaBoost-SVR 相当于传统的SVR 预测模型.

从图11(a)给出的独立数据库实验结果可以看出,随着SVR 的个数增加,算法的预测准确性存在明显的变化,当SVR 个数为3 和10 时,算法在各数据库上的预测准确性相对都更高.图11(b)给出将IVC Phase I 数据库作为训练集其他数据库为测试集的对比结果.可以看出,由于训练集和测试集所包含的图像差异很大,对于大多数测试集来说,随着SVR 个数的增多,算法的预测准确性会明显的提高,但当SVR 的个数大于一定数值时,预测准确性又会下降.总体来说,采用AdaBoost-SVR 来映射图像质量,有助于提高算法的预测准确性和稳定性.

4.7 算法复杂度与执行时间比较

假设单目图像包含N个像素,采用窗口尺寸为d1×d1的高斯偏导滤波计算左右视点图像在2 个方向上的梯度值的时间复杂度为:计算视差图时,如果滑动窗口的宽度置为d2,SSIM 算法中采用的局部窗口尺寸为d3×d3,则所需时间大约为生成两幅融合图像的时间复杂度为O(12N).从两幅融合图像中提取RIU-LBP 特征时间复杂度为 O(2PN),其中P为使用的邻域像素个数;计算融合图像在4 个方向的邻域像素之间相关性特征的时间复杂度为 O(8N);在归一化GMRIs时,设高斯窗口尺寸为d4×d4,则归一化所需时间为O从GMRIs中特征提取统计分布特征和邻域像素相关性特征的时间为O(18N).综上所述,本文算法总的时间复杂度为,仍保持在线性阶.

图11 采用不同个数SVR 在独立数据库和交叉数据库验证的结果对比Fig.11 The comparison of experiments on individual and cross database tests when using different numbers of SVR

为了和其他算法进行详细对比,本文计算了各算法在LIVE Phase II 数据库上提取330 幅失真图像特征或预测图像质量值所花费的平均时间(s).由于2D 算法SS[25],MS[31]和BR[27]算法无需计算视差图,也无需进行图像融合,他们所需的执行时间分别为0.079 s,0.113 s 和0.071 s.而CF[14]、SI[18]和ODAD 算法需要计算视差图,并生成融合图像,所需的特征提取时间分别为:16.485 s、4.149 s和4.538 s.相对来说,ODAD 算法比使用Gabor滤波的CF[14]算法的计算时间少近12 s.

5 结论

本文提出一种基于眼优势的非对称失真SIQA算法ODAD.该算法在模拟立体图像的视觉刺激强度时,采用梯度幅值响应来减少图像转换时间,提高了算法的效率.在对双目视觉进行建模时,分别基于左和右视点图像生成两幅融合图像,更好地模拟了人类视觉皮层中的眼优势效应原理.在提取图像特征时,使用RIU-LBP 直方图,邻域像素之间的PLCC 值,以及非零均值AGGD 模型,获得了描述能力较强的感知质量特征.建立评价模型时,采用AdaBoost-SVR 算法提高了评价模型的稳定性.在4 个立体图像基准测试数据库上实验结果表明,所提出的算法较经典SIQA 算法评价获得了更高的评价结果,尤其是在评价各种非对称失真立体图像的质量时准确性最高.同时,所提出算法的执行效率也较高,能更好地满足实际应用的需求.

猜你喜欢

视点非对称邻域
基于混合变邻域的自动化滴灌轮灌分组算法
专家视点
阀控非对称缸电液伺服系统线性自抗扰控制
非对称干涉仪技术及工程实现
尖锐特征曲面点云模型各向异性邻域搜索
基于细节点邻域信息的可撤销指纹模板生成算法
环境视点
让你每天一元钱,物超所值——《今日视点—2014精萃》序
非对称换向阀在液压缸传动系统中的应用
邻域平均法对矢量图平滑处理