协同超像素和视觉显著性的图像质量评价

2021-07-27邓杰航袁仲鸣林好润顾国生

广东工业大学学报 2021年5期

邓杰航，袁仲鸣，林好润，顾国生

（广东工业大学计算机学院，广东广州 510006）

图像作为人类和机器获取信息的重要来源，图像的质量将直接决定信息来源的准确性和有效性。然而，图像的获取、压缩、处理、传输、显示的过程中无可避免地会出现一定的失真，因此图像质量评价(Image Quality Assessment， IQA)被广泛地应用于许多图像任务处理当中。

目前，图像质量评价从方法上可以分为主观评价方法和客观评价方法[1]。主观评价是根据观察员对图像的主观感知来评价图像质量的，而客观评价则是模拟人类视觉系统的感知特性建立数学模型以评价图像的质量。相比主观评价，客观评价具有处理速度快，可批量处理，结果可重现的特点。当前客观评价算法根据其对参考图像的依赖程度分成3类[2]，分别是全参考[3]、无参考[4-5]和半参考[6-7]。由于全参考的评价方法被广泛应用于评估图像处理算法，因此本文专注于全参考图像质量评价算法。

传统的全参考图像质量评价方法在默认参考图像为无失真图像的基础上，通过分析失真图像和参考图像之间的误差信号从而进行图像质量评价，如均方误差(Mean Square Error， MSE)和峰值信噪比(Peak Signal to Noise Ratio， PSNR)。MSE和PSNR由于其简单性而得到广泛应用，然而这两个数学模型和人类视觉系统(Human Visual System， HVS)的观察特性相关性较低，因此在涉及不同的失真类型时，这两种IQA方法难以获得令人满意的结果[3]。根据HVS的感知特性，Wang等[8]提出了结构相似性指数(Structural Similarity， SSIM)，该方法采用图像亮度、对比度和结构特征的比较来感知图像的质量。由于其优秀的性能和计算效率，SSIM被公认为IQA研究领域中的里程碑。随后，Wang等[9]提出了多尺度的SSIM(Multi-scale Structural Similarity， MS-SSIM)以及Wang等[10]提出了信息内容加权的SSIM(Information Content Weighted Structural Similarity， IW-SSIM)。除了基于SSIM这一类型的IQA方法，研究者也提出了不少其他策略的IQA方法。Zhang等[11]假设HVS通过低级特征来理解图像，他们提出的特征相似性指数(Feature Similarity， FSIM)采用相位一致性和梯度幅值的比较来感知图像的局部失真，并使用相位一致性充当局部权重计算全局质量分数。Larson和Chandler等[12]认为，在评估不同失真程度的图像时，HVS会分别执行不同的策略，因此他们提出了基于最明显失真统计(Most Apparent Distortion， MAD)的IQA指标。Xue等[13]认为仅仅依靠梯度幅值就能够很好地评估图像的质量，并以标准偏差作为池化策略实现了一种高效的方法，即梯度幅值相似度偏差(Gradient Magnitude Similarity Deviation， GMSD)。Sun等[14]提出的基于超像素的相似性指数(Superpixel-based Similarity Index， SPSIM)，图像被分割成人类视觉上有意义的超像素区域，在超像素中提取图像的局部特征并且计算这些特征的相似性度量。此外，学者们考虑到梯度特征区域的总体变化(Regional Gradient Consistency， RGC)，并根据这种变化修正了特征相似度的度量。而在文献[15]所提出的视觉显著性指数(Visual Saliency-induced Index， VSI)中，视觉显著性信息被合并到IQA模型中以改善其性能，其中视觉显著性起双重作用：用以表征图像的局部特征以及作为加权池中的加权函数。

超像素将一些具有相似特性的像素聚合起来，形成一个更具有代表性的区域。因此利用超像素能够更准确地描述图像的局部特征并获得更加精确的相似性度量。此外，在观察图像时，人类的注意力机制会使人类优先处理图像中的某一部分[16]，即人类对图像内容的感知不是均等的，而是更容易感知到显著性高的部分，忽视显著性低的部分。因此可以将视觉显著性用于局部特征相似性度量的修正以及池化策略。受上述超像素和视觉显著性特性的启发，本文提出一种协同超像素和视觉显著性的图像质量评价方法。在本文的工作中，在超像素分割出来的区域中提取亮度特征和色度特征，在视觉显著性检测模型中提取视觉显著谱(Saliency Map， SM)作为显著性特征，在Scharr算子中提取梯度特征。在对上述这些特征进行相似性度量的时候，分别使用基于区域梯度一致性和基于显著性的参数自适应策略对相似性度量进行修正。最后对图像所有特征的相似性度量使用加权池的池化策略，并且引入视觉显著谱SM作为加权池中的权重函数。

1 协同超像素和视觉显著性的图像质量评价模型

本文提出协同超像素和视觉显著性的图像质量评价模型总体结构框架如图1所示，即(1) 模型以参考图像与失真图像为输入；

图1 所提模型的总体结构框图Fig.1 The framework of proposed model

(2) 对输入的图像分别进行YUV颜色空间转换、视觉显著性检测以及超像素生成的预处理；

(3) 根据预处理的结果，分别提取参考图像和失真图像的显著性、亮度、色度和梯度等低层次特征；

(4) 对已提取的特征进行相似性度量，并且根据基于区域梯度一致性参数自适应模型和基于视觉显著性的参数自适应模型对其进行修正，生成局部质量分数；

(5) 以视觉显著谱SM计算加权池中的权值函数；

(6) 对(4)生成的局部质量分数进行加权池化，得出最终的评价分数并且输出。

为了更清楚地说明超像素和视觉显著性在所提及的模型的体现，图中虚线边框表示该部分是由视觉显著性引导计算的，而点划线边框表示该部分是由超像素引导计算的。

图1显示出显著性相似度、超像素亮度和色度相似度、梯度相似度、相似性度量修正模型和池化融合策略的详细计算过程。

1.1 显著性相似度

当图像发生超阈值失真会导致图像的视觉显著图产生可测量的变化，因此参考图像和失真图像之间的显著性相似度可用于表征图像的局部质量[15]。基于图论的视觉显著性(Graph Based Visual Saliency，GBVS)模型是一种基于底层视觉特征且拥有较高计算效率的显著性分析模型[17]，GBVS首先通过线性滤波和非线性滤波得到特征图M，然后通过马尔科夫链构建激活图Ga。激活图Ga中像素点表示图的节点，节点之间的权重w如式(1)所示。

其中

本文使用上述模型对参考图像和失真图像进行显著性特征提取，分别得到参考图像的显著性图谱和失真图像的显著性图谱，然后通过式(4)来计算参考图像和失真图像之间的显著性相似度。

其中， V Sr(i) 和 V Sd(i)分别表示参考图像和失真图像显著性图谱中第i个像素的值。T1为调节参数，具有两方面作用：避免分母为零所产生的不稳定性和调节局部特征相似度的度量。T1将通过基于显著性的参数自适应策略确定。

1.2 超像素的亮度和色度相似度

基于简单线性迭代聚类的(Simple Linear Iterative Clustering， SLIC)[18]方法对图像边界有较好的依从性。本文所提出的方法需要对参考图像和失真图像都进行超像素分割，但是对于失真图像，由于图像颜色和纹理等细节受到失真影响，不宜进行超像素分割，因此直接套用参考图像的SLIC超像素分割结果。换言之，参考图像和失真图像的超像素分割结果是一致的[14]。

由于RGB彩色空间不能直观地表现图像的亮度和图像色彩的饱和度，为了更好地评估失真的图像，将图像转换为更接近人类视觉感知特性的YUV色彩空间。在YUV彩色空间中，Y表示图像亮度，用于计算图像结构畸变引起的图像失真。而U和V表示色差，用于计算由颜色引起的图像失真。

其中，S j表示第j个超像素区域，|S j|是超像素Sj中的元素数量。通过式(6)来计算参考图像与失真图像之间的亮度相似度。

其中，Lr(i)和Ld(i)分别表示经过超像素分割以及式(5)处理的参考图像和失真图像的第i个像素的亮度。T2与T1的作用相同，由基于区域梯度一致性的参数自适应模型确定。

与(5)和(6)两个步骤类似，可以推导出色差相似度SU(i) 和SV(i)。色度相似度SC(i)是色差相似度SU(i)和SV(i)的乘积，如式(7)所示。

最后超像素亮度和色度相似性Ssp(i)由式(8)计算得到，其中 α 和 β是调整亮度和色度相似度的参数，e 表示自然常数。

1.3 梯度相似度

图像梯度不仅可以用于反映结构特征，而且对于图像的质量有着良好的指示作用。目前图像梯度检测算法是通过以梯度算子进行卷积计算实现，常用算子包括Sobel算子、Prewitt算子和Scharr算子，而在文献[8，19-20]中讨论了的Scharr算子对于IQA模型有较好的效果。因此本模型采用Scharr算子对图像的梯度进行提取，水平方向的梯度值GH(i)和垂直方向的梯度值GV(i)由式(9)和(10)给出。

其中Y(i) 表示亮度分量， ⊗表示图像的卷积运算，图像对应的梯度幅值G M(i)定义为

最后分别对参考图像和失真图像计算得到梯度幅值，通过式(12)计算结构相似度。

其中 G Mr(i)和 G Md(i)分别表示参考图像和失真图像中第i个像素的梯度幅值，T3的作用类似于T1和T2，由基于区域梯度一致性参数自适应模型进行自适应处理。

1.4 相似度量参数自适应修正模型

人类注意力机制作为HVS的感知特征之一，使得人类感知过程中对图像不同区域给予的关注程度不同，因此当图像显著性较强区域发生失真时，HVS更易于感知到失真；而当失真发生在显著性较弱区域时，HVS则不易感知到失真。高等[21]认为，HVS感知到局部图像质量退化由客观退化程度和图像的视觉显著性共同决定，提出利用显著性自适应地调节局部图像质量的计算。他们利用图像的边界强度构造图像的视觉显著性，然后对图像的边界强度特征相似性进行自适应修正。本文所提出的评价方法，对这项工作进行了改进。由于图像的视觉显著性受多方面的影响，如图像的亮度、颜色和边缘轮廓，而以边界强度构造的视觉显著性仅能表示图像边缘轮廓单一方面的显著性。因此使用GBVS视觉显著性检测模型构造图像的视觉显著性，并将其对评价方法中的显著性相似度的参数T1进行自适应修正。具体实现如下

第一相电泳根据蛋白质等电点进行分离，提取的蛋白质溶解于含有7 mol/L尿素、2 mol/L硫脲、2% CHAPS、2% Pharmalyte (pH3～10)、0.002%溴酚蓝、2.8 mg/mL DTT 的缓冲液中，7 cm电泳条(Immobiline DryStrip，pH 3～10,GE Healthcare)中行等电聚焦。

因为T1通过式(13)的减函数进行自适应变化，当V(i)的值越大，表示i处的显著性越高，HVS更容易感知到该处发生的失真，此时参数T1根据显著性产生自适应的变化使其取值越小，参考图像和失真图像的显著性 VSr(i) 和V Sd(i) 之间的差异对相似度SVS(i)的影响越大。与之相反，当V(i)的值越小，表示i处的显著性越弱，HVS不易感知该区域的图像失真，此时对应的参数T1自适应的取值增大，参考图像和失真图像的显著性 VSr(i) 和V Sd(i)之间的差异对相似度SVS(i) 的影响越小，且SVS(i)越接近1。

另一方面，当HVS感知图像时，像素整体(图像区域)传达的信息比单个像素传达的信息更为关键。因此文献[14]提出了基于区域梯度一致性参数自适应模型。他们认为如果图像梯度以相似的趋势变化，则预测的图像质量趋于良好，因此将区域梯度比较纳入IQA模型中可以提高其性能。在本模型中，同样地使用了基于区域梯度一致性的参数自适应模型。参考图像和失真图像中超像素区域的区域梯度一致性(Region Gradient Consistency， RGC)和区域梯度的增减性(Increase or Decrease of Gradient， IDG)使得上述T2、T3等参数自适应变化，以解决一些图像失真高估的问题，从而提升IQA模型的性能。

1.5 池化策略

通过综合显著性相似度、超像素亮度和色度相似度以及梯度相似度，最终协同超像素和视觉显著性双重策略的图像质量评价分数由式(16)给出。

其中N表示图像中像素的总数。由于人类视觉的注意力机制，图像中不同区域可能使人类视觉对图像质量的感知产生不同的贡献。因此将采用视觉显著性检测模型计算得到的视觉显著谱作为权值函数ω(i)，见式(17)。式中的V Sr(i)和 V Sd(i)分别表示参考图像和失真图像的显著性谱。

2 实验及结果分析

2.1 实验数据库与评价指标

当前在IQA领域中主流的基准图像数据库为TID2013、TID2008、CSIQ、LIVE、IVC、ToyamaMICT、CornellA57和WIQ，但它们在参考图像和失真图像的数量、失真的类型、观察员的数目以及图像类型上存在较大的差异。其中TID2013、TID2008、CSIQ和LIVE这4个图像数据库在图像的失真类型、失真图像数量上相对丰富与全面，因此在这4个图像数据库中对本文所提出的评价模型进行性能验证。

选用的定量测试评价结果的指标是公认度和引用次数较多的Spearman等级相关系数(Spearman Rank Order Correlation Coefficient， SROCC)、Kendall等级相关系数(Kendall's Rank Order Correlation Coefficient)、Pearson线性相关系数(Pearson's Linear Correlation Coefficient， PLCC)以及均方根误差(Root Mean Square Error， RMSE)。其中SROCC和KROCC表示预测的单调性，可以使用IQA方法的主观评分和客观评分直接计算。而PLCC和RMSE表示预测的精度，在计算这2个指标之前，需要进行回归分析，以获得客观评分和主观平均意见评分(Mean Opinion Score，MOS)之间的非线性映射。经过非线性回归后，根据客观评分的非线性映射得分和主观平均意见得分(MOS)计算得出PLCC和RMSE。采用文献[8]中建议的非线性逻辑回归模型，见式(18)。

式中，x为论文提出的IQA方法得出的原始客观质量评分， β1到 β5分别为回归过程中自适应调整的参数，e表示自然常数。

本文的模型需要的实验参数分别有：式(8)中调整超像素色度相似度和亮度相似度的 α 和 β，式(13)中基于显著性参数自适应模型中的调节因子K和衰减因子h。其中α 和 β将根据文献[15]的实验结果设置为0.05和0.35。而调节因子K和衰减因子h也将根据文献[21]的实验方式在LIVE数据库中确定，本文K和h分别确定为2.5和0.5。

2.2 整体评价性能比较

表1分别选取当前具有代表性的IQA方法与本文所提出的评价方法进行比较。用于对比的方法包括传统的IQA指标SSIM[8]、MSSSIM[9]、FSIMc[11]，以及采用视觉显著性作为评价策略的VSI[15]，采用超像素作为评价策略的SPSIM[14]，还有近年提出的CAGS(2020)[22]。为了更加直观地表现出各种IQA指数的性能表现，每个指标中性能排列在前三的值都以粗体表示。除此之外，4个数据库的SROCC，KROCC和PLCC的加权平均结果也如表1所示，其中用于加权平均的权值是由每个数据库中所包含失真图像的数量决定的。

表1 不同IQA方法在4个基准数据库中的性能表现Table 1 Performance of different IQA methods in four benchmark databases

从对比结果可以看出，本文方法在4个基准数据库中均获得前三名。在CSIQ、TID2008和TID2013这几个失真图像数目最多的数据库中，本文方法的各项指标的性能表现均优于表中的IQA方法，同时该方法还是3个指标的加权平均值的第一名，这表明本文的评价结果更具有通用性与有效性。相比较而言，尽管CAGS与FSIMc分别在LIVE数据库中获得最高的客观评价值，但是他们在TID2008和TID2103这两个具有较多的图像总数和失真类型的图库上评价性能的排名没能进入前三。另外，本文所提出的方法在评价以上4个图库的图像质量时，其性能都超越了基于显著性的VSI与基于超像素的SPSIM。这验证了协同超像素和视觉显著性的双重策略对于IQA算法性能提升的有效性，本文方法能够在客观评估上实现更高的一致性。

2.3 所提模型针对单一失真类型评价性能的比较

由于在TID2013基准图像数据库中，已经涵盖了LIVE、CSIQ、TID2008数据库中绝大多数的失真类型，并且在TID2013中有更多的图像失真类型和失真图像数目。因此，为了更全面且高效地评估IQA方法对于单一失真类型的性能表现，在本实验中，分别使用IQA方法评估TID2013这个基准图像数据库中24组特定类型的失真。使用SROCC作为IQA方法性能评价指标，因为其不受拟合结果的影响，表2显示了不同IQA方法对不同的失真类型的SROCC值。

表2中灰色填充表示该方法SROCC评价值低于表中方法对于该失真类型的平均值。从表中结果可以看出，对比各个方法所包含灰色填充格的个数，其中SSIM和MSSSIM为20个，FSIMc为10个，CAGS为8个，SPSIM为5个，而本文方法与VSI在25种失真类型之中仅含4个灰色填充格。这表示在失真图片较多，失真类型全面的TID2013基准数据库中，在面对多种不同的失真类型时，本文方法能获得准确的评价结果，且结果波动小、性能稳定，表现出较强的准确性和通用性。

表2 IQA算法对TID2013中失真类型的SROCC值Table 2 SROCC values of IQA for each type of distortions in TID2013

3 结语

本文考虑到人类注意力机制和超像素有利于图像局部特征的提取，提出协同超像素和视觉显著性双重策略的图像质量评价方法。该方法在视觉上有意义的超像素区域中提取图像局部特征信息，通过视觉显著性加权局部质量评分模拟人类注意力机制得到全局的质量评价分数。在LIVE、CSIQ、TID2008和TID2013图像库中大量的实验结果表明，与主流方法相比，本文方法的评价结果能更好地模拟人类视觉的感知特性，获得与主观评价更高的一致性。