APP下载

基于边缘和结构的无参考屏幕内容图像质量评估

2020-01-02魏乐松陈俊豪牛玉贞

北京航空航天大学学报 2019年12期
关键词:插值滤波器边缘

魏乐松,陈俊豪,牛玉贞

(福州大学 数学与计算机科学学院,福州350100)

随着互联网技术的快速发展,屏幕内容图像(Screen Content Image,SCI)被广泛应用于现代多媒体应用,如无线显示、远程教育、屏幕共享、实时通信等。由于技术和设备的缺陷,在压缩、传输、获取等过程中不可避免地会引入各种失真,影响用户的体验。例如,当利用智能手机中的相机创建屏幕内容图像时,由于相机运动和不同的环境,可能会产生噪声和模糊失真。对于通过因特网传输屏幕内容图像,为了进行有效传输,可能由于图像编码而产生压缩失真。因此,迫切需要屏幕内容图像的视觉质量评估算法,用来优化多媒体应用系统。

客观质量评估算法根据参考原始图像的程度,评估算法可以分为3类:全参考(Full Reference,FR)、半参考(Reduce Reference,RR)和无参考(No Reference,NR)。其中,全参考图像质量评估算法使用了原始图像作为失真图像的参照图像;半参考图像质量评估算法中仅使用了部分参照图像的信息;无参考图像质量评估算法没有使用任何的参照图像中的信息作为先验数据。然而,在许多实际应用中,特别是在大数据应用领域,获取全部或部分的参考图像信息是非常昂贵的,甚至是不可能的。而无参考图像质量评估不依靠任何参考图像的信息,比全参考图像质量评估和半参考图像质量评估具有更大的实际应用前景。

在过去的几十年中,图像质量评估领域得到很大的发展,已经有针对视觉内容设计的各种图像质量评估算法。大多数传统的评估指标都是全参考算法,诸如峰值信噪比算法(Peak Signal-to-Noise Ratio,PSNR)和均方误差(Mean Square Error,MSE),它们通过简单地计算参考和失真图像之间的像素差异来预测图像的视觉质量。由于其简单有效,这些方法在工业界和学术界得到广泛的应用。其没有考虑人类视觉系统的属性,因此,无法获得与人类感知较一致的质量预测结果。为了解决这个问题,许多研究人员根据人类视觉系统的特点,提出了各种不同的评估算法,如结构相似性(Structural Similarity,SSIM)算法[1]、梯度幅度相似性偏差(Gradient Magnitude Similarity Deviation,GMSD)算法[2]、自然图像质量评估(Natural Image Quality Evaluator,NIQE)算法[3]、以及盲/无参考图像空间质量评估(Blind/Referenceless Image Spatial Quality Evaluator,BRISQUE)算法[4]。

但是,上述的评估算法是专为自然图像设计的,对屏幕内容图像效果不好。通常,屏幕内容图像由计算机生成,由文本、图形和图像组成,具有特殊的布局,导致这2种图像在统计特征上存在明显差异。对于屏幕内容图像的研究,Yang等[5]进行了主观实验并构建了一个SIQAD数据库,基于该数据库,提出了各种针对屏幕内容图像的评估算法,且提出了SPQA(SCI Perceptual Quality Assessment)算法,该算法通过分析图像区域和文本区域的质量感知特征来考虑图像整体质量。Wang等通过考虑视野自适应和局部信息内容加权,提出了SQI(SCI Quality Index)算法[6],且基于主要视觉信息和不可预测的不确定性提取图像的统计特征,然后提出了半参考模型[7]。Shao等[8]通过利用稀疏表示框架提出了BLIQUP-SCI(Blind Quality Predictor for SCI)算法。Fang等[9]通过对图像亮度和纹理特征的局部和全局表示,提出了 NRLT(No Reference quality assessment method by incorporating statistical Luminance and Texture features)算法。

现有的针对屏幕内容图像质量评估的无参考算法[8-9]不能与主观感知产生较高的一致性,因此,针对屏幕内容图像设计有效的无参考质量评估算法仍然存在挑战。本文结合文本、图形、图像和布局对屏幕内容图像质量的影响,提出了针对屏幕内容图像的基于边缘和结构的无参考质量评估(Blind quality assessment for screen content images based on Edge and Structure,BES)算法。

与自然图像不同,屏幕内容图像由具有大量边缘的文本、图形和图像组成,并且人类视觉系统对边缘高度敏感。因此,BES算法首先对失真图像的亮度分量进行双三次插值处理,然后使用Gabor滤波器的虚部对插值后的亮度分量提取边缘,并计算每个失真图像的边缘特征。

屏幕内容图像以独特的布局显示文本、图形和图像,因此,BES算法提取结构特征来表示屏幕内容图像的布局,首先使用双三次插值对失真图像进行插值,然后使用Scharr滤波器在插值后的失真图上计算得到局部二值模式(Local Binary Pattern,LBP)图,接着通过LBP图计算得到结构特征。与其他算法中直接使用频率直方图描述全局信息不同[9],BES算法通过累加图像中具有相同LBP模式的像素的梯度值来表示失真图像的结构特征。

利用相应的方法提取边缘特征和结构特征,将随机森林回归(Random Forest Regression,RFR)算法作为映射函数,将边缘和结构特征映射为主观质量分数。

1 BES算法

Guo等[10]研究表明,通过双三次插值处理,可以减少屏幕内容图像和自然图像之间的统计特征差异,使得输入的屏幕内容图像在统计特征上更加类似于自然图像,以便更好地表示图像。Ni等[11]通过实验证明了Gabor滤波器的虚部可以有效地提取边缘信息。文献[1]中表明,图像结构携带重要的视觉信息,人类视觉系统可以通过获取图像结构信息来感知和理解图像。因此,通过双三次插值处理之后,结合屏幕内容图像的边缘和结构特征来表示图像。最后,利用随机森林回归算法将从多尺度中提取的边缘和结构特征映射为主观质量分数。

1.1 提取边缘特征

根据生理学实验发现,二维Gabor滤波器可以有效地模拟哺乳动物视觉皮层中的简单细胞感受野剖面[12-13],说明了Gabor滤波器可以有效地表征人类视觉系统感知。因此,利用Gabor滤波器提取屏幕内容图像的边缘特征。

BES算法首先将失真的屏幕内容图像从RGB颜色空间转换为LMN颜色空间[14],以便提取亮度分量。这里选择LMN颜色空间的原因是颜色空间转换过程中的权重针对人类视觉系统进行了优化[15]。接着使用双三次插值来对每个输入的失真屏幕内容图像的亮度分量进行插值,将其进行放大,平滑图像中的边缘。双三次插值的表达式为

式中:aij为一个邻近像素的权重系数,这个权重系数是根据像素分布导数计算得来的。

社会中的个体想获得幸福,应做到不但爱自己,还应该爱他人。自我价值的实现是双向的,一方面自我的社会价值实现在于个体对他人的服务与奉献;另一方面个人价值的实现在于社会给予个体的物质与精神回报,正如马克思所理解的那样,人类的终极幸福是实现最大多数人的最大幸福。每个人在追求自身幸福的过程中,不仅意识到自身的需要,还应该意识到他人的利益和需要,意识到社会的整体需要和幸福,以此寻找个体需要同他人需要的交汇点,从而将个体对幸福的追求纳入社会整体和谐发展的轨道。和谐融洽的社会关系能够推动个人、集体和社会的和谐发展,从而达到个人幸福和社会幸福的统一。

在空间域中,二维Gabor滤波器可以描述为由正弦平面波调制的高斯核函数,其虚部是奇对称的并且是用于检测边缘的有效工具。文献[18-19]表明,水平或垂直方向的视觉灵敏度高于其他方向。因此,选择水平和垂直方向,即θ=0和θ=π/2(θ为Gabor滤波器中的方向参数),以获得水平和垂直方向上的Gabor滤波器,分别表示为gh和gv。将通过双三次插值处理过的输入图像的亮度分量与每个Gabor滤波器进行卷积,以获得水平和垂直方向的边缘图,卷积计算公式为

式中:“⊗”表示卷积计算;l为通过双三次插值处理过的输入图像的亮度分量;eh和ev分别为水平和垂直方向的梯度图,接着将这2个结果相加得到最终的梯度图,表示为e,即

这里将e的绝对值直方图作为输入图像的边缘特征,直方图分组设置为10,因此用一个10维向量{f1,f2,…,fk}来表示边缘特征,向量中第n(1≤n≤k=10)个元素的计算式为

式中:Q(n)为第n个分组的取值范围;M 为图像中的像素个数;ei为图像中第i个像素。

1.2 提取结构特征

文献[1]中表明,图像结构信息的有效提取和描述对图像感知质量评估有很大帮助。本文提出的算法中,先利用双三次插值对失真图像进行插值,接着分别使用水平和垂直方向的Scharr滤波器与插值后的图像进行卷积计算,得到梯度图,计算公式为

式中:p为插值后的失真屏幕内容图像;sh和sv分别为水平和垂直方向的Scharr滤波器;th和tv分别为插值后的图像和对应方向的Scharr滤波器经过卷积计算后得到的水平和垂直方向的插值后图像的梯度图;t为最终的插值后图像的梯度图。

接着,基于上述得到的梯度图利用LBP算子来提取插值后图像的结构信息。LBP算子是用来描述中心像素和其周围像素的关系[16],常规的LBP算子表达式为

式中:I和R分别为周围像素数量和邻域的半径;tc为局部区域中心位置像素的梯度值;ti为邻接位置的梯度值。为了获得旋转不变性,局部旋转不变均匀LBP算子[16]定义为

式中:N为图像的像素个数;v∈[0,V]为可能的LBP模式;tj为LBP模式的权重。在本文中,设置I=8,邻域半径设置为R=1,这样一张失真图的结构特征将由一个10维向量来表示。在图1中给出了SIQAD数据库中典型的失真图,及其对应的边缘图、LBP图和表示特征的直方图。

1.3 回归模型

给定一张失真屏幕内容图像,根据上述算法,在每个尺度上可以获得20维特征,包括10维边缘特征和10维结构特征。文献[18]表明,人类视觉系统可以从粗略到细致地获得图像信息。因此,为了使提取的图像特征更符合人类视觉系统的特点,本文对图像进行4次下采样,并在这4个尺度上以及原尺度上提取特征。因此,对于每张失真图像,总共提取100维特征。在实验中,将双三次插值因子设置为2,并将随机森林回归算法作为映射函数,把质量感知特征映射为主观质量分数。将随机从数据库中选择的80%图像用来训练模型,然后将剩余图像作为测试集并计算出其视觉质量分数。该实验进行1 000次,然后将其中位数作为最终的结果。

图1 失真屏幕内容图像以及对应的特征图和特征直方图示例Fig.1 Examples of distorted screen content images,their feature maps,and feature histograms

2 实验结果

为了测试所提算法的性能,本文在2个数据库SIQAD[5]和SCID[19]上,将所提算法与其他评估算法进行对比实验,实验结果如表1和表2所示。SIQAD数据库包含20张原始图像和980张失真图像,980张失真图像有7种失真类型,每种失真类型有7种失真等级。这7种失真类型包括高斯噪声(GN)、高斯模糊(GB)、运动模糊(MB)、对比度变化(CC)、JPEG 压缩(JPEG)、JPEG2000压缩(J2K),基于层划分的压缩(LSC)。SCID数据库具有40张原始图像和1800张失真图像,失真图像中有9种失真类型,每种失真类型有5种失真等级。这9种失真类型包括GN、GB、MB、CC、JPEG、J2K,颜色饱和度变化(CSC)、具有抖动的颜色量化(CQD),高效视频编码标准(HEVC-SCC)。这2个数据库都提供了平均主观得分差(DMOS)作为主观评分。

本文使用3个常用指标来评估主观和客观评分之间的一致性:皮尔森线性相关系数(Pearson Linear Correlation Coefficient,PLCC),斯皮尔曼等级相关系数(Spearman Rank-order Correlation Coefficient,SRCC)和 根 均 方 根 误 差 (Root Mean Squared Error,RMSE)。PLCC可用于评估预测的准确性,SRCC可用于评估预测的单调性,RMSE是评估预测一致性的一种方法。PLCC和SRCC值越高,算法的性能越好。相反,较小的RMSE表示更好的精度。

不同的图像质量评估算法可能会产生不同范围的分数,为了将各种评估算法进行比较,就需要把评估分数映射到共同的分数空间,这里使用逻辑斯蒂函数对评估分数进行映射:

式中:p1、p2、p3、p4和p5是5个拟合参数;q为拟合前数据集;z(q)为拟合后数据集。

为了证明本文提出的算法的优越性,本文将其与以下经典的质量评估算法进行比较:PSNR、

SSIM[1]、GMSD[2]、MAD(Most Apparent Distortion)[20]、SPQA[5]、SQI[6]、ESIM(Edge Similarity)[19]、GFM(Gabor Feature Model)[11]、NIQE[3]、IFC(Information Fidelity Criterion)[21]、BRISQUE[4]、GWH-GLBP(Gradient-Weighted Histogram of Local Binary Pattern calculated on the Gradient map)[17]、GSIM(Gradient Similarity)[22]以及NRLT[11]。在 这 些 评 估 算 法 中,SPQA、SQI、ESIM、GFM和NRLT是针对屏幕内容图像设计的算法,其余的算法是为自然图像设计的。

表1和表2分别列出了上述图像质量评估算法在SIQAD数据库和SCID数据库上每种失真类型以及整体性能的测试结果。在2个表列出来的全参考算法中,每个测量指标(即PLCC、SRCC和RMSE)的最佳值用黑色粗体显示,而无参考算法中的每个测量指标的最佳值用黑色粗体加下划线显示。这些用来比较的算法的程序源代码都是从原始地址下载的。在表1中,对于SQI算法,失真类型上的RMSE值没有提供。

从表1中可以看出,针对屏幕内容图像设计的全参考算法,即SPQA、SQI、ESIM 和GFM,实现了比针对自然图像设计的全参考算法更好的性能,即PSNR、SSIM、MAD 和GMSD。在数据库SIQAD中,本文BES算法在所有无参考算法中取得最佳的性能,其中除了NRLT算法,其余算法都

是针对自然图像提出的,只考虑了图像部分的特征,忽略了文字部分的特点,使得性能不佳;NRLT算法结合亮度和结构特征来表示图像,但是图像中存在大量文字,文字对亮度的敏感度低于图像部分,而本文BES算法利用图像中存在大量边缘这一特性,结合图像的特殊布局来表示图像,PLCC指标相比NRLT算法提高了2.63%。

表1 SIQAD数据库上的实验结果Table 1 Experimental results on SIQAD database

表2 SCID数据库上的实验结果Table 2 Exper imental results on SCID database

本文BES算法的整体性能甚至高于专门为屏幕内容图像设计的全参考算法SPQA和SQI。其中,SPQA算法主要是考虑图像的亮度以及锐度特征,SQI算法结合图像局部结构相似性以及局部信息内容加权来计算图像分数,但是这2个算法都没有考虑图像中文字存在大量边缘这一特点,导致性能较低。在单个失真类型上,BES算法的性能除了在JPEG失真类型上略低于NRLT算法外,在其他失真类型上的性能都是无参考算法中最好的。

从表2中可以看出,在SCID数据库中,BES算法的整体性能在3个指标上不仅高于对比的无参考算法,而且高于经典的全参考算法,即PSNR、SSIM、MAD、IFC和GSIM。其中,NRLT是对比方法中是先进的无参考算法,所提算法PLCC指标相比其提高了11.22%。在单个失真类型上,除了在GN、JPEG、J2K以及HEVC-SCC这4种失真类型上性能比其他无参考算法低以外,对于其余5种失真类型,BES算法的性能在无参考算法中都是最高的。

3 结 论

本文根据人类视觉系统特点提出了一种新的针对屏幕内容图像的基于边缘和结构的无参考质量评估(EBS)算法,此算法是基于边缘信息和结构信息。提出的BES算法经实验验证,得到:

1)本文算法考虑到屏幕内容图像具有特殊布局以及丰富边缘这2个特征,利用Gabor滤波器和LBP算子分别提取边缘和结构特征,并从5个尺度上提取特征,实现了与主观感知较高的一致性。

2)本文算法可以实现对多种失真类型的屏幕内容图像较好的质量评估效果,在数据库SIQAD和SCID上的性能都优于经典的评估算法,甚至优于一些全参考算法。

通过实验验证,本文算法的屏幕内容图像质量评估效果取得一定的提升,提高了与主观感知的一致性。在未来,可以分别从图像区域和文字区域考虑,进一步提高该图像的质量评估效果。

猜你喜欢

插值滤波器边缘
浅谈有源滤波器分析及仿真
基于多模谐振器的超宽带滤波器设计
滑动式Lagrange与Chebyshev插值方法对BDS精密星历内插及其精度分析
一款用于无线通信系统的小型滤波器天线
基于pade逼近的重心有理混合插值新方法
不同空间特征下插值精度及变化规律研究
一张图看懂边缘计算
基于混合并行的Kriging插值算法研究
FFT、PFT和多相位DFT滤波器组瞬态响应的比较
在边缘寻找自我